Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Тайны восприятия

.pdf
Скачиваний:
69
Добавлен:
16.09.2017
Размер:
3.9 Mб
Скачать

22. Распознавание

синергетическим

компьютером

зашумленных...

181

'К ш

Рис. 22.8. Распознавание синергетическим компьютером профильтрованного изображения (низкочастотная фильтрация). В ходе этого процесса компьютеру удастся опознать в предложенном исходное, т.е. нспрофильтрованнос изображение лица и определить его кодовое обозначение

V-

>•» -- £ >

• • % ?

Рис. 22.9. Распознавание синергетическим компьютером профильтрованного изображения (высокочастотная фильтрация)

ной фильтрации способность человека к восприятию профильтрованных изображений сталкивается со значительными трудностями. В качестве меры способности компьютера к распознаванию таких объектов мы использовали период времени, требующийся компьютеру для реконструкции заданного изображения к его исходному виду (запомненному ранее). Естественно, с уменьшением объема вводимой информации это время увеличивалось. Временные ряды, отражающие ход реконструкции изображения, представлены на рис. 22.8 и 22.9: от профильтрованного портрета в начале ряда до исходного изображения, сохраненного в памяти компьютера. Для большей наглядности сравнения результатов компьютерных экспериментов с результатами О'Тула по вертикальной оси на диаграммах (рис. 22.10) откладываются не значения времени, затраченного на распознавание, а обратные им величины. Наблюдается очень хорошее согласие между нашими экспериментами и экспериментами О'Тула. Как видно из диаграмм, синергетический компьютер продемонстрировал при распознавании вполне соответствующие человеческим возможности и похожие результаты.

182

Часть 111

 

сохранение профильтрован-

сохранение непрофильт-

сохранение профильтрован-

ных изображений (низко-

рованных изображений

ных изображений (высоко-

частотная фильрация)

 

 

частотная фильрация)

 

i

1

 

 

I

I

 

 

i

I

 

 

i

i

 

 

 

п

низкочастотная фильтрация

I I непрофильтрованные

I высокочастотная фильтрация

Рис. 22.10. Теоретические результаты для синсргстичсского компьютера. По вертикальной оси откладывается величина, обратная времени, необходимому компьютеру для распознавания изображения (1/i,). Проведенные испытания аналогичны экспериментам О'Тула, причем полученные результаты демонстрируют хорошее согласие с данными, представленными на рис. 22.5. Единственное исключение составляют результаты, относящиеся к серии, в которой компьютеру для запоминания предлагались изображения, обработанные высокочастотными фильтрами. При этом профильтрованные низкочастотными фильтрами изображения компьютеру распознать не удалось. Причина заключается в том, что в результате упомянутых фильтраций запомненное и распознаваемое изображения становятся слишком непохожи друг на друга, и для успешного распознавания компьютеру просто недостает данных

23.Плоские трансформации изображений — первый подход к распознаванию

Для человека не представляет никаких сложностей опознание даже такого объекта, который удален от него в пространстве или находится в движении. Точно так же безо всякого труда узнаем мы лица вне зависимости от их величины или удаленности от нас — настолько, разумеется, насколько позволяет разрешающая способность наших глаз (предмет не должен быть слишком мал, а расстояние — слишком велико). И наконец, человек в состоянии опознать предметы (и лица), повернутые на какой-либо угол. Способен ли на это описанный нами синергетический компьютер?

Кудем честны и скромно ответим «нет». Нму, правда, удается распознать изображение, которое незначительно увеличено или уменьшено, либо повернуто на очень небольшой угол, однако при больших отклонениях си-

23. Плоские трансформации изображений —первый подход...

183

нергетический компьютер отказывается что-либо узнавать. Следует ли нам в таком случае признать несостоятельной саму концепцию? Ни в коем случае. Существует, как выяснилось, множество различных (и весьма интересных) способов помочь синергетическому компьютеру преодолеть этот барьер. Можно тем или иным образом предварительно обработать поступающие в компьютер данные, либо как-то изменить динамику его внутренних процессов. Первый подход представляет собой, как мы увидим несколько позже, чисто техническое решение проблемы, второй же, предположительно, обеспечит большее приближение возможностей компьютера к человеческому восприятию. На общедоступном языке описать реализацию первого, технического, подхода довольно сложно, а вот второе решение описывается весьма наглядно.

Несмотря на очевидную сложность, рискнем-таки начать с технического решения и рассмотрим его несколько подробнее. Читатели, не слишком интересующиеся математическими описаниями, могут просто пропустить это место, либо сразу перейти к следующей главе. Рассмотрим сначала независимость процесса распознавания от перемещений объекта в пространстве. Для этого снова применим разложение распределения уровня серого некоторого изображения на отдельные волновые составляющие, т. е. анализ Фурье. На рис. 23.1а и 23.16 представлены два изображения одного и того же лица, но смещенные друг относительно в плоскости страницы. Выделим ряд пикселей, расположенных вдоль горизонтальной прямой, как это показано на рис. 23.2а и 23.26, и нанесем соответствующие значения уровня серого на графики на рис. 23.3а и 23.36. Естественно, кривая распределения серого на графике 23.36 будет повторять кривую распределения серого на графике 23.3а с некоторым смещением (равным смещению изображения на рис. 23.26 и 23.16). Разложим эти распределения на отдельные волновые составляющие с помощью уже упоминавшегося анализа Фурье. В результате получим некоторые наборы волн, схематично показанные на рис. 23.4а и 23.46 (рис. 23.4а соответствует рис. 23.3а, а рис. 23.46 — рис. 23.36).

Вся информация, содержавшаяся прежде в распределениях уровня серого изображений 23.2а и 23.26, теперь представлена в виде отдельных волн на рис. 23.4а и 23.46. Каким же образом это возможно? Каждая волна имеет определенную длину и определенную высоту (так называемую амплитуду). Сравним между собой волны одинаковой длины на рис. 23.4а и 23.46 (например, верхнюю слева и верхнюю справа). Мы видим, что амплитуды этих волн одинаковы. Однако сами волны (т. е., координаты их максимумов на горизонтальной оси) смещены друг относительно друга, причем на то же

184

Часть 111

Рис. 23.1а. Прототипный образ

Рис. 23.16. Он же, смещенный вправо

Рис. 23.2а. Выделение горизонтально-

Рис. 23.26. То же, на смещенном изоб-

го ряда пикселей

ражении

i, уровень серого

уровень серого

Рис 23 За Распределение значений

Рис 23 36 То же, на смещенном изоб-

уровня серого вдоль вьщслснного ряда

ражении

23. Плоские трансформации изображений—первый подход...

185

расстояние, на которое смещена кривая 23.36 относительно кривой 23.3а. Такое смещение называется в науке «сдвигом фазы».

/\

\/ \У \У

Рис. 23.4а.

Разложение распределе-

Рис. 23.46. То же, для смещенного

ния серого

на отдельные волновые

вправо изображения

составляющие (для примера приве-

 

дена лишь часть составляющих)

 

Теперь мы видим, как сохраняется информация о распределении уровня серого при переходе от исходной кривой к волновому разложению. Для волны каждой длины следует задать амплитуду и фазу (положение первого максимума на горизонтальной оси). Чтобы закодировать таким образом все исходное изображение (рис. 23.1а и 23.16), еще недостаточно подвергнуть анализу распределение уровней серого лишь вдоль одного ряда пикселей — необходимо обработать все имеющиеся пиксели. Распространение же анализа Фурье из одного на два измерения не представляет для математика ни малейшей сложности; нужно лишь представить, что волны могут «бежать» не только вдоль горизонтальной оси, но и в любом другом направлении на плоскости.

186

Часть 111

Рис. 23.5. При логарифмическом отображении каждой точке плоскости х, у соответствует некоторая точка плоскости х', у'

Рис. 23.6. Поворот изображения в плоскости х, у

*- X

Рис. 23.7. Логарифмическое представление изображения 23.6

23. Плоские трансформации изображений —первый подход...

187

Вернемся, однако, к проблеме распознавания образов вне зависимости от их положения в пространстве. Как можно видеть, волны на рис. 23.4а и 23.46 идентичны во всем, кроме фазы. Если бы удалось совершенно исключить из рассмотрения величину фазы, то, очевидно, опознание исходного изображения перестало бы зависеть от его положения — а это как раз то, что нам нужно. Проведем двумерное преобразование Фурье, которое даст нам и амплитуду волн, и их фазу. Для кодирования же изображения воспользуемся только амплитудой — этого можно добиться с помощью одного совсем несложного математического приема, в результате которого в нашем распоряжении окажутся необходимые для данного случая коэффициенты Фурье.

Далее необходимо выяснить, не пропадет ли при «выбрасывании» фазы слишком много существенной для исходного изображения информации. В одномерном представлении это действительно было бы так, но в двумерном случае мы (при достаточно общих условиях) можем избавиться от фазы без каких-либо неприятных последствий. Теперь изображение описывается уже не посредством исходного распределения уровня серого, а совокупностью амплитуд, т. е. значений коэффициентов Фурье. После такой «предварительной обработки» распознавание изображения оказывается синергетическому компьютеру вполне по силам. Прежде он конструировал «холмистый ландшафт» на основе запомненных распределений уровня серого (т. е. собственно, изображений); сейчас же он проделал аналогичную процедуру с запомненными амплитудами и сумел, таким образом, распознать смещенное в плоскости изображение лица.

Процесс становится еще более абстрактным, если требуется распознать изображение объекта независимо от величины этого изображения и его ориентации в плоскости. В этом случае нам предстоит произвести так называемое логарифмическое отображение, при котором каждой точке плоскости ставится в соответствие определенная точка на другой плоскости (рис. 23.5). При таком отображении повороту изображения в плоскости (рис. 23.6) соответствует некоторый сдвиг каждой точки его отображения на другой плоскости в вертикальном направлении (рис. 23.7). Увеличению же и уменьшению изображения (рис. 23.8) соответствует сдвиг точек отображения по горизонтали (рис. 23.9).

Теперь оказывается возможным свести новую задачу к уже решенной старой (на радость всем читателям-математикам). Как добиться инвариантности распознавания относительно сдвигов в плоскости (т. е. независимости от этих самых сдвигов), мы узнали несколько абзацев назад. Нужно лишь провести преобразование Фурье, взять только значения амплитуд волно-

188

Часть 111

Рис. 23.8. Уменьшение изображения

* - X

Рис. 23.9. Логарифмическое представление изображения 23.8

вых составляющих, и сдвиг отображения в плоскости не помешает нам распознать исходное изображение. Для читателей, далеких от математики, все это, наверное, представляется невообразимой абстракцией, однако результаты вполне наглядны и очень хорошо поддаются интерпретации. Рассмотрим рис. 23.10 и 23.11, на каждом из которых слева вверху помещено изображение лица: на рис. 23.10 лицо ориентировано «правильно», а на рис. 23.11 — повернуто на некоторый угол. Так как изображения двумерны, значения коэффициентов Фурье приходится наносить на двумерную плоскость; нам в этом помогает специальная компьютерная программа, причем фазовые коэффициенты она сразу отбрасывает. При построении зависимости коэффициентов Фурье от соответствующих длин волн целесообразно следующее: откладывать на осях х и у не сами длины волн, а величины,

23. Плоские трансформации изображений —первый подход.

189

mm

дининб)

Рис. 23.10. Преобразования прототипного образа.

(а) Исходное изображение, (б) После проведения преобразования Фурье, (в) Логарифмическое представление предыдущего результата, (г) Повторное преобразование Фурье

обратные им (так называемые волновые числа), и, кроме того, соединить одинаковые значения амплитуд горизонталями. Каждая горизонталь соответствует, таким образом, какому-то определенному коэффициенту Фурье. На рис. 23.10 (б) можно видеть ярко выраженный максимум, причем значение коэффициента с различной скоростью уменьшается в направлении от центра изображения к его краям. Если сравнить эту зависимость с соответствующей зависимостью на рис. 23.11 (б), то можно заметить, что оба распределения величин коэффициентов Фурье все еще отличаются друг от друга, причем второе изображение явно повернуто относительно первого на тот же угол, на какой повернуто исходное изображение.

190

Часть 111

Рис. 23.11. Преобразования прототипного образа, повернутого в плоскости х, у.

(а) Исходное изображение, (б) После проведения преобразования Фурье. Ясно видно, что полученная картина повернута по отношению к 23.10 (б), в) Логарифмическое представление предыдущего результата. Картинка явно смещена вниз по сравнению с 23.10 (в),(г) Повторное преобразование Фурье. Становится очевидно, что исходные изображения действительно идентичны; при этом можно определить и кодовое обозначение, присвоенное данному изображению, несмотря на то, чтои оно оказывается повернутым

В следующем квадрате (рис. 23.10 (в) и 23.11 (в)) можно видеть результаты следующего шага: логарифмического отображения предыдущего распределения. И здесь между изображениями существует выраженное отличие. Картинка на рис. 23.11 (в) сдвинута вниз по сравнению с аналогичной картинкой на рис. 23.10 (в). Сделаем последний шаг: произведем еще раз преобразование Фурье и вычислим значения коэффициентов (рис. 23.10 (г)