Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Теория признаков распознавания образов на основе стохастической геометрии и функционального анализа

..pdf
Скачиваний:
5
Добавлен:
12.11.2023
Размер:
12.16 Mб
Скачать

ГЛАВА 5

ПОДХОД К ФОРМИРОВАНИЮ ПРИЗНАКОВ РАСПОЗНАВАНИЯ НА ОСНОВЕ СТОХАСТИЧЕСКОЙ ГЕОМЕТРИИ

И ФУНКЦИОНАЛЬНОГО АНАЛИЗА

5.1. Трейс-преобразование

Признак изображения понимается как некоторое число или вектор, которые ставятся в соответствие этому изображению. Вновь введен­ ные признаки традиционно полагаются имеющими очевидный смысл. Проблема состоит в поиске многих признаков для эффективного раз­ личения изображений, т.е. иероглифов, микрообъектов или текстур.

В книге предлагается теория для генерации большого количества (тысяч) признаков. Специально спроектированные компьютерные про­ граммы могут затем выбрать признаки, которые эффективно решают данную проблему распознавания образов.

Долгое господство предположения, что процесс формирования при­ знаков является эмпирическим и зависит от интуиции проектировщика распознающей системы, помешало развитию теоретического обобщения признаков распознавания.

Подход с позиций стохастической геометрии и функционального анализа, развитый в наших предшествующих работах [16, 44, 45, 47, 48, 59, 67, 73, 76, 78, 79, 90, 91, 110, 111 и др.], позволяет восполнить этот пробел и, наряду с конструктивной теорией признаков, дать прак­ тические методы генерации большого числа новых признаков распо­ знавания изображений. Столь мощное смещение акцента с решающих правил на новые признаки распознавания даёт основание говорить о новом понимании изображений.

В работе [43] предложено в качестве признаков распознавания изображений использовать вероятности геометрических событий, под которыми понимают результат взаимодействия геометрических объ­ ектов: пересечения, покрытия и т. п. Роль геометрических объектов выполняют, с одной стороны, сложные траектории сканирования со случайными параметрами (отрезки, линии, кривые, фигуры и т. п.), с другой — фрагменты распознаваемого изображения (этот подход рассмотрен в предшествующих главах книги).

5.1. Трейс-преобразование

115

Характерной особенностью конструктивных признаков нового клас­ са является их структура в виде композиции трёх функционалов, вследствие чего они получили название триплетные признаки распо­ знавания. Источником триплетных признаков является новое геомет­ рическое трейс-преобразование (от английского слова trace — след), связанное со сканированием изображений по сложным траекториям. Трейс-преобразование введено в [43] и исследовано автором и его научной школой в работах [44, 45, 47, 48, 71, 73, 76, 78, 110 и др.]. Рассмотрим детально сущность трейс-преобразования.

Рассмотрим входную сетчатку распознающего устройства, под ко­ торой будем понимать сканируемую часть плоскости изображения. В этой части плоскости располагается некоторое изображение, тогда как оставшаяся часть плоскости — фоновая. Таким образом, изображе­ ние финитно. Рассмотрим случайную прямую I \ которая может пере­ секать изображение. Предположим, что пересечение прямой I и изобра­ жения позволяет нам вычислить некоторое число д, характеризующее их взаимное расположение. Производя серию случайных бросаний пря­ мой I на плоскость, получаем выборку для случайной величины д. Да­ лее, можно определить какую-нибудь эмпирическую характеристику п случайной величины д. Выше рассматривалась реализация описанной процедуры в технических системах, осуществляющих распознавание изображений.

Математическая сторона указанной процедуры интенсивно исследо­ валась в стохастической геометрии. Было выяснено, что при некоторых условиях характеристика п может иметь явный геометрический смысл. Для нас важно, что, легко реализуясь в технических системах, эта идея может служить исходной точкой для получения новых признаков распознавания образов, как в теоретическом анализе, так и в практи­ ческой сфере.

Во второй главе приведены формулы, на основе которых строятся критерии распознавания. Рассматриваются только бинарные изображе­ ния (черные фигуры на белом фоне).

1.Рассмотрим изображение в виде кусочно-дифференцируемой кри­ вой, которая может быть границей фигуры. Пусть д — число пере­ сечений этой кривой со случайной прямой /. Тогда математическое ожидание Мд пропорционально длине кривой.

2.Рассмотрим изображение в виде выпуклой фигуры. Это может быть выпуклая оболочка некоторой другой фигуры. Пусть д — длина пересечения выпуклой фигуры со случайной прямой I. Тогда средние

величины Мд°, Мд, Мд2 пропорциональны соответственно периметру, площади и собственному потенциалу однородного слоя (см. § 2 .2).

Приведенные выше формулы и их многочисленные аналоги имеют для распознавания образов следующие недостатки:

1) число этих формул ограничено, поскольку ясно выраженных геометрических характеристик не так много, а признаков требуются тысячи и более;1

1 Здесь и далее в книге через I обозначается прямая.

8*

116 Гл. 5. Подход к формированию признаков распознавания

2) формулы применимы только для бинарных изображений.

К достоинствам следует отнести возможности параллельных вы­ числений (одновременно обрабатывается несколько прямых сразу) и стохастической реализации, последнее позволяет оборвать процесс при достижении нужной точности, кроме того, вычисленные признаки не зависят от движений объектов. Известно, что обычно признаки сильно зависят от поворота и сдвига объекта, в то время как во многих задачах распознавания поворот и сдвиг объектов совершенно неинформативны.

В книге предлагается обобщение приведенного выше подхода с целью преодоления его недостатков и с сохранением достоинств.

Новое геометрическое преобразование. Обозначим буквой F фи­ нитное изображение. Если дана прямая I, то число д, характеризующее взаимное расположение прямой I и изображения, будем вычислять согласно некоторому правилу Т: g = T(l,F); отображение Т есть функционал. Для нас желаемым свойством является независимость вычислений от движения объекта, поэтому единственное требование, которое мы накладываем на Т, формулируется следующим образом. Пусть изображение претерпело сдвиг и поворот, при этом возникло новое изображение F '. При этом же сдвиге и повороте прямая I перейдет в прямую V, оставаясь, таким образом, «вмороженной» в изоб­ ражение. Требуется, чтобы T(l, F) = Т(/', F'). Это равенство должно быть верным для всех прямых и всех допустимых изображений. Такое свойство назовем полной инвариантностью функционала Т. Следует отметить, что понятие полной инвариантности весьма сильно рас­ ширяет возможности распознавания образов, ибо это не обязательно число пересечений, длина секущей и т. д. Например, если изображение цветное, переменной яркости, то таких функционалов можно найти довольно много. Итак, круг функционалов и обрабатываемых изобра­ жений значительно расширен.

Аналогично, как и в стохастической геометрии, определена слу­ чайная величина д = T(l, F), распределение которой не зависит от сдвигов и поворотов изображения. Поэтому числовые характеристики этой случайной величины опять могут служить признаками изображе­ ний, которые определяются специальными техническими системами. Недостаток нового семейства признаков — первоначальное отсутствие ясного геометрического смысла, и заранее не известна их различаю­ щая сила. Однако для распознавания образов это не так важно, ибо решающей все-таки является экспериментальная проверка.

Отметим еще одно свойство вполне инвариантного функцио­ нала Т (трейс): он не обязательно определяется лишь сечением прямой изображения. Для его вычисления может быть привлечена также и другая информация, например, свойства окрестности это­ го сечения.

Чтобы понять, что предложенное обобщение в некотором смысле исчерпывает все его возможности, изложим теорию трейспреобразований. Прямая /, если введены полярные координаты на плоскости, характеризуется расстоянием р от начала координат до нее

5.1. Трейс-преобразование

117

и углом в (с точностью до 2тт) ее направляющего вектора:

I = {(ж, у ): ж cos# + у sin в = р}, I = 1(6, р),

где х уу — декартовы координаты на плоскости.

Таким образом, множество всех направленных прямых, пересека­ ющих круг радиусом R с центром в начале координат («сетчатку»), однозначно параметризуется множеством

Л ={(#,/>): 0 ^ 6 ^ 7г, R ^ р ^ R}

при условии, что параметры (0,р) и (тг,—р) задают одну прямую. Вид­ но, что множество прямых на сетчатке есть в топологическом смысле не что иное, как лист Мёбиуса. Множество чисел Т (l(6,p),F), зави­ сящее от точки на листе Мёбиуса Л, есть некоторое преобразование изображения, которое назовем трейс-преобразованием. Если, напри­ мер, при численном анализе трейс-преобразование представлено мат­ рицей, то будем называть ее трейс-матрицей. Если направить ось 0# горизонтально, а ось 0р вертикально, то в точке (6j,pi) будет распо­ ложен элемент матрицы с номером (i,j), т. е. значение T(l(6j, pi), F).

Здесь 9jy pi — некоторые значения равномерных дискретных сеток на указанных осях. Матрица будет 27г-периодична в направлении го­ ризонтальной оси, причем через каждый интервал длины д столбцы ее переворачиваются.

Будем считать дополнительно, что если прямая I не пересекает изображения, то Т ( l , F ) есть заданное число (например, 0) или дру­ гой фиксированный элемент, если функционал Т нечисловой. В этом случае первоначальному изображению F соответствует T(.F) — новое изображение (можно трактовать Т(1(6, р), F) как изображение, харак­ теристики которого в точке (6,р) — его трейс-образ).

К полученному промежуточному изображению (трейс-образу) можно вновь применить трейс-преобразование. Этот приём прак­ тически используется в главе 8 для нелинейной фильтрации изобра­ жений.

Рассмотрим подробнее вычисление трейс-преобразования.

Пусть F — некоторая векторная функция, представляющая изоб­ ражение. Она содержит всю информацию об изображении, яркость, цвет и другие характеристики в каждой точке, поэтому мы можем обозначить её той же буквой, что и изображение F .

Рассмотрим функцию трёх независимых переменных

1(6, p,t) = (р cos 6 t sin 6, psin 6 + 1cos 6).

Это естественное параметрическое представление сканирующей прямой. Параметр t связан с естественной одномерной системой ко­ ординат на прямой (см. § 2 .2).

Пересечение изображения F прямой I даёт функцию

f(e,p,t) = F(i(e,p,t)).

Рассмотрим бинарное изображение китайского иероглифа, состо­ ящее из квадратных пикселов, пересекаемых сканирующей прямой

5.1. Трейс-преобразование

119

как изображение на цилиндре (склеивается левая и правая сторона рисунка с изображением трейс-трансформанты).

В нашем примере функционал Т независим от любого сдвига изображения основной функции и при вычислении выражения Т u ( t ) . Также он независим от изменения знака параметра t, т. е. Т u(t) = = Т u(—t). Это ведет к тому, что мы можем интерпретироватв результат трейс-преобразования так, как будто он расположен на листе Мёбиуса. Рисунок с изображением трейс-трансформанты разрежем вдоль верти­ кальной оси симметрии, правую часть рисунка перевернём вдоль го­ ризонтальной оси симметрии, и склеим левый и правый края рисунка. В нашем представлении этих результатов трейс-преобразований числа для наглядности интерпретируются цветом.

Если выбрать в качестве Т функционала суммарную длину пе­ ресечения (отрезок t \ — t 2 плюс отрезок то в этом частном случае трейс-преобразование совпадет с преобразованием Радона для бинарных изображений. Действительно, пусть пересечение изображе­ ния F сканирующей линией I даёт функцию пересечения fgtP. Если интегрировать эту функцию вдоль каждой линии по параметру t, то совокупность интегральных значений яркости для всех линий даёт преобразование Радона. В терминах трейс-преобразования имеем

Tfe,P

fe,P{t) dt.

 

—ОО

Совокупность {Т/^р}, в Е [0,27г], р Е К несёт всю информацию об изображении.

Для бинарных изображений, рассматриваемых в вышеприведённом примере, определение суммарной длины пересечений изображений с каждой из сканирующих линий даёт трейс-преобразование, эквива­ лентное преобразованию Радона.

Примеры применения преобразования Радона в качестве трейспреобразования можно найти в работах [48-50, 57, 94, 110, 111, 126 и др.].

Следует отметить, что при определённом выборе Т функцио­ налов трейс-преобразование становится эквивалентным преобра­ зованиям Фурье, Хо, Радона-Хо, но не совпадает с ними.

Трейс-преобразование является эффективным инструментом при изучении движений распознаваемых объектов и их масштабных изменений. Это объясняется тем, что трейс-образ сохраняет информа­ цию о первоначальном объекте, т. е. тип трейс-матрицы не изменяется под действием группы движений (поворота, переноса) и гомотетии, но каждое их этих преобразований вносит свою характерную компоненту при формировании трейс-преобразования. Кратко остановимся на том, как меняется изображение Т(/, F) при сдвигах и вращениях исходного изображения F. Если первоначальное изображение поворачивается, то его трейс-образ сдвигается по горизонтальной оси.

Если же происходит сдвиг исходного изображения на некоторый вектор, то его трейс-образ претерпевает следующие изменения. Лучше

120 Гл. 5. Подход к формированию признаков распознавания

их изложить в терминах трейс-матриц. Столбцы остаются неизмен­ ными, на своих местах, но могут сдвигаться вверх или вниз. Вектор сдвига определяют числа а и b такие, что столбец с координатой 0* сдвигается в вертикальном направлении на а ■cos(0* —Ъ). Следует под­ черкнуть, что вполне строгим это описание будет лишь в том случае, если трейс-матрицу считать непрерывной, т. е. i и j непрерывные параметры.

На цветной вклейке на рис. 5.2 представлено изображение иерогли­ фа в центре картинного поля и результат его трейс-преобразования — трейс-трансформанта; на рис. 5.3 — повёрнутое изображение этого иероглифа и его трейс-трансформанта, сдвинутая по горизонтальной оси на расстояние, пропорциональное углу поворота а; на рис. 5.4, 5.5 — изображение иероглифа при сдвигах и соответствующие транс­ форманты; на рис. 5.6 — изображение иероглифа, претерпевшее мас­ штабное преобразование, и соответствующая ему расширенная трейстрансформанта.

Обычная евклидова мера dO dp листа Мёбиуса инвариантна к ука­ занным преобразованиям, поэтому плотность распределения всякой функции, заданной на листе Мёбиуса, в данном случае функции

изображения Т (l,F)

не зависит от указанных преобразований, т. е.

если изображение F

сдвинуто и повернуто до состояния F', то распре­

деление значений функций изображения Т(/, F) и T(l,F ') одинаковы. Именно поэтому их значения могут трактоваться как случайные функ­ ции, не зависящие от движений исходного изображения.

Триплетный признак распознавания. Рассмотрим формирование триплетных признаков, представляющих последовательную компози­ цию трех функционалов:

U(F) = @ o P o T (F o l(e ,p ,t)) .

Каждый функционал (©, Р и Т) действует на функции одной переменной (0, р и t) соответственно.

Функционал Т, соответствующий трейс-преобразованию, подробно рассмотрен выше. В дискретном варианте вычислений результат этого преобразования, или трейс-трансформанта T{F о1(в,р,Ф)), представ­ ляет собой матрицу, элементами которой являются, например, зна­ чения яркости изображения F на пересечениях со сканирующей ли­ нией 1{в,р). Параметры сканирующей линии 0 и р определяют позицию этого элемента в матрице. Последующее вычисление признака заклю­ чается в последовательной обработке столбцов матрицы с помощью функционала Р, а затем в преобразовании полученной периодической функции с помощью функционала © в число-признак П(.Р).

Трёхзвенная форма триплетного признака позволяет получить боль­ шое число новых конструктивных признаков распознавания, причём в режиме автоматической компьютерной генерации. Обилие признаков даёт возможность расширить круг решаемых задач распознавания, включить в него задачи с большим алфавитом образов: распознавание иероглифов [78, 90], объектов из области нанотехнологий [52, 81,