Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции Максимова.doc
Скачиваний:
11
Добавлен:
01.04.2025
Размер:
20.86 Mб
Скачать

6.2.1. Распознавание с помощью инвариантных признаков

Инвариантные отображения. Наиболее простые алгоритмы распознавания основаны на переходе из пространства изображе­ний в пространство признаков. Распознавание с помощью при­знаков состоит в сравнении набора признаков, отвечающих вход­ному изображению с набором признаков, отвечающих эталону. Сравнение происходит с помощью некоторой метрики в простран­стве признаков. Для нескольких входных изображений соответ­ствующими фиксированному эталону будут те изображения, на­бор признаков которых достаточно близок к эталонному набору. В этом случае приходится выбирать порог, зависящий от уровня помех. В идеальном случае отсутствия помех эквивалентным от­носительно действия группы изображениям должны отвечать совпадающие признаки или наборы признаков. Другими словами, признаки должны быть инвариантными относительно действия той группы геометрических и яркостных преобразований, ко­торая обусловливает разницу между эталонами и входными изо­бражениями.

Пусть Р – некоторое множество признаков. Отображение : M P из множества изображений называется инвариантным относительно действия группы G, если (gB) = (B) для любых элементов gG, BM, т. е. признаки изображений из одного класса эквивалентности совпадают.

Допустим, что инвариантное изображение построено. Выяс­ним, можно ли им воспользоваться для нахождения эталона, соответствующего фиксированному входному изображению. Пусть – эталонные изображения, В – входное изображение. В идеальном случае отсутствия помех существует j {1, ..., т} такое, что , и тогда входному изображению соответствует j-й эталон . Для того чтобы определить, будет ли указанное равенство выполнено для одного значения j {1, ...,m}, необходимо потребовать, чтобы признаки любых двух эталонных изображений не совпадали: при i j. При наличии помех номер искомого эталона опреде­ляется как

,

где  – метрика в признаковом множестве. Условие несовпаде­ния признаков различных эталонов должно быть, естественно, выполнено, более того, распознавание будет надежным, если

(6.17)

при i j, где – порог, зависящий от уровня помех. При по­строении инвариантного отображения в конкретных условиях надо стремиться к тому, чтобы было как можно больше.

Гораздо сложнее воспользоваться инвариантным отображе­нием для задачи нахождения входных изображений В(1) ..., В(p) эквивалентных некоторому фиксированному эталону В0. Можно ввести порог 1 и считать изображение B(s) эквивалентным В0 в том и только том случае, когда

(6.18)

Однако при этом можно только гарантировать, что изображе­ния B(s) и В0 не эквивалентны, если условие (6.18) не выполнено. Трудность заключается в том, что признаки могут совпасть (тем более – быть близкими) и у неэквивалентных изображений. Пусть, например, G – группа смещений Gс, Р – множество действительных чисел, (В) – площадь области носителя изо­бражения В. Равенство 1) =2) не позволяет сделать вы­вод об эквивалентности В1 и B2. Очевидно, есть пары изображений одинаковой площади, которые неэквивалентны относительно дей­ствия группы Gc (скажем, треугольники и круги одинаковой площади).

Наличие таких ситуаций заставляет искать достаточные для распознавания инвариантные отображения, обладающие свойст­вами: если 1) = 2), то изображения B1 B2 М экви­валентны. Построение достаточных отображений возможно лишь при конечном множестве входных сигналов М или в случае, когда известно, что изображения из М имеют определенную априорно известную структуру (например, все они прямоугольники или прямоугольники с конечным числом дыр). Такие отображения определяются и группой преобразований G. Их построение яв­ляется в ряде реальных ситуаций весьма сложной задачей.

Если же множество М состоит из произвольных изображений, а Р – конечномерное пространство, то достаточного инвариант­ного отображения вообще не существует. Такая ситуация возникает на практике в случае действия помех, когда близость при­знаков 1) и 2) свидетельствует лишь с некоторой вероят­ностью об эквивалентности изображений.

Можно сделать следующие выводы относительно использования инвариантных признаков:

1. Задача нахождения эталона, соответствующего фиксирован­ному входному изображению, проще других задач распознава­ния (решения вопроса об эквивалентности двух входных изобра­жжений; нахождения входных изображений, эквивалентных фик­сированному эталону; разбиения набора входных изображений на классы эквивалентных изображений). Для ее решения доста­точно выбрать самое простое пространство признаков (Р = R1) и инвариантное отображение : M P такое, что признаки эталонов существенно различаются.

2. Для решения более сложных задач распознавания необхо­димо построение инвариантного отображения в пространстве при­знаков, для которого признаки неэквивалентных изображений не могут совпадать. Для этого необходимо знать не только струк­туру группы преобразований, но и структуру множества входных изображений.

3. При априорно неизвестной структуре множества входных изображений использование инвариантных признаков эффективно для констатации факта неэквивалентности двух изображений. Утверждение об эквивалентности изображений при совпадении их признаков имеет место лишь с определенной вероятностью, зависящей от размерности признакового пространства.

Построение множества признаков и инвариантных отображений в реальных условиях должно удовлетворять ряду требований:

– множество признаков Р желательно иметь как можно более простым с точки зрения программной или аппаратной реализа­ции, а также стоимости реализации;

– инвариантное отображение для известной структуры множе­ства М должно быть достаточным;

– инвариантное отображение общего вида : M P, где Р = Rn при n > 1 (при неизвестной структуре множества М), строится с учетом конкретной группы преобразований и требо­ваний к вероятности правильного распознавания;

– выбор порогов в неравенствах (6.17) и (6.18) определяется уровнем и характером помех.

Существует ряд методов, позволяющих выбрать порог при априорно известном характере и уровне помех.

Анализ признаков. В зависимости от структуры признакового множества говорят о типах признаков. Основными типами признаков в робототехнике являются следующие:

метрические признаки, принимающие определенные значе­ния на некотором числовом отрезке (площадь, средняя яркость и т. д.);

логические признаки, принимающие значения 1 или 0 (истин­но или ложно данное утверждение об изображении); примерами таких утверждений служат: изображение имеет «дыры», контур изображения неодносвязен, форма изображения – прямоуголь­ник, площадь области изображения не больше 10;

топологические признаки, как и логические, относятся к ка­чественному характеру изображения, но могут принимать не два, а несколько значений; примерами являются число компонент связности контура изображения, число дыр в связной области объекта;

структурно-лингвистические признаки связаны с двумя близ­кими подходами к проблеме распознавания – структурным и лингвистическим. При структурном подходе изображение счи­тается состоящим из частей. Частями изображения являются непроизводные элементы, которые в совокупности с правилами их соединения образуют специальный язык (грамматику). Ана­лиз такой грамматики составляет суть лингвистического под­хода к распознаванию. Грубо говоря, структурно-лингвистические методы, которые называют также синтаксическими, направлены на синтаксическую формализацию классов изображений: каждому классу соответствует грамматика с определенными правилами, каждому входному изображению – фраза. Изображение счи­тается соответствующим данному классу, если отвечающая ему фраза удовлетворяет правилам грамматики для этого класса изображений.

Существует достаточно много публикаций, посвященных при­менению структурно-лингвистических признаков при распозна­вании образов.

На практике не всегда удается выделить простые непроиз­водные элементы универсального характера, поэтому структур­ные признаки еще мало распространены в СТЗ по сравнению с бо­лее простым способом распознавания с помощью метрических или логических признаков. В промышленной робототехнике исполь­зование структурно-лингвистического подхода часто сводится к определению логических признаков – проверке наличия за­ранее указанных человеком характерных фрагментов. В последнее время наметилась тенденция к практической ориен­тации методов структурного анализа в СТЗ роботов на основе построения проблемной среды.

Однако структурно-лингвистические методы эффективны при распознавании письменных знаков, чертежей, треков частиц в пузырьковых камерах и т. п. В последнее время они находят все большее применение при решении задач распознавания обра­зов в медицине, геологии, других сферах.

Существуют также текстурные признаки, предназначенные для анализа сцен с периодически повторяющимися элементами, и ста­тистические признаки, связанные с необходимостью многократ­ных измерений ввиду их неточности, или вообще с не­однозначностью соответствия между наборами признаков и клас­сами объектов, когда известны только плотности распределения вероятностей значений признаков для каждого класса.

Большие трудности представляет собой синтез признаков для распознавания изображений трехмерных объектов.

В задачах распознавания с помощью СТЗ роботов наиболее распространены метрические и логические признаки, часто эф­фективным оказывается их сочетание. Топологические и структурно-лингвистические признаки намного сложнее, кроме того, обычно их приходится применять в сочетании с признаками иного типа.

Метрические признаки можно разделить на признаки формы и признаки яркости. Простейшим признаком формы является пло­щадь изображения – количество точек растра, находящихся в выделенной в результате сегментации области полезного изобра­жения. Этот признак удобен своей инвариантностью к смещениям и поворотам. Он легко вычисляется и достаточно помехоустойчив. Однако такой признак не инвариантен к изменению масштаба, недостаточен для распознавания даже простых объектов промыш­ленной робототехники (эталоны разных деталей могут иметь оди­наковую площадь).

Другой метрический признак – длина контура изображения. Его вычисление гораздо сложнее и требует обычно предваритель­ную реализацию процедуры сглаживания и скелетизации. Этот признак также устойчив к смещениям и поворотам и неустой­чив к преобразованиям масштаба.

В ряде случаев набор из двух признаков (Р = R2) – площадь и длина контура – достаточен для распознавания изображений. Однако это заведомо невозможно в случае преобразований мас­штаба, к которым ни один из этих признаков не инвариантен. В случае возможных преобразований масштаба можно использо­вать отношение вида

,

где Е – область рассматриваемого изображения; S(Е) – ее пло­щадь; l(Е) – длина контура. Очевидно, признак (E) инвариан­тен к смещениям, к поворотам и к изменениям масштаба.

Другие инвариантные признаки с помощью характеристик S(Е) и l(Е) получить невозможно. Инвариантны признаки

,

и т. д., однако они не являются независимыми по отношению к при­знаку (E): 1(E) = 2(E), 2(E) = ln(E).

Если распознавание с помощью признака (E) невозможно (т. е. существуют эталоны с областями Е'0, Е'’0 такие, что ( Е'0) = ( Е'’0), то в условиях метрических преобразований (смещения, масштаб, повороты) приходится пользоваться либо более слож­ными признаками формы, либо яркостными признаками.

Приведем несколько примеров признаков формы,независимых от признаков S(Е) и l(E).

  1. Пусть точка А является геометрическим центром Е. При­знаки r1 (А), r2 (А)– соответственно минимальное и максималь­ное расстояние от А до точек границы Е – являются инвариант­ными по отношению к смещениям и поворотам. Признак r(А) == r1 (А) / r1 (А) инвариантен и к изменениям масштаба.

  2. Пусть В1 – ближайшая от геометрического центра А точка границы E, B2 – наиболее удаленная точка. Зафиксируем неко­торое направление, например направление строк растра. Углы 1(Е) и 2(Е) между этим направлением и отрезками [A, В1] и [A, B2] соответственно являются признаками, инвариантными к смещению и к изменению масштаба. Признак (Е) = 1(Е) – 2(Е) инвариантен, кроме этого, и к поворотам.

3. Пусть дЕ – множество граничных точек Е, , где – метрика на растре. Метрику на растре можно ввести соотношением (c1, c2) = |i1i2| + |j1j2|, где c1 = (i1, j1), c2 = (i2, j2) . Признак d(E) инвариантен к смеще­ниям и поворотам. Признак d (E) / l(Е) инвариантен и к изменениям масштаба.

Список инвариантных признаков можно было бы продолжить. Отметим, что распознающая система, основанная на сравнении признаков S(E), l(Е), существенно проще системы, основанной на вычислении других указанных выше признаков.

Метрические признаки формы инвариантны к изменениям яр­кости. В случае отсутствия преобразований яркости или при из­вестном законе яркостных преобразований можно использовать в качестве признаков яркостные характеристики полутоновых изображений. Основными яркостными признаками являются:

а) средняя яркость в области изображения Вср;

б) максимальная и минимальная яркость Bmах, Bmin;

в) модальное значение яркости Bmod;

г) разброс (дисперсия) значений яркости

Предположим, что возможны аддитивные изменения яркости вида В (i, j) В (i, j) + с. К таким изменениям из указанных признаков инвариантен только один – признак (В). Из других признаков легко составить инвариантные комбинации: BmaxBmin ; BсрBmod ; BmaxBmod.

Ни один из признаков 1 – 4 сам по себе не инвариантен к муль­типликативным изменениям яркости В (i, j) kВ (i, j). Инва­риантными комбинациями служат

; ; ;

и ряд других.

Несколько сложнее скомбинировать из признаков а г харак­теристику, инвариантную к произвольным линейным преобразо­ваниям яркости В (i, j) kВ (i, j) + с. Примером является ин­вариант

Заметим, что такой признак реально применим только к тем из изображений, для которых величина Bmax + Bmin – 2Bср не слишком мала (по модулю). Для однородных изображений и изображений, в области которых происходит линейное изменение яркости, это условие не выполняется.

При более сложных преобразованиях яркости указанные при­знаки неприменимы.

В условиях неизменной или линейно меняющейся освещенности можно комбинировать метрические признаки формы и яркости. Укажем общую конструкцию их построения для самого простого случая, когда яркость эталонных изображений не меняется. Рассмотрим множество точек изображения с яркостью в заданных пределах (от до ). Обозначим это множество Е, для входного изображения и для эталона. Ясно, что метрические признаки формы Е, и должны быть близкими. Поэтому площадь, длину контура и другие характеристики Е, можно использовать в качестве признаков для распознавания. При этом, меняя и , можно получить самые разнообразные признаки. Например, инвариантным к смещениям, поворотам и изменениям масштаба является отношение площадей Е1,1 и Е2,2 при любых парах 1, 1 и 2, 2.

Построение инвариантных признаков относительно геометриче­ских преобразований, выходящих за рамки смещений, поворотов и изменений масштаба, существенно сложнее, например, в слу­чае аффинных преобразований, допускающих, кроме названных трансформаций, косые сдвиги или неоднородные изменения мас­штаба. Их приходится строить в виде громоздких комбинаций моментов изображения. Некоторые авторы выделяют семь инвариант­ных признаков относительно аффинных преобразований, однако использующая их распознающая система является сложной. Еще хуже обстоит дело с проективными преобразованиями.

Рис. 6.16. Пример задачи распознавания:

а, б – эталонные и входные изображения; 1-4 – номер изображения

Можно сделать вывод, что при сложных геометрических пре­образованиях использование метрических признаков мало эф­фективно (как и использование корреляционных процедур). Однако процедуру распознавания можно предварить нормализа­цией изображений, направленной на устранение «геометрического рассогласования» входного и эталонного изображений.

В ряде задач обработки промышленных изделий с помощью СТЗ роботов эффективны логические признаки, принимающие значение 1 в случае истинности различных утверждений типа:

а) контур области – связная область (нет «дыр»);

б) область изображения мало отличается от прямоугольника (треугольника, круга), т. е. разность площади области изображе­ния и площади вписанного в нее прямоугольника (треугольника, круга) не превосходит (по модулю) некоторый порог;

в) площадь изображения превосходит (не превосходит) задан­ное число единиц.

Особенно эффективны логические признаки, инвариантные к произвольным непрерывным геометрическим трансформациям. Примером такого признака является признак а. Однако сущест­вует крайне малое число логических признаков с таким свойст­вом, и, кроме того, их обычно недостает для распознавания. Например, в ситуации, когда ни один из эталонов не имеет «дыр», признак а для распознавания ничего не дает.

Достоинством признаков типа в является возможность их более простого вычисления (возможно, на аппаратном уровне), чем соответствующих им метрических признаков.

В ряде задач удается провести полное распознавание на основе одних логических признаков. При этом возникает вопрос о реше­нии логических (булевых) уравнений.

Приведем пример задачи распознавания (рис. 6.16). Требуется решить задачу классификации – установить соответствие между тремя входными изображениями и четырьмя эталонами. Все изображения – бинарные, и известно, что отличие входных изо­бражений от эталонных может быть обусловлено смещениями, по­воротами и изменениями масштаба.

Заметим, что применение яркостных признаков для решения этой задачи невозможно (изображения бинарны). Корреляцион­ные алгоритмы здесь неэффективны. Воспользуемся методом пере­хода в пространство признаков.

Прежде всего выявим возможность применения логических признаков, инвариантных к указанным преобразованиям. В эта­лонах 1, 3, 4 «дыры» отсутствуют, в эталоне 2 имеется «дыра». Определяя соответствующий логический признак для входных изображений, устанавливаем соответствие входного изображения 3 эталону 2. Для дальнейшего распознавания применим метриче­ские признаки. Для полного решения задачи достаточно найти хотя бы один признак, различный для эталонов 1, 3, 4, и опреде­лить его для изображений 1 и 2.

Рассмотрим инвариантный признак , где S – пло­щадь, а l – периметр формы эталона. Для эталона 4 его значе­ние существенно меньше, чем соответствующие значения 1, 2 для эталонов 1 и 3. Вычислив признак для изображений 1 и 2, получим значения , . Возможны (логически) следующие ва­рианты:

а) близко к 4 – тогда изображение 1 соответствует эталону 4;

б) близко к 4 – тогда изображение 2 соответствует эталону 4;

в) ни , ни не близки к 4 – тогда среди входных изображений нет такого, которое соответствует эталону 4.

В рассматриваемой ситуации реализуется вариант 6. Поэтому для полного решения задачи остается определить эталон, соответ­ствующий входному изображению 1. Это может быть эталон либо 1, либо 3. Если значения 1 и 3 существенно различны, то задача решается сравнением чисел 1, 3, : если |1 - | = |3 - |, то изображению 1 соответствует эталон 1, в противном случае ему соответствует эталон 2. Однако эталоны 1 и 2 выбраны так, что признак принимает для них одно и то же значение (1 = 3). Поэтому для окончательного распознавания необхо­димо привлечь другой признак. Таким будет, например, опреде­ленный выше признак r(А) (А – геометрический центр).

Итак, задача классификации решается с помощью трех приз­наков – одного логического и двух метрических. Уже в этом относительно простом примере проявляются трудности алгоритми­зации процесса распознавания, который с помощью зрения чело­века реализуется моментально.

Применение указанных метрических и логических признаков достаточно для решения большинства задач распознавания в ро­бототехнике. Тем не менее, встречаются практические задачи, когда структура входного множества сигналов неизвестна, и вы­сокие требования к надежности распознавания заставляют выби­рать признаковое множество в виде пространства Rn при больших n (n > 3). Пусть 1, ..., m – различные классы эквивалент­ности относительно действия группы преобразований. Тогда признаки изображений из i можно рассматривать как множества точек M Rn. Указанные выше требования на набор призна­ков переформулируем в виде условий на множества М1,..., Мт: максимальный разброс точек в каждом множестве должен быть как можно меньше, в то время как расстояние между различными множествами должно быть как можно больше. Существуют общие подходы к построению признаков с такими требованиями, однако они требуют либо некоторой статистической информации, либо применимы только в случае конечности множеств Mi, i = 1, ..., т.

Эффективным аппаратом для распознавания по признакам является применение дискриминирующих функций. Пусть каж­дый объект характеризуется вектором признаков X = (x1,...,хт) в m-мерном пространстве. Если имеется М классов 1,..., M, то в соответствии с теорией принятия решений для распознавания требуется М дискриминирующих функций d1(X),..., dM(X), обладающих тем свойством, что для любого образа X из класса i имеют место неравенства di(X) > dj (X) для всех j = 1, ..., М, i j.

Обычно традиционно используемые признаки изображений малочувствительны к небольшим помехам. Однако в случае, когда эталон и входное (ему соответствующее) изображения могут различаться за счет геометрического преобразования, стандарт­ные признаку становятся неинвариантными и могут принимать существенно различные значения для изображений одного и того же класса.

Необходимо сделать несколько замечаний, выделяющих си­туации, когда отсутствует необходимость применения специаль­ных методов в случае геометрических преобразований. Во-пер­вых, геометрические преобразования трансформируют только форму изображения, яркостные характеристики не меняются, поэтому для распознавания иногда оказывается достаточно та­ких признаков, как средняя яркость, мода яркости и т. д. (если только они – одни и те же для изображений одного класса, что далеко не всегда выполняется). Во-вторых, по отношению к гео­метрическим преобразованиям инвариантны ряд логических или топологических признаков типа наличия дыр, числа компонент связности контура. Однако часто эти признаки совпадают, если не для всех, то для части эталонных изображений, и тогда распоз­навание с их помощью невозможно.

Мы не останавливаемся на вероятностных системах распозна­вания, связанных с теорией статистических решений и особенно эффективных в задачах выделения и распознавания сигналов на фоне помех. Теория распознавания, основанная на принятии статистических решений, не приводит к ощутимым практическим результатам ее применения к проблеме распознава­ния изображений в условиях геометрических преобразований.

Задача распознавания изображений решается обычно после задачи сегментации, поскольку входной информацией для рас­познавания служат изображения отдельных объектов. Ошибки сегментации, естественно, затрудняют распознавание. Если в ре­зультате сегментации область одного из объектов была принята за фон, то этот объект уже не подлежит распознаванию, он будет «потерян». Менее опасны ошибки сегментации, при которых неко­торая область фона воспринимается как объект. При последующем правильном распознавании такая ошибка будет обнаружена, по­скольку ложному объекту не будет соответствовать ни один из эталонов.

Особенно опасны для распознавания ошибки сегментации посредством выделения границ, поскольку контурные характе­ристики (длина, число резких изгибов, направления в характер­ных точках) особенно чувствительны к ошибкам в выделении кон­туров. Кроме того, число признаков, основанных на контурных характеристиках и пригодных для распознавания, обычно не­велико.

Для бинарных изображений, в отличие от полутоновых, нельзя использовать яркостные признаки. В условиях изменения яр­кости распознавание изображений по бинарным признакам всегда проще. Для определенных классов бинарных изображений суще­ствуют специальные методы распознавания. Важной задачей робототехники является распознавание дефектов изделий. В этом случае эталонами являются изображения объек­тов с тем или иным дефектом (эталон не формируется, а только задается своими признаками). Примером такой задачи является контроль качества печатных плат и микросхем.