
Соловьев 2012 / СИИ 2012 / Посибия СИИ / СИИ пособие / СИИ_3
.doc3. Распознавание образов
3.1. Описание объектов набором признаков
Одним из важнейших направлений искусственного интеллекта является создание систем распознавания. Методы распознавания находят широкое применение в экспертных системах, в робототехнике, в системах идентификации и контроля доступа, а также являются необходимым элементом эвристического поиска решений, позволяя провести ранжирование возможных состояний.
Длительное время вопросы распознавания рассматривались человеком лишь с позиций методов биологии и психологии, причем целью изучения являлись в основном качественные характеристики, не позволяющие вскрыть и точно описать соответствующий механизм принятия решений. Появление кибернетики позволило ввести в изучение психологического процесса распознавания образов, лежащего в основе принятия любых решений, количественные методы, что открыло принципиально новые возможности в исследовании и проектировании систем распознавания.
Исторически сложилось так, что многие задачи распознавания, например, распознавание текста, устной речи, оценка авиационной ситуации в районе аэропорта авиадиспетчером, распознавание посадочной полосы летчиком в сложных условиях и т.п., человек, как правило, решает достаточно быстро и эффективно. Примечательно, что в процессе такой деятельности число принимаемых решений по результатам распознавания ситуаций конечно, а число состояний внешней среды, оцениваемых в процессе распознавания и собственно приводящих к принятию решения, может быть бесконечным. Например, машинистка, печатающая под диктовку, из практически бесчисленного множества вариантов произношения одного и того же звука выбирает только один, ударяя по соответствующей клавише пишущей машинки. В результате она безошибочно печатает слова, независимо от их искажения при устном произнесении.
К принятию такого конечного числа решений человек подготовлен всем своим жизненным опытом. Попытка автоматизации процессов, необходимым элементом которых является распознавание, привела к тому что, прежде всего, были созданы автоматы, способные реагировать на множество изменений характеристик внешней среды некоторым ограниченным числом рациональных решений (реакций) исполнительных органов этих автоматов. Например, автомат, управляющий технологическим процессом выпуска какой-либо продукции, реагирует на случайные изменения качества продукции путем регулирования количества той или иной компоненты исходного материала, режима работы и т.п., но только при достижении определенного уровня этих изменений. То есть, реакция осуществляется не на любое изменение, а на их множество, превышающее некоторый порог.
Основными целями замены человека в системах, требующих распознавания, являются:
-
освобождение человека от однообразных или опасных операций;
-
повышение качества выполняемых работ;
-
повышение скорости решения задач.
В течение достаточно продолжительного времени проблема распознавания привлекает внимание специалистов в области прикладной математики и информатики. Следует отметить работы Р.Фишера, выполненные в 20-х годах и приведшие к формированию дискриминантного анализа, как одного из разделов теории и практики распознавания. В 50 – 60-е годы ХХ века на основе теории статистических решений были найдены алгоритмы, обеспечивающие отнесение нового объекта к одному из заданных классов. В рамках кибернетики начало формироваться новое научное направление, связанное с разработкой теоретических основ и практической реализацией систем распознавания объектов, явлений, процессов. Новая научная дисциплина получила название «Распознавание образов».
Таким образом, базой для решения задач отнесения объектов или явлений к тому или иному классу послужили результаты классической теории статистических решений. На ее основе были построены алгоритмы, обеспечивающие по экспериментальным измерениям параметров (признаков), характеризующих объект (образ), а также по некоторым априорным данным, описывающим классы, определение конкретного класса, к которому следует отнести распознаваемый образ.
В последующем математический аппарат теории распознавания образов расширился за счет применения разделов прикладной математики, теории информации, методов алгебры логики, математического программирования и системотехники.
Упорядоченный набор признаков, описывающих объект при его распознавании, называется вектор признаков или образ объекта. Можно сказать, что образ это информационная модель объекта, позволяющая отличить его от других объектов в процессе распознавания.
Разработчикам системы распознавания необходимо решить ряд достаточно трудных задач. В начале следует определить полный перечень признаков, характеризующих объекты, для распознавания которых разрабатывается система.
Главное в решении этой задачи – найти все возможные признаки, характеризующие существо распознаваемых объектов. Любые ограничения, любая неполнота, могут привести к ошибкам или даже полной невозможности правильной классификации объектов. Выбор признаков – сугубо эвристическая операция, зависящая от изобретательности разработчика, т.к. не существует способов их автоматической генерации.
Все возможные признаки могут быть разделены на: детерминированные, вероятностные, логические и структурные.
Детерминированные признаки – это такие характеристики образов, которые имеют конкретные и постоянные числовые значения. Примером детерминированных признаков являются сведенные в единую таблицу технические характеристики компьютеров. Следует отметить, что при таком представлении число характеристик по каждому компьютеру одинаково.
Числовые значения признаков по каждому из образов можно интерпретировать как координаты точек, представляющих эти образы в многомерном пространстве признаков.
Необходимо иметь в виду, что в задачах распознавания с детерминированными признаками ошибки измерения этих признаков не играют роли, если точность измерений признака значительно выше, чем различие этого признака у образов, отнесенных к разным классам.
Очевидно, что в системе, использующей только детерминированные признаки, распознавание производится путем сравнения полученных значений признаков распознаваемого образа с имеющимися значениями признаков уже классифицированных образов.
Вероятностные признаки – это характеристики образа, носящие случайный характер. Отличаются эти признаки тем, что в силу случайности соответствующей величины признак одного класса может принимать значения из области значений других классов. Если это условие не выполняется, то признак следует считать детерминированным.
Для того чтобы можно было в условиях случайности говорить о возможности распознавания, следует потребовать, чтобы вероятности наблюдения значений признака в своем классе были как можно больше, чем в других. В противном случае эффективность такого признака недостаточна для достоверного решения, и следует искать другие признаки, имеющие большую разделительную способность.
Как известно из
теории вероятностей случайная величина
характеризуется законом распределения
вероятностей, который определяется
функцией распределения случайной
величины Fab(x),
т.е. вероятностью
нахождения случайной величины x
в диапазоне a
– b,
или плотностью распределения вероятностей
(ПРВ) p(x),
которые связаны следующим образом:
.
В частности ПРВ нормального или Гауссова
закона распределения имеет вид
,
где m
– математическое ожидание или среднее
значение случайной величины x,
σ
– среднеквадратичное отклонение x.
Логические признаки – это характеристики образа, представленные в бинарном виде (0 или 1), т.е. не имеющие количественного выражения, являющиеся качественными суждениями о наличии, либо об отсутствии некоторых свойств у данного образа. К логическим признакам можно отнести также такие признаки, у которых важна не величина, а лишь факт попадания или непопадания этой величины в некоторый заданный интервал.
Структурные признаки – обязаны своим появлением проблеме распознавания изображений и представляют собой непроизводные, то есть элементарные, не производимые из других элементарных признаков элементы или примитивы изображения объекта распознавания.
Следует отметить, что традиционно для описания изображений используются его разложения в ряды по ортогональным функциям, например, ряды Фурье, полиномы Эрмита, Лежандра, Чебышева, разложения Карунена-Лоэва. Однако преимущества структурного описания в отличие от разложений состоит в том, что оно понятнее для человека, решающего задачу распознавания объекта по его изображению, более приемлемо для компьютерной реализации системы распознавания, менее трудоемко в вычислительном плане и лишено потерь информации, свойственных разложениям.
Отличающиеся объекты могут состоять из одинаковых непроизводных элементов. Введение правил комбинирования, определяющих способы построения различных объектов из ограниченного числа непроизводных элементов, позволяет получить описание разнообразных объектов.
Для описания какого-либо объекта непроизводные элементы объединяются в цепочки (предложения) по своему, характерному только для этого объекта, набору правил. В результате связей из непроизводных элементов (структурных признаков) образуется образ, аналогично тому, как предложения языка строятся путем соединения слов, в свою очередь состоящих из букв, что, аналогично синтаксису естественного языка. Отсюда структурные признаки носят еще название лингвистических или синтаксических.
3.2. Метрики пространства признаков
При разработке системы распознавания используется некоторое множество образов, признаки которых известны. Такое множество принято называть обучающим. После выбора признаков возникает необходимость классификации образов из обучающего множества и составление априорного алфавита классов. Если число классов заранее известно и известна принадлежность классам образов из обучающего множества, то решение поставленной задачи тривиально.
Однако иногда возникает необходимость разбиения совокупности образов на несколько групп, причем число групп не обязательно известно. Например, классификация различных видов бабочек в биологии или классификация языков Новой Гвинеи в лингвистике. Задача разделения предъявленных образов по нескольким группам называется кластеризацией, а каждую полученную группу часто называют кластером. Существуют разные математические методы и подходы к решению задачи кластеризации, например, рекурсивное слияние, кластеризация по k-средним, цепная развертка, кластеризация с фиксированным порогом и др.
Важнейшую роль как в кластеризации, так и в собственно распознавании, играет выбранная метрика, т.е. определение понятия меры близости или расстояния между образами, между образом и кластером, а также между кластерами. При разном выборе метрики естественно возникают разные варианты кластеризации. В свою очередь, выбор метрики во многом зависит от характера признаков.
Чаще всего мера близости определяется выбранной метрикой пространства признаков, хотя существуют и неметрические меры близости образов, например расстояние Хаусдорфа, мера Танимото. Разработанный метод вычисления расстояния dlp между точками l и p в пространстве признаков должны обеспечивать выполнение следующих аксиом:
-
симметричность расстояния (dlp = dpl);
-
правило треугольника (dlh + dhp >= dlp);
-
положительность расстояния (dlp >= 0, причем dlp = 0 только если l = p).
Для одномерных детерминированных векторов (вектор состоит из одного признака) dlp=|xl-xp|, где xl, xp – значения признака для образов l и p.
Расстояние между
точкой p
и кластером l
для одного вероятностного признака
можно найти по расстоянию Фишера
,
где ml
и Dl
– статистические характеристики
кластера l
(математическое ожидание и дисперсия
признака).
Расстояние между
кластерами p
и l
по одному вероятностному признаку можно
вычислить по критерию Фишера
.
В алгоритмах
кластеризации и распознавания образов,
характеризующихся детерминированными
признаками, в качестве меры близости
между точками X
и Y
в пространстве признаков, описываемыми
векторами X
и Y,
можно использовать как обычное Евклидово
расстояние
,
так и расстояние Миньковского, позволяющее
учитывать важность i-го
признака весовым коэффициентом ci
.
Расстояние
Махаланобиса позволяет определить
расстояние между образом X
и кластером g
в пространстве вероятностных признаков
dM
=(X–mg)
Covg-1
(X–mg)T,
где mg
– вектор математических ожиданий,
Covg-1
– обратная ковариационная матрица для
кластера g.
Элементы ковариационной матрицы
определяются по векторам признаков
эталонных образов, относящихся к данному
кластеру, следующим образом:
,
где i,j=1,
…, n
– индексы номеров компонент вектора
признаков; N
– число образов, составляющих данный
кластер; xil
– значение i-го
признака l-го
образа; mi
– математическое ожидание i-ой
компоненты вектора признаков; Dii
– дисперсия
i-го признака;
Dij
– коэффициент ковариации i-го
и j-го
признаков. Обратная ковариационная
матрица существует только при условии
N
> n.
Аналогично можно определить и расстояние между кластерами в пространстве вероятностных признаков при условии, что их ковариационные матрицы совпадают или достаточно близки.
В алгоритмах
кластеризации и распознавания,
использующих вероятностные признаки,
в качестве меры близости часто используется
риск, связанный с решением о принадлежности
объекта к классу Wj
(j
=1, 2, .., K),
описываемый платежной матрицей вида:
.
Здесь на главной
диагонали расположены потери при
правильных решениях, которые обычно
принимаются как Сjj
= 0 или Cjj
< 0. По обеим сторонам от главной
диагонали стоят потери при ошибочных
решениях.
Если вектор
признаков распознаваемого образа X,
то риск, связанный с принятием решения
о принадлежности этого образа к классу
Wg,
когда на самом деле он может принадлежать
любому другому Wj-му
классу, наиболее целесообразно определять
как среднее значение потерь, стоящих в
g-м
столбце платежной матрицы. Тогда этот
средний риск можно представить как
,
где P(Wj/X)
– апостериорная вероятность того, что
образ X
принадлежит Wj.
При описании
классов вероятностными признаками
P(Wj/X)
определяется по формуле Байеса
,
где Pj
– априорная вероятность появления
образа, относящегося к классу Wj;
p(X/Wj)
– условная вероятность появления образа
X
в классе Wj;
p(X)
– плотность распределения вероятности
вектора признаков X
по всем классам.
Далее приводится пример использования в качестве меры близости риска, связанного с решением о принадлежности распознаваемого объекта к некоторому классу. Пусть имеются один признак X – вес человека, разделенный на четыре диапазона (A – недостаточный вес, B – норма, C – превышение, D – избыточный вес) и два класса W (W=0 – у человека нет гипертонии, W=1 – есть). Результаты обследования 100 человек приведены в таблице 3. Необходимо по значению признака X отнести образ к одному из двух классов с минимальным риском ошибки.
Таблица 3
|
A |
B |
C |
D |
Всего |
X (вес) |
20 |
30 |
40 |
10 |
100 |
W=0 (здоров) |
19 |
27 |
30 |
2 |
78 |
W=1 (болен) |
1 |
3 |
10 |
8 |
22 |
Вероятность
появления образа, принадлежащего классу
W:
P(W=1)
= 22/100; P(W=0)=78/
100. Вероятность наличия признака X
у образа, принадлежащего классу W:
P(X/W),
т.е. P(A/0)=19/78.
Вероятность появления конкретного
значения признака:
,
т.е. P(A)
= P(A/0)
* P(0)
+ P(A/1)
* P(1)
= 19/78 * 78/100 + 1/22 * 22/100 = 20/100, что следует из
таблицы результатов исследований.
Вероятность принадлежности образа
классу W,
при наличии признака X:
,
т.е. P(0/A)
= [P(A/0)
* P(0)]/P(A)
= (19/78 * 78/100) / (20/100) = 19/20.
Результаты вычисления остальных вероятностей, а также суммарных рисков при разных значениях стоимости потерь сведены в таблицу 4.
Таблица 4
|
A |
B |
C |
D |
Всего |
P(X) |
20/100 |
30/100 |
40/100 |
10/100 |
1 |
P(X/0) |
19/78 |
27/78 |
30/78 |
2/78 |
1 |
P(X/1) |
1/22 |
3/22 |
10/22 |
8/22 |
1 |
P(0/X) |
19/20 |
27/30 |
30/40 |
2/10 |
|
P(1/X) |
1/20 |
3/30 |
10/40 |
8/10 |
|
R(0/X) |
0,025 |
0,05 |
0,125 |
0,4 |
С10=0,5 |
R(1/X) |
0,475 |
0,45 |
0,375 |
0,1 |
С01=0,5 |
R(0/X) |
0,04 |
0,08 |
0,2 |
0,64 |
С10=0,8 |
R(1/X) |
0,19 |
0,18 |
0,15 |
0,04 |
С01=0,2 |
Риск ошибки при отнесении образа, принадлежащего классу W=0, с X=A к другим классам, т.е. отнесение его к классу W=1: R(0/A)=С10*P(1/A).
Пусть риск здорового человека отнести к больному равен риску больного человека отнести к здоровому, т.е. С10 = С01 =0,5. Результаты вычисления рисков приведены в таблице. Тогда к классу W=1 (человек болен) согласно принятой мере близости относятся только образы с X=D. Если риск ошибки разный (С10=0,2; С01=0,8), т.е. лучше отнести к больным здорового, чем пропустить больного, то к больным будут отнесены образы с X = С и D.
Если количество
образов в кластере недостаточно для
достоверного определения его статистических
характеристик, то в качестве меры
близости между образом X
и кластером можно использовать
среднеквадратичное значение расстояний
от образа X
до множества образов W(Y1,
…, YN),
составляющих данный кластер, т.е.
,
где N
– число образов в кластере W.
Аналогично и расстояние между двумя кластерами при отсутствии статистических характеристик можно определить как среднеквадратичное значение расстояний между каждым образом одного класса и каждым образом другого класса.
Для алгоритмов
кластеризации и распознавания, основанных
на логических признаках, в качестве
меры близости используется расстояние
Хемминга
,
где
– сложение по mod 2 элементов векторов X
и Y,
которые могут принимать только значения
{0,1}. Очевидно, расстояние Хемминга есть
сумма признаков, значения которых у
образов X
и Y
не совпадают.
В качестве меры
близости можно использовать и угол
между векторами признаков X
и Y,
т.е.
,
где
– нормы соответствующих векторов (
).
Функция достигает максимума, когда
направления векторов совпадают. Данная
мера близости позволяет эффективно
классифицировать образ при проявлении
элементами каждого класса тенденции
располагаться вдоль некоторой оси в
пространстве признаков, а также при
достаточном расстоянии классов как
друг от друга, так и от начала координат.
Неметрической
мерой близости для образов, описываемых
логическими при знаками, является мера
Танимото
.
Здесь числитель характеризует число
совпадающих признаков у сравниваемых
образов, а знаменатель – среднее
геометрическое числа признаков, которыми
обладают эти образы. Мера Танимото
широко применяется в информационном
поиске, классификации болезней, животных
или растений.
Если классы в
пространстве признаков представляют
собой сложные по форме и частично
перекрывающиеся структуры, то в качестве
меры близости двух множеств часто
используется метрика Хаусдорфа, которая
определяется следующим образом. Пусть
в некотором пространстве определено
расстояние между точками, описываемыми
векторами X
и Y,
– d(X,
Y).
Тогда расстояние от точки X
до множества точек W
d(X,W)
определяется как минимальное значение
из множества расстояний d(X,
Y)
для всех Y из
W.
Расстояние от множества Wx,
состоящего из точек X,
до множества Wy,
состоящего из точек Y,
определяется как максимальное значение
из множества расстояний d(X,
Wy)
для всех X
из Wx.
Расстояние между множествами Wx
и Wy
определяется как максимальное из двух
расстояний – от Wx
до Wy
и от Wy
до Wx,
которые в общем случае могут и не
совпадать, т.е.
.
Таким образом, два множества в метрике
Хаусдорфа находятся на расстоянии d0,
если и только если для любой точки из
первого множества в ее окрестности d0
содержится хотя бы одна точка второго
множества и то же самое справедливо для
второго множества.
Для алгоритмов, основанных на структурных или лингвистических признаках, понятие меры близости более специфично. С учетом того, что каждый класс описывается совокупностью предложений, характеризующих структурные особенности образов соответствующих классов, распознавание неизвестного образа осуществляется идентификацией предложения, описывающего этот образ, с одним из предложений в составе описания какого-либо класса. В данном случае под идентификацией может подразумеваться поиск наибольшего сходства предложения, описывающего распознаваемый образ с предложениями из наборов описания каждого класса.
3.3. Методы кластеризации
После выбора меры близости можно приступать к кластеризации имеющихся образов по какому-либо алгоритму.
Алгоритм кластеризации рекурсивным слиянием достаточно прост. В начале каждый образ считается отдельным классом, далее вычисляется расстояние между всеми кластерами, т.е. формируется квадратная, диагонально-симметричная таблица расстояний, строки и столбцы которой – имеющиеся кластеры. На каждом шаге сливаются два самых близких кластера, после чего размер таблицы уменьшается и вычисляются новые расстояния между кластерами. Процесс прекращается, когда достигнуто заранее заданное число кластеров или расстояние между ближайшими кластерами больше заранее заданного максимально допустимого. Данный метод требует многократных вычислений изменяющихся на каждом шаге расстояний, что может стать достаточно трудоемкой задачей при большом количестве образов.
При кластеризации по k средним заранее задается требуемое число кластеров – k и на первом шаге в пространстве признаков произвольно выбирается положение k центров кластеров, не обязательно совпадающих с какими-либо образами. Далее на каждом шаге, во-первых, каждый образ относится к тому кластеру, расстояние до центра которого для него минимально, а во-вторых, после распределения всех образов по кластерам производится перерасчет положения центров кластеров. Процесс продолжается до тех пор, пока не стабилизируется состав кластеров. Цель – минимизировать суммарное расстояние от центров кластеров до отнесенных к ним образов по всем кластерам. Возможно схождение процесса к локальному минимуму, а также отсутствие образов в некоторых кластерах, но, изменяя число кластеров и сравнивая результаты, можно найти подходящее число кластеров.