- •Стохастические, линвистические методы распознавания образов иерархическая группировка
- •Содержание:
- •Распознавание самолетов
- •Вероятностный подход Введение
- •Применение
- •Байесовская процедура распознавания
- •Лабораторная работа № 6. Байесовская процедура распознавания, обеспечивающая минимальную вероятность ошибки классификации
- •Цель работы
- •Теоретические сведения
- •Задание
- •4. Порядок выполнения работы
- •5. Литература
- •Лабораторная работа №7. Байесовский классификатор в случае образов, характеризующихся нормальным распределением
- •Цель работы
- •Теоретические сведения
- •Задание
- •Порядок выполнения работы
- •5. Литература
- •Контрольные вопросы
- •Иерархическая группировка Введение
- •Определение иерархии
- •Построение иерархии
- •Пример построения иерархической группировки
- •Лабораторная работа № 8. Иерархическая группировка
- •Цель работы
- •Задание
- •Применение
- •Общее представление
- •Задание 1
- •4. Задание 2
- •5. Порядок выполнения работы
- •Литература
- •Контрольные вопросы
Применение
Лингвистические методы распознавания применяются (иногда для решения отдельных подзадач) в различных прикладных областях, в частности для анализа фотографий, полученных с помощью пузырьковых камер, в материаловедении, в биологии и медицине, для обнаружения дефектов промышленных объектов, деталей машин и механизмов, распознавании символов, классификации отпечатков пальцев, распознавания речи, дистанционного обследования окружающей среды, анализа формы, для распознавания (двухмерных) математических выкладок и так далее.
Общее представление
Живые существа используют для коммуникации наилучшее средство — естественный язык, сформировавшийся в процессе эволюции. Не вдаваясь в лингвистические подробности, отметим, что язык обладает важнейшим достоинством: правила, развитые в большей или меньшей степени, позволяют ему служить средством передачи информации.
Уже давно делались попытки на этих же принципах создавать искусственные языки, среди которых наиболее известные – языки программирования, а менее известные – языки описания образов, получившие за последнее время широкое развитие.
Все методы распознавания, ранее рассмотренные в предыдущих разделах, основаны на разделении объектов в пространстве признаков. Методы распознавания на базе искусственных языков, отличаются от них в принципе. При синтаксическом (или грамматическом) подходе ищут и используют правила, которым подчиняется структура рассматриваемых образов. Отсюда и аналогия с грамматическим анализом в лингвистическом смысле слова. Схематическое представление системы структурного анализа — распознавания — дано на рис. 4.
Основными операциями, выполняемыми в схеме, являются сегментация (блок 3) и грамматические заключения (блок 7). Для того чтобы сегментация была проведена «наилучшим образом», надо иметь «априорную» информацию об исследуемом объекте. К сожалению, это не всегда выполнимо.
Рис. 4.
Структурная схема
системы грамматического
распознавания: 1
— предварительная обработка сигнала
(фильтрация и т. п.); 2 — обработка
образов; 3 —
сегментация; 4
— определение
примитивов и их взаимных отношений;
5 — синтаксический анализ; 6
— отбор
примитивов; 7 — синтаксическое
заключение
Грамматическое заключение — это операция, достаточно трудная для выполнения в автоматическом режиме, поэтому успехи в этой области пока еще скромные. Среди них можно отметить, например, работы по распознаванию слитной речи. Результаты, достигнутые в этом направлении, пока еще далеки от возможности их широкого использования в робототехнике, за исключением, вероятно, случая с одним диктором при полностью детерминированных условиях. Однако есть некоторые частные задачи, которые уже сейчас успешно решены (например, автоматическая классификация наблюдаемых в микроскоп хромосом).
Лабораторная работа №9. Синтаксическое распознавание образов.
Цель работы
Изучение и программная реализация алгоритмов синтаксического (лингвистического) распознавания образов.
Теоретические сведения
Постановка задачи, методы классификации.
Синтаксический метод распознавания основан на восприятии элементов языка – «примитивов». В свою очередь, примитивы состоят из еще более мелких составляющих – символов, являющихся наименьшими элементами языка. Множество используемых символов называется алфавитом, или словарем.
Пусть множество изображений объектов представляет собой множество цепочек в некотором алфавите Vi и всего имеется m возможных образов. Тогда каждый из этих образов представляет собой некоторый язык L(Gi) над алфавитом Vt, порождаемый грамматикой Gi={Vin, Vt, Pi, Si}, i=l,…,m,
где
Vin
- множество нетерминалов грамматики
(производящие элементы);
Vt
- множество
терминалов грамматики
(не
являющиеся производящими элементы);
Pi - множество продукций грамматики (множество правил подстановки);
Si - начальный символ грамматики (начальная аксиома).
Предъявляемая цепочка х классифицируется согласно следующему правилу:
x
если х
L(
),
i
=l,...,m;
если
х
L(
),
i,
то считается, что х
не принадлежит ни одному из m
образов
.
Таким
образом, задача сводится к установлению
принадлежности данной цепочки х
языку, порождаемому данной грамматикой
.
К решению
этой задачи можно подойти следующими
способами.
1.
Сопоставление входной цепочки х
с эталонными цепочками
,
L(
),
i=l,...,m.
Цепочка х
относится к тому классу
i
, с эталоном
которого х
согласуется наилучшим (в смысле заданного
критерия) образом. Достоинством такого
способа является быстрота и эффективность
(по быстродействию) реализующего его
алгоритма; недостатки - потеря значительной
части информации о структуре (цепочки
х
и языков L(
)),
трудности с выбором эталонов и критериев
согласования.
2.
Классификация входной цепочки х
с помощью составленных (для каждой
грамматики) наборов синтаксических
правил. Синтаксическое правило
устанавливает некоторые допустимые
или запрещенные отношения в языке L(
)
грамматики
между
символами слов данного языка. Каждой
грамматике
соответствует
свое множество синтаксических правил.
Цепочка х
относится к классу
,
который задается грамматикой
с языком
L(
)
и множеством синтаксических правил
S(
)
таких, что х
не противоречит ни одному правилу из
S(
).
Пример.
Контекстно-свободная грамматика G={Vn,
Vt,
Р, S},
Vn={S},
Vt={a,b},
P={S
aSb,
S
ab}
, порождающая язык L(G}
= {ат
,b'"},
m=1,2,…,
может быть охарактеризована множеством
S(G),
содержащим следующие три правила:
1) цепочка х начинается с символа а;
2) цепочка х состоит из двух подцепочек: а…а и b...b;
3) число вхождений символов а и b в цепочку х одинаково.
Применяя
S(G)
для классификации цепочек
=abab,
=bbbaaa,
=ааааbb,
=aabb,
убеждаемся, что только
L(G);
бракуется вследствие невыполнения
второго правила,
- вследствие невыполнения первого
правила,
- вследствие невыполнения третьего
правила.
3. Классификация входной цепочки х с помощью грамматического разбора (синтаксического анализа). Различают два типа грамматического разбора:
1)
грамматический разбор «сверху вниз»,
когда при сделанном предположении
о принадлежности цепочки х
языку L(
)
предпринимаются попытки получить х
с помощью продукций из
,
начиная с
начального символа
;
2) грамматический разбор "снизу вверх", когда при сделанном предположении о принадлежности цепочки х языку L( ) предпринимаются попытки получить начальный символ Si из х с помощью обращений продукций из .
Проверяемая цепочка х относится к тому классу для соответствующей грамматики которого грамматический разбор х оказался успешным.
Пример. Пусть дана автоматная грамматика
G={Vn, Vt, P, S}, Vn={S}, Vt={a,b}, P={S a, S b, S aS, S bS }
Требуется выяснить, принадлежит ли цепочка x=aaaabb языку этой грамматики L(G).
1) Грамматический разбор "сверху вниз" дает:
S
aS
aaS
aaaS
aaaaS
aaaabS
aaaabb,
т.е.
x
L(G).
2) Обозначив через P обращение продукции P в результате проведения грамматического разбора "снизу вверх" получим:
aaaabb => aaaabS => aaaaS => aaaS => aaS =>
aS => S, т.е. вновь приходим к выводу, что х L(G).
