- •Глава 8
- •8.1. Введение
- •8.2. Понятия теории формальных языков
- •8.2.1. Определения
- •8.2.2. Типы грамматик
- •8.2. Понятия теории формальных языков
- •8.3. Постановка задачи синтаксического распознавания образов
- •8.4. Синтаксическое описание образов
- •8.5. Грамматики, используемые в распознавании образов
- •8.5.2. Распознавание образов, представленных графами
- •8.5.3. Распознавание древовидных структур
- •8.6 Статистический анализ
- •8.6.1. Стохастические грамматики и языки
- •8.6.2. Оценка вероятностей правил подстановки с помощью процедур обучения
- •8.7.1. Вывод цепочечных грамматик
- •Часть I. Строится нерекурсивная грамматика, порождающая в точности заданное множество выборочных цепочек. Выборочные цепочки обрабатываются в порядке уменьшения длины.
- •8.7.2. Вывод двумерных грамматик
- •8.8. Автоматы как распознающие устройства
8.4. Синтаксическое описание образов
До сих пор в этой главе рассматривались образы—цепочки символов. Если мы хотим получить реальную пользу от структурных свойств объекта в процессе синтаксического распознавания, понятие цепочки должно быть обобщено на двумерный случай. Как отмечалось в § 8.1, в этой главе мы в основном занимаемся двумерными объектами,
Правила подстановки в грамматиках цепочек заключаются в простом соединении ') цепочек с целью формирования новых. Соединение двумерных структур не является, однако, простым вопросом. Читатель может лично в этом убедиться, рассмотрев разнообразные двумерные структуры, получающиеся в результате соединения простых непроизводных символов | н —. Непосредственное решение этого вопроса связано с заданием положения двумерных объектов достаточно общим образом. Рассмотрим, например, позиционный дескриптор НАД (а,Ь), обозначающий, что структура, представленная символом а, расположена над структурой, представленной Ь, и позиционный дескриптор СЛЕВА (а,b), означающий, что а находится слева от Ь. Квадратная структура D, составленная из непроизводных элементов | и —, описывается при помощи этих дискрипторов предложением НАД (—, НАД (СЛЕВА (|, |), —)). Основная трудность при подобном подходе заключается в определении содержания дескрипторов НАД и СЛЕВА. Так, например, предыдущему описанию квадрата удовлетворяет также и структура | . Можно считать этот образ допустимым или нет, зависит от конкретной ситуации. Очевидно, однако, что обобщенные позиционные дескрипторы с трудом поддаются точному определению. Чаще всего в таких случаях на взаимоотношения структур налагаются ограничения. В частности, разумным ограничением для дескриптора НАД (а,Ь} является требование, чтобы хотя бы часть элемента а находилась над элементом Ь. В таком случае структура | не будет считаться допустимой, так как элемент — не находится над элементом | | и элемент | | не находится над элементом —.
Можно пойти еще на один шаг дальше по пути ограничения правил соединения и провести значительные упрощения, ведущие к введению грамматических формализмов, необходимых для описания и распознавания объектов. В наиболее удачных работах по синтаксическому распознаванию образов применялась простая
__________________________
1) Частo применяется также термин конкатенация. Между этими двумя терминами есть, однако, разница. Соединение двух объектов означает простое расположение этих объектов рядом при полном сохранении индивидуальных особенностей каждого. Конкатенация в свою очередь предполагает как пространственную перeструктуризацию. так и потерю некоторых существенных особенностей объектов. Важное различие при этом заключается в том, что всякая конкатенации объектов является также объектом, тогда как соединение объектов может (хотя и необязательно) быть рассмотрено как единый объект. Так как при описании образов способность сохранять индивидуальность зачастую играет решающую роль, в этой главе мы будем пользоваться термином соединение. Читатель тем w менее должен иметь в виду, что в литературе эти дна термина используются на равных началах.
346
Рис. 8.2 Сведение задачи соединения объектов к одномерному случаю посредством обобщенного представления объектов ориентированными отрезками прямых, а—выборочные образы; б—характерные действенные правила соединения обобщенных образов.
способ. Как показано на рис. 8.2, а, две выделенные точки в этой системе интерпретируются как «головной» и «хвостовой» концы стрелы. Типичные допустимые правила соединения для данной системы показаны на рис. 8,2,6. Совершенно очевидно, что такой подход эффективно сводит задачу двумерного соединения к эквивалентной задаче действий с цепочками, поддающейся решению с помощью обыкновенной цепочечной грамматики, рассмотренной выше.
Для описания двумерных отношений используется и другая полезная методика, основывающаяся на древовидных структурах. Дерево—это конечное множество Т, состоящее из одного или более узлов, таких, что 1) существует один выделенный узел, называемый корнем дерева, и 2) остальные узлы (исключая корень) разделены па m>=0 непересекающихся множеств Т1, Т2 ..., Тт, каждое из которых в свою очередь является деревом. Деревья Т1, Т2 ..., Тт, называются поддеревьями корня, Число поддеревьев узла называется степенью этого узла. Узел с нулевой степенью называется листом, а узел с наиболее высокой степенью — узлом ветви. Наконец, представление образа в виде дерева называется деревом образа
Рис. 8.3. Представление образов в виде деревьев.
Использование деревьев для описания многомерных структур—довольно простая процедура. В сущности, любая иерархически упорядоченная схема ведет к представлению объекта в виде дерева. Два примера, иллюстрирующие это обстоятельство, приведены на рис. 8.3. На рис. 8.3, а упорядочение состоит в группировке областей, причем область Ь находится в области а, в свою очередь находящейся в области r. Обозначив корень дерева символом r, получаем древовидную структуру (рис, 8.3.6), естественно вытекающую из схемы упорядочения, приведенной выше. Второй пример показан на рис, 8.3, в, В этом случае получившийся двумерный объект определяется связями между различными компонентами схемы. На рис. 8-3, г изображено соответствующее дерево. Отметим, что каждый узел дерева представляет узел схемы и что корень дерева образа произвольно определяется как крайний левый верхний узел образа.