Скачиваний:
71
Добавлен:
01.05.2014
Размер:
427.52 Кб
Скачать

8.5.3. Распознавание древовидных структур

Для того чтобы обрабатывать древовидные структуры, необ­ходимо слегка модифицировать наше определение грамматики. Грамматика деревьев определяется как пятерка

где VN и VT. как и раньше,—множества нетерминалов и тер­миналов соответственно, S—начальный символ, который вообще говоря, может быть деревом. Р—множество грамматиче­ских правил вида Ω->Ψ, где Ψ и Ω —деревья, и Rфункция ранжирования, обозначающая количество прямых потомков узла, метка которого является терминальным символом данной грамматики.

В качестве примера грамматики деревьев рассмотрим элек­трическую схему, представленную на рис. 8,3, и. Грамматика, порождающая этот объект, состоит из следующих элементов:

Для того чтобы породить конкретный образ, необходимо пере­писать все нетерминальные символы на узлах дерева таким образом, чтобы сформировать дерево, все узлы которого имеют терминальные метки (в данной грамматике).

Распознавание древовидных структур может производиться методами, обсужденными ранее в этом разделе, за исключе­нием, конечно, правил подстановки, которые, отражая специ­фику грамматики деревьев, должны иметь древовидную структуру.

8.6 Статистический анализ

Для определения и описания переменных, представляющих случайную среду, должны быть привлечены статистические по­нятия и методология. В распознавании образов случайность появляется в основном в результате воздействия двух принци­пиальных; факторов: шума, возникающего при измерении харак­теристик объекта, и неполноты информации о характеристиках классов образов. В этом разделе внимание сосредотачивается на обобщении основной модели формальной грамматики G = (VN, VT, Р, S) распространением ее на ситуации статистиче­ского характера. Полученная в результате стохастическая мо­дель грамматики затем может быть использована в качестве статистического аппарата в процессе распознавания.

8.6.1. Стохастические грамматики и языки

Для придания статистического характера нашим моделям грамматик весьма целесообразно воспользоваться следующим приемом — считать недетерминированными правила подста­новки и ставить в соответствие каждому из них некоторую ве­роятностную меру. Основываясь на этом приеме, мы определяем стохастические грамматики следующим образом:

где VN, VT, Р и S, как и прежде,—множества нетерминалов, терминалов, правил подстановки и начальный символ соответ­ственно, а Q—множество вероятностных мер, заданных на множестве правил подстановки Р. Основные определения не­ограниченной грамматики, грамматики непосредственно состав­ляющих. бесконтекстной и регулярной грамматик остаются в силе также и для стохастических грамматик. Как и прежде, тип грамматики зависит от типа допустимых правил подста­новки из множества Р.

Рассмотрим следующий процесс порождения терминальной цепочки х, начинающийся с S:

где {r1, r2, … , rm} представляют любые т правил подстановки из множества Р и α12,…,αm-1промежуточные цепочки. Пусть различные правила подстановки применяются с вероят­ностями р(r1), р(r2), ..., р( rm). Тогда вероятность порождения цепочки х определяется как

где р(rj| r1 r2… rj-1)—условная вероятность, поставленная в со­ответствие правилу rj при предварительном применении правил r1 r2… rj-1.

Если р(rj| r1 r2… rj-1) = p(rj), распределение вероятностей, поставленных в соответствие правилу rj, называется неограни­ченным; множество Q неограниченно, если все составляющие его распределения вероятностей неограниченны. Стохастиче­скую грамматику называют неоднозначной, если существует п различных путей порождения цепочки х, характеризующихся вероятностями р1(х), р2(х), ..., рn(х), п>\. Таким образом, вероятность порождения цепочки х неоднозначной стохастиче­ской грамматикой определяется как

Множество Q совместно, если

Стохастический язык L(С)—это язык, порожденный стоха­стической грамматикой G. Каждая терминальная цепочка х языка L(G) должна обладать вероятностью р(х) порождения данной цепочки. Стохастический язык, порожденный стохасти­ческой грамматикой G, формально можно определить так:

где VT+ множество всех терминальных цепочек, исключая пустую, порожденных грамматикой G; обозначение Sx ис­пользуется для обозначения выводимости цепочки х из на­чального символа S посредством соответствующего применения правил подстановки из множества Р. Короче говоря, выраже­ние (8,6.6) означает, что стохастический язык—это множество всех терминальных цепочек, каждой из которых поставлена в соответствие вероятность ее порождения, причем все цепочки выводимы из начального символа S. Вероятность порождения р{х) задается суммированием вероятностей всех различных способов порождения цепочки х. Заметим, однако, что при п > 1 стохастический язык становится неоднозначным. Рас­смотренные выше понятия иллюстрируются следующим при­мером.

Пример. Рассмотрим стохастическую бесконтекстную грам­матику

Заметим, что каждому правилу подстановки поставлена в соответствие вероятность его применения, В данном случае первое правило применяется с вероятностью р, в то время как второе—с вероятностью 1—р.

Дважды применив первое правило, а затем один раз второе, получим последовательность

Обозначив терминальную цепочку аааЬЬЬ через х и используя (8.6.3), имеем

Язык, порожденный грамматикой G, задается в данном слу­чае следующим образом:

Каждая цепочка аtЬt имеет, как мы видим, связанную с ней вероятность рt-1(1—р). Отметим также, что эта стохастическая грамматика не является Неоднозначной, так как существует всего одна последовательность правил подстановки, ведущая к каждой терминальной цепочке. В качестве упражнения в конце этой главы предлагается доказать, что множество Q в данном случае совместно. |

В стохастических языках используются те же методы грам­матического разбора, что были рассмотрены в предыдущем па­раграфе. Однако для облегчения процесса разбора могут при­влекаться знания о вероятности применения правил подста­новки. Предположим, например, что на определенном шаге про­цедуры восходящего грамматического разбора имеется несколько правил-кандидатов, одно из которых следует выбрать и приме­нить, Очевидно, что правилом, имеющим наибольшую вероят­ность успешного применения, будет правило с наибольшей ве­роятностью применения для порождения анализируемой терми­нальной цепочки. В общем случае вероятности применения грамматических правил должны использоваться в грамматиче­ском разборе для увеличения скорости распознавания стохасти­ческих систем.

Соседние файлы в папке lecture7