Скачиваний:
71
Добавлен:
01.05.2014
Размер:
427.52 Кб
Скачать

8.3. Постановка задачи синтаксического распознавания образов

Понятия, описанные в § 8.2, могут быть связаны с распозна­ванием следующим образом. Предположим, у нас имеются два класса образов ω1 и ω2 и пусть образы этих классов могут быть построены из признаков, принадлежащих некоторому конечному множеству. Назовем эти признаки треминалами и обозначим множество терминалов символом VТ в соответствии с системой обозначений, введенной в § 8-2, В синтаксическом распознава­нии образов терминалы называются также непроизводными символами (элементами). Каждый образ может рассматри­ваться как цепочка или предложение, поскольку он составлен из терминалов множества VТ. Допустим, что существует грам­матика G, такая, что порождаемый ею язык состоит из предло­жений (образов), принадлежащих исключительно одному из классов, скажем ω1 . Очевидно, что эта грамматика может быть использована в целях классификации образов, так как задан­ный образ неизвестной природы может быть отнесен к ω1, если он является предложением языка L{G}. В противном случае образ приписывается классу ω2. Например, бесконтекстная грамматика G=(VN, Vt, P, S) при VN ={S }, Vt={a,Ь} и множестве правил подстановки Р= {S —> аaSb, S —> aab} обла­дает способностью порождать лишь предложения, содержащие вдвое больше символов а, чем Ь. Если мы сформулируем гипо­тетическую задачу разбиения образов нa два класса, причем объекты класса ω1—это цепочки вида aab. aaaabb и т. д., а объекты класса ω2 содержат одинаковое число символов а и Ь (т. e. аЬ. аaЬЬ и т. д.), то очевидно, что классификация задан­ной цепочки производится простым определением того, может ли данная цепочка порождаться грамматикой G, рассмотрен­ной выше. Если может, то объект принадлежит ω1 если нет — он автоматически приписывается классу ω2. Процедура, ис­пользуемая для определения, является или не является цепочка предложением, грамматически правильным для данного языка, называется грамматическим разбором. На способах граммати­ческокого разбора мы остановимся несколько позже.

По приведенной выше схеме классификации образ попадает в класс ω2исключительно потому, что он не принадлежит клас­су ω1. Если обнаружится, что образ не является правильным для G предложением, предполагается, что он должен принад­лежать ω2. Тем не менее не исключено, что образ не принадле­жит и классу ω2 .Он может представлять собой зашумленную или искаженную цепочку, которую лучше всего изъять из распознавания. Для того чтобы обеспечить возможность изъ­ятия, необходимо задать две грамматики G1 и G2, порождающие языки L{ G1} и L(G2} соответственно. Образ зачисляется в класс, язык которого позволяет считать этот образ граммати­чески правильным предложением. Если обнаружится, что образ может принадлежать обоим классам, его произвольно зачисляют в любой из этих классов. Если он не является предложением ни L{ G1}, ни L{ G2}, образ изымается.

В случае М классов мы рассматриваем М грамматик и свя­занных с ними языков L(Gi}, i= I, 2, .., М. Распознаваемый объект относится к классу ωi, в том и только том случае, если он является предложением языка L(Gi}. Если объект является предложением более чем одного языка или не принадлежит ни одному из них, он может быть изъят из рассмотрения или про­извольно отнесен к одному из классов неопределенных объектов.

В связи с изложенным выше подходом к распознаванию воз­никает ряд существенных вопросов. 1) Как наилучшим образом описывать объекты для их классификации подобным способом? 2) Как выбираются грамматики распознавания? 3) Любая задача, имеющая практическое значение, обычно искажается случайными переменными, например шумами измерения: каким образом в синтаксическом подходе можно использовать стати­стический аппарат с тем, чтобы учесть эти случайные перемен­ные? 4) Одной из наиболее важных особенностей рассмотренных ранее подходов к распознаванию образов является способность строить решающие функции посредством итеративных проце­дур обучения; можно ли распространить концепцию обучающей выборки на синтаксическое распознавание? Каждому из этих вопросов соответствует отдельный параграф.

Соседние файлы в папке lecture7