Скачиваний:
63
Добавлен:
01.05.2014
Размер:
73.22 Кб
Скачать

СИНТАКСИЧЕСКОЕ РАСПОЗНАВАНИЕ ОБРАЗОВ

синтаксическое распознаванием образов - линг­вистическое распознавание, структурное распознавание, распо­знавание методами теории формальных грамматик.

Основным отличием синтаксического распознавания образов от всех рассмотренных ранее является непосредственное ис­пользование структуры образов в процессе распознавания

Определения

Алфавитлюбое конечное множество символов.

Предложение в некотором алфавитепроизвольная цепочка конечной длины, состоящая из символов этого алфавита. На­пример, для алфавита {0, 1} допустимыми являются следующие предложения: {О, 1. 00, 01, 10, ...}- Обычно для обозначения предложения используют также термины цепочка и слово.

Предложение, не содержащее ни одного символа, называется пустым предложением. В дальнейшем пустое предложение будет обозначаться So. Для произвольного алфавита V знак V* будет использоваться для обозначения множества всех предложений, составленных из символов алфавита V. включая пустое пред­ложение. Символ V+ будет обозначать множество предложений V*— so. Если, например, задан алфавит V = [a,. b}, то

V* = {so, а, b, аа, аb, bа, ...} и V+= {а, b, аа, аb, bа, . ..}.

Языкпроизвольное множество (не обязательно конечное) предложений в некотором алфавите.

Так же как и в естественных языках, серьезное изучение теории формальных языков должно концентрироваться на грам­матиках и их свойствах.

Грамматикa

это четверка G = (VN, Vt ,P, S),

где

VN - множество нетерминальных символов (переменных)

Vt - множество терминальных символов (констант)

P- - множество грамматических правил или правил подстановки

S- начальный или корневой символ

Предполагается, что S принадлежит множеству VN и что VN и VT непересекающиеся множества. Алфавит V является объ­единением алфавитов VN и VT..

Язык, порождаемый грамматикой G и обозначенный L(G),— это множество цепочек, удовлетворяющих двум условиям:

1) каждая цепочка составлена только из терминальных символов (т. е., является терминальным предложением), 2) каждая цепочка может быть выведена из S путем соответствующего применения правил подстановки из множества Р.

Множество Р правил подстановки состоит из выражений вида α→β, где αцепочка в словаре V+ н βцепочка в сло­варе V*. Иначе говоря, символ означает замещение цепочки α цепочкой β. Символ будет использован для обозначения операций вида γαδγβδ в грамматике G, т. е. указывает на замещение а на β в результате применения правила подста­новки α→β, при этом γ и δ остаются неизменными. В тех случаях, когда ясно, о какой грамматике идет речь, G опускается и используется символ =>.

Пример. Рассмотрим грамматику G=(VN, VT, P. S), где VN ={S}, VT = {а,b} и

Р= {S->aSb, S->ab}. Применяя первое правило m 1 раз, получаем

S => aSb => aaSbb=>a3Sb3=> … =>am-1Sbm-1

Применение второго правила приводит к цепочке

am-1Sbm-1 => ambm

Типы грамматик

Неограниченная грамматика характеризуется правилами подстановки α→β, где αцепочка алфавита V+ а βцепочка алфавита V*.

Грамматика непосредственно составляющих (грамматика контекстная) характеризуется правилами подстановки вида α1Aα2 → α1βα2 ,где α1 и α2эле­менты алфавита V*, β принадлежит V+, а А принадлежит VN. Эта грамматика допускает замещение нетерминального символа А цепочкой β только в том случае, если А появляется в контек­сте α1Aα2, составленном из цепочек α1 и α2.

Бесконтекстная грамматика (контекстно-свободная грамматика, КС-грамматика) характеризуется правилами под­становки вида А—>β, где А принадлежит множеству VN и β при­надлежит множеству V+. Само название «бесконтекстная» ука­зывает на то, что переменная A может замещаться цепочкой β независимо от контекста, в котором появляется А.

Регулярная (или автоматная) грамматика это грамматика с правилами подстановки вида А —>aB или А—>a, где А и Впеременные из VN, атерминальный символ из VT. Альтернативными допустимыми правилами подстановки яв­ляются А —>Bα и А—>а. Выбор одного из этих двух типов пра­вил исключает, однако, применение правил другого типа.

Примеры грамматик

а) Неограниченная грамматика

G=(VN, Vt, P, S)

при

VN ={S, А, В}, Vt = { a, b, с}

Р: S —> аAbc

Аb —> bA

Ac —> Bbcc

bB —> Bb

аB —> ааA

аB —> s0

порождает предложения вида х= anbn+2c n+2, где п>=0 озна­чает длину цепочки символов. Например, для порождения це­почки х = a0b2c2 = bbсс мы применяем первые четыре правила и затем последнее, т, е,

S => аAbc => аbAc => аb Bbcc => аBbbcc =>bbcc.

б) Грамматика непосредственно составляющих

G=(VN, Vt, P, S)

при

VN ={S, А, В}, Vt = { a, b, с}

Р: S —> аbc

S —> аAbc

Аb —> bA

Ac —> Bbcc

bB —> Bb

аB —> ааA

аB —> аа

порождает предложения вида х = а п с п где п>= I

(в) Бесконтекстная грамматика

G=(VN, Vt, P, S)

при

VN ={S }, Vt = { a, b }

Р: S —> аb

S —> аSb

порождает цепочки вида х = а пb п где п>= 1,

(г) Регулярная грамматика

G=(VN, Vt, P, S)

при

VN ={S }, Vt = { a, b }

Р: S —> а

S —> b

S —> аS

S —> bS

порождает цепочки, состоящие из символов а и b.

ПОСТАНОВКА ЗАДАЧИ СИНТАКСИЧЕСКОГО

РАСПОЗНАВАНИЯ ОБРАЗОВ

Предположим, у нас имеются два класса образов ω1 и ω2 и пусть образы этих классов могут быть построены из признаков, принадлежащих некоторому конечному множеству. Назовем эти признаки терминалами и обозначим множество терминалов символом VТ в соответствии с системой обозначений. В синтаксическом распознава­нии образов терминалы называются также непроизводными символами (элементами). Каждый образ может рассматри­ваться как цепочка или предложение, поскольку он составлен из терминалов множества VТ. Допустим, что существует грам­матика G, такая, что порождаемый ею язык состоит из предло­жений (образов), принадлежащих исключительно одному из классов, скажем ω1 . Очевидно, что эта грамматика может быть использована в целях классификации образов, так как задан­ный образ неизвестной природы может быть отнесен к ω1, если он является предложением языка L{G}. В противном случае образ приписывается классу ω2. Например, бесконтекстная грамматика G=(VN, Vt, P, S) при VN ={S }, Vt={a,b} и множестве правил подстановки Р= {S —> аaSb, S —> aab} обла­дает способностью порождать лишь предложения, содержащие вдвое больше символов а, чем b. Если мы сформулируем гипо­тетическую задачу разбиения образов нa два класса, причем объекты класса ω1это цепочки вида aab. aaaabb и т. д., а объекты класса ω2 содержат одинаковое число символов а и b (т. e. аb. аabb и т. д.), то очевидно, что классификация задан­ной цепочки производится простым определением того, может ли данная цепочка порождаться грамматикой G, рассмотрен­ной выше. Если может, то объект принадлежит ω1 если нет он автоматически приписывается классу ω2. Процедура, ис­пользуемая для определения, является или не является цепочка предложением, грамматически правильным для данного языка, называется грамматическим разбором.

Бесконтекстная грамматика G, способная порождать квадраты,

задается набо­ром G = (VN, VT, Р, S) при

где А{х,у) и L(x,y) читаются соответственно

«.х расположен над у» и «х расположен слева от у».

это правило заменяет начальный символ непроизводным эле­ментом a1,

расположенным над некоторым пока еще не опреде­ленным объектом O2.

Правило

заменяет неопределенный объект О2 другим объектом O1,

еще не определенным, расположенным над горизонтальным отрезком

O1 заменяется на два вертикальных непроиз­водных элемента

посредством применения правила

Образы, использованные для иллюстрации

синтаксически-ориентиро­ванного грамматического разбора,

a непроизводные элементы образов;

бобразы, поддающиеся разбору с помощью описанной схемы;

в —образы, не поддающиеся разбору с помощью описанной схемы.

Бесконтекстная грамматика, способная классифицировать

V-образные и телоцентрические хромосомы

непроизводные элементы грамматики

357

телоцентрическая хромосома V- образная хромосома

Восходящий грамматический разбор представляющей хромосому

цепочки abcbabdbabcbabdb.

7

Соседние файлы в папке lecture7