![](/user_photo/_userpic.png)
Точно Не проект 2 / Не books / Источник_1
.pdf![](/html/89498/253/html_jVps5kEqtw.w4Hf/htmlconvd-2Pom7Y482x1.jpg)
Распознавание образов и обучение |
481 |
|
|
мые признаки изображений, которые могут поступать либо на вход нейропроцессора, либо непосредственно в рабочую память.
Рисунок 8.31 – Нейронная продукционная система
Нейронные сети, реализуемые нейропроцессором, обучаются формированию последовательности символов (термов), которые хранятся в базе данных нейронной сети, либо в рабочей памяти. Каждая нейронная сеть представляется именем, набором параметров, определяющих структуру сети, матрицей весов связей и соответствующим алгоритмом функционирования. Термы, формируемые нейронными сетями, загружаются в рабочую память.
База правил продукционной системы состоит из гибридных правил, включающих как описания, формируемые нейронными сетями, так и символьные выражения традиционных продукционных систем. Например,
Правило 1: если следующая цель(повернуть_налево, пересечение)
и
ориентация(пересечение)
и
текущее_положение(близко, пересечение),
то
двигаться_вдоль_коридора(медленно).
![](/html/89498/253/html_jVps5kEqtw.w4Hf/htmlconvd-2Pom7Y484x1.jpg)
Распознавание образов и обучение |
483 |
|
|
Рисунок 8.32 – Сцена А и ее иерархическое описание
На этапе предварительной обработки данные об объекте распознавания с целью улучшения качества подвергаются фильтрации, аппроксимации, восстановлению и т.п. Процесс построения описания объекта предполагает выполнение двух процедур: сегментации объекта и выделения примитивов объекта. Объект сегментируется на подобъекты и примитивы в соответствии с заранее определенными синтаксическими операциями. В результате каждый объект представляется с помощью некоторого набора примитивов и фиксированных синтаксических операций. Если используется операция конкатенации, то объект представляется строкой, состоящей из последовательности примитивов.
На этапе синтаксического анализа могут выполняться либо простейшее сопоставление с эталоном (образцом), либо полный грамматический разбор. В случае сопоставления с эталоном строка примитивов, представ-
![](/html/89498/253/html_jVps5kEqtw.w4Hf/htmlconvd-2Pom7Y485x1.jpg)
484 |
Глава 8 |
|
|
ляющая исходный объект, сравнивается со строками, представляющими объект-прототип. В соответствии с выбранным критерием подобия строк объект зачисляется в тот класс, к которому относится объект-прототип. Информация об иерархической структуре объекта в этом случае игнорируется. Полный грамматический разбор строки, описывающий распознаваемый объект, позволяет выявить особенности структуры объекта и учесть их при принятии решения. Возможны промежуточные варианты реализации синтаксического анализа, определяемые спецификой решаемых задач.
Рисунок 8.33 – Система синтаксического распознавания образов
Вывод грамматики, необходимой для выполнения синтаксического анализа, осуществляется по заданной обучающей выборке объектов. При этом отбор примитивов и структурных отношений во многих случаях выполняется проектировщиком системы распознавания. Вывод грамматики, по сути, представляет обучение синтаксической системы распознавания.
Рассмотрим основные понятия теории формальных грамматик. Грамматика G – это четверка [22]
G = (VN, VT, P, S),
где VN и VT – конечные множества соответственно начальных и терминальных символов, VN VT 0 и VN VT V ; P – конечное множество продукционных правил вида , где и представляют строки символов из V , причем содержит, по крайней мере, один символ из VN; S VN – начальный символ. Множество VT называют терминальным (ос-
Распознавание образов и обучение |
485 |
|
|
новным) словарем, а множество VN – нетерминальным (вспомогательным) словарем. Терминальный словарь – это набор исходных элементов, из которых строятся цепочки символов (строки), порождаемые грамматикой. Нетерминальный словарь – это набор символов, которыми обозначаются классы цепочек из исходных элементов. Начальный символ S представляет собой элемент множества VN и обозначает класс всех тех объектов, для описания которых и предназначена грамматика.
Для произвольного словаря V обозначение V* |
будет использоваться |
||
для идентификации всех строк, составленных из V, включая пустую строку |
|||
. Обозначение V+ |
будет соответствовать множеству строк из V без пус- |
||
той строки, т.е. |
V V* { }. Например, |
пусть |
V = {a, b}, тогда |
V* { ,a,b,aa,ab,ba,...} и V {a,b,aa,ab,ba,...}. |
|
||
Множество продукционных правил P |
состоит из выражений вида |
, где – строка в словаре V+, а – строка в словаре V* . Запись
означает, что строка замещается строкой . Символ будет ис-
G
пользован для обозначения вывода w1 w2 w1 w2 в грамматике G . При |
|
|
G |
этом строка замещается строкой , а w1 |
и w2 остаются неизменными. |
Язык, порождаемый грамматикой G и обозначаемый L(G), представ- |
|
ляет множество строк (цепочек) [22, 43]: |
|
L(G) {x | x VT* |
* |
и S x}. |
|
|
G |
Каждая из строк языка состоит только из терминальных символов. При этом любая строка может быть выведена из S путем применения пра-
вил из P, что обозначено как S x.
G
Грамматики различают по типу правил подстановки, допустимых в каждой из них. Контекстно-зависимая грамматика характеризуется пра-
вилами подстановки вида 1A 2 1 2 , где 1 и 2 – элементы словаря |
|
V* , V и |
A VN . Такая грамматика позволяет выполнять замещение |
нетерминального символа А строкой , если А появляется в контексте |
строк 1 и 2. Контекстно-свободная грамматика характеризуется прави-
лами подстановки вида A . Здесь символ A VN может замещаться
строкой независимо от контекста, в котором появляется А. Грамматика называется регулярной, если используются правила подстановки вида
A aB или A a, где A,B VN , a VT . |
При этом альтернативными пра- |
вилами подстановки являются A Ba |
и A a. Однако выбор одной |
группы правил исключает применение другой группы [22].
![](/html/89498/253/html_jVps5kEqtw.w4Hf/htmlconvd-2Pom7Y487x1.jpg)
Распознавание образов и обучение |
487 |
|
|
Значение формальных грамматик для распознавания состоит в том, что они позволяют построить алгоритм для ответа на вопрос о синтаксической правильности или неправильности представления объекта с помощью примитивов. Этот алгоритм выполняет процедуру синтаксического анализа (грамматического разбора). Существует два основных вида синтаксического анализа: разбор сверху вниз и разбор снизу вверх. В процедуре разбора сверху вниз правила-продукции применяются к начальному символу S, чтобы получить заданную строку, представляющую распознаваемый объект. Данная процедура реализует процесс подстановок, управляемый целью. При разборе снизу вверх продукционные правила применяются в обратном направлении с целью приведения строки, представляющей распознаваемый объект, к начальному символу. Прямые реализации указанных схем грамматического разбора неэффективны, так как требуют выполнения полного перебора. Повысить эффективность синтаксического разбора можно при учете синтаксиса грамматики. Соответствующие грамматические анализаторы называют синтаксически ориентированными [43].
Важной подзадачей, возникающей в ходе применения синтаксического метода распознавания, является построение (конструирование, вывод) грамматики по обучающей выборке. Конструирование грамматики является лингвистическим эквивалентом алгоритмов обучения, рассмотренных ранее. К сожалению, не существует универсальных автоматических методов построения требуемой грамматики по примерам. Известные подходы имеют ограниченные области приложений [43].
Вопросы для самопроверки
1.Определите понятие “образ”.
2.Что называют признаками образа?
3.Как формулируется задача распознавания образов
4.Сформулируйте гипотезу компактности.
5.Объясните принцип классификации объектов с помощью функции расстояния.
6.Определите расстояния Махалонобиса, Хемминга, Левенштейна.
7.Объясните на примере алгоритм вычисления расстояния Левеншнейна.
8.Сформулируйте алгоритм К-средних.
9.Объясните байесовский метод распознавания.
10.Запишите правило максимального правдоподобия.
11.Запишите правило обновления параметров решающей функции в ходе рекуррентного алгоритма обучения распознаванию образов.
12.Нарисуйте схему формального нейронного элемента.
13.Что называют сетевой (базовой) функцией нейроподобного элемента?
14.Какие виды функций преобразования применяются при построении моделей нейроподобных элементов?
15.Приведите примеры возможных структур ИНС.
ГЛАВА 9
ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА
Одним из основных направлений ИИ является разработка методов, обеспечивающих реализацию процесса общения с ЭВМ на естественном языке (ЕЯ). Данное направление получило название “обработка естествен-
ного языка” (Natural Language Processing).
Успех общения с ЭВМ на естественном языке, которое может протекать либо в текстовой, либо речевой форме, в значительной степени определяется наличием необходимых знаний. Общение не сводится к простой передаче множества слов. Оно требует установления контекста диалога, понимания высказываний, выявления целей пользователя, генерации высказываний и др. Все это предполагает наличие обширных знаний, например, о языке общения, о процессе диалога, предмете диалога и пр.
Настоящая глава посвящена краткому введению в проблему обработки естественного языка. Глава начинается с рассмотрения методов понимания высказываний, представленных в текстовой форме. С этой целью анализируется метод расширенных сетей переходов. Рассматриваются принципы построения ЕЯ-интерфейса для доступа к базам данных. Значительная часть главы посвящена принципам распознавания и синтеза речевых сообщений.
9.1. Компоненты ЕЯ-системы
Общение с ЭВМ на естественном языке – это сложная задача, решение которой предполагает реализацию следующих основных функций [20]: ведение диалога, понимание высказываний, обработка высказываний, генерация выходных высказываний.
Под диалогом понимают процесс обмена взаимосвязанными высказываниями между пользователем и ЭВМ, направленный на достижение