
- •Введение
- •Глава 1 системы, основанные на знаниях
- •1.1. История создания искусственного интеллекта
- •1.2. Процесс мышления
- •1.3. Основные понятия и классификация систем, основанных на знаниях
- •1.4. Экспертные системы как элемент искусственного интеллекта
- •1.5. Теоретические аспекты извлечения знаний
- •1.6. Коммуникативные методы извлечения знаний
- •1.7. Текстологические методы извлечения знаний
- •Глава 2 модели представления знаний
- •2.1. Представление знаний и выводы в экспертных системах
- •2.2. Модель представления знаний средствами логики предикатов первого порядка
- •2.3. Представление знаний продукционными правилами
- •2.4. Модель представления знаний в виде фреймов
- •2.5. Представление знаний в виде семантической сети
- •2.6. Модель доски объявлений
- •2.7. Модель представления знаний в виде сценария
- •Глава 3 архитектура и технология разработки экспертных систем
- •3.1. Основные положения
- •3.2. Технология разработки экспертной системы
- •3.3. Механизм вывода (интерпретатор правил)
- •3.4. Взаимодействие пользователей с экспертной системой
- •3.5. Подсистема анализа и синтеза сообщений
- •3.6. Морфологический анализ входных сообщений
- •3.7. Синтаксический анализ входных сообщений
- •3.8. Семантический анализ входных сообщений
- •3.9. Синтез выходных сообщений
- •3.10. Диалоговая подсистема
- •3.11. Объяснительные способности эс
- •Глава 4 применение нечеткой логики в эксперТнЫх системах
- •4.1. Предпосылки возникновения нечеткой логики
- •4.2. Нечеткая логика
- •4.3. Нечеткие подмножества
- •4.4. Нечеткие правила вывода в экспертных системах
- •4.5. Задания для разработки экспертных систем
- •Глава 5 ГенетическиЙ алгоритм
- •5.1. Предисловие
- •5.2. Генетический алгоритм
- •5.3. Параметры и этапы генетического алгоритма
- •5.3.1. Кодирование информации и формирование популяции
- •5.3.2. Оценивание популяции
- •5.3.3. Селекция
- •5.3.4. Скрещивание и формирование нового поколения
- •7.3.5. Мутация
- •5.4. Настройка параметров генетического алгоритма
- •5.5. Канонический генетический алгоритм
- •5.6. Пример работы и анализа генетического алгоритма
- •5.7. Общие рекомендации к программной реализации генетического алгоритма
- •5.8. Задания для лабораторных работ
- •Глава 6 искусственные нейронные сети
- •6.1. Биологические нейронные сети
- •6.2. Формальный нейрон
- •6.3 Нейронные сети
- •6.4. Обучение инс
- •8.5. Алгоритм обратного распространения ошибки
- •6.6. Работа нейронной сети
- •6.7. Пример работы и обучения нейронной сети
- •6.8. Программная реализация
- •6.9. Задания для лабораторных работ
- •Заключение
- •Приложение 1 Контрольные вопросы
- •Приложение 2 Темы рефератов и индивидуальных заданий Темы рефератов
- •Темы индивидуальных заданий
- •Приложение 3 Ресурсы в сети Интернет
- •Список литератуРы
- •Оглавление
3.6. Морфологический анализ входных сообщений
Под морфологическим анализом (МА) понимается обработка словоформ вне связи с контекстом. Словоформой будем называть отрезок текста между двумя соседними пробелами (при этом знаки препинания считаются отдельными словоформами) [12]. Функцией морфологического анализа является идентификация словоформы и приписывание словоформе характеризующего ее комплекса морфологической информации (КМИ). КМИ состоит в общем случае из совокупности строк морфологической информации.
Существуют два основных метода реализации МА: декларативный и процедурный. В декларативном методе реализации МА в словаре системы хранятся все возможные словоформы каждого слова с приписанной им морфологической информацией. По сути дела, в декларативном МА нет собственно морфологического анализа, а хранится его результат. Поэтому декларативный МА работает быстрее, чем процедурный. Задача декларативного МА состоит только в поиске словоформы в словаре и переписывании из словаря КМИ, соответствующего данной словоформе. В связи с тем что количество различных словоформ у одного слова довольно велико (у существительного – до 12, у прилагательного – до 36, а у глагола, с учетом отглагольных форм, – до 100), декларативный МА имеет, по сравнению с процедурным, следующие недостатки:
-
значительно возрастает трудоемкость подготовки морфологической зоны словаря, так как человек должен занести в словарь для каждого слова все его словоформы с соответствующими им строками морфологической информации;
-
увеличиваются затраты памяти, так как для каждого слова (лексемы) хранятся все его словоформы.
При процедурном МА в словаре системы хранятся основы слов. Процедурный МА выполняет следующие функции: выделяет в текущей словоформе основу, идентифицирует ее и приписывает данной словоформе соответствующий ей КМИ.
Рассмотрим один из возможных методов выполнения МА словоформ русского языка, так называемый “обратный” метод. При работе алгоритм процедурного МА использует информацию из морфологической зоны словаря и из таблиц аффиксов. Удобно разделить словарь на две части: словарь основ (СО) и словарь готовых словоформ (СГФ). Общая схема алгоритма состоит из следующих шагов [12]:
-
поиск словоформы в словаре СГФ;
-
выделение основы;
-
поиск в словаре основ;
-
обработка словосочетаний;
-
предсинтаксис.
В словаре готовых форм (СГФ) целесообразно хранить неизменяемые слова и слова с нерегулярными формами изменения. Примерами таких слов являются предлоги, наречия, неизменяемые существительные (например, пальто), знаки препинания, цифры, некоторые формы глагола (идти – шел) и т.п. Для этих слов МА не требуется вообще.
Задача первого блока МА состоит в том, чтобы определить, не относится ли очередная словоформа входного сообщения к числу тех, которые хранятся в СГФ. Если словоформа найдена, то из СГФ переписывается вся соответствующая ей морфологическая информация и морфологический анализ данной словоформы заканчивается. В противном случае выполняется второй блок МА. Его работа сводится к последовательным проверкам возможностей вложения в анализируемую словоформу справа налево окончаний и суффиксов. При этом для ускорения проверок вкладываются (отсекаются) аффиксы с большим числом букв, а информация о вкладывающихся в них меньших аффиксах получается не поиском, а за счет отсылок.
В результате вложения всех возможных аффиксов словоформе сопоставляется одна или несколько гипотетических основ (ГО) и для каждой основы – КМИ. Гипотетические основы ищутся в словаре основ во время работы третьего блока МА. В случае нахождения ГО в словаре основ и совпадения части речи ГО с частью речи словарной основы данная ГО и ее КМИ признаются правильными. В противном случае ГО признается ошибочной и отбрасывается. При нахождении в словаре ГО вместе с морфологической зоной считываются и ее синтактико-семантические зоны.
Задача четвертого блока алгоритма состоит в выполнении операции “склеивания”, т.е. в преобразовании некоторых словоформ, отделенных друг от друга пробелами или другими словоформами, к одной основе. Данная операция выполняется для упрощения синтаксического и семантического анализов.
Завершает работу МА пятый блок алгоритма, называемый “предсинтаксис”. В задачу данного блока входит подготовка данных, упрощающая работу синтаксического анализа:
-
формируются номера уровней словоформ входного сообщения;
-
помечаются слова, возможно обусловленные предыдущими словами;
-
используются предварительные синтаксические фильтры, устраняющие избыточную морфологическую информацию.
Первая из перечисленных подзадач состоит в выделении уровня каждой словоформы. При этом словоформы основного предложения образуют нулевой уровень, а словоформы придаточных предложений и вложенных друг в друга оборотов (причастных, деепричастных) имеют более высокие уровни по числу вложенности. Выделение уровней позволяет на этапе синтаксического анализа ускорить обработку за счет устранения взаимосвязи слов между разными уровнями.