
- •Тема 1. Основные понятия искусственного интеллекта.
- •Основные понятия искусственного интеллекта.
- •Базы данных и знаний.
- •Основные области применения и задачи интеллектуальных систем
- •Тема 2. Проблема представления знаний
- •Тема 3. Продукционные системы. Фреймы. Исчисление предикатов. Нейронные сети. Генетические алгоритмы
- •3.1. Продукционные системы
- •3.2. Фреймы
- •3.3. Исчисление предикатов
- •3.4. Нейронные сети
- •3.5. Генетические алгоритмы
- •Тема 4. Языки искусственного интеллекта
- •Тема 5. Искусственный интеллект и естественный язык
- •5.1. Сущность проблемы обработки естественного языка
- •5.2. Основная проблема обработки естественного языка
- •5.3. Распознавание языка
- •Морфологический анализ.
- •Синтаксический анализ.
- •Семантический анализ.
- •Результат
- •Проблемный анализ.
- •Синтез текста.
- •Основные модели лингвистических систем.
- •Стратегия разбора и синтеза текстов в зависимости от типа языка.
- •2. Морфологический (лексико-грамматический) анализ.
- •3.Синтаксический анализ.
- •Модели синтаксического анализа, применяемые в зарубежных промышленных решениях.
- •1. Модели, основанные на Link Grammar.
- •2. Модели, использующие структуры уровня именных и глагольных групп.
- •Лингвистический процессор ю.Д. Апресяна, и.М. Богуславского и л.Л. Иомдина.
- •Другой вариант модели синтаксического анализатора рассмотрим на примере проекта «диалинг».
- •4. Семантический анализ. Реализация семантического анализа в системе диалинг
- •Реализация семантического анализа в лингвистическом процессоре ю.Д. Апресяна, и.М. Богуславского и л.Л. Иомдина.
- •Реализация семантического анализатора в системе MyLingvo.
- •5. Структуры хранения данных и знаний.
- •Исчисление предикатов. Общие понятия.
- •Приведение произвольной формулы к множеству дизъюнктов.
- •Унификация и ее алгоритм.
- •Правило резолюций и его применение.
Морфологический анализ.
На этапе морфологического анализа определяются 1) принадлежность каждой словоформы к определенной морфеме, находящейся в словаре, 2) грамматические признаки для каждой словоформы. Так для существительных этими признаками будут: род, число, падеж и склонение, для прилагательных: род, число и падеж, для глаголов – время, лицо, число, спряжение, вид, для местоимений – число и лицо.
Таким образом, для морфологического анализа необходим словарь основ слов и словоформ с их грамматическими признаками в зависимости от различных изменяемых частей слова (аффиксов) (для русского языка это окончания и, возможно, суффиксы).
Синтаксический анализ.
На этапе синтаксического анализа формируется синтаксическая структура входного предложения: определяется синтаксическая роль слов в предложении (подлежащее, сказуемое, определения, дополнения, обстоятельства) и определяется характер синтаксической связи между словами. Подлежащим в русском предложении может быть существительное ( в том числе имя собственное) или местоимение в именительном падеже. В английском языке, где существительные и местоимения не склоняются, подлежащее определяется как первое существительное или личное(?) местоимение с начала простого предложения. Сказуемое в русском языке – это глагол, связанный с подлежащим и согласованный с ним в лице и числе, в английском языке подлежащее – первый глагол с начала простого предложения. Подлежащее и сказуемое называются главными членами предложения. Дополнение – существительное или местоимение, связанное со сказуемым в падеже. Например, «я слышу музыку»: «слышу» - сказуемое, «музыку» - дополнение. Обстоятельство – существительное или наречие, связанное со сказуемым только семантически (по смыслу). Например, «я сильно расстроился»: «сильно» - обстоятельство. «Я был в городе»: «в городе» - тоже обстоятельство. Определение – это прилагательное или порядковое числительное, связанное в русском языке с подлежащим или дополнением в числе и падеже, а в английском – относящееся к подлежащему или дополнению, идущему первым после него ( первым среди подлежащих и дополнений).
Семантический анализ.
На этапе семантического анализа формируется семантическая структура входного предложения. Это может быть, например, дерево, построенное на основе семантических падежей Филмора или другая структура, описывающая смысловую взаимосвязь между словами предложения. Для построения этих структур может использоваться синтаксическая структура, полученная на предыдущем этапе и специальные семантические словари и (или) описание на определенном языке семантики языка.
Основными методами формальной семантики являются метод компонентного анализа и метод семантических падежей.
Метод компонентного анализа исходит из предположения, что посредством комбинаций конечного числа семантических компонентов можно описать неограниченное множество лексических единиц. На верхнем уровне иерархии все слова разбиваются на несколько категорий (например, физические объекты, действия и т.д.), далее эти категории разбиваются на подкатегории. Подкатегории внутри одной категории имеют общие друг с другом признаки (интегральные) и признаки, позволяющие отличить их друг от друга (дифференциальные). Членение продолжается до тех пор, пока все необходимые слова не окажутся охваченными. Пример. Диван — вид мягкой мебели, предназначенной для сидения, лежания. В это понятие включаются следующие подкатегории: Тахта — широкий и невысокий диван без спинки. Софа — мягкий широкий диван с подлокотниками и низкой спинкой. Канапе — небольшой диван с приподнятым изголовьем. Оттоманка — широкий и мягкий диван с подушками, заменяющими спинку. Диван-кровать — раскладной диван с откидной спинкой. Для всех этих видов дивана интегральными признаками являются принадлежность к мягкой мебели и предназначенность для сидения и лежания. Дифференциальными признаками являются ширина, высота, наличие и высота спинки, ее способность откидываться, наличие подлокотников и подушек. Филмор разделял значение слова на собственно значение и пресуббопозицию. Применительно к нашему разговору значением является принадлежность к родительской категории, пресубпозицией – принадлежность к конкретной категории. Так выражение «Тахта – это не канапе» не означает, что тахта – это не диван, а «Вася – не мальчишка» не означает, что Вася не относится к людям мужского пола. Смысл предложения понимается в компонентном анализе как сумма смыслов входящих в него слов.
Метод семантических падежей является логическим продолжением метода компонентного анализа. Чарльз Филмор принял идею компонентного анализа и развил ее вплоть до выделения семантически неделимых смысловых единиц (атомов смыла). Согласно общепринятым взглядам центральной единицей смысла является предикат, под которым, как правило, подразумевается действие, выражаемое глаголом. Предикат имеет ряд атрибутов. По Филмору эти атрибуты имеют определенную семантическую роль. Он выделяет следующие роли: