- •Московский государственный
- •Постановка задачи
- •Варианты задания
- •Содержание отчета
- •Методические указания
- •Основные понятия и определения.
- •Морфологический компонент лингвистического процессора ея.
- •Основные понятия и определения.
- •Морфологическая модель естественного языка.
- •Некоторые особенности и закономерности морфологии русского языка.
- •Морфологическая база данных
- •Морфологические анализаторы и синтезаторы ея.
- •Синтаксический компонент лингвистического процессора ея.
- •Синтаксическая модель естественного языка.
- •Модели представления синтаксической структуры предложения.
- •Деревья зависимостей.
- •Структуры непосредственно составляющих (нс-структуры).
- •Ориентированные структуры непосредственно составляющих (онс-структуры).
- •Частично ориентированные структуры непосредственно составляющих (чонс-структуры).
- •Типы формальных грамматик, используемых для описания синтаксиса естественного языка.
- •Грамматика зависимостей (gd).
- •Контекстно-свободные грамматики (gcf)
- •Сетевые грамматики.
- •Синтаксическая база данных.
- •Синтаксические анализаторы фраз ея.
- •Стратегия недетерминированного, фильтрового анализа.
- •Стратегия, опирающаяся на механизм возвратов (backtracking).
- •Стратегия детерминированного анализа.
- •Синтаксические отношения (связи, зависимости).
- •О многовариантности синтаксического анализа.
- •Указания по реализации, требования к спецификации программ.
- •Дополнительные сведения из теории компьютерной лингвистики.
- •Семантический компонент ея-систем.
- •Основные понятия и определения.
- •Теория концептуальной зависимости р.Шенка.
- •Теория лингвистических моделей «смыслтекст».
- •Падежные системы.
- •Звук и смысл.
- •Прагматический компонент ея-систем.
- •Основные понятия и определения.
- •Предмет изучения прагматического компонента.
- •Анализ связного текста (дискурса).
- •Литература
- •1. Постановка задачи 3
- •2. Варианты задания 4
- •3. Содержание отчета 4
- •4. Методические указания 5
- •5. Дополнительные сведения из теории компьютерной лингвистики. 25
Московский государственный
университет им. М.В. Ломоносова
Факультет вычислительной математики и кибернетики
Волкова И.А.
Лингвистический процессор
естественного языка
Морфологический и синтаксический компоненты
Задание практикума для студентов 3-го курса ЧФ МГУ
(Методическое пособие)
2003
УДК 519.6+681.3.06
В данном методическом пособии описывается задание практикума на ЭВМ для студентов 3 курса Черноморского Филиала МГУ им. Ломоносова в поддержку основного курса “Языки программирования“. Приводятся подробные методические пояснения и рекомендации.
Рецензенты:
_______________
_______________
Волкова И.А. " Лингвистический процессор естественного языка. Морфологический и синтаксический компоненты. Задание практикума для студентов 3-го курса ЧФ МГУ (Методическое пособие)".
Издательский отдел факультета ВМиК МГУ
(лицензия __________ от _________), 2002.-39 с.
Печатается по решению Редакционно-Издательского Совета факультета вычислительной математики и кибернетики МГУ им. М.В.Ломоносова.
??? ISBN 5-89407-033-3 Издательский отдел факуль-
тета вычислительной математи-ки и кибернетики МГУ им. М.В.Ломоносова, 2002.
Постановка задачи
В рамках задания практикума требуется реализовать упрощенные, модельные варианты морфологического компонента (включающего в себя морфологический анализатор и синтезатор) и синтаксического компонента (включающего в себя синтаксический анализатор, синтаксический синтезатор реализовывать не требуется) лингвистического процессора естественного языка (ЕЯ).
Упрощение морфологического компонента сводится к следующему:
во-первых (и это самое существенное упрощение), морфологическая база данных (словарь) содержит ограниченное (хотя и достаточно представительное) подмножество лексем ЕЯ, словарь не пополняется в процессе работы программы, и, если программе морфологического анализа или синтеза на вход подается лексема, не занесенная в морфологическую базу данных, то результатом ее работы должно быть лишь соответствующее сообщение, и не должно предприниматься никаких попыток обработать новую или введенную с ошибкой лексему;
во-вторых, морфологическая модель ЕЯ не учитывает все тонкости и все нерегулярные явления языка;
в-третьих, не учитывается информация об ударениях в словах.
Задача реализации требуемого морфологического компонента естественного языка разбивается на следующие подзадачи:
Разработка морфологической модели выбранного ЕЯ.
Создание морфологической базы данных соответствующего ЕЯ.
Реализация программы морфологического анализа ЕЯ.
Реализация программы морфологического синтеза ЕЯ.
Реализация интерфейса пользователя с морфологическим компонентом лингвистического процессора ЕЯ.
Упрощение синтаксического компонента заключается в следующем:
во-первых, не рассматриваются сложные (сложносочиненные и сложноподчиненные) предложения естественного языка;
во-вторых, не учитываются вопросительные предложения;
в-третьих, не учитывается простые предложения
с синтаксическим эллипсисом;
с фразеологическими и идиоматическими сочетаниями;
с вводными словами и оборотами;
с обращениями;
с междометиями, с частицами, с числительными;
с однородными сказуемыми;
с оборотами с союзами «как», «чем», «словно» и др. (Данное предложение рассматривается как гипотеза. Такое решение удачнее, чем предыдущее.);
с подчинительными конструкциями с сочинительными союзами со значением присоединения, противопоставления, уступки, не образующие самостоятельных предложений (Дело движется, но медленно. Через две точки проходит прямая, и притом только одна.);
с пояснительными конструкциями с сочинительными союзами с предшествующей запятой (бегемот, или гиппопотам);
с цитатами и вставками на других языках;
с конструкциями с цифровой или какой-либо другой нумерацией пунктов;
со знаками препинания, отличными от запятой.
в-четвертых, синтаксическая модель естественного языка должна учитывать только синтаксически правильные (относительно принятой модели) предложения естественного языка; если на вход синтаксического анализатора подается предложение, не соответствующее принятой грамматике естественного языка, он только сообщает об этом факте, не пытаясь как-либо обработать данное предложение.
Задача реализации требуемого синтаксического компонента естественного языка разбивается на следующие подзадачи:
Разработка и описание синтаксической модели выбранного ЕЯ.
Описание синтаксиса определенного подмножества ЕЯ.
Реализация программы синтаксического анализа ЕЯ.
Реализация интерфейса пользователя с синтаксическим компонентом лингвистического процессора ЕЯ.