- •1 Обработка естественного языка на фонетическом уровне
- •1.3.1 Нейтрализация звонких и глухих согласных
- •1.3.2 Нейтрализация твердых и мягких согласных
- •1.3.3 Нейтрализация удвоенных фонем и одиночных
- •1.3.4 Нейтрализация и ассимиляция согласных фонем по месту и способу образования
- •1.3.5 Непроизносимые согласные
- •1.3.7 Аккомодация
- •1.3.8 Редукция гласных в безударном положении
- •2 Разработка средств обработки естественного языка на морфологическом уровне
- •2.3.1 Классификация исходных форм
- •2.3.2 Склонение имен
- •Чередования в основе.
- •К этой же группе относятся существительные с пометой "мн.", например, санки, ножны, ср. Санок, ножен. Построение сравнительной степени прилагательных.
- •2.3.3 Спряжение
- •Построение глагольных форм.
- •Настоящее время несовершенного вида и будущеевремя совершенного вида.
- •Неличные формы.
- •3 Инструментальные средства морфологического анализа слов русского языка
- •Задания к лабораторным работам Лабораторная работа №1
- •Задание
- •Лабораторная работа №2
- •Содержание отчёта
- •Литература
- •Лабораторная работа №3
- •Содержание отчёта
- •Контрольные вопросы
- •Срок выполнения – 2 недели.
2 Разработка средств обработки естественного языка на морфологическом уровне
2.1 Морфологический анализ и синтез. Основные понятия
Морфологический анализ – неотъемлемый этап обработки естественно-языковых текстов (ЕЯТ). Под обработкой ЕЯТ подразумевается:
извлечение знаний (данных) из ЕЯТ;
индексация и поиск естественно-языковых (ЕЯ) документов в базах данных;
поиск ЕЯ документов в сети Интернет;
машинный перевод;
составление частотных словарей русского языка;
грамматическая, синтаксическая, стилистическая обработки текста.
Наиболее точный и правильный перевод, наиболее эффективный поиск, адекватная синтаксическая обработка текста получаются вследствие анализа смысла текста.
Сложность машинного анализа текстов на ЕЯ во многом обусловлена и тем обстоятельством, что смысл текста не является совокупностью смыслов образующих его знаков. Каждый знак несет в себе невыраженный явно в тексте подтекст.
Когда знаком является предложение или связный текст, то переход от знака к его смыслу по традиции осуществляется в три этапа:
морфологический анализ;
синтаксический анализ;
семантический анализ.
Соответственно, выделяют три уровня языкового знака и языковой системы.
На морфологическом уровне анализируются словоформы вне связи с контекстом – определяются их грамматические признаки (род, число, падеж и т.д.) и лексическое значение (приведение к словарной форме).
С задачей синтеза текстов в той или иной мере связаны такие виды обработки ЕЯТ, как машинный перевод, грамматическая, синтаксическая, стилистическая коррекция текста.
При этом синтез на морфологическом уровне состоит в построении грамматических форм (словоформ) слова по его словарной форме.
Введём несколько понятий, необходимых для дальнейшего изложения материала.
Парадигма слова – совокупность всех его форм, а также совокупность всех его написаний в этих формах – словоформ.
Каждую форму слова (в том числе форму, совпадающую с начальной) можно описать некоторой совокупностью грамматических характеристик, которую далее будем называть морфологической информацией (МИ).
Лемма – начальная (словарная) форма слова.
Например, форма «Родительный падеж, единственное число» существительного рука имеет написание «руки».
Применительно к обработке ЕЯТ, морфологический анализ слова состоит в определении его леммы и МИ.
С точки зрения словоизменения основным делением слов является деление на грамматические разряды.
Под грамматическим разрядом понимается совокупность слов, у которых набор форм, образующих парадигму, одинаков (т.е. одинаково число форм, и их названия). Например, слова рука, слон, запятая относятся к одному и тому же грамматическому разряду, а именно изменяются по падежам и числам.
Набор грамматических характеристик, изменяющихся для различных форм одного слова, будем называть переменной МИ. Набор грамматических характеристик, присущих всем формам слова, будем называть постоянной МИ.
Все неизменяемые части речи образуют один грамматический разряд.
Все существительные составляют один грамматический разряд, в котором парадигма слова изменяется по падежам и числам.
Прилагательные делятся на два грамматических разряда. В первом из них парадигма образуется изменением слова по падежам, числам, родам, а также по категории одушевленности-неодушевленности.
К этому грамматическому разряду относятся:
а) местоименные прилагательные, например наш, этот, некоторый;
б) обычные прилагательные, склоняющиеся по местоименному склонению, – это притяжательные прилагательные на -ин, -ов, -ий, например, отцов, дядин, волчий;
в) порядковые числительные (точнее было бы назвать их счетными прилагательными), например второй, пятый, десятый;
г) прилагательные на -ийся (все они отпричастные), например выдающийся;
д) неизменяемые прилагательные, например, коми; у них признается омонимия всех форм парадигмы;
е) причастия настоящего и прошедшего времени.
Во втором грамматическом разряде прилагательных парадигма включает сверх всего, что есть в первом разряде, еще краткие формы.
Превосходные степени (например, длиннейший) рассматриваются как прилагательные (наравне с такими прилагательными, как длинненький, длинноватый, длиннющий и т.п.), сравнительные степени – как особая категория слов, совмещающая адъективную и наречную функции.
Что касается местоимений, то современная лингвистика обычно не признает их самостоятельной частью речи. Выделяют местоимение, точнее местоимение-существительное, и местоимение-прилагательное.
Местоимение-прилагательное рассмотрено выше, а местоимение-существительное относится к грамматическому разряду, где парадигма образуется только противопоставлением по падежам. Ее имеют, например, слова я, мы, он, она, оно (каждая из этих единиц рассматривается как самостоятельное слово), себя, кто, что, кто-нибудь, кое-что.
К группе слов, традиционно обозначаемых как числительные, относятся только количественные и собирательные, например, два, пять, семеро, сколько. Слова с этого типа распределяются по нескольким грамматическим разрядам, общей особенностью которых является отсутствие противопоставления по числу внутри парадигмы (один из этих разрядов совпадает с тем, к которому относятся местоимения-существительные).
Слова, парадигма которых предполагает изменение по падежам (т.е. существительные, прилагательные, местоимения, числительные), вместе обозначаются как "имена", или как "склоняемые части речи". Это понятие включает также неизменяемые существительные (пальто) и неизменяемые прилагательные (коми).
Согласно существующей традиции в глагольную парадигму включаются личные формы и неличные формы (причастия и деепричастия).
Члены видовой пары глаголов рассматриваются как самостоятельные слова (каждое со своей парадигмой). В парадигму переходного глагола несовершенного вида также включаются страдательные формы на -ся (личные и неличные). В то же время формы на -ся с нестандартным значением считаются принадлежащими к отдельному слову – возвратному глаголу. Таким образом, например, во фразе в клубе показываются кинофильмы выступает форма слова показать, а во фразе на горизонте показываются корабли – форма слова показываться. В совершенном виде формы на -ся в современном языке страдательного значения не допускают и, следовательно, всегда принадлежат к возвратным глаголам (например, показаться, разобраться, отвлечься и т.д.). Из сказанного следует, что глагол на -ся рассматривается в качестве самостоятельного слова лишь в том случае, если он имеет не страдательное или не только страдательное значение.
Грамматические разряды, по которым распределяют глаголы, таковы. Грамматический разряд с максимальной парадигмой составляют переходные глаголы несовершенного вида (не многократные и не безличные), например, делать, показывать. Парадигма включает здесь два залога: действительный и страдательный (последний представлен формами на -ся, см. выше, и страдательными причастиями). В действительном залоге личные формы противопоставляются по наклонениям, временам, числам, лицам и (в прошедшем и сослагательном наклонении) родам.
В остальных грамматических разрядах глаголов парадигма получается из описанной выше вычитанием части форм, а именно, действуют следующие правила:
1) если глагол непереходный, то у него отсутствуют все формы страдательного залога;
2) если глагол относится к совершенному виду, то у него отсутствуют личные и неличные формы настоящего времени, а также страдательные формы на -ся;
3) если глагол многократный (все такие глаголы - несовершенного вида), то у него отсутствуют личные и неличные формы настоящего времени;
4) если глагол безличный, то у него имеются только инфинитив и личные формы 3-го лица ед. числа (там, где различаются роды - среднего рода) действительного залога, например, светать, светает, светало, будет светать, светало бы.
Все прочие слова, кроме имен и глаголов, образуют один грамматический разряд, где парадигма состоит из единственной формы. Эти слова вместе обозначаются как “неизменяемые части речи”. Вопрос о разделении этих слов на части речи, как известно, весьма сложен, однако, для словоизменения это несущественно.
При создании средств морфологического анализа и синтеза основываются на данных о правилах русского словоизменения, которые изложим в последующих пунктах.
2.3 Правила словоизменения
Подробное описание правил словоизменения русского языка, а также информацию о правилах, применимых для каждого конкретного слова, можно найти в грамматическом словаре. Кратко приведём описание, основанное на работе А. А. Зализняка [].