Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Все_ЛР.doc
Скачиваний:
13
Добавлен:
21.11.2019
Размер:
487.94 Кб
Скачать

2 Разработка средств обработки естественного языка на морфологическом уровне

2.1 Морфологический анализ и синтез. Основные понятия

Морфологический анализ – неотъемлемый этап обработки естественно-языковых текстов (ЕЯТ). Под обработкой ЕЯТ подразумевается:

  • извлечение знаний (данных) из ЕЯТ;

  • индексация и поиск естественно-языковых (ЕЯ) документов в базах данных;

  • поиск ЕЯ документов в сети Интернет;

  • машинный перевод;

  • составление частотных словарей русского языка;

  • грамматическая, синтаксическая, стилистическая обработки текста.

Наиболее точный и правильный перевод, наиболее эффективный поиск, адекватная синтаксическая обработка текста получаются вследствие анализа смысла текста.

Сложность машинного анализа текстов на ЕЯ во многом обусловлена и тем обстоятельством, что смысл текста не является совокупностью смыслов образующих его знаков. Каждый знак несет в себе невыраженный явно в тексте подтекст.

Когда знаком является предложение или связный текст, то переход от знака к его смыслу по традиции осуществляется в три этапа:

  • морфологический анализ;

  • синтаксический анализ;

  • семантический анализ.

Соответственно, выделяют три уровня языкового знака и языковой системы.

На морфологическом уровне анализируются словоформы вне связи с контекстом – определяются их грамматические признаки (род, число, падеж и т.д.) и лексическое значение (приведение к словарной форме).

С задачей синтеза текстов в той или иной мере связаны такие виды обработки ЕЯТ, как машинный перевод, грамматическая, синтаксическая, стилистическая коррекция текста.

При этом синтез на морфологическом уровне состоит в построении грамматических форм (словоформ) слова по его словарной форме.

Введём несколько понятий, необходимых для дальнейшего изложения материала.

Парадигма слова – совокупность всех его форм, а также совокупность всех его написаний в этих формах – словоформ.

Каждую форму слова (в том числе форму, совпадающую с начальной) можно описать некоторой совокупностью грамматических характеристик, которую далее будем называть морфологической информацией (МИ).

Лемма – начальная (словарная) форма слова.

Например, форма «Родительный падеж, единственное число» сущест­вительного рука имеет написание «руки».

Применительно к обработке ЕЯТ, морфологический анализ слова состоит в определении его леммы и МИ.

С точки зрения словоизменения основным делением слов является деление на грамматические разряды.

Под грамматическим разрядом понимается совокупность слов, у которых набор форм, образующих парадигму, одинаков (т.е. одинаково число форм, и их названия). Например, слова рука, слон, запятая относятся к одному и тому же грамматическому разряду, а именно изменяются по падежам и числам.

Набор грамматических характеристик, изменяющихся для различных форм одного слова, будем называть переменной МИ. Набор грамматических характе­ристик, присущих всем формам слова, будем называть постоянной МИ.

Все неизменяемые части речи образуют один грамматический разряд.

Все существительные составляют один грамматический разряд, в котором парадигма слова изменяется по падежам и числам.

Прилагательные делятся на два грамматических разряда. В первом из них парадигма образуется изменением слова по падежам, числам, родам, а также по категории одушевленности-неодушевленности.

К этому грамматическому разряду относятся:

а) местоименные прилагательные, например наш, этот, некоторый;

б) обычные прилагательные, склоняющиеся по местоименному склонению, – это притяжательные прилагательные на -ин, -ов, -ий, например, отцов, дядин, волчий;

в) порядковые числительные (точнее было бы назвать их счетными прилагательными), например второй, пятый, десятый;

г) прилагательные на -ийся (все они отпричастные), например выдающийся;

д) неизменяемые прилагательные, например, коми; у них признается омонимия всех форм парадигмы;

е) причастия настоящего и прошедшего времени.

Во втором грамматическом разряде прилагательных парадигма включает сверх всего, что есть в первом разряде, еще краткие формы.

Превосходные степени (например, длиннейший) рассматриваются как прилагательные (наравне с такими прилагательными, как длинненький, длинноватый, длиннющий и т.п.), сравнительные степени – как особая категория слов, совмещающая адъективную и наречную функции.

Что касается местоимений, то современная лингвистика обычно не признает их самостоятельной частью речи. Выделяют местоимение, точнее местоимение-существительное, и местоимение-прилагательное.

Местоимение-прилагательное рассмотрено выше, а местоимение-существительное относится к грамматическому разряду, где парадигма обра­зуется только противопоставлением по падежам. Ее имеют, например, слова я, мы, он, она, оно (каждая из этих единиц рассматривается как самостоятельное слово), себя, кто, что, кто-нибудь, кое-что.

К группе слов, традиционно обозначаемых как числительные, относятся только количественные и собирательные, например, два, пять, семеро, сколько. Слова с этого типа распределяются по нескольким грамма­тическим разрядам, общей особенностью которых является отсутствие противопоставления по числу внутри парадигмы (один из этих разрядов совпадает с тем, к которому относятся местоимения-существительные).

Слова, парадигма которых предполагает изменение по падежам (т.е. существительные, прилагательные, местоимения, числительные), вместе обозначаются как "имена", или как "склоняемые части речи". Это понятие включает также неизменяемые существительные (пальто) и неизменяемые прилагательные (коми).

Согласно существующей традиции в глагольную парадигму включают­ся личные формы и неличные формы (причастия и деепричастия).

Члены видовой пары глаголов рассматриваются как самостоятельные слова (каждое со своей парадигмой). В парадигму переходного глагола несовершенного вида также включаются страдательные формы на -ся (личные и неличные). В то же время формы на -ся с нестандартным значением считаются принадлежащими к отдельному слову – возвратному глаголу. Таким образом, например, во фразе в клубе показываются кинофильмы выступает форма слова показать, а во фразе на горизонте показываются корабли – форма слова показываться. В совершенном виде формы на -ся в современном языке страдательного значения не допускают и, следовательно, всегда принадлежат к возвратным глаголам (например, показаться, разобраться, отвлечься и т.д.). Из сказанного следует, что глагол на -ся рассматривается в качестве самостоятельного слова лишь в том случае, если он имеет не страдательное или не только страдательное значение.

Грамматические разряды, по которым распределяют глаголы, таковы. Грамматический разряд с максимальной парадигмой составляют переходные глаголы несовершенного вида (не многократные и не безличные), например, делать, показывать. Парадигма включает здесь два залога: действительный и страдательный (последний представлен формами на -ся, см. выше, и страдательными причастиями). В действительном залоге личные формы противопоставляются по наклонениям, временам, числам, лицам и (в прошедшем и сослагательном наклонении) родам.

В остальных грамматических разрядах глаголов парадигма получается из описанной выше вычитанием части форм, а именно, действуют следующие правила:

1) если глагол непереходный, то у него отсутствуют все формы страдательного залога;

2) если глагол относится к совершенному виду, то у него отсутствуют личные и неличные формы настоящего времени, а также страдательные формы на -ся;

3) если глагол многократный (все такие глаголы - несовершенного вида), то у него отсутствуют личные и неличные формы настоящего времени;

4) если глагол безличный, то у него имеются только инфинитив и личные формы 3-го лица ед. числа (там, где различаются роды - среднего рода) действительного залога, например, светать, светает, светало, будет светать, светало бы.

Все прочие слова, кроме имен и глаголов, образуют один грамматический разряд, где парадигма состоит из единственной формы. Эти слова вместе обозначаются как “неизменяемые части речи”. Вопрос о разделении этих слов на части речи, как известно, весьма сложен, однако, для словоизменения это несущественно.

При создании средств морфологического анализа и синтеза основыва­ются на данных о правилах русского словоизменения, которые изложим в последующих пунктах.

2.3 Правила словоизменения

Подробное описание правил словоизменения русского языка, а также информацию о правилах, применимых для каждого конкретного слова, можно найти в грамматическом словаре. Кратко приведём описание, основанное на работе А. А. Зализняка [].