Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ОПЛ_ответы.doc
Скачиваний:
4
Добавлен:
01.05.2025
Размер:
1.07 Mб
Скачать

28. Автоматический морфологический анализ. Словарные и бессловарные методы. Тэггинг

Применение: корпусы текста; алгоритмы машинного перевода; системы информационного поиска; Крылов, Старостин STARLING (интегрированная информационная среда, в кот. тоже необходим морф. анализ).

Морфологический анализ – процедура, в результате которой из внешнего оформления слов (словоформы), полученного в результате графематического анализа, определяется:

  1. полная морфологическая характеристика (морфолого-синтаксический класс плюс полный набор значений для категорий, свойственных этому классу);

  2. лемма (основная форма слова).

Если словоформа имеет несколько морф. прочтений, ей должны быть сопоставлены все омонимичные наборы «лемма + морф. характеристики».

Морф. анализ реализуется в алгоритмах, классический насчитывает 32 шага. Результат называют морф. разметкой текста или поэлементным представлением текста.

Виды морф.ан.:

  1. словарные

а. со словарем словоформ

б. со словарем основ

2. бессловарные (например, логического умножения).

Изначально чаще использовался метод 1б, поскольку машинам не хватало памяти, сейчас проблема дефицита памяти преодолена и распространение получает метод 1а, для которого не нужно создавать множество правил. Лингвистическое обеспечение (приписывание морф. информации каждой новой словоформе) превратилось в техническую задачу благодаря наличию в машиночитаемом виде словарей, создаваемых на основе Грамматического словаря А. А. Зализняка.

1а. Изначально создавался для языков с бедной морфологией. Слову приписывается индекс из словаря словоформ и соответствующая словоформе грам. информация.

Недостатки:

  1. Проблемы с анализом словоформ, не найденных в словаре,

  2. Отождествление разных словоформ. Для решения этой проблемы необходим хотя бы элементарный словарь основ.

1б. Метод подходит для анализа простых и сложных основ, для его осуществления необходимо наличие словаря основ (таблицы с индексами для каждой основы и информацией о типе основы – принадлежности ее к той или иной части речи) и флексий (таблицы с индексами и грам.информацией для каждой флексии). Для случаев чередований внутри слова создаются отдельные таблицы чередований. Затем формируется морф. сеть, в которой перечисляется формы, характерные для данной основы, после этого составляется шкала слова – перечень возможных грам. интерпретаций для каждой словоформы (с учетом омофонов, омографов).

Краткое описание классического алгоритма из 32 шагов: в слове выделяется основа, буквенный состав основы заменяется номером из таблицы основ, основа делится на морфемы, каждая морфема маркируется по словарю морфем, словоформе даётся полная грамматическая характеристика.

Метод логического умножения (Фетиамов). Основное понятие – словарная функция.

  1. цепочка букв членится на морфемные сегменты по методу бинарных оппозиций. Н., о/чар/ов/ан/#

  2. цепочка морф. сегментов заменяется множеством морфем (неупорядоченным):

о, чар, ов, ан, # Каждой морфеме приписывается определенное значение.

3) Значение приписывается словоформе целиком.

4) полученная информация интегрируется в окончательное знание о словоформе с помощью дизъюнкции (в базе данных актуализируется информация о всех словоформах, в которых встречается данная морфема) и конъюнкции (полная информация о словоформе – это пересечение и объединение информации о морфемах) [Лекции ИГ Овчинниковой по ОПЛ]

  1. Совсем без словарей не обходится, не задается только словарь значимых элементов (основ или полных словоформ), но задается словарь возможных окончаний (псевдоокончаний или «хвостов») с приписанной им информацией о возможных грамматических значениях. Наиболее простой метод.

Недостатки:

1) Все слова оказываются «новыми», в связи с чем появляется больше вариантов для анализа.

2) Не имеет выхода к сем. анализу, для которого нужны леммы.

Тэггинг = тегирование – приписывание морфолого-синтаксических классов (тэгов, англ. tag), терминология корпусов текста.

Особенности морф.разметки в корпусах текста.

Рускорпора. Национальный корпус русского языка.

Решения, принятые в корпусе, в основном опираются на морфологическую модель, представленную в «Грамматическом словаре русского языка» А. А. Зализняка (М., 1977; 4-е изд., М., 2003).

Однако специфика корпуса как универсального средства исследования языка диктует некоторые особые решения; именно этой спецификой продиктованы все отступления от модели Грамматического словаря, содержащиеся в нашем стандарте.

Морфологическая информация, приписываемая произвольному слову в тексте, состоит из четырех «полей», или групп помет:

1. Лексема, которой принадлежит словоформа (указывается «словарная запись» данной лексемы и ее принадлежность к той или иной части речи).

2. Множество грам. признаков данной лексемы, или словоклассифицирующие характеристики (например, род для сущ-го, переходность для гл.).

3. Множество грамматических признаков данной словоформы, или словоизменительные характеристики (например, падеж для сущ-го, число для глагола).

4. Информация о нестандартности грам. формы, орфогр. искажениях и т. п. 

В основу метаязыка грам. помет положена система сокращенных помет («тегов») на основе латинского алфавита (н., S – сущ-ное, V-глагол, acc-вин. падеж, 0 – несклоняемость, persn – личное имя).

Информация о нестандартности и особенностях записи

В корпусе со снятой грамматической омонимией предусмотрен ряд помет, указывающих на нестандартность и/или особенности записи входящей в Корпус словоформы. Это, например, различного рода морфологические аномалии, возможные у устаревших или просторечных нелитературных форм (три дни при нормативном три дня), орфографическое и/или фонетическое искажение слова, часто передающее различные особенности произношения (дэвушка, това’ищи, про-хо-ди, низнаю).

Наруско (Национальный корпус русского литературного языка).

При выборе технологии морф. разметки текстов авторы исходили из того, что данный корпус, подобно словарям или энциклопедиям, не должен иметь ошибок. Поэтому ими принята система разметки с использованием постоянно пополняемого словаря аннотированных словоформ. В этом случае самый первый текст полностью размечается вручную и по нему создается частотный словарь. Вслед за этим полученный словарь дополняется всеми возможными омонимами и используется при разметке последующих текстов с пополнением после каждого следующего текста. При наличии словаря процесс разметки происходит полуавтоматически с помощью специальной программы. Если конкретная словоформа текста представлена в словаре единственным вариантом, ее морфологическое описание переносится в размеченный текст без ведома оператора. При наличии в словаре нескольких омонимов все они предлагаются оператору для выбора. Наконец, отсутствующую в словаре словоформу оператор описывает вручную. Подобный процесс повторяется итеративно для каждого следующего текста, и по мере увеличения объема размеченного корпуса доля чисто ручной разметки сокращается.