Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
All_lec_CL.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
4.98 Mб
Скачать

Лекция 5

В данной лекции будут даны определения основных понятий морфологии, приведена классификация описание основных методов и подходов к проведению морфологического анализа словоформ, а также указаны недостатки и достоинства каждого из методов.

Стадия морфологического анализа (МА) является наиболее проработанным лингвистическим этапом процесса обработки естественного текста. За последние два десятилетия создано, по крайней мере, несколько десятков алгоритмов для разных языков, в том числе 10-12 для русского. Прежде, чем приступить к изложению основных методов и алгоритмов МА, необходимо ознакомится с терминологией, используемой в морфологии.

Основные термины морфологии

МА тесно связан с морфологическим уровнем языка, единицей которого является морфема. Морфемы по обязательности наличия в слове делятся на: корневые (корни) — обязательные; аффиксальные (аффиксы) - необязательные.

Корень — основная значимая часть слова. Является обязательной частью любого слова — не существует слов без корня (кроме редких вторичных образований с утраченным корнем типа русского вы-ну-ть (префикс-суффикс-окончание).

Аффикс — вспомогательная часть слова, присоединяемая к корню и служащая для словообразования и выражения грамматических значений. По положению относительно корня:

  • префиксы — перед корнем (традиционное название в русском языке — приставки);

  • постфиксы — после корня.

По словоизменяющей функции:

  • словонеизменяющие аффиксы — передают грамматическое и лексическое значение;

  • флексии — словоизменяющие аффиксы, которые передают реляционное, т.е. указывающее на связь с другими членами предложения, значение и являются показателем комплекса грамматических категорий, выражающихся в словоизменении (в русском языке обычно называются окончаниями, так как являются исключительно постфиксами).

Различают внутреннюю и внешнюю флексию. Внутренняя флексия – это такой способ словоизменения, при котором формы слова образуются изменением звуков внутри основы (родилась — родился, пеку — пёк). Внешняя флексия (фузия) – словоизменение, пользующееся синтетическими аффиксами (пол-е, пол-я, пол-ей). Языки, в которых словоизменительное и словообразовательное значение выражается преимущественно флексией, называются флективными.

В отличие от флексии основа – это неизменяемая часть слова, которая выражает его лексическое значение, то есть соотнесённость звуковой оболочки слова с соответствующими предметами или явлениями объективной действительности. Применительно к русскому языку основа – это часть слова без окончания. В английском языке основа слова, как правило, полностью совпадает с самим словом.

Следовательно, слово можно представить следующим образом

префикс+корень+постфикс=СЛОВО=основа+флексия

Флективные языки, в свою очередь, делятся на синтетические и аналитические.

Синтетические языки — типологический класс языков, в которых преобладают синтетические формы выражения грамматических значений. В синтетических языках грамматические значения выражаются в пределах самого слова с помощью:

  • аффиксации - присоединения аффиксов к основе слова;

  • внутренней флексии - выражения грамматических значений при помощи изменения состава корня;

  • ударения (замОкзАмок );

  • супплетивизма - образования словоизменительной формы некоторого слова уникальным для языка образом, например, идти - шел, т. е. формами самих слов.

Для выражения отношений между словами в предложении могут быть использованы также элементы аналитического строя, а именно:

  • служебные слова - слова, не способные выступать самостоятельно как члены предложения и служащие для связи знаменательных слов во фразе, например, союзы, предлоги, или для их грамматической (синтаксической) характеристики, например, артикли;

  • порядок знаменательных слов - полнозначные слова, самостоятельные слова,— слова, обладающие лексической самостоятельностью, то есть называющие предметы и признаки или указывающие на них и таким образом наполняющиеся конкретным предметным или признаковым содержанием только в условиях речи, контекста, интонация).

Аналитические языки — языки, где грамматические значения главным образом выражаются вне слова, в предложении: английский, французский, болгарский и все изолирующие языки, например, вьетнамский. В этих языках слово — передатчик лексического значения, а грамматические значения передаются отдельно: порядком слов в предложении, служебными словами, интонацией и т.п.

Пример: В русской фразе отец любит сына слово сына принимает падежное окончание. Если изменить порядок слов — сына любит отец, то смысл фразы не изменится. В английской же фразе the father loves the son при смене порядка слов на the son loves the father меняется и смысл фразы — сын любит отца, так как падежные окончания отсутствуют и слово son звучит и пишется одинаково и в случае соответствия его именительному падежу русского языка, и косвенным падежам. Поэтому смысл предложения зависит от порядка слов в предложении. В русской фразе добро побеждает зло смысл зависит только от порядка слов в предложении.

Парадигма (от греч. παράδειγμα, «пример, модель, образец») — в лингвистике список словоформ, принадлежащих одной лексеме и имеющих разные грамматические значения. Обычно представлена в виде таблицы. Словоизменительная парадигма выступает образцом того, как строятся словоизменительные формы для целых классов лексем (склонений существительных, спряжений глаголов и т. п.)

Построение парадигм — одно из первых лингвистических достижений человечества; вавилонские глиняные таблички с перечнями парадигм обычно считаются первым памятником лингвистики как науки.

Обычно парадигмы упорядочены в некотором традиционном порядке граммем, например, парадигма русского склонения записывается в порядке падежей И — Р — Д — В — Т — П: рука, руки, руке, руку, рукой, о руке

Парадигма личного спряжения в европейских языках записывается обычно в порядке иду-идёшь-идёт (и соответственно лица называются первым, вторым и третьим), а, например, в арабском языке порядок обратный.

Лемма — это начальная (словарная) форма лексемы. Процесс привода словоформы к лемме — её словарной форме называется лемматизацией. В русском языке начальными формами являются:

  • для существительных — именительный падеж, единственное число;

  • для прилагательных — именительный падеж, единственное число, мужской род;

  • для глаголов, причастий, деепричастий — глагол в инфинитиве.

Примеры: кошками → кошка, бежал → бегать, боязненных → боязненный

Морфологическая информация, этапы морфологического разбора текста

Цель МА — определить принадлежность некоторой словоформы к парадигме определенной лексемы и грамматические признаки для этой словоформы – морфологическую информацию (МИ) для использования ее на последующих этапах обработки ЕЯ текста.

Так для существительных этими признаками будут: род, число, падеж и склонение, для прилагательных: род, число и падеж; для глаголов - время, лицо, число, спряжение, вид; для местоимений – число и лицо. Классификация морфологических признаков слов русского языка изображена на рисунке 5.1.

Рис.5.1. Морфологические признаки слов русского языка

Для русского языка, как и для большинства синтетических языков, задача лексико-грамматического разбора решается довольно просто и почти стопроцентной точностью, благодаря их развитой морфологии. В аналитических языках, например английском, где широко представлена лексическая многозначность, простой алгоритм, сопоставляющий каждому слову в тексте наиболее вероятный для данного слова морфологический класс, дает лишь около 90% точности.

Для синтетических языков морфологический разбор текста включает:

  1. Выделение внутри предложений отдельных словоформ.

  2. Определение всех вариантов комбинаций основ и аффиксов для каждой словоформы и, соответственно, вариантов грамматических форм.

  3. Устранение грамматической неоднозначности на основе комбинаторного словаря, содержащего все контексты употребления слов.

Для увеличения точности разбора используются два типа алгоритмов: вероятностно-статистические и основанные на продукционных правилах.

Алгоритмы, основанные на продукционных правилах, используют правила, которые строятся автоматически на основе некоторого корпуса текстов или создаются лингвистами.

Вероятностно-статистические алгоритмы используют, в основном, два источника информации.

  • Словарь словоформ, в котором каждой словоформе соответствует множество лексико-грамматических классов, которые могут быть у данной словоформы. Для каждого лексико-грамматического класса указывается частота его встречаемости относительно других морфологических классов данной словоформы.

  • Информация о встречаемости всех возможных последовательностей морфологических классов попарно, по тройкам, по четверкам и т.д. с относительной частотой такой пары (тройки, четверки и т.д.). Эта информация обрабатывается неким статистическим алгоритмом (например, на основе скрытых цепей Маркова) для нахождения наиболее вероятного лексико-грамматического класса для каждого слова в предложении.

Оба подхода дают примерно одинаковый результат на уровне 96-98 % точности.

Существует несколько классификаций основных видов алгоритмов морфологического анализа. По использованию словарей системы МА можно разделить на словарные (со словарем словоформ или со словарем основ) и бессловарные, а по организации алгоритмов — на методы с декларативной, процедурной и комбинированной ориентацией.

Обзор основных алгоритмов морфологического анализа

МА со словарем основ является наиболее распространенным способом анализа. Для его проведения требуется словарь основ слов и ряд вспомогательных таблиц.

Если слово имеет несколько вариантов основ, то словарь, как правило, содержит все варианты. Обычно в этом случае один из вариантов основы помечается как основной, а другие варианты содержат ссылку на него. Это необходимо для дальнейшего семантического анализа, чтобы устранить различные смысловые трактовки для одного и того же слова. Дополнительные таблицы содержат, как правило, список возможных вариантов изменяемых частей слов (в русском языке – окончаний) с соответствующим им значением грамматических признаков.

В общем случае производится поиск всего слова в словаре основ, если слово не найдено, от него отделяется последняя буква и производится повторный поиск. Так продолжается до тех пор, пока основа не будет найдена либо пока не останется букв. В случае удачного поиска из словаря извлекаются варианты частей речи, соответствующих этой основе. Затем производится поиск в таблице изменяемых частей слова. При этом пропускаются варианты соответствующие частям речи, к которым данная основа не может относиться. Таким образом, определяются грамматические признаки разбираемой словоформы.

Малоэффективным представляется МА со словарем словоформ, подразумевающий наличие словаря, содержащего список все возможных словоформ (например, все варианты сочетаний падежа и числа для каждого существительного) с соответствующими им грамматическими признаками. Кроме значительного роста словаря возникает еще одна проблема: в случае отсутствия словоформы в словаре система не имеет возможности оперировать этим словом.

Среди словарных систем можно выделить системы с предсказанием. Предсказание необходимо для анализа слов, отсутствующих в словаре, и основано на выявлении аналогий анализируемого слова с имеющимися словарем.

Предсказание включает в себя предсказание префиксального образования предсказание по концовке, взятой из известных словоформ

При предсказании префиксального образования делают попытку найти существующую словоформу языка, которая максимально совпадала бы справа со входным словом. Если левая часть (потенциальный префикс) не длиннее M символов (пяти), а правая часть (совпавшая с известной сло­воформой) не короче N символов (четырех), то слово разбирается по об­разцу известной словоформы. Например:

[евро]технологию, [супер]коньками

Для оценки качества предсказания вычисляют точность предсказа­ния – отношение количества случаев, когда в результатах предсказания при котором был хотя бы один правильный результат (одновременно лемма, часть речи, род, число и падеж, и т.п.).

Безсловарный МА проводится без использования словарей основ или начальных форм, а лишь с использованием таблицы аффиксов, списка слов-исключений и списка служебных неизменяемых слов (например, союзов, междометий, предлогов). Этот способ используется достаточно редко.

Существуют три основных метода реализации МА: декларативный, процедурный и комбинированный. При декларативном методе в словаре хранятся все возможные словоформы каждого слова с приписанной им МИ. В этом случае задача МА состоит просто в поиске словоформы в словаре и переписывании из словаря МИ, поэтому можно считать, что в этом методе отсутствует как таковой морфологический анализ, а хранится только его результат. Так как количество различных словоформ у каждого слова довольно велико, декларативный метод требует больших затрат памяти вычислительной системы, что порождает ряд технических проблем, заключающихся в больших затратах труда на создание и поддержание словаря, в высокой избыточности информации. Достоинствами метода является высокая скорость анализа, а также универсальность по отношению к множеству всех возможных словоформ русского языка.

Процедурный МА выполняет следующие функции: выделяет в текущей словоформе основу, идентифицирует ее и приписывает данной словоформе соответствующий комплекс МИ. Процедурный метод предполагает предварительную систематизацию морфологических знаний о ЕЯ и разработку алгоритмов присвоения МИ отдельной словоформе. Недостатком такого подхода является высокая трудоемкость составления словарей совместимости. При этом наличие в русском языке большого числа слов-исключений не позволяет сколько- нибудь автоматизировать этот процесс. Для проведения анализа словоформы необходимо наличие словарей «приставка-корень», «корень – суффикс - флективный класс», «флективный класс – окончание - МИ».

Существует два подхода к решению задачи процедурными методами.

Первый подход предполагает наличие словаря основ и словаря аффиксов. Для слова выполняется процедура поиска в словаре основ. При этом ищутся все основы, с которых может начинаться анализируемое слово. Если очередная основа удовлетворяет этому условию, то из словаря аффиксов извлекается строка, содержащая все возможные аффиксы для данной основы. Каждый аффикс из этой строки поочередно присоединяется к основе, и результат сравнивается с анализируемым словом. В случае их точного совпадения формируется очередная запись в список результатов поиска: по порядковому номеру аффикса в строке аффиксов определяются переменные морфологические параметры слова (например, для существительного - число и падеж), а по словарной информации данной основы - его постоянные параметры (для существительного — род и одушевленность).

Если в результате такого поиска не найдено ни одного успешного варианта, то проводится поиск среди исключений. Исключения присутствуют в словаре основ наряду с обычными основами. И те, и другие имеют в словаре информацию о постоянных морфологических признаках и о номере строки допустимых аффиксов.

Разница между исключениями и обычными основами состоит в том, что, во-первых, строка с неизменной частью слова у исключений пустая, и, во-вторых, номер строки аффиксов для исключений относится не к файлу аффиксов, а к отдельному файлу исключений. Структура этого файла точно такая же, но в него внесены целые словоформы, а не их окончания. Таким образом, при поиске среди исключений приходится просматривать все словоформы всех присутствующих в словаре исключений. Это занимает много времени, поэтому поиск среди исключений проводится только в том случае, когда не найдено ни одного варианта среди обычных основ. Сам анализ проводится точно так же. Если некоторая словоформа некоторого исключения точно совпадает с анализируемым словом, то по номеру словоформы определяются переменные морфологические параметры слова, а по словарной информации самого исключения — постоянные параметры слова.

Если после поиска среди исключений все равно не найдено ни одного варианта, то проверяется наличие у анализируемого слова возвратного суффикса ся, сь, или приставок не, ни. Если они есть, то они отсекаются от анализируемого слова, и процедура поиска повторяется сначала. При этом морфологические параметры находимых основ модифицируются специальной процедурой. В случае, когда все этапы поиска дали отрицательный результат (не найдено ни одного варианта), пользователю выдается запрос на ввод новой основы в словарь. В случае его отказа это сделать выполнение морфологического анализа прекращается. Если же новое слово введено в словарь, то вся процедура поиска повторяется сначала.

Второй подход предполагает наличие словаря начальных форм и МИ, необходимой для словоизменения (как-то, часть речи, род и т.д.), а также массивов окончаний и программной реализации правил чередования в основе. Подход состоит в том, что слово последовательно причисляется к каждой из частей речи. Последовательно выбираются окончания для этой части речи. В случае, если окончание одной из косвенных форм совпадает с концовкой слова, совпадающая часть отбрасывается, производятся чередования в основе, если слово соответствует шаблону чередования, и к полученной основе добавляется окончание леммы. При построении леммы запоминается промежуточная информация.

Таким образом, все леммы, которые можно построить, вместе с промежуточной информацией собираются в список. Каждое слово этого списка ищется в словаре лемм. Результатом лемматизации является список слов, найденных в словаре, для которых промежуточная информация соответствует грамматической информации из словаря.

Работающая система, в которой реализован процедурный МА, занимает значительно меньший объем памяти, но при этом увеличивается время поиска МИ за счет разбиения словоформы на составляющие и применения процедур совместимости. Исходя из этого, процедурный метод удобнее применять в системах с относительно небольшим количеством пользователей, в то время как декларативный – в системах с частым обращением к лингвистическому анализатору. Другим существенным недостатком процедурных методов является отсутствие универсальности, т.к. существует большое количество слов, которые нельзя представить в виде суммы неизменной основы и аффикса, например, существительное год, которое имеет во множественном числе родительного падежа форму лет; местоимение я и т. д.

В системах реальной степени сложности чаще используется комбинированный вариант МА. При этом используется как словарь словоформ, так и словарь основ. На первом этапе проводится поиск по словарю словоформ, как при декларативном методе, и в случае успешного поиска анализ на этом завершается. В противном случае задействуется словарь основ и процедурный метод анализа.

В последние годы активно развивается направление, использующее универсальные математические модели в форме открытой системы уравнений, позволяющих путем вычисления осуществлять нормализацию словоформ, получение грамматической информации и синтез словоформ. Такой подход вызван стремлением преодолеть ограниченность существующих алгоритмов МА.

Морфологический анализ/синтез с помощью универсальных формальных моделей

Известно, что они ориентировались на тексты определенной тематики и поэтому не полностью учитывали все особенности морфологии. Это направление пытается построить более адекватные морфологические модели. Создаются универсальные математические модели в форме открытой системы уравнений, позволяющих путем вычисления осуществлять нормализацию словоформ, получение грамматической информации и синтез словоформ. Одной из таких моделей является модель Ю.П. Шабанова-Кушнаренко, моделирующая процессы русского языка посредством языка алгебры конечных предикатов, с помощью которого может быть математически описан любой аспект морфологии русского языка. В данной модели текст рассматривается как многоуровневая конструкция: из букв слагаются морфы, из морф – словоформы, из словоформ – предложения, из предложений – абзацы и т.д. Отдельные части этой конструкции – буквы, морфы, словоформы, предложения и т.д. называют фрагментами текста, а фрагментное отношение L(X,Y), у которого в роли переменной Y выступает часть слова (например, буква, морфема) или целое слово, называется морфологическим отношением. Описание морфологических отношений производится на языке алгебры конечных предикатов. В силу принципа однозначности любое морфологическое отношение L(X,Y) есть функция зависимости фрагмента Y от его смысла Х, поэтому иногда морфологическое отношение называют морфологической функцией.

Морфологическая функция представляется в виде функции Y=F(X). В качестве переменной Y используются такие понятия, как основа словоформы, окончание, суффикс и т.д., а в качестве структуры переменной Х - часть речи, род, число, падеж и т.д.

Однако данная модель распространяется лишь на небольшую часть механизма склонения имен существительных и прилагательных. Многие явления, непосредственно относящиеся к процессу склонения, не описываются моделью, что может привести к некорректному разбиению на фрагменты словоформы и, как следствие, неверному МА.

Другим подходом при создании универсальных математических моделей МА является построение адекватных формальных моделей с учетом всех фактов языка. Рассмотрим модель морфологии системы «Смысл – Текст», представляющую интерес с точки зрения реализации данного подхода.

Эта модель в отличие от предыдущих ориентирована на синтез словоформ. В общем виде правила морфологического синтеза выглядят следующим образом:

(λ, χ) → v,

где λ - символ лексемы; χ - морфологические характеристики, v – словоформа.

В модели используются семь промежуточных уровней:

  • глубинно-морфологическое представление;

  • укрупненная морфологическая схема;

  • морфемная схема;

  • поверхностно-морфологическое представление;

  • цепочка не чередованных морфем;

  • цепочка чередованных морфем;

  • орфографическая словоформа.

Преобразованию при переходе с одного уровня на другой подвергается тройка (λi, χi, εi), где λi – некоторая часть морфологического описания лексемы, отображающая и заменяющая лексему на i-том уровне, χi – релевантная для i-го уровня часть характеристик, εi – соответствующая i-му уровню формируемая цепочка символов.

На первом этапе происходит обращение к словарной статье лексемы и переработка в ней информации. При этом правила выбора основной морфы присоединяются ко всем остальным правилам преобразования элементов цепочек εi, а из морф, характеристики χ и синтактики ξ компонуется новый вектор f, называемый грамматической характеристикой. На этом же этапе подготавливаются векторы Фi, состоящие из значений признаков вектора f, релевантных для этого этапа преобразования цепочки εi. По сути дела, Фi объединяет в себе λi и χi (как правило, в разные Фi входят значения разных признаков вектора f).

Однотипный алгоритм синтеза переводит двойку (Фi, εi) (i = 0, 1, ...) в εi+1, затем к последней присоединяется заранее сформированный вектор Фi+1, после чего цикл формирования цепочки следующего уровня повторяется вплоть до формирования словоформы.

Морфологические правила при этом делятся на три группы:

1 – описание недопустимых вариантов характеристик;

2 – осуществляют компоновку признаков морфологической характеристики и синтактики в грамматическую характеристику f;

3 – основная часть правил, осуществляющих преобразование элементов цепочек εi.

В рассмотренной модели предлагается единая форма таких правил:

Q |- Aσi B → Aξi+1 B,

где |- - разделительный знак;

Q – условие применимости правила в виде ДНФ, элементами конъюнкций в которой служат утверждения относительно значений признаков упомянутой грамматической характеристики;

σi – заменяющий символ;

ξi+1 – возникающая подцепочка символов, иногда пустая;

А, В – релевантный внутрицепочечный контекст, т.е. другие подцепочки, которые в частном случае могут содержать и символы, возникающие на рассмотренном этапе синтеза.

Морфологическое описание лексемы состоит из правил выбора основной морфы и лексемной синтактики ξ, сжато характеризующей правила выбора аффиксальных морф для всех включенных в парадигму данной лексемы словоформ. Правила выбора основы имеют общий вид:

Q |- {основа} → α,

где Q – условие в виде ДНФ из значений признаков грамматической характеристики f1;

{основа} – символ основной морфемы;

α - цепочка символов более низкого уровня, чем {основа}.

Обычно правило выбора основы является безусловным. При построении данной модели учитывались все возможные факты русской морфологии. Поэтому здесь можно описать любую русскую лексему, а с помощью соответствующего множества правил подстановок – синтезировать любую словоформу этой лексемы.

Анализ показал, что наиболее распространенным методом МА является декларативный, что объясняется простотой его алгоритма и удобством кодирования. После МА лексеме приписывается кортеж с совокупностью морфологической информации, которая поступает на вход синтаксического анализатора, рассмотренного в следующих лекциях.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]