Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
I часть.doc
Скачиваний:
44
Добавлен:
16.08.2019
Размер:
879.62 Кб
Скачать
  1. Морфологический анализ. Виды ма. Лингвистическое обеспечение морфоанализаторов (словарь Зализняка и др.). Лексико-грамматический анализ и разметка (pos-tagging). Области применения.

Морфологический анализ

  1. Если в традиционном языкознании под морфологией понимают только то, что относит к форме слова, то в системах АОТ морфологический анализ означает процедуру, в которой из формы или внешнего оформления слова в тексте можно получить сведения о разных уровнях языковой структуры. Таким образом понятие морфологического анализа было сформировано в прикладной лингвистике и широко использовалось в машинном переводе. Первый год работ по направлению машинного перевода было предложено большое количество алгоритмов морфологического анализа с наукой. На сегодняшний день эта задача является самой сложной, т.к существует большое количество хорошо работающих алгоритмов морфологического анализа для разных языков.

Таким образом, понятие морфологического анализа является понятием операционным, и если в традиционной лингвистике к нему относят только то, что характеризует формы слова и отвечает на вопрос «что классифицируется?», то в компьютерной лингвистике важно не что, а как получается та или иная информация из формы слова в тексте.

Морфологический анализ – это преобразование входного текста в его морфологическую структуру, при этом единицей морфологического анализа является словоформа, на который делится текст.

Морфологическая структура – это последовательность морфологических структур входящих в текст словоформ, причем эти элементы располагаются в том же порядке, что и соответствующие словоформы в тексте.

Морфологическая структура словоформы - это ее имя, или соответствующая лексема с набором ее грамматических характеристик.

К числу функций компьютерной морфологии относятся:

1.получение всех форм слова

2. постановка слова в заданную форму

3. получение грамматических характеристик словоформы.

Алгоритмы морфологического анализа.

В основу морфологического анализа положено разбиение всех слов на классы, определяющий характер изменения буквенного состава форм слова. Эти классы называют морфологическими, а изменения формы слова могут носить различный характер и может быть связанно как с изменением формы слова, так и с изменением его окончания и т.д. и является основным способом образования различной формы слова.

В работе морфологического анализа в системах АОТ выделяют несколько основных направлений:

  1. Моделируют классификационную схему анализа путем разделения словоформы на основу и предположительное окончание с последующей проверкой совместимости окончания с основой.

  2. Другое направление использует информацию, содержащуюся в конечном буквосочетании, и эта информация получается в результате предварительной статистической обработки словарей основ и флексий.

  3. Создание универсальной математической модели морфологии в форме некоторой системы правил, позволяющих путем вычисления осуществить нормализацию словоформ и получение грамматической информации.

Виды МА

В связи с этим выделяют следующие виды морфологического анализа:

  1. Морфологический анализ со словарями, который является основным и распространенным и используется для большинства языков.

  2. морфологический анализ со слов словоформ. Так же является довольно распространенным и наиболее простой из всех видов.

  3. Морфологический анализ метода логического умножения. Это понятие формальной морфологии, разработанной в 60-хх годах.

  4. Морфологический анализ без словарей, но с помощью специальных таблиц аффиксов и особого списка слов, не имеющих грамматического значения. Этот вид анализа называется независимым, т.к. работа проводиться без словарей.

Лингвистическое обеспечение морфоанализаторов (словарь Зализняка и др.)

Под лингвистическим обеспечением таких программ подразумевают специальные словари языковых единиц, и наиболее известными являются обратный словарь, а также морфологический словарь Зализняка. Кроме того в лингвистическое обеспечение также входит компьютерная модель морфологии естественного языка.

Обратный словарь.

Является наиболее известным, и он учитывает требования морфологического анализа и имеет специфическое представление слов, т.е. сначала идут слова, оканчивающиеся на 1- ую букву алфавита и т.д. При совпадении учитывает предпоследнюю.

Таким образом, расположение в алфавитном порядке, начиная с конца слова. При этом объединяются слова, относящиеся к одному словообразовательному типу, а так же сложные слова с одинаковой последней составляющей.

Обратные словари могут решать широкий круг задач и использоваться для машинного перевода, при определенных грамматических характеристиках слова, а так же при анализе словоформ флективных языков.

Морфологические словари.

К ним относят словари префиксов, аффиксов и основ. Одним из широко известных стал русский словарь русского ученого-лингвиста Зализняка.

Полиграфический вариант этого словаря состоит из:

  1. Грамматические введения (120 стр.)

  2. Сам словарь (740 стр.)

В первой его части рассматривается грамматика слова (склонение, спряжение и т.д.)

А во второй приведены слова, которым приписаны грамматические индексы, характерный тип словоизменения и схема образования словоформ. Слова упорядочены по окончанию словоформы, что удобно для грамматического словаря, т.к. слова со сходным грамматическим поведением располагаются компонентными группами.

Его так же активно используют для:

  1. генерации на его основе всех словоформ данного слова.

  2. создания формальной модели словоизменения

  3. использования в исходной форме, но в электронном виде с доработкой алгоритмов, моделирующих работу с грамматическими сведениями первой части.

В связи с этим слова делятся на 2 класса:

  • неизмененные слова

  • измененные слова

Совокупность форм слова или словоформ образует парадигму, в каждой словоформе выделяют основу и флексию и с ними связаны определенные грамматические характеристики. Они включают в себя:

  1. морфологический класс

  2. парадигматический класс

  3. чередование

  4. исключение

Слово изменяемый признак определяет набор значений грамматических переменных следующих типов:

  1. одушевленность

  2. род

  3. число

  4. падеж

  5. лицо

  6. залог

  7. возвратность

  8. время

  9. наклонение

  10. степень

Эти типы значений имеют соответствующие числовые коды: значение «род» кодируется следующим образом: 1 – м.р., 2 – ж.р., 3- ср.р., 0 – непонятно.

Лексико-грамматический анализ в естественных языках

Он является промежуточным между морфологическими и синтаксическими анализами, так как готовят почву только для синтаксического анализа.

POS – part of speech (= tagging) тэгирация. = морфолого-синтаксическая разметка текста.

Задача ЛТА – автоматически распознать к какой части речи принадлежит слово в тексте. Данную задачу решают с помощью морфологической разметки текста, т.е. использует морфологический анализ и в основе лежат 2 основных алгоритма.

  1. вероятно-статистический. Использует словарь синтаксических форм языка с соответствующими морфологическими классами, и базируются на информационной встречаемости всех возможных последующих грамматических классов.

  2. основанный на продукциях (если,…. то).

Пример: если морфологические формы могут быть как глаголом, так и существительным, и перед ней стоит артикль, то это морфологическая форма существительного.

Оба подхода хороши и правильного анализа достигает 90 %. Вводят даже специальные стандарты, чтобы унифицировать систему автоматического анализа естественного языка.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]