Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИКТ.docx
Скачиваний:
2
Добавлен:
21.09.2019
Размер:
53.23 Кб
Скачать

Морфологическая информация, этапы морфологического разбора текста

Цель МА — определить принадлежность некоторой словоформы к парадигме определенной лексемы и грамматические признаки для этой словоформы – морфологическую информацию (МИ) для использования ее на последующих этапах обработки ЕЯ текста.

Для русского языка, как и для большинства синтетических языков, задача лексико-грамматического разбора решается довольно просто и почти стопроцентной точностью, благодаря их развитой морфологии. В аналитических языках, например английском, где широко представлена лексическая многозначность, простой алгоритм, сопоставляющий каждому слову в тексте наиболее вероятный для данного слова морфологический класс, дает лишь около 90% точности.

Для синтетических языков морфологический разбор текста включает:

  1. Выделение внутри предложений отдельных словоформ.

  2. Определение всех вариантов комбинаций основ и аффиксов для каждой словоформы и, соответственно, вариантов грамматических форм.

  3. Устранение грамматической неоднозначности на основе комбинаторного словаря, содержащего все контексты употребления слов.

Для увеличения точности разбора используются два типа алгоритмов: вероятностно-статистические и основанные на продукционных правилах.

Алгоритмы, основанные на продукционных правилах, используют правила, которые строятся автоматически на основе некоторого корпуса текстов или создаются лингвистами.

Вероятностно-статистические алгоритмы используют, в основном, два источника информации.

  • Словарь словоформ, в котором каждой словоформе соответствует множество лексико-грамматических классов, которые могут быть у данной словоформы. Для каждого лексико-грамматического класса указывается частота его встречаемости относительно других морфологических классов данной словоформы.

  • Информация о встречаемости всех возможных последовательностей морфологических классов попарно, по тройкам, по четверкам и т.д. с относительной частотой такой пары (тройки, четверки и т.д.). Эта информация обрабатывается неким статистическим алгоритмом (например, на основе скрытых цепей Маркова) для нахождения наиболее вероятного лексико-грамматического класса для каждого слова в предложении.

Оба подхода дают примерно одинаковый результат на уровне 96-98 % точности.

Существует несколько классификаций основных видов алгоритмов морфологического анализа. По использованию словарей системы МА можно разделить на словарные (со словарем словоформ или со словарем основ) и бессловарные, а по организации алгоритмов — на методы с декларативной, процедурной и комбинированной ориентацией.

Билет № 41

Синтаксический анализ

Синтаксический анализ – это процесс, который определяет, принадлежит ли некоторая

последовательность лексем языку, порождаемому грамматикой. В принципе, по любой

грамматике можно построить синтаксический анализатор, но грамматики, используемые

на практике, имеют специальную форму. Анализаторы реально используемых

языков обычно имеют линейную сложность; это достигается, например, за счет просмотра

исходной программы слева направо с заглядыванием вперед на один терминальный

символ (лексический класс).

Вход синтаксического анализатора – последовательность лексических и таблицы,

например, таблица внешних представлений, которые являются выходом лексического

анализатора.

Выход синтаксического анализатора – дерево разбора и таблицы, например, таблица

идентификаторов и таблица типов, которые являются входом для следующего просмотра

компилятора (например, это может быть просмотр, осуществляющий контроль типов).

Отметим, что совсем необязательно, чтобы фазы лексичекого и синтаксического анализа

выделялись в отдельные просмотры. Обычно эти фазы взаимодействуют друг с другом на

одном просмотре. Основной фазой такого просмотра считается фаза синтаксического

анализа, при этом синтаксический анализатор обращается к лексическому анализатору

каждый раз, когда у него появляется потребность в очередном терминальном символе.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]