Морфологическая информация, этапы морфологического разбора текста

Цель МА — определить принадлежность некоторой словоформы к парадигме определенной лексемы и грамматические признаки для этой словоформы – морфологическую информацию (МИ) для использования ее на последующих этапах обработки ЕЯ текста.

Для русского языка, как и для большинства синтетических языков, задача лексико-грамматического разбора решается довольно просто и почти стопроцентной точностью, благодаря их развитой морфологии. В аналитических языках, например английском, где широко представлена лексическая многозначность, простой алгоритм, сопоставляющий каждому слову в тексте наиболее вероятный для данного слова морфологический класс, дает лишь около 90% точности.

Для синтетических языков морфологический разбор текста включает:

Выделение внутри предложений отдельных словоформ.
Определение всех вариантов комбинаций основ и аффиксов для каждой словоформы и, соответственно, вариантов грамматических форм.
Устранение грамматической неоднозначности на основе комбинаторного словаря, содержащего все контексты употребления слов.

Для увеличения точности разбора используются два типа алгоритмов: вероятностно-статистические и основанные на продукционных правилах.

Алгоритмы, основанные на продукционных правилах, используют правила, которые строятся автоматически на основе некоторого корпуса текстов или создаются лингвистами.

Вероятностно-статистические алгоритмы используют, в основном, два источника информации.

Словарь словоформ, в котором каждой словоформе соответствует множество лексико-грамматических классов, которые могут быть у данной словоформы. Для каждого лексико-грамматического класса указывается частота его встречаемости относительно других морфологических классов данной словоформы.
Информация о встречаемости всех возможных последовательностей морфологических классов попарно, по тройкам, по четверкам и т.д. с относительной частотой такой пары (тройки, четверки и т.д.). Эта информация обрабатывается неким статистическим алгоритмом (например, на основе скрытых цепей Маркова) для нахождения наиболее вероятного лексико-грамматического класса для каждого слова в предложении.

Оба подхода дают примерно одинаковый результат на уровне 96-98 % точности.

Существует несколько классификаций основных видов алгоритмов морфологического анализа. По использованию словарей системы МА можно разделить на словарные (со словарем словоформ или со словарем основ) и бессловарные, а по организации алгоритмов — на методы с декларативной, процедурной и комбинированной ориентацией.

Билет № 41

Синтаксический анализ

Синтаксический анализ – это процесс, который определяет, принадлежит ли некоторая

последовательность лексем языку, порождаемому грамматикой. В принципе, по любой

грамматике можно построить синтаксический анализатор, но грамматики, используемые

на практике, имеют специальную форму. Анализаторы реально используемых

языков обычно имеют линейную сложность; это достигается, например, за счет просмотра

исходной программы слева направо с заглядыванием вперед на один терминальный

символ (лексический класс).

Вход синтаксического анализатора – последовательность лексических и таблицы,

например, таблица внешних представлений, которые являются выходом лексического

анализатора.

Выход синтаксического анализатора – дерево разбора и таблицы, например, таблица

идентификаторов и таблица типов, которые являются входом для следующего просмотра

компилятора (например, это может быть просмотр, осуществляющий контроль типов).

Отметим, что совсем необязательно, чтобы фазы лексичекого и синтаксического анализа

выделялись в отдельные просмотры. Обычно эти фазы взаимодействуют друг с другом на

одном просмотре. Основной фазой такого просмотра считается фаза синтаксического

анализа, при этом синтаксический анализатор обращается к лексическому анализатору

каждый раз, когда у него появляется потребность в очередном терминальном символе.

<<< < Предыдущая 1 2 3 4 56 / 76 7 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
08.06.201553.89 Кб27Игры на знакомство.docx
#
08.06.2015106.59 Кб16Иероглифы 4 урок.docx
#
19.09.2019111.18 Кб7ИЗЖ. С 1 по15 второй части.docx
#
16.04.201941.02 Кб9икг 8-14.docx
#
01.07.2025345.6 Кб2ИКГ.doc
#
21.09.201953.23 Кб7ИКТ.docx
#
24.04.201938.6 Кб3ИМК 32-36,38(0,5),39.docx
#
06.08.201992.16 Кб3имк ответы 40-45.doc
#
27.04.2019493.57 Кб7ИМК.doc
#
28.04.20191.08 Mб4ИМК.doc
#
28.03.2016128.85 Кб11Индив --коллектив.docx