- •Глобальная модель мира
- •Информационно-поисковые системы
- •Состав информационно-поисковой системы:
- •Структура системы синтеза речи Синтезатор включает четыре основных модуля:
- •Системы синтеза речи реализуют следующие технологии:
- •Формирование краткого изложения
- •Цель анализа предложения на естественном языке - перевод их на м-язык вычислительной системы. Функциями анализатора являются:
- •Основные термины морфологии
- •Морфологическая информация, этапы морфологического разбора текста
- •Синтаксический анализ
- •Классы синтаксических анализаторов
Морфологическая информация, этапы морфологического разбора текста
Цель МА — определить принадлежность некоторой словоформы к парадигме определенной лексемы и грамматические признаки для этой словоформы – морфологическую информацию (МИ) для использования ее на последующих этапах обработки ЕЯ текста.
Для русского языка, как и для большинства синтетических языков, задача лексико-грамматического разбора решается довольно просто и почти стопроцентной точностью, благодаря их развитой морфологии. В аналитических языках, например английском, где широко представлена лексическая многозначность, простой алгоритм, сопоставляющий каждому слову в тексте наиболее вероятный для данного слова морфологический класс, дает лишь около 90% точности.
Для синтетических языков морфологический разбор текста включает:
Выделение внутри предложений отдельных словоформ.
Определение всех вариантов комбинаций основ и аффиксов для каждой словоформы и, соответственно, вариантов грамматических форм.
Устранение грамматической неоднозначности на основе комбинаторного словаря, содержащего все контексты употребления слов.
Для увеличения точности разбора используются два типа алгоритмов: вероятностно-статистические и основанные на продукционных правилах.
Алгоритмы, основанные на продукционных правилах, используют правила, которые строятся автоматически на основе некоторого корпуса текстов или создаются лингвистами.
Вероятностно-статистические алгоритмы используют, в основном, два источника информации.
Словарь словоформ, в котором каждой словоформе соответствует множество лексико-грамматических классов, которые могут быть у данной словоформы. Для каждого лексико-грамматического класса указывается частота его встречаемости относительно других морфологических классов данной словоформы.
Информация о встречаемости всех возможных последовательностей морфологических классов попарно, по тройкам, по четверкам и т.д. с относительной частотой такой пары (тройки, четверки и т.д.). Эта информация обрабатывается неким статистическим алгоритмом (например, на основе скрытых цепей Маркова) для нахождения наиболее вероятного лексико-грамматического класса для каждого слова в предложении.
Оба подхода дают примерно одинаковый результат на уровне 96-98 % точности.
Существует несколько классификаций основных видов алгоритмов морфологического анализа. По использованию словарей системы МА можно разделить на словарные (со словарем словоформ или со словарем основ) и бессловарные, а по организации алгоритмов — на методы с декларативной, процедурной и комбинированной ориентацией.
Билет № 41
Синтаксический анализ
Синтаксический анализ – это процесс, который определяет, принадлежит ли некоторая
последовательность лексем языку, порождаемому грамматикой. В принципе, по любой
грамматике можно построить синтаксический анализатор, но грамматики, используемые
на практике, имеют специальную форму. Анализаторы реально используемых
языков обычно имеют линейную сложность; это достигается, например, за счет просмотра
исходной программы слева направо с заглядыванием вперед на один терминальный
символ (лексический класс).
Вход синтаксического анализатора – последовательность лексических и таблицы,
например, таблица внешних представлений, которые являются выходом лексического
анализатора.
Выход синтаксического анализатора – дерево разбора и таблицы, например, таблица
идентификаторов и таблица типов, которые являются входом для следующего просмотра
компилятора (например, это может быть просмотр, осуществляющий контроль типов).
Отметим, что совсем необязательно, чтобы фазы лексичекого и синтаксического анализа
выделялись в отдельные просмотры. Обычно эти фазы взаимодействуют друг с другом на
одном просмотре. Основной фазой такого просмотра считается фаза синтаксического
анализа, при этом синтаксический анализатор обращается к лексическому анализатору
каждый раз, когда у него появляется потребность в очередном терминальном символе.