Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
информатика. ответы на вопросы..doc
Скачиваний:
6
Добавлен:
28.10.2018
Размер:
441.34 Кб
Скачать
  1. , 9) Типы машинных словарей. Словарь машинных основ и машинных флексий, его достоинства и недостатки.

  2. Словарь словоформ, его достоинства и недостатки.

Машинные  словари

Обязательный  компонент любого лингвистического процессора

Машинные словари  должны соответствовать необходимым  операциям над словом:

Например, наличие  терминов – есть слово телифон – жучок, который способен замкнуть электросистемы – нужно ли это слово обычному пользователю

Цели создания  машинных словарей абсолютно не совпадают  с целями создания словарей для человека

2 Основных формата машинных словарей:

   1. типа  машинная основа + машинная флексия

   2. словарь  словоформ 

тип машинная основа + машинная флексия

Программа представляет собой набор машинных основ и  соответствующих им наборов флексий.

В парадигме  слова выделяется неизменяемая часть – может совпадать или не совпадать с лингвистической основой

машинная флексия  – весь набор флексий, присоединяемых к этой основе

Такие словари  придумывали для английского  языка

Применимы к  языкам с бедной системой словоизменения, без исторических чередований в  корне

Бел яз – фонетический принцип записи слов: ракі, рэкі і т.д. – неприменим

Такие словари занимают мало памяти, но требуют много времени для правильного выделения основы (совпадение основ, состоящих из малого количества букв – требуется время на сопоставление их с возможными наборами флексий) 

 словарь словоформ

В словаре полностью представлены развернутые парадигмы каждого слова, каждая парадигма отделяется от другой каким-либо значком

Омонимичные формы  внутри парадигмы обязательно записываются

Слова в таком  словаре нельзя сортировать по алфавиту – это словарь парадигм

К каждому слову добавляется грамматический код – коды могут быть разными (в зависимости от назначения словаря):

Только часть  речи, род число падеж или

Часть речи, род число падеж + собственное- нарицательное, одушевленное (например)

Такой словарь  занимает огромный объем

( в русс яз 5 млн словоформ, в бел яз  – 3,5 млн – меньше причастий),

Но имеет высокую  скорость поиска,

Разрешает грамматическую омонимию в тексте.

Недостатки обоих  словарей:

абсолютно лишены семантичности

не способны анализировать потенциальные слова – авторские неологизмы

  1. Основные типы машинных грамматик.

Три типа: контекстно- зависимые грамматики, контекстно -независимые и трансформационные 

Дальше по отрывку  из разных источников: 

Анализ отдельных  предложений 

После того как  произведен анализ каждого слова, начинается анализ отдельных предложений (синтаксический анализ), позволяющий определить взаимосвязи между отдельными словами и частями предложения. Результатом такого анализа является граф, узлами которого выступают слова предложения; при этом, если два слова связаны каким-либо образом, то соответствующие им вершины графа связаны дугой с определенной окраской. Возможные окраски дуг зависят от языка, на котором написано предложение, а также от выбранного способа представления синтаксической структуры предложения. 

При синтаксическом анализе предложений русского языка в качестве окрасок дуг можно использовать вопросы, задаваемые от одного слова к другому. В вершинах графа слова пишутся не в том виде, в котором они встречаются в предложении, а в своей основной словоформе. Некоторым словам (например, предлогам) вообще не соответствует ни одна из вершин графа, но эти слова влияют на вопросы, задаваемые от одного слова к другому. 

Возможны и  другие способы представления зависимостей между словами в предложении (например, разбор предложения по частям и выделение подлежащего, сказуемого и т.д.). На основе системы этих зависимостей могут быть разработаны иные способы представления синтаксической структуры предложения

Перейдем к  методам синтаксического анализа  предложений. Их можно разделить  на две группы:

  1. методы с фиксированным, заранее заданным набором правил

  2. самообучающиеся методы.

Правила представляются не в виде классических продукций («если ..., то ...»), а в виде грамматик, задающих синтаксис языка. Исторически, первым способом описания синтаксиса языка были формальные грамматики. Они задаются в виде четырех компонентов: множество терминальных символов, множество нетерминальных символов, правила вывода и начальный символ. Формальные грамматики хорошо изучены и широко применяются при описании формальных языков (например, языков программирования), но непригодны для описания синтаксиса естественных языков. 

Трансформационные грамматики разрабатывались уже специально для задания синтаксических правил построения предложений, написанных на естественном языке. Такие грамматики задаются в виде ориентированного графа состояний, всем дугам которого поставлены в соответствие определенные части речи. В начале работы алгоритм синтаксического анализа находится в некотором начальном состоянии; ему соответствует некоторая вершина графа. Алгоритм просматривает предложение слева направо, анализирует встречающиеся слова и делает переходы из одного состояния в другое в соответствии с выходящими из текущей вершины дугами и очередным словом предложения. Работа алгоритма заканчивается, когда предложение просмотрено полностью, либо когда невозможно сделать переход из текущего состояния (нет выходящей дуги с необходимой пометкой). 

К сожалению, трансформационные  грамматики не способны задавать рекурсивные  синтаксические правила; кроме того, построение таких грамматик даже для небольшого подмножества языка требует больших усилий. 

Оба описанных  подхода заключают в себе четко  заданную систему правил, согласно которым производится синтаксический анализ предложения. Помимо уже указанных недостатков они имеют еще один большой минус, который состоит в их неспособности анализировать неправильно построенные предложения. Это привело к созданию новых методов синтаксического анализа, основанных на вероятностном подходе; к ним относятся вероятностные грамматики и вероятностный разбор.

Вероятностные грамматики [6] расширяют формальные грамматики: каждому правилу построения предложения указана некоторая  вероятность применения этого правила. После того, как произведен синтаксический анализ предложения, становится известно, на основе каких правил оно было построено, и на основе сопоставленных с ними вероятностей может быть посчитана «суммарная» вероятность. Конечно, одно и то же предложение может быть разобрано несколькими способами; для каждого из них считается его «суммарная» вероятность и выбирается наиболее вероятный способ построения предложения. Этот метод позволяет анализировать неправильно построенные предложения; однако он, как и два предыдущих, включает в себя систему заранее задаваемых правил. 

Синтаксический  анализ на основе обучающихся систем — пока еще малоизученный подход. Он заключается в следующем. Разрабатывается  множество примеров, содержащих пару — исходное предложение и результат его синтаксического анализа. Этот результат вводится человеком, занимающимся обучением системы, в ответ на каждое подаваемое на вход предложение. Затем, при подаче на вход предложения, не входящего в список примеров, система сама генерирует результат. Для реализации такой обучающейся системы используются такие методы, как нейронные сети, деревья вывода, ILP и методы поиска ближайшего соседа. 

Это далеко не весь спектр методов синтаксического  анализа. Удовлетворительных решений  данного вопроса пока еще не найдено, хотя есть методы, дающие неплохие результаты, но работающие только на подмножестве языка [7]. Решение задачи синтаксического анализа текста должно послужить основой, во-первых, для построения более совершенных синтаксических корректировщиков (программные средства, проверяющие правильность построения предложения) и, во-вторых, для построения алгоритмов более качественного семантического анализа текстов.

Общая схема обработки текстов (рис. 1) инвариантна  по отношению к выбору естественного языка. Независимо от того, на каком языке написан исходный текст, его анализ проходит одни и те же стадии. Первые две стадии (разбиение текста на отдельные предложения и на слова) практически одинаковы для большинства естественных языков. Единственное, где могут проявиться специфичные для выбранного языка черты, - это обработка сокращений слов и обработка знаков препинания (точнее, определение того, какие из знаков препинания являются концом предложения, а какие нет).

Последующие две стадии (определение характеристик отдельных слов и синтаксический анализ), напротив, сильно зависят от выбранного естественного языка. Последняя стадия (семантический анализ) также мало зависит от выбранного языка, но это проявляется только в общих подходах к проведению анализа. 

Семантический анализ основывается на результатах  работы предыдущих фаз обработки  текста, которые всегда специфичны для конкретного языка. Следовательно, способы представления их результатов  тоже могут сильно варьироваться, оказывая большое влияние на реализацию методов семантического анализа. Результаты анализа, произведенного на ранних стадиях, могут быть многозначны: для выходных параметров указывается не одно, а сразу несколько возможных значений (скажем, может существовать несколько способов трактовки одного и того же слова). В таких случаях последующие стадии должны выбирать наиболее вероятные значения результатов ранних стадий анализа и уже на их основе проводить дальнейший анализ текста. 

Рассмотрим  детальнее каждую из стадий анализа текста после разделения текста на отдельные слова и предложения. К первой стадии (анализ отдельных слов) относится морфологический анализ (определение морфологических характеристик каждого слова — часть речи, падеж, склонение, спряжение и т.д.) и морфемный анализ (приставка, корень, суффикс и окончание); ко второй стадии — синтаксический анализ; к третьей — различные задачи семантического анализа (поиск фрагментов, формализация, реферирование и т.д.).