Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
I часть.doc
Скачиваний:
44
Добавлен:
16.08.2019
Размер:
879.62 Кб
Скачать
  1. Синтаксический анализ, задачи вывода и разбора (формальные грамматики, модели составляющих и зависимостей, нисходящий и восходящий парсинг).

Синтаксический анализ, задачи вывода и разбора

Синтаксический анализ предложения является необходимым этапом обработки речи при решении задач прикладной лингвистики.

Например, синтаксический и автоматизированный анализ выполняется во всех достаточно развитых системах машинного перевода, и систематизированная структура может здесь использоваться как для получения семантического интерпретирования предложения, так и для преобразования синтаксической структуры во вход предложения, в синтаксическую структуру выхода предложения.

В кусную кашу ела Маша

трансфер

Д С П

При анализе текста в информационно поисковых системах применяется неполный синтаксический анализ, при котором распознаются отдельные части, в основном именных словосочетаний. Это обусловлено тем, что целью АО является индексирование текстов, т.е. распознание понятия или словосочетания.

При таком анализе, в структуру входят только именные словосочетания, используются в компьютерных системах, обеспечивают общение человека с машиной.

Цель – распознавание синтаксической структуры предложения или отдельной его части.

В этом процессе устанавливаемая цепь удовлетворяет цепи словоформ, образуя предложение, структурным условиям, заданными правилами формальной грамматики языка.

При положительном ответе, анализируемой предложение признается правильным с точки зрения данной грамматики, а его структура получает явное описание или представление в форме принятой данной грамматикой.

Разработка способов представления синтаксической структуры предложения одна из основных проблем теории синтаксических структур.

Формальные системы, используемые в автоматизированных и синтаксических анализах.

Для синтаксического анализа и моделирования синтаксических структуры используется аппарат формальной грамматики. В настоящее время использует 3 основных типа грамматик:

  1. регулярные грамматики – могут быть полностью задействованы, если не требуется полного синтаксического анализа.

  2. контекстно-свободные грамматики – в том или ином виде положены в основу теории формального синтаксиса.

  3. мягко-контекстно-зависимые – наиболее адекватно описывают синтаксис языка, но сложны в реализации.

Модели составляющих и зависимостей

3 Основных способа представления синтаксической структуры предложения.

  1. структура cоставляющих

  2. структура зависимости

  3. структура, совмещающая 2 предыдущие – ориентированная структура составляющих.

Алгоритмы СА строятся на базе моделей формальной грамматики:

  1. Система составляющая распознается как модель синтаксической структуры, в которой в качестве элементов синтаксических единиц выступают словоформы или в некоторых случаях сложные союзы, словосочетания, а в качестве структурного отношения между ними используется одно отношение включения одного в другое словосочетание. Графическим определениям эти отношениям на множестве составляющих словосочетаний является деревом, корнем которого является предложение, а ушами – словоформы. Это и есть дерево НС.

Пример: 1 2 3 4 5 6

« Для представления синтаксической структуры предложения используется

7 8

структура составляющих.»

2

1 3

4 5 6 7 8

Второй пример представляет размеченную структуру:

The pilot has seen a big mountain.

S

NP VP

DET NPn AnW VP

now has

The VP2 NP

pilot

seen DET NPn

a Adg NPn

big NOM

mountain

адекватное отражение грамматической и синтетической точки зрения.

  1. Исходит из того, что 2 синтаксические формы в предложении обычно неравноправны и в грамматическом, и в синтетическом плане. Это отношение зависимости базируется на традиционных синтаксических отношениях, т.е. отношения управления, согласование, примыкание.

Набор таких зависимостей и определяет структуру(синтаксическая). При анализе предложения я использовал различные деревья зависимости (ДЗ). В ДДЗ каждая дуга отнесена к определенному типу грамматической связи между синтаксическими формами (например отношения между подлежащим и сказуемым – предикатов).

Набор типов грамматических отношений зависит от конкретной грамматики языка (например, Мельчук рассматривает 31 тип зависимости в русском языке).

Пример: рассмотрим тоже предложение.

1 2 3 4 5 6 7 8

Основные различия этих 2 составляющих:

  1. Элементами едиными в ДЗ является расхождение синтаксических форм, а элементами едиными в структуре составляющих являются словосочетания.

  2. Структура зависимостей базируется на неравноправном отношении между словоформами, в структуре составляющих такого нет, поэтому в большинстве систем для представления структур используют комплексный подход, включает в себя и структуру зависимости и составляющие.

Нисходящий и восходящий парсинг

Рассмотрим многие понятия формальных грамматик на простых примерах. Набор правил синтаксиса любого языка, как искусственного, так и естественного, может описывать либо процедуры получения правильных предложений (т.е. порождение языка), либо процедуру распознавания правильного предложения, т.е. процедуру распознавания принадлежности предложений этому языку. В первом случае грамматику называют порождающей, во втором – распознающей, в любом случае принцип построения такой грамматики один и тот же.

Например, пусть дана формальная грамматика:

Б={(<Пр>, <П>, <с>, <ис>, <М>, <ГФ>), (кот, пес, он, идет, лежит), P, S = <Пр>}

Р={<Пр>→<П> <с> Пр - предложение

<П>→<ис> П - подлежащее

<П>→<М> с = сказуемое

<ис>→кот ис – имя существительное

<ис>→пес М - местоимение

<М>→он ГФ – глагольная форма

<с>→<ГФ>

<ГФ>→идет

<ГФ>→лежит

БНФ:

<Пр>: : = <П><с>

<П> : : = <ис>/<М>

<ис> : : = кот/пес

<М> : : = он

<с> : : = <ГФ>

<ГФ> : : = идет/лежит

Формальную грамматику можно представить в виде ориентированного графа для наглядности, причем, если в правую часть правил входит несколько символов, то их объединяют знаком +, для изображения правил с одинаковыми левыми частями используют узел, отмеченный знаком «или» (v).

<Пр>

+

<П> <с>

↑ ↑

V <ГФ>

< ис> <М>

↑ ↑

кот пес

идет лежит

Любое представление формальной грамматики, получающееся на базе правил, называется сентенциальными формами.

Наша грамматика порождает 6 правильных предложений или сентенциальных форм:

Кот идет

Кот лежит

Пес идет

Пес лежит

Он идет

Он лежит

«Кот лежит» можно вывести двумя способами:

  1. <Пр> <П> <с> <ис><с> кот<с> кот<ГФ> кот лежит

  2. <Пр> <П> <с> <П><ГФ> <П>лежит <ис>лежит кот лежит

По определению каждой сентенциальной форме должен соответствовать один вывод, однако на практике это редко бывает, разные выводы приводят к разным деревьям вывода, особенно для сложных фраз и конструкций языков, и вывод любой фразы можно представить так называемым синтаксическим деревом (дерево вывода или разбора).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]