- •I часть. «Прикладная и компьютерная лингвистика»
- •Язык и теория знаков. Семиотика (предмет, объект, методы, задачи).
- •Структурная и Математическая лингвистика. Моделирование в лингвистике. Понятие лингвистической модели. Основные требования к модели. Понятие формализации.
- •Аналитический вид
- •Синтетический вид
- •Языки и модели представления знаний и семантики (семантические сети, фреймы, логика предикатов, продукции, сценарии и др.).
- •Лингвистические модели (исследовательские, модели анализа и синтеза, порождающие). Задачи Теории формальных языков. Иерархия Хомского.
- •Иерархия Хомского:
- •Компьютерные программы поддержки лексикографических работ
- •Новые разработки в лексикографии
- •Основные понятия
- •Типы корпусов
- •Основные требования к корпусам и основная задача
- •Опыт разработки корпусов текстов
- •Технологии анализа и синтеза естественного языка. Области использования. Уровневый анализ ея, начиная с технологий ocr/icr и т.Д.
- •Морфологический анализ. Виды ма. Лингвистическое обеспечение морфоанализаторов (словарь Зализняка и др.). Лексико-грамматический анализ и разметка (pos-tagging). Области применения.
- •Синтаксический анализ, задачи вывода и разбора (формальные грамматики, модели составляющих и зависимостей, нисходящий и восходящий парсинг).
- •Формальные системы, используемые в автоматизированных и синтаксических анализах.
- •3 Основных способа представления синтаксической структуры предложения.
- •Дерево вывода.
- •Стилистика. Прикладной характер стилистических исследований. Стилистические средства языка. Функциональные стили речи. Основные особенности.
- •II) Некоторые понятия звуковых технологий
- •Синтез речи – задачи и принцип работы систем. Методы синтеза речи, способы моделирования человеческой речи, типы синтезаторов речи. Системы синтеза текст-речь.
- •II)Классификация программ call.
- •III)Дистанционное обучение ( Distant Learning)
- •3 Основных компонента в www:
- •2.2 Гипертекстовая технология
- •Как указывать ключевые слова?
- •Социолингвистика
- •Информационный язык
- •Прямой поиск
- •Инвертированный файл
- •Область технической коммуникации как новое направление прикладной лингвистики. Компетенции разработчика технической документации. Стандартизация документов.
- •Прикладная и теоретическая лингвистика – проблемы взаимовлияния.
Синтаксический анализ, задачи вывода и разбора (формальные грамматики, модели составляющих и зависимостей, нисходящий и восходящий парсинг).
Синтаксический анализ, задачи вывода и разбора
Синтаксический анализ предложения является необходимым этапом обработки речи при решении задач прикладной лингвистики.
Например, синтаксический и автоматизированный анализ выполняется во всех достаточно развитых системах машинного перевода, и систематизированная структура может здесь использоваться как для получения семантического интерпретирования предложения, так и для преобразования синтаксической структуры во вход предложения, в синтаксическую структуру выхода предложения.
В кусную кашу ела Маша
трансфер
Д С П
При анализе текста в информационно поисковых системах применяется неполный синтаксический анализ, при котором распознаются отдельные части, в основном именных словосочетаний. Это обусловлено тем, что целью АО является индексирование текстов, т.е. распознание понятия или словосочетания.
При таком анализе, в структуру входят только именные словосочетания, используются в компьютерных системах, обеспечивают общение человека с машиной.
Цель – распознавание синтаксической структуры предложения или отдельной его части.
В этом процессе устанавливаемая цепь удовлетворяет цепи словоформ, образуя предложение, структурным условиям, заданными правилами формальной грамматики языка.
При положительном ответе, анализируемой предложение признается правильным с точки зрения данной грамматики, а его структура получает явное описание или представление в форме принятой данной грамматикой.
Разработка способов представления синтаксической структуры предложения одна из основных проблем теории синтаксических структур.
Формальные системы, используемые в автоматизированных и синтаксических анализах.
Для синтаксического анализа и моделирования синтаксических структуры используется аппарат формальной грамматики. В настоящее время использует 3 основных типа грамматик:
регулярные грамматики – могут быть полностью задействованы, если не требуется полного синтаксического анализа.
контекстно-свободные грамматики – в том или ином виде положены в основу теории формального синтаксиса.
мягко-контекстно-зависимые – наиболее адекватно описывают синтаксис языка, но сложны в реализации.
Модели составляющих и зависимостей
3 Основных способа представления синтаксической структуры предложения.
структура cоставляющих
структура зависимости
структура, совмещающая 2 предыдущие – ориентированная структура составляющих.
Алгоритмы СА строятся на базе моделей формальной грамматики:
Система составляющая распознается как модель синтаксической структуры, в которой в качестве элементов синтаксических единиц выступают словоформы или в некоторых случаях сложные союзы, словосочетания, а в качестве структурного отношения между ними используется одно отношение включения одного в другое словосочетание. Графическим определениям эти отношениям на множестве составляющих словосочетаний является деревом, корнем которого является предложение, а ушами – словоформы. Это и есть дерево НС.
Пример: 1 2 3 4 5 6
« Для представления синтаксической структуры предложения используется
7 8
структура составляющих.»
1П
2
1 3
4 5 6 7 8
Второй пример представляет размеченную структуру:
The pilot has seen a big mountain.
S
NP VP
DET NPn AnW VP
now has
The VP2 NP
pilot
seen DET NPn
a Adg NPn
big NOM
mountain
адекватное отражение грамматической и синтетической точки зрения.
Исходит из того, что 2 синтаксические формы в предложении обычно неравноправны и в грамматическом, и в синтетическом плане. Это отношение зависимости базируется на традиционных синтаксических отношениях, т.е. отношения управления, согласование, примыкание.
Набор таких зависимостей и определяет структуру(синтаксическая). При анализе предложения я использовал различные деревья зависимости (ДЗ). В ДДЗ каждая дуга отнесена к определенному типу грамматической связи между синтаксическими формами (например отношения между подлежащим и сказуемым – предикатов).
Набор типов грамматических отношений зависит от конкретной грамматики языка (например, Мельчук рассматривает 31 тип зависимости в русском языке).
Пример: рассмотрим тоже предложение.
1 2 3 4 5 6 7 8
Основные различия этих 2 составляющих:
Элементами едиными в ДЗ является расхождение синтаксических форм, а элементами едиными в структуре составляющих являются словосочетания.
Структура зависимостей базируется на неравноправном отношении между словоформами, в структуре составляющих такого нет, поэтому в большинстве систем для представления структур используют комплексный подход, включает в себя и структуру зависимости и составляющие.
Нисходящий и восходящий парсинг
Рассмотрим многие понятия формальных грамматик на простых примерах. Набор правил синтаксиса любого языка, как искусственного, так и естественного, может описывать либо процедуры получения правильных предложений (т.е. порождение языка), либо процедуру распознавания правильного предложения, т.е. процедуру распознавания принадлежности предложений этому языку. В первом случае грамматику называют порождающей, во втором – распознающей, в любом случае принцип построения такой грамматики один и тот же.
Например, пусть дана формальная грамматика:
Б={(<Пр>, <П>, <с>, <ис>, <М>, <ГФ>), (кот, пес, он, идет, лежит), P, S = <Пр>}
Р={<Пр>→<П> <с> Пр - предложение
<П>→<ис> П - подлежащее
<П>→<М> с = сказуемое
<ис>→кот ис – имя существительное
<ис>→пес М - местоимение
<М>→он ГФ – глагольная форма
<с>→<ГФ>
<ГФ>→идет
<ГФ>→лежит
БНФ:
<Пр>: : = <П><с>
<П> : : = <ис>/<М>
<ис> : : = кот/пес
<М> : : = он
<с> : : = <ГФ>
<ГФ> : : = идет/лежит
Формальную грамматику можно представить в виде ориентированного графа для наглядности, причем, если в правую часть правил входит несколько символов, то их объединяют знаком +, для изображения правил с одинаковыми левыми частями используют узел, отмеченный знаком «или» (v).
<Пр>
↑
+
<П> <с>
↑ ↑
V <ГФ>
< ис> <М>
↑ ↑
кот пес
идет лежит
Любое представление формальной грамматики, получающееся на базе правил, называется сентенциальными формами.
Наша грамматика порождает 6 правильных предложений или сентенциальных форм:
Кот идет
Кот лежит
Пес идет
Пес лежит
Он идет
Он лежит
«Кот лежит» можно вывести двумя способами:
<Пр> <П> <с> <ис><с> кот<с> кот<ГФ> кот лежит
<Пр> <П> <с> <П><ГФ> <П>лежит <ис>лежит кот лежит
По определению каждой сентенциальной форме должен соответствовать один вывод, однако на практике это редко бывает, разные выводы приводят к разным деревьям вывода, особенно для сложных фраз и конструкций языков, и вывод любой фразы можно представить так называемым синтаксическим деревом (дерево вывода или разбора).