
- •Основы прикладной лингвистики
- •Раздел I. Введение
- •Раздел II. Автоматическая обработка текста (аот)
- •Фонетика и графика
- •Морфология (морфонализ)
- •Синтаксис
- •Cемантика
- •100.000 Словоупотреблений. Морфологическая и синтаксическая разметка.
- •Атрибуция текста
- •4 Методики:
- •Автоматическая проверка правописания
Синтаксис
Цель анализа
получить при помощи алгоритмов синтаксическую структуру предложения:
определить члены предложения и отношения между ними
определить структурный тип предложения
Синтаксический анализатор (парсер, парсинг)
Интернациональные эквиваленты
parser
parsing engine
Русские жаргонизмы:
пáрсить (отпáрсить) (предложение, текст)
Синтаксис и морфология
Светит незнакомая звезда,
Снова мы оторваны от дома…
Форма слова и член предложения.
(Не)морфологизированный член предложения.
Синтаксис и семантика
Дороги размыли дожди.
Дожди вызвали аварии на дорогах.
Член предложения и лексическое значение (+ фоновые знания, пресуппозиции высказывания)
Синтаксис и пунктуация
Ветер по морю гуляет
И кораблик подгоняет.
Казнить__нельзя__помиловать.
Член предложения, типы предложений, их границы и знаки препинания
Синтаксическая омонимия
Делегация из Петербурга прибыла в Москву.
Преступница представлялась им красивой девушкой…
Проблема порядка слов
Мой отец – хороший специалист.
(тире может и не быть…)
Хороший специалист мой отец.
Белеет парус одинокий
В тумане моря голубом.
* Одинокий парус белеет в голубом тумане моря.
Дистантное расположение и эллипсис
Специалист мой отец хороший.
Прикладная лингвистика, как мне кажется, интересный предмет.
Шапочка знала, что, если дернуть за веревочку, дверь откроется.
Мне два до Москвы.
Я за свечку, свечка – в печку!
«Ты куда?» – «На лекцию».
1-й этап. Синтаксическая сегментация
Выделение предложений при анализе текста (абзаца). Формальные маркеры.
[Берлиоз] побледнел, вытер лоб платком, подумал: "Что это со мной? Этого никогда не было… сердце шалит… я переутомился. Пожалуй, пора бросить все к черту и в Кисловодск…“
Прокуратор дернул щекой и сказал тихо:
— Приведите обвиняемого.
Сегментация предложения
Минимальная синтаксическая единица.
С точки зрения теор. лингвистики – только словоформа.
С точки зрения прикладной лингвистики – словоформа или оператор (знак препинания или союз). Они вскрывают синтаксические отношения
Сегментация предложения
Построение дерева синтагм и дерева сегментов.
Дерево («граф» – что это такое?)
«Синтагма» в теоретической и прикладной лингвистике
Вчера выпал снег.
«Сегмент» = клауза (фрагмент предложения) в теоретической и прикладной лингвистике.
Выделение сегментов
Вчера выпал снег, заваливший всю область.
Вчера выпал снег, который завалил всю область.
2-й этап. Способы представления структур
Модель предложения можно представить (изобразить, формализовать) двумя традиционными способами:
грамматика зависимостей
грамматика составляющих
Грамматика зависимостей
Бинарные отношения
Наличие корня
Грамматика составляющих
Классификация парсеров
По способу движения:
Непрерывные
Циклические
По выявляемым отрезкам
Интегральные
Локальные
Языковые средства, применяемые при парсинге
Словоизменение +
Учет морфологических признаков =
МОРФОАНАЛИЗ
Классический пример Л.В.Щербы:
Глок-ая куздр-а штеко будланул-а бокр-а
и кудряч-ит бокрёнк-а.
Выбрал президента – выбрал «Президент» (сыр, шоколад, отель…)
Языковые средства, применяемые при парсинге
Языковые универсалии (члены предложения и проч.)
Служебные слова
Пунктуация
Порядок слов
Интонация (?)
Интонация как синтаксическое средство
Пример А. Е. Кибрика:
В этой гимназии учился впоследствии всемирно известный киноартист.
Полезные синтаксические ограничения
Порядок слов, «проективность» предложения
Сегодня мне приснился странный сон.
«Непроективное» предложение:
Странный мне приснился сон сегодня.
Полезные синтаксические ограничения
Зависимость любой синтаксической структуры от одной вершины.
Один субъект и один предикат в структуре сегмента, кроме случаев сочинительных отношений между субъектами и предикатами:
Арлекин и Пьеро прыгали и кричали.
Выводы: общие проблемы парсинга
Сложность языковой системы, свободный порядок слов во многих языках
Неуниверсальность синтаксических моделей в плане анализа разных языков
Коррекция результатов человеком («ручная» работа)
Вопрос о нужности анализа синтаксических структур при семантическом анализе.
Семантическая эквивалентность
Вчера выпал снег, заваливший всю область.
Вчера выпал снег, который завалил всю область.