
- •Оглавление
- •1. Понятие прикладной лингвистики. Основные проблемы и направления.
- •2. Денотатные модели содержания текста. Понятие о денотатной структуре текста.
- •3. Принципы формального описания языков. Формальные грамматики.
- •4. Разрешение семантической неоднозначности. Основные методы.
- •5. Вероятностное моделирование лингвистических процессов
- •6. Моделирование как основной метод прикладной лингвистики. Типы моделей
- •7. Тема-рематическое структурирование текста. Понятие темы и ремы. Формальный анализ.
- •10. Типы и виды диалогов. Модели управления диалогом
- •11. Понятие политической лингвистики. Специфика речевого общения в политической сфере коммуникации.
- •12. Проблемы квантитативной лингвистики
- •13. Принципы морфологической разметки в корпусе русского литературного языка (narusco).
- •14. Корпусная лингвистика. Типы корпусов.
- •15. Аннотирование корпусов. Виды разметки корпусов.
- •18. Оптимизация обработки информации с помощью компьютера
- •20. Характеристика основных программ анализа звучащей речи (Praat, CoolEditPro, WinPitch) (основные действия, для чего, основные принципы анализа)
- •21. Основы современных программ распознавания речи. Марковские цепи
- •22. Характеристика программ распознавание письменного текста.
- •24. Дешифровка текста и диагностика искажений в словах.
- •25. Экспертные системы. Лингвистическое обеспечение экспертных систем
- •26. Автоматический семантический анализ. Проблемы и достижения. Поверхностные и глубинные уровни семантического анализа
- •27. Семантические сети. Принципы организации и применение. WordNet, RusNet
- •28. Автоматический морфологический анализ. Словарные и бессловарные методы. Тэггинг
- •29. Моделирование речевой деятельности. Модели порождения речи.
- •30. Автоматический синтаксический анализ. Парсинг. Деревья зависимостей.
- •31. Модели восприятия речи. Соотношение восприятия и понимания.
- •32. Основные проблемы терминоведения. Терминологические словари. Представление терминологии в информационных системах.
- •33. Мультимедийные и онлайновые словари. Компьютерная лексикография.
- •34. Проблемы компьютерной лингводидактики. Типы обучающего по.
- •35. Основные проблемы преподавания иностранных языков. Этапы и типы обучения ия. Структурный и коммуникативный подходы.
- •37. Обучающие и образовательные технологии и системы. Проблема эффективности компьютерных обучающих средств.
- •39. Проблемы речевого взаимодействия: коммуникативные стратегии, тактики, постулаты, импликатуры.
- •41. Пропозициональный анализ текста как одно из направлений формально-логического анализа.
- •44. Типология текстов и особенности перевода различных типов текста (Художественный и специальный перевод).
- •45. Формальный подход к переводческой эквивалентности. Методы. Особенности реализаций.
- •46. Понятие машинного перевода, классификация систем мп.
- •47. Понятие эквивалентности в теории перевода. Типы и уровни эквивалентности.
- •48. Формальный подход к оценке качества перевода. Методы. Особенности реализаций.
- •49. Системы прямого перевода, алгоритм прямого перевода.
- •50. Системы статистического перевода, особенности формирования массива переводческих пар.
- •51. Системы автоматизированного перевода. Назначение, классификация, особенности реализации.
- •52. Моделирование как метод исследования перевода. Языковые и коммуникативные модели.
- •I этап: 40-ые гг. «Первые шаги»
- •II этап: 50-ые гг. «Первое разочарование»
- •III этап: 60-ые гг. «Низкий старт»
- •IV этап: 70-80-ые гг. «Новый импульс»
- •V этап: Современное состояние:
- •53. Судебная (юридическая) лингвистика как одно из актуальных направлений прикладной лингвистики. Предмет, цели, задачи
- •55. Методология и методика лингвистической экспертизы.
- •56. Основные понятия когнитивной лингвистки. Общая характеристика когнитивного подхода к языку и речевой деятельности.
- •57. Модель концептуальной зависимости р. Шенка. Применение в пл.
- •59. Теория концептуальной метафоры Дж. Лакоффа.
- •60. Модель «смысл - текст» и.А. Мельчука. Применение в пл.
30. Автоматический синтаксический анализ. Парсинг. Деревья зависимостей.
Напоминаю, что на всякий случай стоит заглянуть в лекции по синтаксису)
В системах автоматической обработки естественного языка синтаксический анализ (парсинг) текстов проводится с целью получения формализованных описаний их структуры. В зависимости от решаемых задач, эти описания могут строиться на основе различных синтаксических моделей и с различной степенью обобщения. Они могут содержать информацию и о структуре слов, и о структуре словосочетаний, и о структуре фраз и сверхфразовых единств.
Традиционно синтаксический анализ текстов ограничивался, как правило, анализом структуры отдельного предложения. Но уже на начальном этапе исследований по машинному переводу возникла необходимость выйти за пределы предложения (например, при поиске антецедентов местоимений). В качестве основных моделей синтаксической структуры предложения используется модель членов предложения, модель непосредственно составляющих (НС) и модель дерева зависимостей (наибольшей популярностью пользуется модель дерева зависимостей, поскольку в ней направления зависимости представлены наглядно - стрелками).
Следует подчеркнуть, что все синтаксические модели текстов являются обедненным и в известной мере условным отражением их структуры. Поэтому не имеет смысла говорить о "полном синтаксическом анализе". Он, как правило, всегда неполон и подчас содержит ошибки. Более того, при построении реальных процедур синтаксического анализа текстов допустимо использовать элементы различных моделей (например, модели дерева зависимостей и модели членов предложения).
Синтаксическая структура текстов обычно описывается в терминах классов слов (существительное, прилагательное, глагол и т.д.), сопровождаемых грамматической информацией (например, род, число, падеж), и их отношений.
Модель непосредственно составляющих (НС). Как правило, модель НС изображается с помощью [ ]:
[я [пишу [рассказ]]]
Но есть и более удобный способ, отображающий структуру предложения независимо от порядка слов – схема, то же предложение будет выглядеть как:
Nnom Vfin Nacc
Недостаток модели НС – не отражается направление зависимостей.
В модели дерева зависимостей в качестве вершины дерева рассматривается сказуемое, от него исходят связи к непосредственно подчиненным ему словам, от этих слов - к подчиненным им словам и т.д. Слова в дереве зависимостей связаны друг с другом отношениями непосредственной доминации (отношениями типа "хозяин" - "слуга").
Авторы исходили из того, что основу структуры предложения (его “скелет”) составляют глаголы, существительные, связанные друг с другом отношениями беспредложного и предложного управления, и краткие формы прилагательного и причастия. Остальные классы слов (прилагательные и причастия в полной форме, наречия, союзы, частицы) выступают, как правило, в роли определителей перечисленных классов слов или в роли связок. Поэтому синтаксический анализ предложения начинается с выявления его “скелета”. После этого уточняется характер отношений между словами, составляющими “скелет”, и словами, их окружающими.
Анализ синтаксической структуры предложения выполняется на основе информации о словах, полученной на этапе морфологического анализа. При этом каждой словоформе текста приписывается соответствующий символ грамматического класса и набор грамматических признаков (синтаксическая разметка). Для личной формы глагола (Vfin) – это сведения о грамматическом числе и лице, а также о модели управления (о падежных формах управляемых слов); для глаголов прошедшего времени, кратких прилагательных и кратких причастий (ГП) - сведения о грамматическом роде и числе и о модели управления; для инфинитива (Vinf) – сведения о модели управления; для существительного (N) – признаки глагольности, местоименности, одушевленности и сведения о роде, числе и падеже; для прилагательного (Adj) – признаки глагольности, местоименности и сведения о роде, числе и падеже; для наречия – признаки глагольности и местоименности; для предлога (Р) – модель управления. Кроме того, для всех отглагольных форм слов – отглагольного существительного, отглагольного прилагательного и отглагольного наречия – указываются модели управления.
Установление факта наличия и направления синтаксической связи между словами производится исходя из нескольких правил, например:
«Глагол, краткая форма прилагательного или причастие считается управляющим словом для существительного, если в его модели управления есть хотя бы один признак падежа, имеющийся одновременно и в информации к существительному».
Если предложение является сложным, то оно расчленяется на простые предложения. В качестве границ простых предложений принимаются знаки препинания, непосредственно предшествующие личным формам глаголов, глаголам прошедшего времени, кратким прилагательным или кратким причастиям при условии, что до этих знаков препинания встречалось хотя бы еще одно слово, принадлежащее к одному из перечисленных грамматических классов.
Простые предложения анализируются независимо друг от друга в описанном ниже порядке (рекомендую рисовать себе схемы, на них все просто будет):
Начальное слово “скелета” предложения проверяется на принадлежность к одному из классов Vfin, ГП, или Vinf. При положительном результате проверки устанавливается его связь с предшествующими словами предложения; при отрицательном – сначала устанавливается связь с ближайшим словом, принадлежащим к классу Vfin, ГП, или Vinf, затем – с предшествующими словами. Если при этом опорное слово становилось зависимым от одного из предшествующих ему слов, то его связь с представителем класса Vfin, ГП, или Vinf переключалась на это предшествующее слово.
Берется первая от начала предложения пара опорных элементов “скелета” и делается попытка установления связи между этими элементами. Если это удается, то устанавливаются связи заключенных между ними неопорных элементов с правым опорным элементом. Если при этом оказывается, что один из неопорных элементов управляет правым опорным элементом, то ранее установленная связь между опорными элементами разрывается, а для нового управляющего слова ищется “хозяин” (один из предшествующих ему по цепочке элементов). Если непосредственная связь между рассматриваемой парой опорных элементов невозможна, то сначала устанавливается связь заключенных между ними неопорных элементов с правым опорным элементом, а затем связь этого последнего (или его управляющего слова) с одним из слов, предшествующих ему по цепочке управления. Далее рассматривается следующая пара опорных элементов. У этой пары левым элементом был правый элемент предшествующей пары, а правым – ближайший справа от него опорный элемент. Переход от одной пары опорных элементов к другой продолжается до тех пор, пока не будет проанализировано все предложение.
Если по пути продвижения от начала предложения к его концу встречается сочинительный союз, то соединяемые им опорные элементы (или элементы, управляющие опорными) проверяются на однородность и подчиняются общему для них управляющему слову. Они замыкаются также на общее управляемое слово, если оно имеется. Признаком однородности элементов служит их принадлежность к одному и тому же лексико-грамматическому классу, а для существительных и прилагательных помимо этого требуется еще и совпадение падежей.
Эксперименты показали, что описанный алгоритм позволяет правильно выявлять 95% синтаксических связей между словами, но, одновременно, он устанавливает 4,6% ложных связей. [Белоногов, архив от ЕС Худяковой]
С помощью синтаксического анализа устанавливаются соответствия между частями речи и их функцией в предложении. Достоинства анализа по частям речи и членам предложения:
позволяет обнаружить универсальную картину синтаксических связей в большинстве языков,
содержит небольшое количество категорий,
обладает высокой разрешающей способностью для основного словаря (почти все слова можно однозначно распределить по ЧР),
возможен переход к более тонкому анализу на основе основного,
подход близок к «наивному», школьному анализу (прозрачен для человека со средним образованием). [Лекции И.Г. Овчинниковой по ОПЛ]
Национальный корпус русского языка размечен в соответствии с грамматикой зависимости. Правила, которые они используют для анализа некоторых нестандартных случаев:
1. Представление синтаксического эллипсиса
В синтаксически несвязных эллиптичных предложениях опущенные слова восстанавливаются, и им приписывается дополнительный признак фантом. Например, в случае предложения Я купил чемодан, а он сумку между он и сумку вставляется узел КУПИТЬ [V, сов, изъяв, прош, ед, муж, фантом] с пустым текстовым элементом. От этих фантомных слов проводятся все необходимые связи. Леммы в таких словах совпадают с теми, которые уже встретились в предложении, а отдельные морфологические характеристики могут меняться (так, в предложении Я купил чемодан, а она сумку характеристика муж в новом, «фантомном» глагольном узле купила заменяется на жен). Подчеркнем, что фантомные слова вводятся только в синтаксическую структуру предложения. Текстовый вид предложения остается неизменным.
2. Слова-предложения
Слово нет может относиться к одной из трех лексем.
Слово-предложение. Нет, я так не считаю; Я так не считаю, нет. Часть речи — P (так же мы поступаем со словом да в близких ситуациях).
Местоименный глагол, «местоглаголие»: Ты придешь или нет? Ты придешь, а я нет; Он капитан, а ты нет. Связь — такая, какая была бы с восстановленным глаголом (например, Ты придешь, а я не приду).
Полнозначный глагол, отрицательный вариант быть: У меня нет денег.
Автоматический синтаксический анализ необходим при автореферировании, машинном переводе текста, создании национальных корпусов текста и других процедурах автоматической обработки языка и работы с массивами текстов.