- •Оглавление
- •1. Понятие прикладной лингвистики. Основные проблемы и направления.
- •2. Денотатные модели содержания текста. Понятие о денотатной структуре текста.
- •3. Принципы формального описания языков. Формальные грамматики.
- •4. Разрешение семантической неоднозначности. Основные методы.
- •5. Вероятностное моделирование лингвистических процессов
- •6. Моделирование как основной метод прикладной лингвистики. Типы моделей
- •7. Тема-рематическое структурирование текста. Понятие темы и ремы. Формальный анализ.
- •10. Типы и виды диалогов. Модели управления диалогом
- •11. Понятие политической лингвистики. Специфика речевого общения в политической сфере коммуникации.
- •12. Проблемы квантитативной лингвистики
- •13. Принципы морфологической разметки в корпусе русского литературного языка (narusco).
- •14. Корпусная лингвистика. Типы корпусов.
- •15. Аннотирование корпусов. Виды разметки корпусов.
- •18. Оптимизация обработки информации с помощью компьютера
- •20. Характеристика основных программ анализа звучащей речи (Praat, CoolEditPro, WinPitch) (основные действия, для чего, основные принципы анализа)
- •21. Основы современных программ распознавания речи. Марковские цепи
- •22. Характеристика программ распознавание письменного текста.
- •24. Дешифровка текста и диагностика искажений в словах.
- •25. Экспертные системы. Лингвистическое обеспечение экспертных систем
- •26. Автоматический семантический анализ. Проблемы и достижения. Поверхностные и глубинные уровни семантического анализа
- •27. Семантические сети. Принципы организации и применение. WordNet, RusNet
- •28. Автоматический морфологический анализ. Словарные и бессловарные методы. Тэггинг
- •29. Моделирование речевой деятельности. Модели порождения речи.
- •30. Автоматический синтаксический анализ. Парсинг. Деревья зависимостей.
- •31. Модели восприятия речи. Соотношение восприятия и понимания.
- •32. Основные проблемы терминоведения. Терминологические словари. Представление терминологии в информационных системах.
- •33. Мультимедийные и онлайновые словари. Компьютерная лексикография.
- •34. Проблемы компьютерной лингводидактики. Типы обучающего по.
- •35. Основные проблемы преподавания иностранных языков. Этапы и типы обучения ия. Структурный и коммуникативный подходы.
- •37. Обучающие и образовательные технологии и системы. Проблема эффективности компьютерных обучающих средств.
- •39. Проблемы речевого взаимодействия: коммуникативные стратегии, тактики, постулаты, импликатуры.
- •41. Пропозициональный анализ текста как одно из направлений формально-логического анализа.
- •44. Типология текстов и особенности перевода различных типов текста (Художественный и специальный перевод).
- •45. Формальный подход к переводческой эквивалентности. Методы. Особенности реализаций.
- •46. Понятие машинного перевода, классификация систем мп.
- •47. Понятие эквивалентности в теории перевода. Типы и уровни эквивалентности.
- •48. Формальный подход к оценке качества перевода. Методы. Особенности реализаций.
- •49. Системы прямого перевода, алгоритм прямого перевода.
- •50. Системы статистического перевода, особенности формирования массива переводческих пар.
- •51. Системы автоматизированного перевода. Назначение, классификация, особенности реализации.
- •52. Моделирование как метод исследования перевода. Языковые и коммуникативные модели.
- •I этап: 40-ые гг. «Первые шаги»
- •II этап: 50-ые гг. «Первое разочарование»
- •III этап: 60-ые гг. «Низкий старт»
- •IV этап: 70-80-ые гг. «Новый импульс»
- •V этап: Современное состояние:
- •53. Судебная (юридическая) лингвистика как одно из актуальных направлений прикладной лингвистики. Предмет, цели, задачи
- •55. Методология и методика лингвистической экспертизы.
- •56. Основные понятия когнитивной лингвистки. Общая характеристика когнитивного подхода к языку и речевой деятельности.
- •57. Модель концептуальной зависимости р. Шенка. Применение в пл.
- •59. Теория концептуальной метафоры Дж. Лакоффа.
- •60. Модель «смысл - текст» и.А. Мельчука. Применение в пл.
28. Автоматический морфологический анализ. Словарные и бессловарные методы. Тэггинг
Применение: корпусы текста; алгоритмы машинного перевода; системы информационного поиска; Крылов, Старостин STARLING (интегрированная информационная среда, в кот. тоже необходим морф. анализ).
Морфологический анализ – процедура, в результате которой из внешнего оформления слов (словоформы), полученного в результате графематического анализа, определяется:
полная морфологическая характеристика (морфолого-синтаксический класс плюс полный набор значений для категорий, свойственных этому классу);
лемма (основная форма слова).
Если словоформа имеет несколько морф. прочтений, ей должны быть сопоставлены все омонимичные наборы «лемма + морф. характеристики».
Морф. анализ реализуется в алгоритмах, классический насчитывает 32 шага. Результат называют морф. разметкой текста или поэлементным представлением текста.
Виды морф.ан.:
словарные
а. со словарем словоформ
б. со словарем основ
2. бессловарные (например, логического умножения).
Изначально чаще использовался метод 1б, поскольку машинам не хватало памяти, сейчас проблема дефицита памяти преодолена и распространение получает метод 1а, для которого не нужно создавать множество правил. Лингвистическое обеспечение (приписывание морф. информации каждой новой словоформе) превратилось в техническую задачу благодаря наличию в машиночитаемом виде словарей, создаваемых на основе Грамматического словаря А. А. Зализняка.
1а. Изначально создавался для языков с бедной морфологией. Слову приписывается индекс из словаря словоформ и соответствующая словоформе грам. информация.
Недостатки:
Проблемы с анализом словоформ, не найденных в словаре,
Отождествление разных словоформ. Для решения этой проблемы необходим хотя бы элементарный словарь основ.
1б. Метод подходит для анализа простых и сложных основ, для его осуществления необходимо наличие словаря основ (таблицы с индексами для каждой основы и информацией о типе основы – принадлежности ее к той или иной части речи) и флексий (таблицы с индексами и грам.информацией для каждой флексии). Для случаев чередований внутри слова создаются отдельные таблицы чередований. Затем формируется морф. сеть, в которой перечисляется формы, характерные для данной основы, после этого составляется шкала слова – перечень возможных грам. интерпретаций для каждой словоформы (с учетом омофонов, омографов).
Краткое описание классического алгоритма из 32 шагов: в слове выделяется основа, буквенный состав основы заменяется номером из таблицы основ, основа делится на морфемы, каждая морфема маркируется по словарю морфем, словоформе даётся полная грамматическая характеристика.
Метод логического умножения (Фетиамов). Основное понятие – словарная функция.
цепочка букв членится на морфемные сегменты по методу бинарных оппозиций. Н., о/чар/ов/ан/#
цепочка морф. сегментов заменяется множеством морфем (неупорядоченным):
о, чар, ов, ан, # Каждой морфеме приписывается определенное значение.
3) Значение приписывается словоформе целиком.
4) полученная информация интегрируется в окончательное знание о словоформе с помощью дизъюнкции (в базе данных актуализируется информация о всех словоформах, в которых встречается данная морфема) и конъюнкции (полная информация о словоформе – это пересечение и объединение информации о морфемах) [Лекции ИГ Овчинниковой по ОПЛ]
Совсем без словарей не обходится, не задается только словарь значимых элементов (основ или полных словоформ), но задается словарь возможных окончаний (псевдоокончаний или «хвостов») с приписанной им информацией о возможных грамматических значениях. Наиболее простой метод.
Недостатки:
1) Все слова оказываются «новыми», в связи с чем появляется больше вариантов для анализа.
2) Не имеет выхода к сем. анализу, для которого нужны леммы.
Тэггинг = тегирование – приписывание морфолого-синтаксических классов (тэгов, англ. tag), терминология корпусов текста.
Особенности морф.разметки в корпусах текста.
Рускорпора. Национальный корпус русского языка.
Решения, принятые в корпусе, в основном опираются на морфологическую модель, представленную в «Грамматическом словаре русского языка» А. А. Зализняка (М., 1977; 4-е изд., М., 2003).
Однако специфика корпуса как универсального средства исследования языка диктует некоторые особые решения; именно этой спецификой продиктованы все отступления от модели Грамматического словаря, содержащиеся в нашем стандарте.
Морфологическая информация, приписываемая произвольному слову в тексте, состоит из четырех «полей», или групп помет:
1. Лексема, которой принадлежит словоформа (указывается «словарная запись» данной лексемы и ее принадлежность к той или иной части речи).
2. Множество грам. признаков данной лексемы, или словоклассифицирующие характеристики (например, род для сущ-го, переходность для гл.).
3. Множество грамматических признаков данной словоформы, или словоизменительные характеристики (например, падеж для сущ-го, число для глагола).
4. Информация о нестандартности грам. формы, орфогр. искажениях и т. п.
В основу метаязыка грам. помет положена система сокращенных помет («тегов») на основе латинского алфавита (н., S – сущ-ное, V-глагол, acc-вин. падеж, 0 – несклоняемость, persn – личное имя).
Информация о нестандартности и особенностях записи
В корпусе со снятой грамматической омонимией предусмотрен ряд помет, указывающих на нестандартность и/или особенности записи входящей в Корпус словоформы. Это, например, различного рода морфологические аномалии, возможные у устаревших или просторечных нелитературных форм (три дни при нормативном три дня), орфографическое и/или фонетическое искажение слова, часто передающее различные особенности произношения (дэвушка, това’ищи, про-хо-ди, низнаю).
Наруско (Национальный корпус русского литературного языка).
При выборе технологии морф. разметки текстов авторы исходили из того, что данный корпус, подобно словарям или энциклопедиям, не должен иметь ошибок. Поэтому ими принята система разметки с использованием постоянно пополняемого словаря аннотированных словоформ. В этом случае самый первый текст полностью размечается вручную и по нему создается частотный словарь. Вслед за этим полученный словарь дополняется всеми возможными омонимами и используется при разметке последующих текстов с пополнением после каждого следующего текста. При наличии словаря процесс разметки происходит полуавтоматически с помощью специальной программы. Если конкретная словоформа текста представлена в словаре единственным вариантом, ее морфологическое описание переносится в размеченный текст без ведома оператора. При наличии в словаре нескольких омонимов все они предлагаются оператору для выбора. Наконец, отсутствующую в словаре словоформу оператор описывает вручную. Подобный процесс повторяется итеративно для каждого следующего текста, и по мере увеличения объема размеченного корпуса доля чисто ручной разметки сокращается.
