
- •Оглавление
- •1. Понятие прикладной лингвистики. Основные проблемы и направления.
- •2. Денотатные модели содержания текста. Понятие о денотатной структуре текста.
- •3. Принципы формального описания языков. Формальные грамматики.
- •4. Разрешение семантической неоднозначности. Основные методы.
- •5. Вероятностное моделирование лингвистических процессов
- •6. Моделирование как основной метод прикладной лингвистики. Типы моделей
- •7. Тема-рематическое структурирование текста. Понятие темы и ремы. Формальный анализ.
- •10. Типы и виды диалогов. Модели управления диалогом
- •11. Понятие политической лингвистики. Специфика речевого общения в политической сфере коммуникации.
- •12. Проблемы квантитативной лингвистики
- •13. Принципы морфологической разметки в корпусе русского литературного языка (narusco).
- •14. Корпусная лингвистика. Типы корпусов.
- •15. Аннотирование корпусов. Виды разметки корпусов.
- •18. Оптимизация обработки информации с помощью компьютера
- •20. Характеристика основных программ анализа звучащей речи (Praat, CoolEditPro, WinPitch) (основные действия, для чего, основные принципы анализа)
- •21. Основы современных программ распознавания речи. Марковские цепи
- •22. Характеристика программ распознавание письменного текста.
- •24. Дешифровка текста и диагностика искажений в словах.
- •25. Экспертные системы. Лингвистическое обеспечение экспертных систем
- •26. Автоматический семантический анализ. Проблемы и достижения. Поверхностные и глубинные уровни семантического анализа
- •27. Семантические сети. Принципы организации и применение. WordNet, RusNet
- •28. Автоматический морфологический анализ. Словарные и бессловарные методы. Тэггинг
- •29. Моделирование речевой деятельности. Модели порождения речи.
- •30. Автоматический синтаксический анализ. Парсинг. Деревья зависимостей.
- •31. Модели восприятия речи. Соотношение восприятия и понимания.
- •32. Основные проблемы терминоведения. Терминологические словари. Представление терминологии в информационных системах.
- •33. Мультимедийные и онлайновые словари. Компьютерная лексикография.
- •34. Проблемы компьютерной лингводидактики. Типы обучающего по.
- •35. Основные проблемы преподавания иностранных языков. Этапы и типы обучения ия. Структурный и коммуникативный подходы.
- •37. Обучающие и образовательные технологии и системы. Проблема эффективности компьютерных обучающих средств.
- •39. Проблемы речевого взаимодействия: коммуникативные стратегии, тактики, постулаты, импликатуры.
- •41. Пропозициональный анализ текста как одно из направлений формально-логического анализа.
- •44. Типология текстов и особенности перевода различных типов текста (Художественный и специальный перевод).
- •45. Формальный подход к переводческой эквивалентности. Методы. Особенности реализаций.
- •46. Понятие машинного перевода, классификация систем мп.
- •47. Понятие эквивалентности в теории перевода. Типы и уровни эквивалентности.
- •48. Формальный подход к оценке качества перевода. Методы. Особенности реализаций.
- •49. Системы прямого перевода, алгоритм прямого перевода.
- •50. Системы статистического перевода, особенности формирования массива переводческих пар.
- •51. Системы автоматизированного перевода. Назначение, классификация, особенности реализации.
- •52. Моделирование как метод исследования перевода. Языковые и коммуникативные модели.
- •I этап: 40-ые гг. «Первые шаги»
- •II этап: 50-ые гг. «Первое разочарование»
- •III этап: 60-ые гг. «Низкий старт»
- •IV этап: 70-80-ые гг. «Новый импульс»
- •V этап: Современное состояние:
- •53. Судебная (юридическая) лингвистика как одно из актуальных направлений прикладной лингвистики. Предмет, цели, задачи
- •55. Методология и методика лингвистической экспертизы.
- •56. Основные понятия когнитивной лингвистки. Общая характеристика когнитивного подхода к языку и речевой деятельности.
- •57. Модель концептуальной зависимости р. Шенка. Применение в пл.
- •59. Теория концептуальной метафоры Дж. Лакоффа.
- •60. Модель «смысл - текст» и.А. Мельчука. Применение в пл.
24. Дешифровка текста и диагностика искажений в словах.
Лингвистическая дешифровка – это:
•прикладная дисциплина, которая должна использовать знания о языке, накапливаемые в других областях языкознания (Б.В.Сухоткин).
•деятельность, направленная на создание методов распознавания явлений языка в текстах на языках, предполагаемых неизвестными. Главный интерес ЛД состоит в поисках наиболее общих закономерностей строения языка (Б.В.Сухоткин).
Дешифровка состоит из следующих шагов:
Вычленение символов (всех)
Установление алфавитных символов
Установление частоты повторения символов
Установление границ между символами
Отсюда следует, что проблему представляет собой язык с неалфавитной письменностью.
Графематический уровень дешифровки строится в соответствии с вероятностными закономерностями: речь рассматривается с позиции комбинаторики (сочетаемости) и алгоритмов.
Лингвистическая комбинаторика – это отрасль языкознания, изучающая в рамках лингвистического времени качественные и количественные характеристики как языковых континуумов, так и входящих в них языковых элементов с целью определения возможности/невозможности и результатов различных видов их взаимодействия.
Речь идет об анализе совместимостей или несовместимостей различных конфигураций данной системы. С точки зрения комбинаторики комбинации полиграмм и других формальных графических элементов в составе словоформы определяются сложными законами плана выражения и плана содержания.
Речь как комбинация знаков на графемном уровне позволяет строить алгоритмы, распознающие слова, выделяющие новое слово и отождествляющие искажения в отличие от новых слов. Статистико- и теоретико-информационные свойства слов как совокупности графем позволяют применять дешифровочные методы, позволяющие, в частности, отличать текст на естественном языке от нетекста.
Таким образом, графематический уровень служит основой для применения целой отрасли науки – дешифровочной лингвистики. Значение этой науки в настоящее время возрастает, так как получают все большее распространение методы защиты информации от несанкционированного доступа, а криптография (наука о методах обеспечения конфиденциальности и аутентичности информации) и криптология (наука, занимающаяся методами шифрования и дешифрования) существенно связаны с лингвистическими знаниями и представлениями.
Диагностика искажений в словах
Основана на предположении, что среди полиграмм, входящих в искаженное слово, найдется такая, которая не вложится в стохастическое дерево (дерево вероятности), или ее частота будет весьма низка.
Алгоритм диагностики:
Слово разбивается на полиграммы, и каждая из них вкладывается в дерево
Одновременно с этим, полиграмма получает оценку на основании частот, записанных в дугах
Если такой полиграммы в дереве нет, или ее частота ниже заданного порога, в слове фиксируется искажение
Численная оценка правильности слова складывается из оценок составляющих ее полиграмм.
Параметры ограничения вероятностного дерева (Л.Ю.Коростелев):
Длина корректирующей цепочки (буквенного сочетания). Не может существенно отличаться от длины заменяемой цепочки
Вероятность очередной графемы в цепочке. Каждый раз выбирается максимальная вероятность
Правильность порождаемого прообраза. Проверяется на каждом шаге.
Коррекция искажений: в начале работы с каждым словом автомат пытается найти варианты прообраза, минимально отличающиеся от искаженного слова и имеющие максимальное значение правильности. Если диагностирующий автомат обнаруживает в слове несколько искажений, обрабатывается наиболее «грубая» ошибка. В случае неудачи (не нашлось прообразов), значения параметров начинают плавно меняться, становиться «мягче» - постепенно увеличивается максимально допустимое количество искажений, снижается порог правильности, позволяется обработка менее грубых ошибок.
Проверка описанных автоматов показала удовлетворительную работу.
Таким образом, при надежной статистике комбинаций из определенного числа знаков письменного текста можно автоматически проводить достаточно эффективную коррекцию искажений в тексте, которые неизбежно встречаются практически в любой лингвистической задаче прикладного характера.