
- •Оглавление
- •1. Понятие прикладной лингвистики. Основные проблемы и направления.
- •2. Денотатные модели содержания текста. Понятие о денотатной структуре текста.
- •3. Принципы формального описания языков. Формальные грамматики.
- •4. Разрешение семантической неоднозначности. Основные методы.
- •5. Вероятностное моделирование лингвистических процессов
- •6. Моделирование как основной метод прикладной лингвистики. Типы моделей
- •7. Тема-рематическое структурирование текста. Понятие темы и ремы. Формальный анализ.
- •10. Типы и виды диалогов. Модели управления диалогом
- •11. Понятие политической лингвистики. Специфика речевого общения в политической сфере коммуникации.
- •12. Проблемы квантитативной лингвистики
- •13. Принципы морфологической разметки в корпусе русского литературного языка (narusco).
- •14. Корпусная лингвистика. Типы корпусов.
- •15. Аннотирование корпусов. Виды разметки корпусов.
- •18. Оптимизация обработки информации с помощью компьютера
- •20. Характеристика основных программ анализа звучащей речи (Praat, CoolEditPro, WinPitch) (основные действия, для чего, основные принципы анализа)
- •21. Основы современных программ распознавания речи. Марковские цепи
- •22. Характеристика программ распознавание письменного текста.
- •24. Дешифровка текста и диагностика искажений в словах.
- •25. Экспертные системы. Лингвистическое обеспечение экспертных систем
- •26. Автоматический семантический анализ. Проблемы и достижения. Поверхностные и глубинные уровни семантического анализа
- •27. Семантические сети. Принципы организации и применение. WordNet, RusNet
- •28. Автоматический морфологический анализ. Словарные и бессловарные методы. Тэггинг
- •29. Моделирование речевой деятельности. Модели порождения речи.
- •30. Автоматический синтаксический анализ. Парсинг. Деревья зависимостей.
- •31. Модели восприятия речи. Соотношение восприятия и понимания.
- •32. Основные проблемы терминоведения. Терминологические словари. Представление терминологии в информационных системах.
- •33. Мультимедийные и онлайновые словари. Компьютерная лексикография.
- •34. Проблемы компьютерной лингводидактики. Типы обучающего по.
- •35. Основные проблемы преподавания иностранных языков. Этапы и типы обучения ия. Структурный и коммуникативный подходы.
- •37. Обучающие и образовательные технологии и системы. Проблема эффективности компьютерных обучающих средств.
- •39. Проблемы речевого взаимодействия: коммуникативные стратегии, тактики, постулаты, импликатуры.
- •41. Пропозициональный анализ текста как одно из направлений формально-логического анализа.
- •44. Типология текстов и особенности перевода различных типов текста (Художественный и специальный перевод).
- •45. Формальный подход к переводческой эквивалентности. Методы. Особенности реализаций.
- •46. Понятие машинного перевода, классификация систем мп.
- •47. Понятие эквивалентности в теории перевода. Типы и уровни эквивалентности.
- •48. Формальный подход к оценке качества перевода. Методы. Особенности реализаций.
- •49. Системы прямого перевода, алгоритм прямого перевода.
- •50. Системы статистического перевода, особенности формирования массива переводческих пар.
- •51. Системы автоматизированного перевода. Назначение, классификация, особенности реализации.
- •52. Моделирование как метод исследования перевода. Языковые и коммуникативные модели.
- •I этап: 40-ые гг. «Первые шаги»
- •II этап: 50-ые гг. «Первое разочарование»
- •III этап: 60-ые гг. «Низкий старт»
- •IV этап: 70-80-ые гг. «Новый импульс»
- •V этап: Современное состояние:
- •53. Судебная (юридическая) лингвистика как одно из актуальных направлений прикладной лингвистики. Предмет, цели, задачи
- •55. Методология и методика лингвистической экспертизы.
- •56. Основные понятия когнитивной лингвистки. Общая характеристика когнитивного подхода к языку и речевой деятельности.
- •57. Модель концептуальной зависимости р. Шенка. Применение в пл.
- •59. Теория концептуальной метафоры Дж. Лакоффа.
- •60. Модель «смысл - текст» и.А. Мельчука. Применение в пл.
22. Характеристика программ распознавание письменного текста.
В настоящее время ставятся актуальные ныне вопросы о буквенном составе современной письменности, количественных закономерностях, которым подчиняются тексты в графематическом своем составе, о частотности слов, о типах слов и пр. В них исследуются статистические законы комбинации знаков алфавита, вероятности определенных сочетаний букв, частотность слов и словосочетаний и прочие формальные и количественные особенности графемного состава естественных языков.
Марков выделяет 2 наиболее актуальных аспекта графематики:
анализ графематического уровня с помощью полиграмм
дериватология
(1) Слова построены из определенных полиграмм. Состав и количество этих полиграмм определяются рядом факторов, важнейшими из которых являются фонематическая система данного языка, правила орфографии, принятая система обозначения звуков на письме.
Анализ производится главным образом для обработки не найденных в словаре слов и исправления искажений.
Не найденное слово в словаре может быть:
Отсутствующим в словаре по причине неполноты словаря, хотя оно является полноправным словом данного естественного языка;
Искаженным словом естественного языка, вследствие чего оно и оказалось не найденным программой поиска по словарю, работающей с введенными в память компьютера словами.
Диагностика искажений в словах
Основана на предположении, что среди полиграмм, входящих в искаженное слово, найдется такая, которая не вложится в стохастическое дерево (дерево вероятностей), или ее частота будет весьма низка.
Алгоритм диагностики:
Слово разбивается на полиграммы, и каждая из них вкладывается в дерево
Одновременно с этим, полиграмма получает оценку на основании частот, записанных в дугах
Если такой полиграммы в дереве нет, или ее частота ниже заданного порога, в слове фиксируется искажение
Численная оценка правильности слова складывается из оценок составляющих ее полиграмм.
Коррекция искажений: в начале работы с каждым словом автомат пытается найти варианты прообраза, минимально отличающиеся от искаженного слова и имеющие максимальное значение правильности. Если диагностирующий автомат обнаруживает в слове несколько искажений, обрабатывается наиболее «грубая» ошибка. В случае неудачи (не нашлось прообразов), значения параметров начинают плавно меняться, становиться «мягче» - постепенно увеличивается максимально допустимое количество искажений, снижается порог правильности, позволяется обработка менее грубых ошибок.
//(Для более детального обзора рекомендуется учебник Маркова, стр. 44-48)
(2) Дериватология – наука, изучающая производные. То есть о морфемах, состоящих из графем. Задача: полное описание морфемного состава данного языка.
Содержательное описание дериватологических элементов в виде словарей или списков морфем позволяет перейти к изучению статистических закономерностей их распределения.
Единица распознавания, обладающая семантикой – морфема как минимальный языковой знак.
Для инвентаризации морфемного состава необходимы:
Прямые/обратные словари (прямые: префиксы, корни; обратные: суффиксы, флексии)
Словарь продуктивности (частотность морфемы: сколько разных слов с данной морфемой присутствуют в словаре)
Частотные словари (сколько раз данная морфема повторяется в тексте определенной длины)
Словари функциональных стилей (какие морфемы встречаются в тексте определенного функционального стиля)
Тезаурусные словари (описание морфемы по значению)
Этимологические словари (происхождение морфем - для исторического принципа орфографии)
Словарь морфемной валентности (что морфемы могут присоединять к себе)
//(Для более детального обзора рекомендуются лекции ИГ по ОПЛ, 3 курс и учебник Маркова, стр. 54-55)
Распознавание рукописного ввода
(Материал из Википедии)
Распознавание рукописного ввода — это способность компьютера получать и интерпретировать интеллектуальный рукописный ввод. Распознавание текста может производиться «оффлайновым» методом из уже написанного на бумаге текста или «онлайновым» методом считыванием движений кончика ручки, к примеру по поверхности специального компьютерного экрана.
Онлайновое распознавание
Интерфейс онлайнового распознавания обычно состоит из:
ручки или стилуса, которым пользователь осуществляет ввод
поверхности, чувствительной к касаниям, которая может быть интегрирована с дисплеем
программного обеспечения, которое интерпретирует движения стилуса по пишущей поверхности, переводя получившиеся линии в цифровой текст
Распознавание рукописного ввода широко используется в КПК. Первым КПК, который был способен распознавать рукописный ввод является Apple Newton.
Оффлайновое распознавание
Этот вид распознавания успешно применяется в сферах деятельности, где необходимо обрабатывать большое количество рукописных документов, к примеру, в страховых компаниях. Качество распознавания можно повысить, используя структурированные документы (формы). Кроме того, можно улучшить качество, уменьшив диапазон возможных вводимых символов. Оффлайновое распознавание считается более сложным по сравнению с онлайновым.
Принципы орфографии и их роль в распознавании письменного текста
Принципы орфографии — это закономерности, лежащие в основе орфографической системы. Каждый принцип орфографии объединяет группу правил, являющихся приложением этого принципа к конкретным языковым явлениям.
Морфологический принцип заключается в требовании одинакового написания одних и тех же морфем: приставок, корней, суффиксов и т. д. Например: степной — степь, рябиновый — сосновый, подписать — подпись, к ране — к воде. Этот принцип является ведущим в русской орфографии; ему подчинено написание большей части слов.
Фонетический принцип заключается в том, что написание должно соответствовать произношению. Данный принцип орфографии обычно проявляется при передаче на письме чередований в одной и той же морфеме, например: расписать — роспись, бездомный — бесхозный.
Традиционный принцип заключается в том, что признаётся правильным написание, закреплённое традицией. Это, например, написание русских и заимствованных слов с непроверяемыми гласными, непроверяемыми, непроизносимыми или удвоенными согласными в корне: собака, топор, вокзал, футбол, здоровье, аллея и др. В школьной практике слова с непроверяемыми гласными и согласными называются словарными словами.
Дифференцирующий принцип написания реализуется в ситуациях, когда средствами орфографии необходимо разграничить одинаково звучащие слова: балл (оценка) и бал (танцевальный вечер), ожёг (глагол) и ожог (существительное), плачь (глагол) и плач (существительное), туш (существительное мужского рода) и тушь (существительное женского рода), орёл (птица), и Орёл (город).
Кроме названных, в русской орфографии есть принципы, регулирующие слитное, раздельное и дефисное написание, употребление прописных букв, правила переноса слов и др.
Принципы орфографии – один из важнейших факторов анализа графематического уровня на основе полиграмм, поскольку этим фактором может определяться количество и состав полиграмм, входящих в то или иное слово.
Правила орфографии также определяют количество полиграмм в языке: чем жестче правила, тем меньше свободных полиграмм.
Анализ полиграмм – один из наиболее актуальных аспектов графематики, а значит и распознавания текста.
Помимо принципов орфографии, важнейшими факторами, определяющими состав и количество полиграмм, являются фонематическая система данного языка и принятая в этом языке система обозначения звуков на письме.