Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ОПЛ_ответы.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
1.07 Mб
Скачать

22. Характеристика программ распознавание письменного текста.

В настоящее время ставятся актуальные ныне вопросы о буквенном составе современной письменности, количественных закономерностях, которым подчиняются тексты в графематическом своем составе, о частотности слов, о типах слов и пр. В них исследуются статистические законы комбинации знаков алфавита, вероятности определенных сочетаний букв, частотность слов и словосочетаний и прочие формальные и количественные особенности графемного состава естественных языков.

Марков выделяет 2 наиболее актуальных аспекта графематики:

  • анализ графематического уровня с помощью полиграмм

  • дериватология

(1) Слова построены из определенных полиграмм. Состав и количество этих полиграмм определяются рядом факторов, важнейшими из которых являются фонематическая система данного языка, правила орфографии, принятая система обозначения звуков на письме.

Анализ производится главным образом для обработки не найденных в словаре слов и исправления искажений.

Не найденное слово в словаре может быть:

  • Отсутствующим в словаре по причине неполноты словаря, хотя оно является полноправным словом данного естественного языка;

  • Искаженным словом естественного языка, вследствие чего оно и оказалось не найденным программой поиска по словарю, работающей с введенными в память компьютера словами.

Диагностика искажений в словах

Основана на предположении, что среди полиграмм, входящих в искаженное слово, найдется такая, которая не вложится в стохастическое дерево (дерево вероятностей), или ее частота будет весьма низка.

Алгоритм диагностики:

  • Слово разбивается на полиграммы, и каждая из них вкладывается в дерево

  • Одновременно с этим, полиграмма получает оценку на основании частот, записанных в дугах

  • Если такой полиграммы в дереве нет, или ее частота ниже заданного порога, в слове фиксируется искажение

Численная оценка правильности слова складывается из оценок составляющих ее полиграмм.

Коррекция искажений: в начале работы с каждым словом автомат пытается найти варианты прообраза, минимально отличающиеся от искаженного слова и имеющие максимальное значение правильности. Если диагностирующий автомат обнаруживает в слове несколько искажений, обрабатывается наиболее «грубая» ошибка. В случае неудачи (не нашлось прообразов), значения параметров начинают плавно меняться, становиться «мягче» - постепенно увеличивается максимально допустимое количество искажений, снижается порог правильности, позволяется обработка менее грубых ошибок.

//(Для более детального обзора рекомендуется учебник Маркова, стр. 44-48)

(2) Дериватология – наука, изучающая производные. То есть о морфемах, состоящих из графем. Задача: полное описание морфемного состава данного языка.

Содержательное описание дериватологических элементов в виде словарей или списков морфем позволяет перейти к изучению статистических закономерностей их распределения.

Единица распознавания, обладающая семантикой – морфема как минимальный языковой знак.

Для инвентаризации морфемного состава необходимы:

  • Прямые/обратные словари (прямые: префиксы, корни; обратные: суффиксы, флексии)

  • Словарь продуктивности (частотность морфемы: сколько разных слов с данной морфемой присутствуют в словаре)

  • Частотные словари (сколько раз данная морфема повторяется в тексте определенной длины)

  • Словари функциональных стилей (какие морфемы встречаются в тексте определенного функционального стиля)

  • Тезаурусные словари (описание морфемы по значению)

  • Этимологические словари (происхождение морфем - для исторического принципа орфографии)

  • Словарь морфемной валентности (что морфемы могут присоединять к себе)

//(Для более детального обзора рекомендуются лекции ИГ по ОПЛ, 3 курс и учебник Маркова, стр. 54-55)

Распознавание рукописного ввода

(Материал из Википедии)

Распознавание рукописного ввода — это способность компьютера получать и интерпретировать интеллектуальный рукописный ввод. Распознавание текста может производиться «оффлайновым» методом из уже написанного на бумаге текста или «онлайновым» методом считыванием движений кончика ручки, к примеру по поверхности специального компьютерного экрана.

Онлайновое распознавание

Интерфейс онлайнового распознавания обычно состоит из:

  • ручки или стилуса, которым пользователь осуществляет ввод

  • поверхности, чувствительной к касаниям, которая может быть интегрирована с дисплеем

  • программного обеспечения, которое интерпретирует движения стилуса по пишущей поверхности, переводя получившиеся линии в цифровой текст

Распознавание рукописного ввода широко используется в КПК. Первым КПК, который был способен распознавать рукописный ввод является Apple Newton.

Оффлайновое распознавание

Этот вид распознавания успешно применяется в сферах деятельности, где необходимо обрабатывать большое количество рукописных документов, к примеру, в страховых компаниях. Качество распознавания можно повысить, используя структурированные документы (формы). Кроме того, можно улучшить качество, уменьшив диапазон возможных вводимых символов. Оффлайновое распознавание считается более сложным по сравнению с онлайновым.

Принципы орфографии и их роль в распознавании письменного текста

Принципы орфографии — это закономерности, лежащие в основе орфографической системы. Каждый принцип орфографии объединяет группу правил, являющихся приложением этого принципа к конкретным языковым явлениям.

Морфологический принцип заключается в требовании одинакового написания одних и тех же морфем: приставок, корней, суффиксов и т. д. Например: степной — степь, рябиновый — сосновый, подписать — подпись, к ране — к воде. Этот принцип является ведущим в русской орфографии; ему подчинено написание большей части слов.

Фонетический принцип заключается в том, что написание должно соответствовать произношению. Данный принцип орфографии обычно проявляется при передаче на письме чередований в одной и той же морфеме, например: расписать — роспись, бездомный — бесхозный.

Традиционный принцип заключается в том, что признаётся правильным написание, закреплённое традицией. Это, например, написание русских и заимствованных слов с непроверяемыми гласными, непроверяемыми, непроизносимыми или удвоенными согласными в корне: собака, топор, вокзал, футбол, здоровье, аллея и др. В школьной практике слова с непроверяемыми гласными и согласными называются словарными словами.

Дифференцирующий принцип написания реализуется в ситуациях, когда средствами орфографии необходимо разграничить одинаково звучащие слова: балл (оценка) и бал (танцевальный вечер), ожёг (глагол) и ожог (существительное), плачь (глагол) и плач (существительное), туш (существительное мужского рода) и тушь (существительное женского рода), орёл (птица), и Орёл (город).

Кроме названных, в русской орфографии есть принципы, регулирующие слитное, раздельное и дефисное написание, употребление прописных букв, правила переноса слов и др.

Принципы орфографии – один из важнейших факторов анализа графематического уровня на основе полиграмм, поскольку этим фактором может определяться количество и состав полиграмм, входящих в то или иное слово.

Правила орфографии также определяют количество полиграмм в языке: чем жестче правила, тем меньше свободных полиграмм.

Анализ полиграмм – один из наиболее актуальных аспектов графематики, а значит и распознавания текста.

Помимо принципов орфографии, важнейшими факторами, определяющими состав и количество полиграмм, являются фонематическая система данного языка и принятая в этом языке система обозначения звуков на письме.