Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Пермский государственный национальный исследовательский университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

ОПЛ_ответы.doc

Скачиваний:

Добавлен:

01.05.2025

Размер:

1.07 Mб

Скачать

☆

<<< < Предыдущая 4 5 6 7 8 9 10 11 12 13 14 1516 / 4516 17 18 19 20 21 22 23 24 25 26 27 28 > Следующая >>>

22. Характеристика программ распознавание письменного текста.

В настоящее время ставятся актуальные ныне вопросы о буквенном составе современной письменности, количественных закономерностях, которым подчиняются тексты в графематическом своем составе, о частотности слов, о типах слов и пр. В них исследуются статистические законы комбинации знаков алфавита, вероятности определенных сочетаний букв, частотность слов и словосочетаний и прочие формальные и количественные особенности графемного состава естественных языков.

Марков выделяет 2 наиболее актуальных аспекта графематики:

анализ графематического уровня с помощью полиграмм
дериватология

(1) Слова построены из определенных полиграмм. Состав и количество этих полиграмм определяются рядом факторов, важнейшими из которых являются фонематическая система данного языка, правила орфографии, принятая система обозначения звуков на письме.

Анализ производится главным образом для обработки не найденных в словаре слов и исправления искажений.

Не найденное слово в словаре может быть:

Отсутствующим в словаре по причине неполноты словаря, хотя оно является полноправным словом данного естественного языка;
Искаженным словом естественного языка, вследствие чего оно и оказалось не найденным программой поиска по словарю, работающей с введенными в память компьютера словами.

Диагностика искажений в словах

Основана на предположении, что среди полиграмм, входящих в искаженное слово, найдется такая, которая не вложится в стохастическое дерево (дерево вероятностей), или ее частота будет весьма низка.

Алгоритм диагностики:

Слово разбивается на полиграммы, и каждая из них вкладывается в дерево
Одновременно с этим, полиграмма получает оценку на основании частот, записанных в дугах
Если такой полиграммы в дереве нет, или ее частота ниже заданного порога, в слове фиксируется искажение

Численная оценка правильности слова складывается из оценок составляющих ее полиграмм.

Коррекция искажений: в начале работы с каждым словом автомат пытается найти варианты прообраза, минимально отличающиеся от искаженного слова и имеющие максимальное значение правильности. Если диагностирующий автомат обнаруживает в слове несколько искажений, обрабатывается наиболее «грубая» ошибка. В случае неудачи (не нашлось прообразов), значения параметров начинают плавно меняться, становиться «мягче» - постепенно увеличивается максимально допустимое количество искажений, снижается порог правильности, позволяется обработка менее грубых ошибок.

//(Для более детального обзора рекомендуется учебник Маркова, стр. 44-48)

(2) Дериватология – наука, изучающая производные. То есть о морфемах, состоящих из графем. Задача: полное описание морфемного состава данного языка.

Содержательное описание дериватологических элементов в виде словарей или списков морфем позволяет перейти к изучению статистических закономерностей их распределения.

Единица распознавания, обладающая семантикой – морфема как минимальный языковой знак.

Для инвентаризации морфемного состава необходимы:

Прямые/обратные словари (прямые: префиксы, корни; обратные: суффиксы, флексии)
Словарь продуктивности (частотность морфемы: сколько разных слов с данной морфемой присутствуют в словаре)
Частотные словари (сколько раз данная морфема повторяется в тексте определенной длины)
Словари функциональных стилей (какие морфемы встречаются в тексте определенного функционального стиля)
Тезаурусные словари (описание морфемы по значению)
Этимологические словари (происхождение морфем - для исторического принципа орфографии)
Словарь морфемной валентности (что морфемы могут присоединять к себе)

//(Для более детального обзора рекомендуются лекции ИГ по ОПЛ, 3 курс и учебник Маркова, стр. 54-55)

Распознавание рукописного ввода

(Материал из Википедии)

Распознавание рукописного ввода — это способность компьютера получать и интерпретировать интеллектуальный рукописный ввод. Распознавание текста может производиться «оффлайновым» методом из уже написанного на бумаге текста или «онлайновым» методом считыванием движений кончика ручки, к примеру по поверхности специального компьютерного экрана.

Онлайновое распознавание

Интерфейс онлайнового распознавания обычно состоит из:

ручки или стилуса, которым пользователь осуществляет ввод
поверхности, чувствительной к касаниям, которая может быть интегрирована с дисплеем
программного обеспечения, которое интерпретирует движения стилуса по пишущей поверхности, переводя получившиеся линии в цифровой текст

Распознавание рукописного ввода широко используется в КПК. Первым КПК, который был способен распознавать рукописный ввод является Apple Newton.

Оффлайновое распознавание

Этот вид распознавания успешно применяется в сферах деятельности, где необходимо обрабатывать большое количество рукописных документов, к примеру, в страховых компаниях. Качество распознавания можно повысить, используя структурированные документы (формы). Кроме того, можно улучшить качество, уменьшив диапазон возможных вводимых символов. Оффлайновое распознавание считается более сложным по сравнению с онлайновым.

Принципы орфографии и их роль в распознавании письменного текста

Принципы орфографии — это закономерности, лежащие в основе орфографической системы. Каждый принцип орфографии объединяет группу правил, являющихся приложением этого принципа к конкретным языковым явлениям.

Морфологический принцип заключается в требовании одинакового написания одних и тех же морфем: приставок, корней, суффиксов и т. д. Например: степной — степь, рябиновый — сосновый, подписать — подпись, к ране — к воде. Этот принцип является ведущим в русской орфографии; ему подчинено написание большей части слов.

Фонетический принцип заключается в том, что написание должно соответствовать произношению. Данный принцип орфографии обычно проявляется при передаче на письме чередований в одной и той же морфеме, например: расписать — роспись, бездомный — бесхозный.

Традиционный принцип заключается в том, что признаётся правильным написание, закреплённое традицией. Это, например, написание русских и заимствованных слов с непроверяемыми гласными, непроверяемыми, непроизносимыми или удвоенными согласными в корне: собака, топор, вокзал, футбол, здоровье, аллея и др. В школьной практике слова с непроверяемыми гласными и согласными называются словарными словами.

Дифференцирующий принцип написания реализуется в ситуациях, когда средствами орфографии необходимо разграничить одинаково звучащие слова: балл (оценка) и бал (танцевальный вечер), ожёг (глагол) и ожог (существительное), плачь (глагол) и плач (существительное), туш (существительное мужского рода) и тушь (существительное женского рода), орёл (птица), и Орёл (город).

Кроме названных, в русской орфографии есть принципы, регулирующие слитное, раздельное и дефисное написание, употребление прописных букв, правила переноса слов и др.

Принципы орфографии – один из важнейших факторов анализа графематического уровня на основе полиграмм, поскольку этим фактором может определяться количество и состав полиграмм, входящих в то или иное слово.

Правила орфографии также определяют количество полиграмм в языке: чем жестче правила, тем меньше свободных полиграмм.

Анализ полиграмм – один из наиболее актуальных аспектов графематики, а значит и распознавания текста.

Помимо принципов орфографии, важнейшими факторами, определяющими состав и количество полиграмм, являются фонематическая система данного языка и принятая в этом языке система обозначения звуков на письме.

<<< < Предыдущая 4 5 6 7 8 9 10 11 12 13 14 1516 / 4516 17 18 19 20 21 22 23 24 25 26 27 28 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.07.2025157.18 Кб0Опасность.doc
#
01.07.2025140.3 Кб0Опасные приключения.docx
#
30.09.2019458.75 Кб7Описание выборки экспертной группы ПЕЧАТЬ.doc
#
23.08.201929.03 Mб78Описание осадочных пород ПГУ.doc
#
17.09.201962.98 Кб3Описание профиля почв.doc
#
01.05.20251.07 Mб3ОПЛ_ответы.doc
#
01.05.20251.16 Mб2Опред интегралы.doc
#
01.03.2025257.54 Кб2Определение биологического возраста.doc
#
01.05.20251.33 Mб3Определение плотности скелета грунта.doc
#
18.07.2019319.19 Кб8Оптовая торговля.rtf
#
01.05.202586.53 Кб2Опыт работы.doc