Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
NIRS АиМРТ.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
971.26 Кб
Скачать

Текущее состояние технологии оптического распознавания текста

Точное распознавание латинских символов в печатном тексте в настоящее время возможно только если доступны чёткие изображения, такие как сканированные печатные документы. Точность при такой постановке задачи превышает 99%, абсолютная точность может быть достигнута только путем последующего редактирования человеком. Проблемы распознавания рукописного «печатного» и стандартного рукописного текста, а также печатных текстов других форматов (особенно с очень большим числом символов) в настоящее время являются предметом активных исследований.

Точность работы методов может быть измерена несколькими способами и поэтому может сильно варьироваться. К примеру, если встречается специализированное слово, не используемое для соответствующего программного обеспечения, при поиске несуществующих слов, ошибка может увеличиться.

Распознавание символов он-лайн иногда путают с оптическим распознавания символов. Последний — это офф-лайн метод, работающий со статической формой представления текста, в то время как он-лайн распознавание символов учитывает движения во время письма. Например, в он-лайн распознавании, использующем PenPoint OS или планшетный ПК, можно определить, с какой стороны пишется строка: справа налево или слева направо.

Он-лайн системы для распознавания рукописного текста «на лету» в последнее время стали широко известны в качестве коммерческих продуктов. Алгоритмы таких устройств используют тот факт, что порядок, скорость и направление отдельных участков линий ввода известны. Кроме того, пользователь научится использовать только конкретные формы письма. Эти методы не могут быть использованы в программном обеспечении, которое использует сканированные бумажные документы, поэтому проблема распознавания рукописного «печатного» текста по-прежнему остается открытой. На изображениях с рукописным «печатным» текстом без артефактов может быть достигнута точность в 80 % — 90 %, но с такой точностью изображение будет преобразовано с десятками ошибок на странице. Такая технология может быть полезна лишь в очень ограниченном числе приложений.

Ещё одной широко исследуемой проблемой является распознавание рукописного текста. На данный момент достигнутая точность даже ниже, чем для рукописного «печатного» текста. Более высокие показатели могут быть достигнуты только с использованием контекстной и грамматической информации. Например, в процессе распознания искать целые слова в словаре легче, чем пытаться проанализировать отдельные символы из текста. Знание грамматики языка может также помочь определить, является ли слово глаголом или существительным. Формы отдельных рукописных символов иногда могут не содержать достаточно информации, чтобы точно (более 98 %) распознать весь рукописный текст.

Для решения более сложных проблем в сфере распознавания используются как правило интеллектуальные системы распознавания, такие как искусственные нейронные сети.

ВЫВОДЫ

1. Быстрое развитие многопроцессорных вычислительных машин и параллельного программирования обусловлено принятием абстрактной модели параллельной машины, такой же удобной и общей, как модель последовательной машины фон Неймана. Такой идеализированной моделью параллельной машины является мультикомпьютер, состоящий из нескольких компьютеров фон Неймана, связанных друг с другом с помощью коммуникационной среды. В рамках этой модели возможны различные архитектуры параллельных компьютеров, например, MIMD архитектура с распределенной памятью и мультипроцессор с разделяемой памятью. При программировании сложных задач для выполнения на параллельной машине необходима абстрактная модель программирования. Возможны модели программирования на основе понятий «задачи» и «каналы», принципа передачи сообщений, принципа разделяемой памяти и параллелизма данных. Взаимосвязь элементов данных на этапе коррекции способствуют формализации процесса разработки параллельных программ и позволяют придерживаться определенной методики, согласно которой процесс разработки параллельного алгоритма состоит из четырех стадий: декомпозиция (partitioning), взаимосвязь (communication), агломерация (agglomeration), отображение (mapping). На первых двух этапах этой методики раскрываются присущие задаче потенциальные возможности для распараллеливания, определяются простейшие элементы данных и схема их взаимодействия, без привязки к какой-либо конкретной архитектуре, что позволяет в дальнейшем разработать наиболее эффективный алгоритм для любой конкретной системы. В соответствии с вышеизложенным, определение возможности распараллеливания разработанных алгоритмов целесообразно производить согласно этой методике, а именно, в части определяющих стадий декомпозиции и установления взаимосвязей.

2. Как показано в предыдущих разделах, обработка изображения документа производится в три этапа: сегментация (с применением операций фильтрации и заливки), распознавание и орфографическая коррекция. Выделение этих этапов является функциональной декомпозицией и позволяет проектировать три разных подсистемы, оптимизированные под алгоритмы каждого этапа. Произведены оценки трудоемкости алгоритмов, выполняющихся на различных этапах обработки, и даны рекомендации по машинно-зависимым аспектам разработки параллельных алгоритмов.

Экспериментально установлено, что наиболее трудоемким этапом является орфографическая коррекция. Трудоемкость этой операции пропорциональна М log М (М — число одновременно сохраняемых лучших цепочек на каждом шаге). Для достижения достоверности распознавания 98% необходимо установить М= 100, при этом время орфографической коррекции 1 страницы документа составило 24 секунды, а доля этой операции во времени общей обработки составила 66%. Таким образом, данный этап является критичным по времени и нуждается в распараллеливании прежде остальных. Выделено два уровня его распараллеливания. Элементами данных в операции орфографической коррекции могут выступать слова документа, при этом каждое слово обрабатывается независимо, взаимосвязи отсутствуют. При более детальной декомпозиции, в каждой позиции слова элементами данных являются цепочки текущего набора и варианты распознавания текущего символа, между которыми установлены взаимосвязи «каждый с каждым». Для исключения взаимосвязей между задачами на этапе агломерации, рекомендуется дублирование набора цепочек, а варианты распознавания символа из набора распределяются между задачами.

3. Этап нейросетевого распознавания символов занимает 29% общего времени распознавания документа. При нейросетевом распознавании основное время занимают матричные операции, которые наиболее эффективно могут быть реализованы аппаратно. Такие специализированные вычислительные блоки, необходимые для моделирования работы нейросетей, присутствуют в архитектуре многих специализированных процессоров и нейропроцессоров. Таким образом, для ускорения этого этапа рекомендовано включение в систему вспомогательных вычислительных блоков, например, специализированных нейропроцессоров, содержащих аппаратный блок матричных вычислений. Примером нейровычислителя может выступать процессор SYNAPSE фирмы SIEMENSE NIXDORF, отечественный нейропроцессора NeuroMatrix NM6403 и другие.

4. Длительность этапа сегментации составляет 5% общего времени распознавания документа. Раскрыты возможности для распараллеливания основных операций этого этапа — заливки и составления строк. Элементарными единицами данных в операции заливки являются пиксели объекта, а взаимосвязи устанавливаются с 8-ю соседними пикселями. Подчеркнуто, что такие взаимосвязи вызывают необходимость обменов между задачами лишь при обработке пикселей на границах областей. Рассмотрена декомпозиция операции составления строк из упорядоченного набора изображений символов. Показано, что в результате агломерации каждая задача будет независимо формировать элементы строк, а взаимодействия возникнут лишь при объединении фрагментов строки.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]