Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
53
Добавлен:
20.06.2014
Размер:
341.5 Кб
Скачать

3.3. Принципы автоматического чтения текстовой информации

Задача ЧА состоит в последовательном распознавании и кодировании символа первичного документа для последующей передачи полученного кода непосредственно в ОП ЭВМ или фиксации на промежуточном носителе. Для решения этой задачи в ЧА должны быть реализованы следующие функции:

  • осмотр и восприятие изображения, в процессе которых вырабатывается электрический сигнал, соответствующий графическому начертанию вводимого символа;

  • выделение существенных признаков и составление описания воспринятого изображения символа;

  • распознавание символа, в процессе которого описание воспринятого изображения вводимого символа сравнивается с описаниями эталонов и принимается решение относительно соответствия символа тому или иному эталону.

Осмотр и восприятие изображения. В процессе осмотра (оптического или магнитного) изображения символа производится его “дискретизация”. Как правило, для этого формируется развертка, при которой все поле изображения символа как бы покрывается прямоугольной сеткой, что можно сравнить с проектированием изображения на сетчатку глаза человека. Размер ячеек сетки определяется используемыми кодами и разрешающей способностью узла считывания ЧА. Каждой ячейке ставится в соответствие некоторое число, характеризующее интенсивность отражения от данной ячейки света или величину сигнала от магнитной головки. Опрос ячеек сетки производится в фиксированном порядке и поэтому получаемая совокупность чисел характеризует воспринимаемые изображения, т.е. является первоначальным описанием.

Выделение существенных признаков и составление описания. Первичное описание изображения символа составляется в процессе его восприятия, когда каждой клетке сетки ставится в соответствие некоторое число, характеризующее его яркость, Однако объем информации в таком описании чрезмерно велик и она не удобна для обработки. Поэтому возникает необходимость во вторичном описании, т.е. выделении из первичного описания ряда более информативных вторичных признаков. К их числу относят геометрические и топологические (или структурные).

В первом случае используются наиболее информативные области контурной линии знака и поля, которое его окружает. Примерами геометрических признаков могут служить прямой вертикальный штрих в изображении символа (например, в букве "Н"), дуга с выпуклостью вправо или влево (например, в изображении цифр "6" и "9") и т.д.

Методы структурного анализа, позволяют выявлять, фиксировать и сравнивать взаимные связи между отдельными элементами контурной линии знака. Анализу подвергаются относительная длина, направление и кривизна линий, наличие и количество начальных и конечных точек пресечения, открытых дуг, замкнутых областей (замкнутые контуры), различной связности, узлы различной кратности и т.д. Так изображение буквы “О” характеризуется контуром нулевой связанности, цифры ”8” – контуром первой связанности из-за наличия пересечения; в изображении буквы “А” можно выделить два узла первой кратности (нижние концы), узел второй кратности (вершина) и два узла третьей кратности (точки соединения с горизонтальным штрихом).

Вторичные признаки должны выбираться так, чтобы описание изображения символа однозначно его определяло и было по возможности инвариантным к размерам и ориентации символа , а также нечувствительным к небольшим полиграфическим дефектам. Реальное вторичное описание, т.е. перечисление в определенном порядке значений признаков, всегда включает в себя элементы геометрического и топологического описаний.

Распознавание символов. Полученному описанию изображения ставится в соответствие код символа из системы кодов, принятой в ЭВМ. В памяти ЧА хранятся эталонные описания всех распознаваемых устройством символов; каждому эталонному описанию однозначно соответствует стандартный код одного символа алфавита, являющийся как бы именем эталонного описания. В процессе распознавания вычисляются меры сходства введенного описания каждому эталону и принимается решение о принадлежности вводимого символа эталону, для которого эта мера оказалась максимальной. Последовательность логических и вычислительных операций над описаниями вводимых символов и эталонными описаниями, в результате которой описанию изображения ставится в соответствие один из эталонов, называется алгоритмом распознавания. Он может быть реализован как программно-аппаратными средствами ЧА, так и программными средствами ПК. Алгоритм распознавания упрощается и затраты времени на его реализацию значительно сокращаются при уменьшении объема алфавита. Из-за помех (типографские дефекты, плохое качество бумаги и т.п.) полное совпадение описаний вводимого символа и одного из эталонных обычно не происходит. Если значение меры сходства для одного из эталонов значительно выше, чем для остальных, то вводимому символу приписывается код-имя данного эталона. Если значения меры сходства для двух или нескольких эталонов совпадают или различаются незначительно, то ЧА оказывается неспособным распознать предъявленный ему символ. По этим причинам ЧА принято характеризовать:

  • вероятностью (частотой) ошибок распознавания, т.е. относительным числом неправильных решений;

  • вероятностью (частотой) отказов от распознавания, т.е. относительным числом символов, для которых ЧА не находит нужного соответствия эталону.

Наиболее громоздкими являются описания для рукописных символов; для специальных шрифтов описание значительно упрощается, а вероятность ошибок и отказов при распознавании уменьшается. Точность составляет 95-97 %.

Описанный алгоритм распознавания называется омнифонтовым (omnifont) или шрифтонезависимым. Согласно этому алгоритму для большинства шрифтов за исключением экзотических и декоративных достаточно иметь единственный набор эталонов с топологическими и геометрическими признаками.

Другой тип алгоритма распознавания называется шрифтовым или матричным (multifont). В соответствии с ним каждому символу алфавита ставится в соответствие матрица-эталон, задающая определенное положение черных точек. Символ, считанный с документа, сравнивается со всеми эталонами. Причем это сравнение может осуществляться либо методом непосредственного оптического перекрытия, либо методом электрического перекрытия. Оба метода базируются на использовании только первичного описания изображения символа без учета вторичных признаков (геометрии или топологии).

В случае применения первого из них происходит оптическое наложение изображения опознаваемого знака на эталонные маски-трафареты. Критерием опознавания является величина светового потока, прошедшего через маску при ее совмещении с изображением знака. Решение принимается в пользу той маски, через которую проникает минимальное количество света.

К основным недостаткам методов оптического сравнения перекрытием относятся:

  • зависимость результатов опознавания от контрастности изображения;

  • отсутствие способов точной безынерционной центровки опознаваемого изображения относительно масок;

  • невозможность получить на фотоприемниках световые потоки достаточной мощности;

  • сложность размножения анализируемого изображения с целью одновременного его представления перед несколькими масками;

  • ограниченные возможности для опознавания знаков нескольких различных шрифтов.

Методы электрического сравнения перекрытием реализуются с помощью взвешенного суммирования электрических сигналов от элементов изображения знака на эталонных матрицах сопротивлений или ферритовых сердечников. Эталон может представлять собой электрическую модель масок-трафаретов в виде одного или нескольких наборов активных сопротивлений, линий задержек, одной или нескольких шин, продетых через соответствующие подматрицы «белых» и «черных» ферритовых сердечников, и т.д. Опознавание осуществляется аналоговыми способами посредством пороговых схем сравнения и пр.

Если процент совпадения был больше некоторого порогового значения, то считалось, что распознавание символа не состоялось. Достоинство шрифтовых алгоритмов – простота реализации, недостаток – необходимо иметь несколько наборов эталонов, соответствующих распространенным шрифтам.

Шрифтонезависимый алгоритм отлично зарекомендовал себя на текстах хорошего качества. В случае, если качество печати оставляет желать лучшего, т.е. многие буквы искажены, потеряли присущие им штрихи или слабоконтрастны или даже приобрели на грязных текстах новые детали, лучше использовать различные модификации матричного и омнифонтового методов.

Необходимо отметить еще несколько проблем распознавания. Первая – это проблема разделения текста на буквы, с которой связана ошибка некоторых англоязычных систем, адаптированных к русскому шрифту. В английском языке нет символов, состоящих из отдельных, независимых частей – таких, как наше “Ы”. Естественно, что возможность распознавания таких букв не была предусмотрена в алгоритме разделения. В результате русская буква “Ы” неизменно воспринималась системой двух символов – “Ь” и “1”.

Вторая сложность связана с совершенным, казалось бы, пустяком, с тем, что очень трудно положить в ЧА документ абсолютно ровно. Особенно если это не отдельный листок, а, скажем, разворот книги, обычно получается наклон (угол между строкой текста и считывающей линейкой) в несколько градусов, и распознающая OCR-система должна определить этот угол, чтобы внести необходимые поправки.

Бионические методы опознания в отличие от эвристических методов используют принцип действия биологических механизмов восприятия, преобразования и обработки зрительной информации. Типичными устройствами этого вида являются перцептроны, представляющие собой своеобразные упрощенные модели органов чувств.

Пусть, например, человек, использующий такого типа машину, хочет обучить ее опознавать и отличать два класса визуальных изображений. Предположим, что первый класс представляет собой рукописные буквы А, а второй - Б.

Машина обучается путем предъявления некоторых последовательностей изображений из обоих классов. Человек, наблюдающий поведение машины после каждого показа обучающего изображения, определяет является ли оно правильным или нет. Если машина справилась с задачей, учитель «поощряет» машину, увеличивая веса, относящиеся к ячейке, выход которой характеризует правильную классификацию. Если решение машины ошибочно, когда входное изображение взято из класса А, то учитель «наказывает» ее, уменьшая весовые коэффициенты, которые связаны с выходной ячейкой, определившей неверную классификацию.

Продолжая этот процесс дальше, учитель в определённой последовательности показывает машине совокупность изображений как из класса А, так и из класса Б и путем «поощрений» и «наказаний» обучает машину опознавать представителей класса А и класса Б с возможно меньшей ошибкой. Далее машина представляется самой себе и самостоятельно устанавливает, к какому классу принадлежит новые изображения, не использованные в процессе обучения. Это выполняется также путем сравнения выходов.

Существует несколько модификаций такого метода, отличающихся в основном способами соединения элементов и правилами «поощрения» и «наказания».

Среди отечественных систем автоматического распознавания (OCR-систем) необходимо выделить:

  • TIGER (ф. Cognitive Technologies). По результатам тестирования техническим центром Hewlett Packard в 1992г. признана лучшей системой распознавания кириллицы. Использует матричный метод, содержит базу наиболее употребительных шрифтов, и систему самонастройки на тип шрифта, имеется самонастройка яркости при сканировании, среда MS DOS, используется в основном в издательствах.

  • Cinei-Form (ф. Cognitive Technologies). В 1994г. вышла русскоязычная версия. На выставке “Комтекс-94” заняла первое место по качеству распознавания текстов и удобству работы. Использует омнифонтовый метод, имеет самонастройку яркости при сканировании, среда Windows.

Соседние файлы в папке Лекции + Экзамен (билеты, ответы)