Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Центральные и переферийные устройства электронно вычислительных средств.pdf
Скачиваний:
284
Добавлен:
02.05.2014
Размер:
6.14 Mб
Скачать

Глава 12. Устройства автоматического считывания текстов

191

штабирование - от 1% до 400% с пошаговым изменением в 1% при 300 dpi в зависимости от разрешения; сканирующий элемент - прибор с зарядовой связью; источник света - одиночная ксеноновая лампа; интерфейс SCSI-2, с автоматической оконечной нагрузкой.

Функциональные характеристики сканера: скорость сканирования в ОЗУ без учета времени калибровки (4 с): 22 с для 8-разрядной шкалы серого цвета или 24-разрядного цвета; режимы сканирования: 1-разрядный для черно-белого, 4-разрядный для 16 уровней серого цвета, 8-разрядный для 256 уровней серого цвета либо для 256 оттенков цвета и 24разрядный для 16,7 миллиона цветовых оттенков. Потребление энергии 36 Вт максимум, в режиме простоя 8 Вт. Эксплуатационные характеристики сканера соответствуют требованиям международных стандартов.

Новая модификация сканера той же компании HP ScanJet 3c обеспечивает более высокое качество ввода благодаря разрешению 2400 точек на дюйм и оптическому разрешению 600 dpi и 1024-уровневому представлению тонов серого.

Для устройств ввода не только буквенных символов, но и иероглифов, разработан новый стандарт кодирования - UNICODE. Он представляет из себя 16-битовый набор кодов взамен 7-битового в стандартах ASCII и ISO-8859-1 (старое название Latin I). Это позволяет кодировать 65 536 символов. Для хранения эталонов этих символов требуется 10 - 20% объема оперативной памяти.

12.3. Устройства автоматического ввода рукописных текстов

Рукописные тексты вводятся читающими автоматами с использованием корреляционного метода, который обладает универсальностью к распознаваемому материалу, наиболее полно исследован и показывает высокие результаты.

Так же, как и в любом автоматическом устройстве ввода изображений, процесс ввода распадается на три этапа: анализ символа, его идентификация в результате сравнения считанного кода с кодами эталонов, кодирование в машинном коде и ввод в ЭВМ.

y

 

 

y

 

x

х

 

Рис. 12.8. Фрагмент рецепторного поля

Рассмотрим первый этап - анализ символа, то есть разбиение его после бинаризации на элементы и получение считанного кода. Рецепторное поле представляет собой матрицу с шагом квантования Dx и Dy. Фрагмент поля с спроецированным на него участком линии контура рукописного знака приведен на рис. 12.8. Знак представляется в виде матрицы дискретных площадок Dx · Dy с координатами (x, y). Площадки могут быть белыми, черными и с преобладанием белых или черных участков в зависимости от расположения линий контура символа. Значение двоичной функции f(x, y) для каждого дискрета, где площадь вокруг координат (x, y) черная, принимается равным “1”, где площадь белая - “0”. Произведению значений этой функции для двух соседних точек линии f(x, y)· f(x+Dx, y+Dy) присваивается значение “1” лишь там, где одна точка черная, а другая - белая. На каждой паре точек распознаваемого символа S производится умножение значений этой функции.

Глава 12. Устройства автоматического считывания текстов

192

Разным символам будет соответствовать свое количество пар перекрываемых черных участков. Автокорреляционная функция RS определяет число этих пар и определяется как

RS = Sx, y f(x, y)· f(x+Dx, y+Dy).

Автокорреляционная функция однозначно описывает символ, причем разрядность кода символа существенно меньше количества рецепторов матрицы, так как кодируются и суммируются лишь границы переходов от черного к белому и от белого к черному.

Для примера возьмем упрощенную матрицу из 12 рецепторов (рис. 12.9). Рецепторные поля реальных устройств имеют большее число рецепторов. По методу зондов, описанному в разделе о читающих автоматах печатного текста, получим 12-разрядный код символа “C”: 110100011000. По автокорреляционному методу код получается 6-разрядный: 011010, а автокорреляционная функция символа “C” будет RC = 3. Для символа “0” R0 = 4. Как видим, этот метод позволяет сжать информацию. Но главное достоинство этого метода заключается в том, что значения автокорреляционных функций для одних и тех же рукописных знаков, отличающихся начертанием, масштабом, наклоном, зависящими от почерка, будут близки друг к другу.

На этапе распознавания из памяти запрашиваются по одному коды автокорреляционных функций эталонов символов алфавита RV и сравниваются с RS . Результаты сравнения нормализуются путем деления их на квадратный корень из суммы квадратов элементов автокорреляционной функции соответствующего эталона, то есть на “вес” эталона, который равен

к,у (R S (Dx , Dy) R V (Dx, Dy))/ к,у (R V (Dx, Dy)) 2 .

Распознаваемый символ идентифицируется, приписывается тому эталону, для которого эта сумма оказалась максимальной, что означает равенство или приблизительное равенство корреляционных функций символа и эталона:

RS(Dx, Dy) = RV(Dx, Dy).

Наименьшие кодовые расстояния имеются между кодами рукописных прописных символов “г”, “с”, “е” и “о”; “н” и “п”; “ш”, “щ” и “т”, поэтому на этапе распознавании этих символов возможны ошибки. Особые трудности вызывает распознавание заглавных букв, в написании которых авторы текстов особенно любят выражать свою индивидуальность. Здесь вплотную подходим к одной из задач создания интеллектуальных устройств ввода - обучению, то есть сбору эталонов новых символов и дополнению базы данных. И все-таки количество ошибок при распознавании рукописного текста например, разработанным компанией Grid Corporation читающим автоматом типа MK Gridpad, достигает 10%.

12.4. Средства считывания и хранения графических изображений поврежденных рукописных текстов

Реставрация поврежденных рукописных текстов представляет интерес для таких областей деятельности, как криминалистика, историография, языкознание и других. В Институте русского языка РАН проводилась работа с древними рукописями по их реставрации и архивированию с применением созданной системы цифровой обработки рукописных текстов. Единственный экземпляр рукописной картотеки древнерусского словаря, хранящей около 2 млн. довольно ветхих карточек с цитатами из уникальных письменных источников 11 - 18 веков, получил свое воплощение в форме страхового дубля в виде компьютерной базы данных.

Система цифровой реставрации и архивирования состоит из двух подсистем: подсистемы ввода и реставрации карточек и подсистемы наполнения и просмотра базы данных.

Подсистема ввода и реставрации построена на базе ПК 486DX2-50, к которому помимо обычных периферийных устройств подключено устройство оптического ввода - сканер

Глава 12. Устройства автоматического считывания текстов

193

планшетного типа ScanNex II. Может использоваться и барабанный сканер в случае ввода текстов с фотопленок. Программное обеспечение этой подсистемы включает операционную систему MSDOS и систему диалоговой обработки изображений IMS-VGA, дополненную оригинальными программами ввода, реставрации и архивирования изображений.

Основой подсистемы базы данных, представляющей собой информационно-поиско- вую систему, является более мощный ПК Pentium-120 с оперативной памятью 16 Мбайт, с операционной средой Windows и СУБД Access. В состав подсистемы входят также стандартные ПУ и принтер, который можно использовать для распечатки копий найденных карточек. В НМД хранится системное программное обеспечение и оригинальные программы, позволяющие хранить в базе данных не обычные байтовые описания изображений карточек в форме файлов размером по 1 Мбайт каждый, а результаты их компактного представления (сжатия) и обеспечивающие обратное восстановление документов при выводе. Время показа одной карточки из базы не превышает 4-5 с. Архивы закодированных изображений вначале формируются на МД, а затем по мере накопления нужного объема переносятся на CD ROM или на магнитооптический диск.

Для повышения удобства и увеличения скорости взаимодействия подсистем они связаны между собой в одноранговую локальную сеть NWLITE (Novell NetWare Lite).

При вводе поврежденного документа (потемневший или окрашенный фон, зернистая структура низкокачественной бумаги, выцветшие чернила, пятна, просвечивающийся с оборота текст, разрывы и порезы) необходимо прежде всего провести его бинаризацию, то есть двухградационное представление изображения - черный текст на белом фоне. Для этого они должны быть подвергнуты трудоемкой обработке в диалоговом режиме. В рассматриваемой системе применен метод автоматической бинаризации на основе оценки локальных статистических параметров (среднего М, дисперсии D, асимметрии A и эксцесса E) многоградационного изображения текста в пределах скользящей окрестности произвольного размера (mxn отсчетов). Эти параметры вычисляются по формулам:

M = S1 / mn, D = S2 / mn - M2 ,

A = (S3 / mn - 3MD - M3) / D3/2 , E = ((S4 - 4S3 M) / mn + 6M2D) / D2 - 3,

m / 2 - 1 n / 2 - 1

где Sk = Σ

Σ

аk

- сумма k -тых степеней отсчетов изображения а,

u = - m / 2 n = - n / 2

i + u, j + n

 

входящих в скользящую окрестность с центром в точке а ij .

После вычисления M, D, A и E бинаризация отсчетов а ij выполняется по формуле:

255,

если а ij >M, D>D0 , E>0,

b ij = }

для остальных элементов.

0

Точка а ij считается черной, когда яркость аij превышает среднее значение М , дисперсия D превышает заданный порог D0 (это позволяет оставлять белыми области, содержащие практически однородный фон), а эксцесс отрицателен ( что дает возможность отмечать черные точки лишь в областях с “широкой” функцией плотности вероятности, содержащих элементы букв, и оставлять белыми области с узким распределением вероятности, характерным для шума). На результат бинаризации влияют значения m, n и D0. В большинстве случаев можно применять значения m= n = 5, D = 8. Изображения примерно 90% карточек со значительными дефектами удается бинаризировать указанным способом, сразу получая приемлемое двухградационное изображение текста.

Рассмотрим теперь способ компактного представления графического изображения рукописного текста. Ввод изображения текста должен осуществляться с достаточно высо-

Глава 12. Устройства автоматического считывания текстов

194

ким пространственным разрешением, не хуже 10 линий/мм, в противном случае их визуальное качество оказывается низким. Для карточек словаря это приводит к изображениям больших размеров, порядка 1000 строк по 1000 элементов. Хранение такого изображения на диске в обычном полутоновом черно-белом представлении порождает файл размером около 1 Мбайта. Это делает невозможным создание больших баз изображений текстов на персональном компьютере, к которому можно обычно подключить лишь 2 - 4 накопителя на магнитных или на оптических дисках объемом порядка 1 - 5 Гбайт. Здесь используются методы сжатия информации, тем более, что бинарные изображения рукописных текстов обладают значительной избыточностью.

Среди существующих методов сжатия графических изображений без потери информации наиболее подходит для решения задачи ввода и хранения рукописных текстов метод сжатого кодирования длин серий, представляющий изображение в виде чередующихся последовательностей белых и черных элементов с последующим составлением перечня длин этих последовательностей и кодированием этих длин кодом Хаффмана. Алгоритм Хаффмана осуществляет двоичное кодирование элементов конечного множества A = {a1, a2, . . . , an }, для каждого элемента а i которого предполагается известной вероятность рi его появления в сообщении. Для этого алгоритма выполняется префиксное условие, заключающееся в том, что никакое кодовое слово не является префиксом (то есть совпадающим с первыми символами) любого другого кодового слова. Кроме того, средняя длина получающихся кодовых слов оказывается минимальной. Таким образом, элемент аi c высокой вероятностью появления в сообщении будет кодироваться короткой двоичной строкой, а элемент с малой вероятностью появления - более длинной строкой.

Основная схема двумерного кодирования длин серий, зафиксированная в качестве стандарта CCITT как “модифицированный алгоритм READ”, имеет вид, показанный на рис. 12.10. В каждый момент процедуры кодирования используется информация о двух со-

седних строках изображения: текущей строке i

и предшествующей ей строке i - 1. В строке

i определяются положения трех отсчетов а0 , а1

и а2 , а в строке i - 1 - положения отсчетов

b1 и b2 . Отсчеты а0 , а1 и а2 - это три последовательных отсчета, в которых цвет текущей

строки меняется с белого на черный или с черного на белый. Кодированию подлежит серия (а0 а1 ). Отсчет b1 соответствует изменению цвета в предшествующей строке; он должен находиться справа от а0 и иметь тот же цвет, что а1. Отсчет b2 отвечает следующему за b1 изменению цвета в предшествующей строке.

В зависимости от взаимного расположения отсчетов а0, а1, b1 и b2 используется один из трех режимов кодирования: “проходной”, “вертикальный” или “горизонтальный”. “Проходной” режим (верхняя часть рис. 12.10) применяется, когда отсчет b2 находится слева от а 1. В этом режиме запоминается специальный код - признак режима, а затем отсчетом а0 считывается отсчет текущей строки, находящийся под b2 . Это позволяет изолировать короткие серии предшествующей строки, целиком находящиеся внутри длинных серий текущей строки. Если отсчет b2 находится над а1 или правее а1 , то оценивается кодовое расстояние между а1 и b1. Это расстояние есть |а1-b1|. Если это расстояние не превышает 3, устанавливается “вертикальный” режим, показанный в середине рис. 12.10, и значение кодового расстояния кодируется одним из семи специально выделенных коротких кодов. Это позволяет использовать короткий код для описания достаточно длинных серий, почти одинаково расположенных в текущей и предшествующей строках. После формирования этого кода отсчеты а0, а1, а2, b1 и b2 сдвигаются на одну серию вправо, и процесс кодирования повторяется для новой серии. Если расстояние |а1 - b1| превышает 3, то используется “горизонтальный“ режим кодирования (нижняя часть рис. 12.10), аналогичный применяемому при одномерном кодировании длин серий кодом Хафмана. Для обеспечения синхронизации серий в текущей и последующей строках “горизонтальному” кодированию подвергаются одна за другой две серии - (а0а1) и (а1а2). Затем отсчеты а0, a1 и а2 сдвигаются на две