Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Центральные и переферийные устройства электронно вычислительных средств.pdf
Скачиваний:
284
Добавлен:
02.05.2014
Размер:
6.14 Mб
Скачать

Глава 12. Устройства автоматического считывания текстов

187

на странице. Слева находится пик, соответствующий белым полям страницы, а справа - пик, соответствующий черным полям. Ясно, что порог должен быть выбран между ними.

Следующая проблема - декомпозиция страницы и выделение в ней текстовых фрагментов с целью отделения текста от картинок и сохранения структуры многоколоночного текста в результате распознавания. Для декомпозиции страницы используются белые “коридоры”, то есть горизонтальные и вертикальные просветы между черными компонентами. При этом используются такие понятия, как средний кегль (высота буквы) фрагмента, среднее расстояние между буквами в строке и др.

На втором этапе считанный код , например, такой, как в таблице, направляется на вход устройства сравнения - двоичного компаратора, на второй вход которого поочередно поступают коды эталонов символов. При совпадении считанного кода символа с кодом эталона производится идентификация - присвоение символу имени этого эталона.

Затем на третьем этапе производится кодирование имени символа в стандартных машинных кодах, накопление информации в буферном ЗУ и собственно ввод в ЭВМ.

Второй и третий этапы могут быть реализованы как аппаратно (рис.12.1), так и программно. В случае программной реализации значительная часть управляющей информации сосредоточена в таблицах эталонов, то есть отчуждена от программы. Это увеличивает гибкость программных компонентов, реализующих базовые методы распознавания символов и уменьшает их объем, не превосходящий 1000 строк языка “C”. В последнее время в связи с продолжающейся тенденцией снижения стоимости аппаратных средств за счет повышения серийности выпуска и ускорения окупаемости затраченных на производство вложений заметно стремление реализовывать многие функции обработки информации аппаратно.

Если вместо ПЗУ кодов эталонов применить программируемые или репрограммируемые ЗУ (ППЗУ или РПЗУ), то возможно осуществление перехода с одного алфавита на другой, так называемое обучение автомата. Обучение - это одна из составляющих искусственного интеллекта, заключающегося в способности автоматического устройства выполнять функции, присущие человеческому интеллекту, такие, как рассуждение, обучение, самоусовершенствование и принятие решений. (Принятие решения - определение будущих действий). Термин “искусственный интеллект” относится к области самообучения машин - способности машин улучшать свое функционирование на основе предшествующего функционирования. В связи с этим некоторые периферийные устройства, наделенные возможностями к обучению посредством перепрограммирования, называют интеллектуальными или даже интеллигентными, что не всегда корректно, поскольку некоторые из них способны выполнять только одну из функций, присущих автоматам с искусственным интеллектом - обучение.

С помощью ЭВМ можно распечатывать документы произвольной сложности, содержащие колонки, разделительные линии, рисунки и т.п. Однако при всей привлекательности электронного документооборота значительное число документов по-прежнему существует на бумаге.

12.2. Методы распознавания образов печатных знаков

Превращение графического образа страницы в текст - типичная задача искусственного интеллекта, включающая рассмотренное выше распознавание символов, словарную обработку, элементы языковой семантики. Главное требование здесь - высокое качество распознавания, не менее 99,9% при приемлемой скорости ввода.

Системы оптического распознавания текста и документов в настоящее время представляют собой интенсивно развивающийся сектор рынка аппаратного и программного обеспечения. Необходимо отметить, что распознавание национальных алфавитов, в част-

Глава 12. Устройства автоматического считывания текстов

188

ности кириллицы, отличается от распознавания текстов на языках на базе латиницы, что усложняет организацию ввода документов в ЭВМ.

Одна из лучших в мире систем распознавания текстов “Cuneiform”, поставляемая со сканерами ряда фирм, таких, как Hewlett Packard, Epson, Mustek, работает как с русским, так и с европейскими языками. Наиболее распространены четыре типа алгоритмов распознавания символов, применяющихся как отдельно, так и комбинированно с целью распознавания сильно искаженных образов. Маска зондов в этих случаях имеет форму матрицы, состоящей из 10 - 20 рядов рецепторов по 10 - 20 рецепторов в каждом.

Рассмотренный уже метод сравнения с эталонами прекрасно работает при фиксированном (стандартизированном либо стилизованном) шрифтах, но плохо на “незнакомом” образе. Объем фиксированного шрифта, содержащего расширенный и скелетный образы каждого из символов русского языка (рис. 12.5, а), для полиграфической гарнитуры с одним характеристическим размером не превосходит 120 Кбайт. Среднее время распознавания одного символа составляет не более 0,003 с на компьютере Intel486 / 66 Мгц. Этот метод является очень надежным и не требует повторных парных исследований символов. Однако он не срабатывает на загрязненных и незнакомых символах, что требует использования иных алгоритмов.

Другой метод распознавания - событийное распознавание, при котором используется представление изображения символа в виде одного или нескольких однолинейных объектов (событий), масштабируемых на стандартные размеры (рис. 12.5 б). Событием считается появление критических точек - начал (1) или концов (6), самостоятельных интервалов (4) или точек ветвлений 2 - 3, 4). В результате получается компактное описание, допускающее быстрый поиск среди заранее собранных эталонов. Каждому описанию соответствует, вообще говоря, набор гипотез.

Рис. 12.5. Образы символов: а - расширенный и скелетный, б - представление образа в виде однолинейных объектов

Этот метод хорошо и очень быстро распознает “нормальные” символы и особенно эффективен для символов сложной структуры. Однако он плохо различает простые (однолинейные) объекты и чересчур чувствителен к искажениям структуры, например, разрывам линии контура символа. Событийное распознавание символов не превосходит по времени 1,5 с на страницах формата А4, отсканированных с разрешением 300 точек на дюйм и содержащих в среднем по 2000 символов. Объем эталонных таблиц для этого метода может достигать 800 Кбайт.

Событийное распознавание часто дает неоднозначный результат, то есть распознаваемому образу может соответствовать коллекция из нескольких букв, которую необходимо упорядочить посредством оценок методом сравнения с эталонами или методом распределения масс. В некоторых случаях (узкие буквы 1, I, l) необходимо проведение контурного анализа, рассматриваемого ниже.

Глава 12. Устройства автоматического считывания текстов

189

Следующий метод использует распределение масс внутри символа. При этом применяется разбиение символа на грубые прямоугольники, внутри которых считается сумма черных точек и после нормирования преобразуется в безразмерный вектор (рис. 12.6). Другое название метода - метод грубых растров. Затем полученный вектор сравнивается с эталонными векторами, из которых выбирается один или несколько ближайших. С целью экономии временных затрат, производится так называемое сжатие информации: растр символа “сжимается” до размеров 3х5 и 5х3. Такое огрубление образов приводит к тому, что обучающая последовательность в 1000000 образов символов отображается примерно в 1000 грубых растров и обладает невысоким быстродействием, обусловленным затратами времени на определение кодового расстояния между двумя векторами. Среднее время распознавания по методу распределения масс с грубыми растрами типа 3х5 составляет 0,008 с на символ.

Для ускорения распознавания по методу распределения масс разработан специальный алгоритм кластеризации - выделения в множестве элементов групп (кластеров), схожих между собой и отличающихся от элементов всех других кластеров.

Этот более медленный по отношению к событийному метод дает стабильные результаты на загрязненных или “разваленных” символах. Он требует одновременной работы дискриминаторов для разделения результатов от сворачивания некоторых широких букв (Ш, М, Ж, Ю, W) в векторы небольшой размерности.

Рис. 12.6. Распределение масс на грубой сетке

Рис. 12.7. Использование контурного анализа

Четвертый метод распознавания - дискриминационный или контурный анализ. Суть метода состоит в исследовании изображения символа с целью поиска деталей, ускользнувших при масштабировании, не свойственных сформулированным гипотезам. Дискриминатором может являться, например, изучение “вмятины” в середине правого контура с целью различения гипотез “З” и “Э” (рис. 12.7), или “хвостика” для различения гипотез “Щ” и “Ш”. Дискриминация символа состоит в построении вектора признаков и в его оценке, причем основная трудоемкость этого процесса связана с нахождением признаков при исследованиях контуров и гистограмм разного рода, а также при обработке образов, например, выпрямлении наклонных символов. Система дискриминаторов, предназначенная для коррекции результатов распознавания по предыдущим трем методам, обладает невысоким быстродействием (0,004 - 0,008 с на один символ), объем реализующих ее программных

Глава 12. Устройства автоматического считывания текстов

190

кодов довольно велик и составляет 15 000 строк исходных текстов на языке “C”. Последовательное использование и комбинирование гипотез, отобранных с помощью

четырех описанных методов, позволяет с более высокой степенью точности распознавать изображения отдельных символов.

На практике мы имеем дело не только с изолированными связными образами букв, но и со слипшимися или, наоборот, развалившимися на части символами. При распознавании склеек возникают три задачи: построение множества возможных границ символа, организация их перебора для нахождения наилучшего набора и собственно проведение разрезов. Конфигураций, которые могут рассматриваться как точки склейки, немного, и их выявление не слишком сложно. Однако правильный разрез зачастую должен быть проведен не вертикально, что непросто осуществить. В процессе разрезания и склеивания могут быть получены объекты, вообще не являющиеся буквами. Возникает еще одна задача распознавания: отличить букву от “небуквы”.

Синтаксические методы контроля и коррекции служат также и средством поддержки геометрического распознавания. Благодаря этому удалось построить систему хранения в словаре порядка 1000000 слов, в которой на хранение каждого слова требуется не более одного байта. Применение словаря позволяет организовать дораспознавание символов, нераспознанных ранее с помощью четырех базовых методов.

Задача ввода качественно гладких текстов практически решена. Однако есть еще области, такие, как некачественные тексты, структурированные тексты, документы и таблицы, где сделаны еще только первые шаги.

Рассмотрим технические данные сканера типа НР ScanJet 5p. Он способен оцифровывать и вводить в компьютер черно-белые и цветные тексты и изображения (“картинки”).

В комплекте со сканером поставляется программа сканирования, состоящая из следующих 8-ми компонент: программа PaperPort для HP, позволяющая сканировать, организовывать, аннотировать документы и помещать сканированные элементы в совместимые приложения. Программа HP PictureSkan с технологией Accupage контролирует процесс сканирования и параметры сканирования. Калибровка сканера HP оптимизирует качество напечатанных сканированных изображений. Тест сканера HP тестирует сканер после установки. Программа HP Адреса SCSI показывает устройства SCSI компьютера и доступные адреса SCSI (только для Windows 3,1). Программа Калибровки экрана HP калибрует экран монитора под сканер после установки. Программа Копирования HP ScanJet копирует документы. Программа Сканеры HPScanJet в панели управления выбирает и тестирует сканер а также показывает информацию о SCSI (только для Windows 95). Редактор изображений позволяет подчистить или внести детальные изменения в сканированные изображения.

Порядок установки программы сканирования НР и интерфейсной платы приводится в прилагаемых к сканеру справочных материалах. Помимо этих материалов в комплектующие сканера входят: интерфейсная плата, шнур электропитания и кабель сопряжения, дискеты или КД-ПЗУ (CD-ROM) с программами сканирования, тестирования, драйвером для

Windows 95,

Для подключения сканера к ЭВМ должны быть выполнены минимальные системные требования: 80486 или более мощный процессор; ОЗУ на 8 Мбайт; 20 Мбайт свободной дисковой памяти; устройство управления курсором, совместимое с Windows (к примеру, мышь); монитор с адаптером видеографики (VGA); Windows 95 либо DOS 5,0 или более новая версия и улучшенный режим Windows 3,1x; одно свободное гнездо для платы расширения - интерфейсной платы НР либо для Windows 95 платы SCSI, совместимой с Windows 95 или порт SCSI, встроенный в компьютер.

Паспортные характеристики сканера HP ScanJet 5p таковы: тип сканера -планшетный; максимальный размер документа 216 мм на 296 мм; оптическое разрешение 300 dpi (точек на дюйм); выбираемое разрешение от 12 dpi до 1200 dpi при 100% масштабировании; мас-