Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

КТНИ / mppz5_m2_iems_iems_ktni_niy16

.pdf
Скачиваний:
25
Добавлен:
27.03.2016
Размер:
293.76 Кб
Скачать

Тема 5. Модуль 2. – Системы оптического распознавания документов.

План занятий.

1)Определение систем оптического распознавания документов (СОРД).

2)История развития СОРД.

3)Примеры.

1)Оптическое распознавание символов, согласно определению ресурса Википедиа, (англ. optical character recognition, OCR) — механический или электронный перевод изображений рукописного, машинописного или печатного текста в текстовые данные — последовательность кодов, использующихся для представления символов в компьютере (например, в текстовом редакторе). Распознавание широко используется для конвертации книг и документов в электронный вид, для автоматизации систем учёта в бизнесе или для публикации текста на веб-странице. Оптическое распознавание текста позволяет редактировать текст, осуществлять поиск слова или фразы, хранить его в более компактной форме, демонстрировать или распечатывать материал, не теряя качества, анализировать информацию, а также применять к тексту электронный перевод, форматирование или преобразование в речь. Оптическое распознавание текста является исследуемой проблемой в областях распознавания образов, искусственного интеллекта и компьютерного зрения.

Системы оптического распознавания текста требуют калибровки для работы

сконкретным шрифтом; в ранних версиях для программирования было необходимо изображение каждого символа, программа одновременно могла работать только с одним шрифтом. В настоящее время больше всего распространены так называемые «интеллектуальные» системы, с высокой степенью точности распознающие большинство шрифтов. Некоторые системы оптического распознавания текста способны восстанавливать исходное форматирование текста, включая изображения, колонки и другие нетекстовые компоненты.

2. История развития систем оптического распознавания данных

В1929 году Густав Таушек (Gustav Tauschek) получил патент на метод оптического распознавания текста в Германии, после чего за ним последовал Гендель (Paul W. Handel), получив патент на свой метод в США в 1933. В 1935 году Таушек также получил патент США на свой метод. Машина Таушека представляла собой механическое устройство, которое использовало шаблоны и фотодетектор.

В1950 году Дэвид Х. Шепард (David H. Shepard), криптоаналитик из агентства безопасности вооружённых сил Соединённых Штатов, проанализировав задачу преобразования печатных сообщений в машинный язык для обработки компьютером, построил машину, решающую данную задачу. После того как он получил патент США, он сообщил об этом в «Вашингтон Дэйли Ньюз» (27 апреля 1951) и в «Нью-Йорк Таймс» (26 декабря 1953). Затем Шепард основал компанию, разрабатывающую интеллектуальные машины, которая вскоре выпустила первые в мире коммерческие системы оптического распознавания символов.

Первая коммерческая система была установлена на «Ридерс Дайджест» в 1955 году. Вторая система была продана компании «Стандарт Ойл» для чтения

кредитных карт для работы с чеками. Другие системы, поставляемые компанией Шепарда, были проданы в конце 1950-х годов, в том числе сканер страниц для национальных воздушных сил США, предназначенный для чтения и передачи по телетайпу машинописных сообщений. IBM позже получила лицензию на использование патентов Шепарда.

Примерно в 1965 году «Ридерс Дайджест» и «Ар-Си-Эй» начали сотрудничество с целью создать машину для чтения документов, использующую оптическое распознавание текста, предназначенную для оцифровки серийных номеров купонов «Ридерс Дайджест», вернувшихся из рекламных объявлений. Для печати на документах барабанным принтером «Ар-Си-Эй» был использован специальный шрифт OCR-A. Машина для чтения документов работала непосредственно с компьютером RCA 301 (одна из первых полупроводниковых ЭВМ). Скорость работы машины была 1500 документов в минуту: она проверяла каждый документ, исключая те, которые она не смогла обработать правильно.

Почтовая служба Соединённых Штатов с 1965 года для сортировки почты использует машины, работающие по принципу оптического распознавания текста, созданные на основе технологий, разработанных исследователем Яковом Рабиновым. В Европе первой организацией, использующей машины с оптическим распознаванием текста, был британский почтамт. Почта Канады использует системы оптического распознавания символов с 1971 года. На первом этапе в центре сортировки системы оптического распознавания символов считывают имя и адрес получателя и печатают на конверте штрих-код. Он наносится специальными чернилами, которые отчётливо видимы в ультрафиолетовом свете. Это делается, чтобы избежать путаницы с полем адреса, заполненным человеком, которое может быть в любом месте на конверте.

В1974 году Рэй Курцвейл создал компанию «Курцвейл Компьютер Продактс», и начал работать над развитием первой системы оптического распознавания символов, способной распознать текст, напечатанный любым шрифтом. Курцвейл считал, что лучшее применение этой технологии — создание машины чтения для слепых, которая позволила бы слепым людям иметь компьютер, умеющий читать текст вслух. Данное устройство требовало изобретения сразу двух технологий — ПЗС планшетного сканера и синтезатора, преобразующего текст в речь. Конечный продукт был представлен 13 января 1976 во время пресс-конференции, возглавляемой Курцвейлом и руководителями национальной федерации слепых.

В1978 году компания «Курцвейл Компьютер Продактс» начала продажи коммерческой версии компьютерной программы оптического распознавания символов. Два года спустя Курцвейл продал свою компанию корпорации «Ксерокс», которая была заинтересована в дальнейшей коммерциализации систем распознавания текста. «Курцвейл Компьютер Продактс» стала дочерней компанией «Ксерокс», известной как «Скансофт».

Первой коммерчески успешной программой, распознающей кириллицу, была программа «AutoR» российской компании «ОКРУС». Программа начала распространяться в 1992 году, работала под управлением операционной системы DOS и обеспечивала приемлемое по скорости и качеству распознавание даже на персональных компьютерах IBM PC/XT с процессором Intel 8088 при тактовой частоте 4.77 МГц. В начале 90-х компания Hewlett-Packard поставляла свои сканеры на российский рынок в комплекте с программой «AutoR». Алгоритм

«AutoR» был компактный, быстрый и в полной мере «интеллектуальный», то есть по-настоящему шрифтонезависимый. Этот алгоритм разработали и испытали ещё в конце 60-х два молодых биофизика, выпускники МФТИ — Г. М. Зенкин и А. П. Петров. Свой метод распознавания они опубликовали в журнале «Биофизика» в номере 12, вып.3 за 1967 год. В настоящее время алгоритм ЗенкинаПетрова применяется в нескольких прикладных системах решающих задачу распознавания графических символов.

Таблица 1.

– Характеристики программ оптического распознавания

данных

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Операцио

 

 

 

 

 

 

 

 

Название

Лицензия

нные

 

 

Заметки

 

 

 

 

 

 

 

 

системы

 

 

 

 

 

 

 

 

 

 

Windows,

 

 

 

 

 

 

 

 

ExperVisionTypeR

Коммерческая[уточн

Mac

OS X,

Получала

 

высокие

оценки в

eader & RTK

ить]

Unix,

Linux,

начале 1990-х.

 

 

 

 

 

 

 

 

 

OS/2

 

 

 

 

 

 

 

 

 

 

 

 

Windows;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Linux,

Mac

 

 

 

 

 

 

 

Для

работы

с различными

ABBYY

Коммерческаясобс

OS (не

для

языками

требуется

поддержка

FineReader

твенническая

конечного

соответствующего языка.

 

 

потребителя

 

 

 

 

 

 

 

 

 

 

 

 

)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Коммерческая

Windows,

Производство Nuance

 

OmniPage

(Nuance

Mac OS

 

Communications

 

 

 

 

EULA)[уточнить]

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Производство

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

бельгийской I.R.I.S.

Group.

 

Коммерческая[уточн

 

 

 

 

 

 

 

 

 

 

 

Readiris

Windows,

Содержит региональные пакеты

ить]

Mac OS

 

для

распознавания

азиатских

 

 

 

 

 

 

 

 

языков

и

 

языков

среднего

 

 

 

 

 

востока.

 

 

 

 

 

 

Persian Reader

Коммерческая[уточн

Windows

Специализируется

на

ить]

персидском языке (фарси).

 

 

 

 

 

 

 

 

 

 

 

Kirtas

 

 

 

 

Может распознавать арабские и

Technologies

Коммерческая

Windows

английские

символы на одной

Arabic OCR

 

 

 

 

странице.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Zonal

 

 

OCR

помогает

Zonal OCR

Коммерческая[уточн

Windows

автоматизировать

извлечение

ить]

данных

из

компьютерных

 

 

 

 

 

 

 

 

 

 

изображений.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ViewWise компан

Коммерческая[уточн

Windows

Система

 

 

 

 

управления

 

 

 

 

ииComputhink

ить]

документами

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CuneiForm

BSD

Windows

Промышленная

многоязычная

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Операцио

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Название

 

 

Лицензия

 

нные

 

 

Заметки

 

 

 

 

 

 

 

 

 

 

 

 

 

системы

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

GUI),

 

система,

умеет

сохранять

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Linux, Mac

 

форматирование

текста

 

и

 

 

 

 

 

 

 

OS,

 

распознаёт запутанные таблицы

 

 

 

 

 

 

 

FreeBSD

 

произвольной структуры

 

 

 

 

 

 

 

 

 

 

(CLI)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Кросс-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

GOCR

 

 

GPL

 

платформен

 

В начальной стадии разработки

 

 

 

 

 

 

 

ная

 

 

 

 

 

 

 

 

 

 

Microsoft

Office

 

Коммерческая

 

Windows,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Document Imaging

 

 

Mac OS X

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Microsoft

Office

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Коммерческая

 

Windows

 

 

 

 

 

 

 

 

 

 

OneNote 2007

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

NovoDynamicsNov

 

 

 

 

 

Специализируется

на

языках

 

 

 

Коммерческая

 

Windows

 

 

 

oVerus

 

 

 

 

среднего востока

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ocrad

 

 

GPL

 

Unix-like,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

OS/2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Извлечение

данных

 

из

 

 

Brainware

 

 

Коммерческая[уточн

 

Windows

 

документов и их обработка —

 

 

 

 

 

 

 

 

 

 

ить]

 

 

например, счета, извещения,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

накладные и платёжки

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

HOCR

 

 

GPL

 

Linux

 

Распознавание

текстов

на

 

 

 

 

 

 

 

 

 

 

 

 

иврите

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Расширяемая

 

система

 

 

OCRopus

 

 

Apache

 

Linux

 

распознавания,

которая

может

 

 

 

 

 

 

 

 

 

 

использовать Tesseract

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Сканирование,

распознавание и

 

 

ReadSoft

 

 

Коммерческая[уточн

 

Windows

 

классификация деловых бумаг,

 

 

 

 

 

 

 

 

 

 

ить]

 

 

например, договоров, счетов и

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

платёжных поручений.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

RelayFax

Network

 

 

 

 

 

 

Многоязычная

 

система,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

используется

 

 

 

для

 

 

Fax

Manager

 

Коммерческая[уточн

 

 

 

 

 

 

 

 

 

 

 

Windows

 

преобразования

факсов

 

в

 

 

компании

Alt-N

 

ить]

 

 

 

 

 

 

 

 

 

 

 

доступные для правки форматы

 

 

 

 

 

 

 

 

 

 

 

 

Technologies

 

 

 

 

 

 

 

 

 

 

 

 

 

 

документов (doc, pdf и т. д.).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Коммерческая[уточн

 

 

 

 

Для работы

с

различными

 

 

 

 

 

 

 

 

 

 

 

Scantron Cognition

 

 

Windows

 

языками

требуется

поддержка

 

 

 

ить]

 

 

 

 

 

 

 

 

 

 

 

 

соответствующего языка.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

SILVERCODERS

 

Коммерческая[уточн

 

 

 

 

Серверная

многоязычная

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Linux

 

система,

имеет

высокое

 

 

OCR Server

 

ить]

 

 

 

 

 

 

 

 

 

 

качество распознавания,

может

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Операцио

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Название

Лицензия

нные

 

Заметки

 

 

 

 

 

 

 

 

 

системы

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

сохранять

 

форматирование

 

 

 

 

 

 

 

 

 

 

 

 

 

текста и распознаёт запутанные

 

 

 

 

 

 

таблицы

 

 

произвольной

 

 

 

 

 

 

структуры

 

 

 

 

 

 

 

 

Freeware и

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

SimpleOCR

коммерческая

Windows

 

 

 

 

 

 

 

 

 

 

версии

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

SmartScore

Коммерческая[уточн

Windows,

Для

распознавания

нотной

 

 

 

 

ить]

Mac OS

записи

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Windows,

Разрабатывается

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Tesseract

Apache

Mac OS X,

 

 

 

 

 

компанией Google

 

 

 

 

 

 

Linux, OS/2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Интерфейс:

Платформа

для

браузерных

 

 

WeOCR

MIT/X Consortium

Браузер;

систем

 

 

распознавания

 

 

 

 

 

 

Сервер:POS

символов.

 

 

 

Страница

 

 

 

 

 

 

 

 

 

 

 

IX, Unix

проекта: WeOCR

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Платформа

для

браузерных

 

 

 

 

 

 

 

 

 

 

Интерфейс:

систем

 

 

распознавания

 

 

FreeOCR

Apache

Браузер;

символов. Использует Tesseract.

 

 

 

 

Сервер:POS

Большое

 

 

количество

 

 

 

 

 

 

 

 

 

 

IX, Unix

поддерживаемых

 

языков.

 

 

 

 

 

 

Страница проекта: FreeOCR

 

 

 

 

 

 

 

Online OCR-сервис, позволяет

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Интерфейс:

распознать многоязычный текст

 

 

img2txt

Коммерческаясобс

Браузер;

из

сканированного

документа

 

 

 

 

твенническая

Сервер:POS

или фотографии.

Конвертирует

 

 

 

 

 

 

 

IX, Linux

результат

в

редактируемые

 

 

 

 

 

 

форматы (RTF, TXT, HTML).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Online

 

 

OCR-сервис,

 

 

 

 

 

 

позволяющий

 

распознать

 

 

 

 

 

 

многоязычный

текст

из

 

 

 

 

 

 

отсканированного

документа

 

 

FineReaderOnline.r

 

Интерфейс:

или фотографии.

Конвертирует

 

 

Коммерческая

 

 

u

Браузер

результат

в

редактируемые

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

форматы

(PDF,

PDF/A, DOC,

 

 

 

 

 

 

RTF, XLS, TXT).

На данный

 

 

 

 

 

 

момент до 10 страниц в день

 

 

 

 

 

 

можно распознавать бесплатно.

 

 

 

 

 

 

 

 

 

 

 

 

 

Online OCR-сервис, позволяет

 

 

 

 

 

 

 

 

OnlineOCR.ru

Коммерческая

Интерфейс:

распознать многоязычный текст

 

 

 

 

Браузер

из

сканированного

документа

 

 

 

 

 

 

 

 

 

 

или фотографии.

Конвертирует

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Операцио

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Название

 

Лицензия

 

нные

 

 

 

Заметки

 

 

 

 

 

 

 

 

 

 

 

 

системы

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

результат

в

редактируемые

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

форматы

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(PDF, DOC, XLS, TXT, HTML)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Online OCR-сервис, позволяет

 

 

 

 

 

 

 

 

 

 

распознать многоязычный текст

 

 

 

 

 

 

 

 

 

 

из сканированного

документа

 

 

 

 

 

 

 

 

 

 

или фотографии. Поддерживает

 

 

 

 

 

 

 

 

 

 

29

языков

 

(болгарский,

 

 

 

 

 

 

 

 

 

 

каталанский, чешский, датский,

 

 

 

 

 

 

 

 

 

 

голландский,

 

 

английский,

 

 

 

 

 

 

 

 

 

 

финский,

 

 

французский,

 

 

 

 

 

 

 

 

 

 

немецкий,

 

 

 

греческий,

 

 

NewOCR.com

 

Коммерческая

 

Интерфейс:

 

венгерский,

индонезийский,

 

 

 

 

 

 

 

 

 

Браузер

 

 

 

итальянский,

 

 

латышский,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

литовский,

 

 

норвежский,

 

 

 

 

 

 

 

 

 

 

польский,

 

португальский,

 

 

 

 

 

 

 

 

 

 

румынский, русский, сербский,

 

 

 

 

 

 

 

 

 

 

словацкий,

 

 

 

словенский,

 

 

 

 

 

 

 

 

 

 

испанский, шведский, тагалог,

 

 

 

 

 

 

 

 

 

 

турецкий,

 

 

 

украинский,

 

 

 

 

 

 

 

 

 

 

вьетнамский)

и

 

распознает

 

 

 

 

 

 

 

 

 

 

текст,

отформатированный в

 

 

 

 

 

 

 

 

 

 

несколько колонок.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Программа

 

 

 

 

для

 

 

 

 

 

 

 

 

 

 

распознавания упрощенных и т

 

 

 

 

 

 

 

 

 

 

радиционных китайских

 

 

 

 

 

 

 

 

 

 

 

 

иероглифов.

 

 

Основное

 

 

 

 

 

 

 

 

 

 

ограничение

программы:

для

 

 

 

 

 

 

Windows

 

каждого

 

 

 

иероглифа

 

 

COCR2

 

Бесплатная

 

9X,

ME,

 

пользователь

должен

сам

 

 

 

 

 

 

2000, XP

 

выбирать

 

вариант

его

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

распознавания

с

помощью

 

 

 

 

 

 

 

 

 

 

мыши

 

или

 

клавиатуры.

 

 

 

 

 

 

 

 

 

 

Количество

распознаваемых

 

 

 

 

 

 

 

 

 

 

иероглифов довольно велико —

 

 

 

 

 

 

 

 

 

 

более 10 000.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Программа,

 

позволяющая

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Windows

 

сканировать

и

обрабатывать

 

 

 

 

 

 

 

 

 

 

 

 

 

 

растровые

изображения,

 

а

 

 

 

 

 

 

9X,

ME,

 

 

 

 

RasterID

 

Коммерческая

 

 

также

 

 

автоматизировать

 

 

 

 

2000,

XP,

 

 

 

 

 

 

 

 

 

 

регистрацию

отсканированных

 

 

 

 

 

 

 

 

 

 

 

 

Vista, Win7

 

 

 

 

 

 

 

 

изображений

в электронном

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

архиве или системе

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Операцио

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Название

 

Лицензия

 

нные

 

 

 

Заметки

 

 

 

 

 

 

 

 

системы

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

документооборота.

 

Позволяет

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

распознавать данные из штампа

 

 

 

 

 

 

 

 

 

 

 

 

основной

 

 

 

 

 

 

 

 

 

надписи чертежей — и заносить

 

 

 

 

 

 

 

 

 

их

в базу данных.

Страница

 

 

 

 

 

 

 

 

 

разработчика: CSoft

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Cервис

 

оптического

 

 

 

 

 

 

 

 

 

распознавания

 

символов,

 

 

 

 

 

Интерфейс:

 

позволяющий файлы форматов

 

 

 

 

 

 

 

LiveOCR

 

Бесплатная

 

 

JPG,

JPEG,

BMP,

PNG, GIF,

 

 

 

Браузер

 

 

 

 

 

 

 

 

 

 

 

содержащих

 

 

текст,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

конвертировать

в

файлы

 

 

 

 

 

 

 

 

 

формата RTF.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Windows

 

Современная,

развивающаяся

 

 

 

 

 

 

 

 

 

 

 

 

система

 

оптического

 

 

 

 

 

9X,

ME,

 

 

 

NSOCR

 

Коммерческая

 

 

распознавания

 

текста.

 

 

 

2000,

XP,

 

 

 

 

 

 

 

 

Разрабатывается

 

 

 

 

 

 

 

Vista, Win7

 

 

 

 

 

 

 

 

 

компанией Nicomsoft.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

На стадии подготовки и обработки информации, особенно при компьютеризации предприятия, автоматизации бухучета, возникает задача ввода большого объема текстовой и графической информации в ПК. Основными устройствами для ввода графической информации являются: сканер, факс-модем и реже цифровая фотокамера. Кроме того, используя программы оптического распознавания текстов, можно вводить в компьютер (оцифровывать) также и текстовую информацию. Современные программно-аппаратные системы позволяют автоматизировать ввод больших объемов информации в компьютер, используя, например, сетевой сканер и параллельное распознавание текстов на нескольких компьютерах одновременно.

Большинство программ оптического распознавания текста (OCR Optical Character Recognition) работают с растровым изображением, которое получено через факс-модем, сканер, цифровую фотокамеру или другое устройство. На первом этапе OCR должен разбить страницу на блоки текста, основываясь на особенностях правого и левого выравнивания и наличия нескольких колонок. Затем распознанный блок разбивается на строки. Несмотря на кажущуюся простоту, это не такая очевидная задача, так как на практике неизбежны перекос изображения страницы или фрагментов страницы при сгибах. Даже небольшой наклон приводит к тому, что левый край одной строки становится ниже правого края следующей, особенно при маленьком межстрочном интервале. Врезультате возникает проблема определения строки, к которой относится тот или иной фрагмент изображения. Например, для букв j, Й, ё при небольшом наклоне уже сложно определить, к какой строке относится верхняя (отдельная) часть символа (в некоторых случаях ее можно принять за запятую или точку).

Потом строки разбиваются на непрерывные области изображения, которые, как правило, соответствуют отдельным буквам; алгоритм распознавания делает предположения относительно соответствия этих областей символам; а затем делается выбор каждого символа, в результате чего страница восстанавливается в символах текста, причем, как правило, в соответствующем формате. OCR-системы могут достигать наилучшей точности распознавания свыше 99,9% для чистых изображений, составленных из обычных шрифтов. На первый взгляд такая точность распознавания кажется идеальной, но уровень ошибок все же удручает, потому что, если имеется приблизительно 1500 символов на странице, то даже при коэффициенте успешного распознавания 99,9% получается одна или две ошибки на страницу. В таких случаях на помощь приходит метод проверки по словарю. То есть, если какого-то слова нет в словаре системы, то она по специальным правилам пытается найти похожее. Но это все равно не позволяет исправлять 100% ошибок, что требует человеческого контроля результатов.

Встречающиеся в реальной жизни тексты обычно далеки от совершенства, и процент ошибок распознавания для нечистых текстов часто недопустимо велик. Грязные изображения здесь наиболее очевидная проблема, потому что даже небольшие пятна могут затенять определяющие части символа или преобразовывать один в другой. Еще одной проблемой является неаккуратное сканирование, связанное с человеческим фактором, так как оператор, сидящий за сканером, просто не в состоянии разглаживать каждую сканируемую страницу и точно выравнивать ее по краям сканера.

Если документ был ксерокопирован, нередко возникают разрывы и слияния символов. Любой из этих эффектов может заставлять систему ошибаться, потому что некоторые из OCR-систем полагают, что непрерывная область изображения должна быть одиночным символом. Страница, расположенная с нарушением границ или перекосом, создает немного искаженные символьные изображения, которые могут быть перепутаны OCR.

Программное обеспечение OCR обычно работает с большим растровым изображением страницы из сканера. Изображения со стандартной степенью разрешения получаются сканированием с точностью 9600 пикселей на дюйм. Изображение листа формата A4 при этом разрешении занимает около 1МБ памяти.

Основное назначение OCR-систем состоит в анализе растровой информации (отсканированного символа) и присвоении фрагменту изображения соответствующего символа. После завершения процесса распознавания OCRсистемы должны уметь сохранять форматирование исходных документов, присваивать в нужном месте атрибут абзаца, сохранять таблицы, графику ит.д. Современные программы распознавания поддерживают все известные текстовые и графические форматы и форматы электронных таблиц, а некоторые поддерживают такие форматы, как HTML и PDF.

Работа с OCR-системами, как правило, не должна вызывать особых затруднений. Большинство таких систем имеют простейший автоматический

режим сканируй и распознавай (Scan&Read). Кроме того, они поддерживают и режим распознавания изображений из файлов. Однако для того, чтобы достигнуть лучших из возможных для данной системы результатов, желательно (а нередко и обязательно) предварительно вручную настроить ее на конкретный вид текста, макет бланка и качество бумаги.

Очень важным при работе с OCR-системой является удобство выбора языка распознавания и типа распознаваемого материала (пишущая машинка, факс, матричный принтер, газета и т.д.), а также интуитивная понятность пользовательского интерфейса. При распознавании текстов, в которых использовано несколько языков, эффективность распознавания зависит от умения OCR-системы формировать группы языков. В то же время в некоторых системах уже имеются комбинации для наиболее часто используемых языков, например: русский и английский.

На данный момент существует огромное количество программ, поддерживающих распознавание текста как одну из возможностей.

3) Примеры программ оптического распознавания документов

FineReader. Это программный продукт фирмы ABBYY Software является безусловным лидером на рынке. FineReader имеет огромное количество форматов для сохранения, включая PDF, имеет возможность прямого распознавания из PDF-файлов. Новая технология Intelligent Background Filtering (интеллектуальной фильтрации фона) позволяет отсеять информацию о текстуре документа и фоновом шуме изображения: иногда для выделения текста в документе используется серый или цветной фон. Человеку это не мешает читать, но обычные алгоритмы распознавания текста испытывают серьезные затруднения при работе с буквами, расположенными поверх такого фона. Программа FineReader умеет определять зоны, содержащие подобный текст, отделяя текст от фона документа, находя точки, размер которых меньше определенной величины, и удаляя их. При этом контуры букв сохраняются, так что точки фона, близко расположенные к этим контурам, не вносят помех, способных ухудшить качество распознавания текста.

Используя все возможности современных программ верстки, дизайнеры часто создают объекты сложной формы, такие, как обтекание непрямоугольной картинки многоколоночным текстом. В FineReader реализована поддержка распознавания таких объектов и их сохранение в файлах формата MS Word. Документы сложной верстки будут точно воспроизведены в этом текстовом редакторе. Даже таблицы распознаются с максимальной точностью, сохраняя при этом все возможности для редактирования.

ABBYY FormReader еще один модуль распознавания от ABBYY, основанная на ABBYY FineReader Engine. Эта программа предназначена для распознавания и обработки форм, которые могут быть заполнены вручную. Производители утверждают, что программа ABBYY FormReader может обрабатывать формы с фиксированной схемой так же хорошо, как и формы, чья структура может меняться. Для распознавания была применена новая технология

ABBYY FlexiForm technology.

OCR CuneiForm один из главных конкурентов FineReader как на российском, так и на мировом рынке. Производителем является российский разработчик программного обеспечения Cognitive Technologies. По словам производителей, OCR CuneiForm выгодно отличается уровнем распознавания, особенно текстов низкого качества; удобным интерфейсом с наличием встроенных мастеров помощников в работе; встроенным текстовым редактором, не уступающим по своей функциональности популярным текстовым процессорам, и многими другими возможностями. OCR CuneiForm способна распознавать любые полиграфические и машинописные гарнитуры всех начертаний и шрифтов, получаемые с принтеров, за исключением декоративных и рукописных. Также программа способна распознавать таблицы различной структуры, в том числе и без линий и границ; редактировать и сохранять результаты в распространенных табличных форматах. Существенно облегчает работу и возможность прямого экспорта результатов в MS Word и MS Excel (для этого теперь не нужно сохранять результат в файл RTF, а затем открывать его с помощью MS Word). Также программа снабжена возможностями массового ввода возможностью пакетного сканирования, включая круглосуточное, сканирования с удаленных компьютеров локальной сети и организации распределенного параллельного сканирования в локальной сети. О высокой конкурентоспособности этой системы говорит тот факт, что ведущие мировые производители вычислительной техники поставляют свою продукцию с этой программой. Наиболее популярные в России сканеры и многофункциональные устройства Canon, Hewlett-Packard, OKI, Seiko Epson, Olivetti поставляются в комплекте с OCR CuneiForm.

Readiris Pro7 профессиональная программа распознавания текста. По словам производителей (I.R.I.S.), данная OCR отличается от аналогов высочайшей точностью преобразования обычных (каждодневных) печатных документов, таких как письма, факсы, журнальные статьи, газетные вырезки, в объекты, доступные для редактирования (включая файлы PDF). Основными достоинствами программы являются: возможность более или менее точного распознавания картинок, сжатых по максимуму (с максимальной потерей качества) методом JPEG, поддержка цифровых камер и автоопределения ориентации страницы. Поддержка до 92 языков (включая русский).

OmniPage11 продукт компании ScanSoft. Ограниченная версия этой программы (OmniPage11 Limited Edition, OmniPage Lite) обычно поставляется в комплекте с новыми сканерами (на территории Европы и США). Разработчики утверждают, что их программа практически со 100% точностью распознает печатные документы, восстанавливая их форматирование, включая столбцы, таблицы, переносы (в том числе переносы частей слов), заголовки, названия глав, подписи, номера страниц, сноски, параграфы, нумерованные списки, красные строки, графики и картинки. Есть возможность сохранения в форматы Microsoft Office, PDF и в 20 других форматов, распознавания из файлов PDF, редактирование прямо в формате PDF. Система искусственного интеллекта позволяет автоматически обнаруживать и исправлять ошибки после первого исправления вручную. Новый специально разработанный модуль Despeckle позволяет распознавать документы с ухудшенным качеством (факсы, копии, копии копий ит.д.). Преимуществами программы являются возможность

Соседние файлы в папке КТНИ