Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИТ / М 3 Офісні програмні системи / Додаток / Зан_доп Т10 Лк - Преобразование документов в электронную форму.doc
Скачиваний:
97
Добавлен:
19.02.2016
Размер:
764.42 Кб
Скачать

3. Назначение и возможности программы оптического распознавания текстов finereader

3.1. Возможности и характеристики программы FineReader

Персональный компьютер предназначен для работы с документами, имеющими электронную форму. В то же время, часто приходится вводить в компьютер информацию, представленную на бумажных носителях: в книгах, журналах, письмах, служебных записках и т.п., которые, как показывает практика, составляют более 90% поступающих к нам документов. Конечно, можно сесть за клавиатуру компьютера и начать ввод вручную данных с бумажных источников. Хорошо, если это один лист. Его можно ввести за несколько десятков минут. Ну, а если это книга страниц на 300-400? Ручной ввод превращается в каторгу. Естественно, тут же возникает желание, чтобы компьютер сам «научился читать» текст прямо с бумажного листа.

Очевидно, для решения этой проблемы необходимо, в первую очередь, представить в цифровом виде изображение бумажного листа. Эта задача называется сканированием документа и решается она с помощью сканеров, о которых шла речь выше. Вторая проблема заключается в переводе цифрового изображения в текст. Эта проблема разрешается использованием специальных программ оптического распознавания текстов (OCROptical Character Recognition). Одной из таких программ является программа FineReader разработки российской компании ABBYY Software Ltd., которая является мировым лидером в данном классе прикладных программ.

FineReader — это омнифонтовая программная система оптического распознавания текстов, позволяющая распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения. Особенностью программы является высокая точность распознавания (выше 99% - одна ошибка на 100 распознанных букв) и малая чувствительность к дефектам печати.

Обработка изображения системой FineReader включает в себя анализ графического изображения, переданного сканером, и распознавание каждого символа. Процессы анализа макета страницы (определение областей распознавания, таблиц, картинок, выделение в тексте строк и отдельных символов) и распознавания изображения тесно связаны между собой: алгоритм поиска блоков использует информацию о распознанном тексте для более точного анализа страницы.

Распознавание изображения осуществляется на основе технологии «целостного целенаправленного адаптивного распознавания», что означает:

  • целостность – объект описывается как целое с помощью значимых элементов и отношений между ними;

  • целенаправленность – распознавание строится как процесс выдвижения и целенаправленной проверки гипотез;

  • адаптивность – способность OCR-системы к самообучению.

В соответствии с этими тремя принципами система сначала выдвигает гипотезу об объекте распознавания (символе, части символа или нескольких склеенных символах), а затем подтверждает или опровергает ее, пытаясь последовательно обнаружить все структурные элементы и связывающие их отношения. В каждом структурном элементе выделяются части, значимые для человеческого восприятия: отрезки, дуги, кольца и точки. Следуя принципу адаптивности, программа самостоятельно «настраивается», используя положительный опыт, полученный на первых уверенно распознанных символах. Целенаправленный поиск и учет контекста позволяют распознавать разорванные и искаженные изображения, делая систему устойчивой к возможным дефектам письма.

В результате работы в окне FineReader появится распознанный текст, который можно отредактировать и сохранить в наиболее удобном формате.

Основные характеристики программы FineReade:

  1. Ввод текста и таблиц со скоростью, превышающей в 5-10 раз скорость работы профессиональной машинистки. В зависимости от типов сканера и компьютера распознавание одной страницы текста осуществляется за 20-80 сек.

  2. Точность распознавания выше 99%.

  3. Поддержка 177 языков распознавания, включая основные (английский, испанский, итальянский, немецкий, русский, украинский, французский и др.) и дополнительные языки. Основная группа образована из языков со словарной поддержкой, т.е. для этих языков в программе поддержана проверка распознанного текста. Кроме того обеспечивается распознавание искусственных языков (идо, интерлингва, окциденталь, эсперанто), языков программирования (Basic, С/С++, COBOL, Fortran, JAVA, Pascal, Простые химические формулы).

  4. Распознавание текстов, в которых встречаются любые комбинации поддерживаемых языков. Возможно обучение распознаванию новых символов и распознавание текстов на неизвестных программе языках.

  5. Распознавание многоколоночного текста с картинками (в том числе и цветными) и таблицами с сохранением оформления и раскладки исходной страницы.

  6. Параллельное распознавание нового текста и редактирование ранее отсканированного. Встроенный текстовый редактор позволяет устанавливать тип шрифта и его размер, форматировать текст целиком или его отдельные фрагменты, автоматически создавать различные текстовые стили и т.д.

  7. Наличие встроенной системы проверки орфографии с возможностью пополнения словаря. Интеграция с программой проверки правописания Lingvo.

  8. Автоматическое определение ориентации распознаваемого изображения и разворот страницы в нормальное положение. Автоматический подбор яркости сканирования для обеспечения наилучших условий распознавания светлых и темных участков страницы. Очистка изображения от помех. Поддержка технологии drag&dropопустил и бросил»).

  9. Работа со всеми типами сканеров, поддерживающих протокол TWAIN. Обработка графических файлов форматов PDF, BMP, PCX, DCX, JPEG, JPEG 2000, TIFF, PNG.

  10. Форматы, в которых FineReader сохраняет распознанный текст: Microsoft Word Document (*.DOC), Rich Text Format (*.RTF), Microsoft Word XML Document (*.XML) (только для Microsoft Word 2003), Adobe Acrobat Format (*.PDF), HTML, Microsoft PowerPoint Format (*.PPT), Comma Separated Values File (*.CSV), Простой текст (*.TXT) (FineReader поддерживает различные кодовые страницы (Windows, DOS, Mac, ISO) и кодировку Unicode), Microsoft Excel Speadsheet (*.XLS), DBF.

  11. Автоматическая и ручная сегментации текста, таблиц и рисунков.

  12. Распределенная обработка отсканированного пакета в сети, позволяющая значительно поднять скорость обработки многостраничных документов.

С 2003 года выпускается версия программы ABBYY FineReader 7.0 Professional Edition, обладающая следующими новыми возможностями: