Скачиваний:
94
Добавлен:
02.05.2014
Размер:
2.94 Mб
Скачать

4.4. Распознавание документов в программеFineReader

4.4.1. Окно программы

После установки программы FineReaderв меню Программы Главного меню появляются пункты, обеспечивающие работу с ней. Окно программы имеет типичный для приложенийWindowsвид и содержит строку меню, ряд панелей инструментов и рабочую область.

1. В левой части рабочей области располагается панель Пакет, содержащая список графических документов, которые должны быть преобразованы в текст. Эти графические файлы рассматриваются как части одного документа. Результаты их обработки в дальнейшем объединяются в единый текстовый файл. Форма значка, отмечающего исходные файлы, указывает, было ли произведено распознавание.

2. Панель в нижней части рабочей области содержит фрагмент графического документа в увеличенном виде. С ее помощью можно оценить качество распознавания. Эту панель используют также при «обучении» программы в ходе распознавания текста.

3. Остальную часть рабочей области занимают окна документов. Здесь располагается окно графического документа, подлежащего распознаванию, а также окно текстового документа, полученного после распознавания.

4. В верхней части окна приложения под строкой меню располагаются панели инструментов.

5. Панель инструментов Стандартная содержит кнопки для открытия документов и для операций с буфером обмена. Прочие кнопки этой панели служат для изменения представления документа.

6. Панель Scan&Read содержит кнопки, соответствующие всем этапам превращения бумажного документа в электронный текст. Первая кнопка позволяет выполнить такое преобразование в рамках единой операции. Остальные кнопки соответствуют отдельным этапам работы и содержат раскрывающиеся меню, служащие для управления соответствующей операцией.

7. Панель Распознавание позволяет указать язык документа и вид шрифта. Последнее требуется делать только в тех случаях, когда документ имеет недостаточное качество печати.

8. Панель Инструменты используют при работе с исходным изображением. В частности, она позволяет управлять сегментацией документа. С помощью элементов управления этой панели задают последовательность фрагментов текста в итоговом документе.

9. Элементы управления панели Форматирование используют для изменения представления готового текста или при его редактировании.

4.4.2. Порядок распознавания текстовых документов

Преобразование бумажного документа в электронный происходит в три этапа. Каждый из этих этапов программа FineReaderможет выполнять как автоматически, так и под контролем пользователя. Если все этапы проводятся автоматически, то преобразование документа происходит за один прием.

1. Первый этап работы — сканирование.На этом этапе обычно используют сканер. Однако изображение с листа бумаги может быть преобразовано в цифровую форму и с помощью других средств, таких, например, как цифровые фотоаппараты и цифровые видеокамеры.

2. Второй этап работы — сегментациятекста. Дело в том, что в бумажном документе, например на странице книги или журнала, текст не всегда располагается в фиксированном порядке. Он может размещаться в нескольких колонках, содержать иллюстрации (и подписи к ним). Дополнительные врезки и данные, представленные в таблицах, также могут запутать естественный порядок текста. Поэтому, прежде чем включать текст в документ, его разбивают наблоки,содержащие цельные фрагменты. Блоки распознают последовательно. Полученный текст включается в документ в порядке нумерации блоков.

3. Последний этап работы программы — непосредственно распознавание.Этот этап обычно не требует вмешательства пользователя, за исключением тех случаев, когда распознавание сопровождается «обучением».

Распознанный текст отображается в отдельном окне в виде форматированного текстового документа. Он «теряет связь» с исходным изображением и может редактироваться и форматироваться независимо от него. Программа выделяет цветом те символы, которые она сама рассматривает как неоднозначно опознанные. Это упрощает поиск ошибок. Средствами программы в полученном тексте можно также провести проверку грамматики.

4. Полученный текст можно сохранить в виде форматированного или неформатированного документа. Предусмотрена также возможность прямой передачи полученного текста в программы WordилиExcel, а также в буфер обменаWindows.