Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
windows.doc
Скачиваний:
7
Добавлен:
07.02.2016
Размер:
259.07 Кб
Скачать

4.4.4. Сегментация документа

Под естественным порядком распознавания текста понимается последовательное распознавание строк слева направо. Однако если текст разбит на несколько колонок (столбцов) или содержит врезки, подрисуночные подписи, примечания, таблицы и другие элементы форматирования, его распознавание в естественном порядке невозможно. В таких случаях программа разбивает текст на блоки, каждый из которых представляет собой цельный фрагмент текста, распознаваемый в естественном порядке. Такое разбиение документа называется сегментацией.

Автоматическая сегментация — не простая задача для программы. Программа разыскивает промежутки между строками, а также зоны начала и конца строк. Если последовательность строк, идущих подряд, имеет одинаковые зоны начала и конца, то программа рассматривает такую область как текстовый блок.

Программа FineReader различает несколько типов блоков, которые обрабатываются по-разному. Такие блоки выделяются разными цветами. Текстовые блоки обводятся зеленой линией. Чтобы изменить тип блока, следует щелкнуть в пределах блока правой кнопкой мыши и выбрать нужный тип в меню Тип блока контекстного меню.

4.4.5. Распознавание документа

После сегментации и установления порядка следования текстовых блоков выполняют последний этап работы — собственно распознавание. Обычно этот этап проходит автоматически.

Если документ напечатан достаточно стандартным шрифтом, который, к тому же, был хорошо воспроизведен при сканировании, то щелчка на кнопке Распознать открытую страницу достаточно, чтобы документ был распознан.

Если бумажный документ имеет недостаточную контрастность или необычный шрифт, процедура несколько усложняется. В этом случае программа может не справляться с распознаванием определенных символов и допускать однотипные ошибки.

В таких случаях для больших документов целесообразно сначала провести обучение программы в соответствии с особенностями данного документа. Это достаточно трудоемкий процесс, но он все же проще, чем ручной ввод многостраничного документа.

4.4.6. Особенности настройки программы FineReader

Как и большинство других приложений Windows, программу FineReader можно настроить в соответствии с требованиями конкретного пользователя. Все настройки осуществляются при помощи диалогового окна Опции, которое открывают с помощью любой раскрывающей стрелки на панели инструментов Scan&Read или через меню Сервис. Если использована панель инструментов, то диалоговое окно открывается на вкладке, соответствующей использованной кнопке панели инструментов.

4.4.7. Распознавание бланков

Важной особенностью программы FineReader является возможность распознавания бланков. Бланк представляет собой отформатированный документ, в специальные поля которого вносятся данные. Типичными примерами бланков являются анкеты. Формат бланка может быть достаточно вычурным и не напоминать ни книжную, ни журнальную страницу.

Особенность работы с бланками заключается в том, что приходится иметь дело с объемным пакетом документов одинакового формата, заполненных разными людьми. В таких документах различается содержание заполненных полей, а стандартные заголовки не представляют интереса. Данные, полученные из набора бланков, обычно подлежат последующей обработке, например статистической. Для обработки бланков предназначено специальное приложение FineReader Forms.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]