Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Metoda_po_inf_ch_2.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
1.83 Mб
Скачать

4. Анализ макета страницы

Прежде чем приступить к распознаванию, программа должна знать, какие участки изображения надо распознавать. Для этого проводится анализ макета страницы, во время которого выделяются блоки с текстом, картинки, таблицы и штрих-коды (для версии Office).

В этой главе Вы узнаете, когда может потребоваться провести ручной анализ макета страницы, какие типы блоков бывают, как можно отредактировать полученные в результате автоматического анализа блоки, а так же, как можно упростить процесс анализа, используя шаблоны блоков.

4.1. Общая информация по анализу макета страницы

Анализ макета страницы может проводиться как автоматически, так и вручную. В большинстве случаев FineReader сам успешно справляется с анализом сложных страниц. Автоматический анализ производится по кнопке 2-Распознать одновременно с распознаванием текста.

Замечание. Отдельная процедура анализа макета страницы тоже доступна (меню Процесс>Анализ макета страницы). Правда, при этом качество сегментации может быть ниже, т.к. при совместной процедуре распознавания и сегментации для анализа страницы используется дополнительная информация, полученная в процессе распознавания.

4.2. Типы блоков

Блоки - это заключенные в рамку участки изображения. Блоки выделяют для того, чтобы указать системе, какие участки отсканированной страницы надо распознавать и в каком порядке. Также по ним воспроизводится исходное оформление страницы. Блоки разных типов имеют различные цвета рамок. Вы можете изменить цвета рамок блоков на закладке Вид диалога Опции (меню Сервис>Опции) в группе Объекты. В поле Объект выберите нужный тип блока, а в поле Цвет - требуемый цвет.

При обработке изображений выделяют блоки следующих типов:

Зона Распознавания - блок используется для распознавания и автоматического анализа части изображения. После нажатия на кнопку 2-Распознать выделенный блок автоматически анализируется и распознается.

Текст - блок используется для обозначения текста. Он должен содержать только одноколоночный текст. Если внутри текста содержатся картинки, выделите их в отдельные блоки.

Таблица - этот блок используется для обозначения таблиц или текста, имеющего табличную структуру. При распознавании программа разбивает данный блок на строки и столбцы и формирует табличную структуру. В выходном тексте данный блок передается таблицей.

Вы можете выделить и отредактировать таблицу вручную.

Картинка - этот блок используется для обозначения картинок. Он может содержать картинку или любую другую часть текста, которую Вы хотите передать в распознанный текст в качестве картинки.

Штрих-код (только в версии Office) - этот блок используется для распознавания штрих-кодов. Т.е., если Ваш документ содержит штрих-код и Вы хотите передать его не картинкой, а перевести его в последовательность букв и цифр, то выделите штрих-код в отдельный блок и присвойте ему тип Штрих-код.

Замечание. По умолчанию опция, позволяющая искать и распознавать штрих-коды отключена. Чтобы подключить ее, отметьте пункт Искать штрих-коды на закладке Распознавание (меню Сервис>Опции).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]