Скачиваний:
94
Добавлен:
02.05.2014
Размер:
2.94 Mб
Скачать

4.4.3. Сканирование документа

Сканирование — это техническая операция, которую выполняет сканирующее устройство. Задача программы FineReaderна этом этапе состоит в том, чтобы принять полученную информацию и отобразить значки отсканированных страниц на панели Пакет. Так страницы готовятся к распознаванию.

1. Для того чтобы провести сканирование при помощи программы FineReader, необходимо запустить эту программу и включить сканер. Сканирование страницы производится по щелчку на кнопке Сканировать на панели инструментов Scan&Read или при нажатии комбинации клавишCTRL+K.

2. Программа способна работать со сканером как непосредственно, так и через протокол TWAIN. При непосредственном взаимодействии со сканером возможность сканирования цветных изображений не используется, так как предполагается, что текст в любом случае является одноцветным.

3. Программа использует для сканирования устройство, которое задано по умолчанию. Для того чтобы выбрать такое устройство или изменить его настройку, надо щелкнуть на раскрывающей кнопке рядом с кнопкой Сканировать и выбрать в открывшемся меню пункт Опции — откроется диалоговое окно Опции.

4. Если к компьютеру подключено несколько сканеров или сканер был подключен после установки программы FineReader, следует щелкнуть на кнопке Выбрать сканер. В этом случае программа проведет поиск подключенных к компьютеру сканеров и позволит выбрать нужный.

5. Для изменения настроек сканера используют кнопку Настройки сканера.

6. Когда сканер выбран, активизируются два флажка в нижней части диалогового окна. Если установить флажок Показывать диалог TWAIN-драйвера сканера, то сканирование производится через протокол TWAINс отображением специального диалогового окна. В противном случае программа работает со сканером напрямую. Использовать протоколTWAINимеет смысл только в том случае, когда работа напрямую невозможна или дает некачественные результаты.

7. Флажок Показывать опции перед началом сканирования применяют только в том случае, когда бумажные страницы документа существенно отличаются друг от друга. Это может быть вызвано, например, свойствами бумаги или тем, что разные страницы печатались в разное время и разными средствами. В этом случае перед сканированием каждой страницы открывается диалоговое окно настройки сканера, чтобы пользователь мог отрегулировать качество процесса.

Сам процесс сканирования происходит в автоматическом режиме. Если требуется обработать много страниц, то лучше всего сначала все их отсканировать, а уже затем приступать к распознаванию. Это связано с тем, что сканирование требует присутствия пользователя из-за необходимости управления сканером (например, для смены страниц), а распознавание может происходить в автоматическом режиме.

4.4.4. Сегментация документа

Под естественным порядком распознавания текстапонимается последовательное распознавание строк слева направо. Однако если текст разбит на несколько колонок (столбцов) или содержит врезки, подрисуночные подписи, примечания, таблицы и другие элементы форматирования, его распознавание в естественном порядке невозможно. В таких случаях программа разбивает текст наблоки,каждый из которых представляет собой цельный фрагмент текста, распознаваемый в естественном порядке. Такое разбиение документа называетсясегментацией.

Автоматическая сегментация — не простая задача для программы. Программа разыскивает промежутки между строками, а также зоны начала и конца строк. Если последовательность строк, идущих подряд, имеет одинаковые зоны начала и конца, то программа рассматривает такую область как текстовый блок.

Если промежутки между строками вообще отсутствуют, то, по всей видимости, речь идет об иллюстрации. Если обнаруживается большое число вертикальных и горизонтальных фрагментов, образующих правильную структуру, то, вероятно, в текст включена таблица.

Если щелкнуть на кнопке Сегментировать выделенные страницы, то сегментация страницы производится автоматически. Правда, если изображение документа имеет невысокое качество, то сегментация может быть произведена неудачно, что проявится в избыточном количестве слишком мелких блоков.

В таких случаях можно вручную указать границы блоков или изменить автоматическое разбиение. Новые прямоугольные блоки создают методом протягивания мыши. При протягивании создаваемый блок выделяется пунктирной рамкой, которая в момент создания блока превращается в сплошную зеленую линию.

Для создания блока непрямоугольной формы или изменения последовательности блоков используют кнопки панели инструментов Инструменты. Все кнопки этой панели используются именно на этапе сегментации.

Программа FineReaderразличает несколько типов блоков, которые обрабатываются по-разному. Такие блоки выделяются разными цветами. Текстовые блоки обводятся зеленой линией. Чтобы изменить тип блока, следует щелкнуть в пределах блока правой кнопкой мыши и выбрать нужный тип в меню Тип блока контекстного меню.