- •1. Средства создания электронного документооборота
- •1.1. Автоматизация ввода информации в компьютер
- •1.1.1. Сканеры для ввода текстов и иллюстраций
- •1.1.2. Специальные типы сканеров
- •1.2. Связь сканера с операционной системой
- •1.3. Автоматическое распознавание текстов
- •1.3.1. Программы распознавания текстов
- •1.3.2. Программа FineReader
- •2. Распознавание документов в программе finereader
- •2.1. Окно программы
- •2.2. Порядок распознавания текстовых документов
- •2.3. Сканирование документа
- •2.4. Сегментация документа
- •2.5. Распознавание документа
- •2.6. Особенности настройки программы FineReader
- •2.7. Распознавание бланков
- •3. Автоматический перевод документов
- •3.1. Средства автоматического перевода
- •3.1.1. Программа Promt
- •3.2. Рабочее окно программы Promt
- •3.3. Автоматический перевод
- •3.4. Работа со словарями
- •3.4.1. Выбор словаря
- •3.5. Резервирование слов
- •3.6. Пополнение и настройка словарей
- •3.7. Прочие настройки программы Promt
- •3.8. Пакетный перевод файлов (File Translator)
- •3.9. Быстрый перевод текста (Qtrans)
- •3.10. Перевод Web-страниц (WebView).
- •3.11. Сохранение переведенных документов
2.2. Порядок распознавания текстовых документов
Преобразование бумажного документа в электронный происходит в три этапа. Каждый из этих этапов программа FineReader может выполнять как автоматически, так и под контролем пользователя. Если все этапы проводятся автоматически, то преобразование документа происходит за один прием.
Первый этап работы – сканирование. На этом этапе обычно используют сканер. Однако изображение с листа бумаги может быть преобразовано в цифровую форму и с помощью других средств, таких, например, как цифровые фотоаппараты и цифровые видеокамеры.
Второй этап работы – сегментация текста. Дело в том, что в бумажном документе, например на странице книги или журнала, текст не всегда располагается в фиксированном порядке. Он может размещаться в нескольких колонках, содержать иллюстрации (и подписи к ним). Дополнительные врезки и данные, представленные в таблицах, также могут запутать естественный порядок текста. Поэтому, прежде чем включать текст в документ, его разбивают на блоки, содержащие цельные фрагменты. Блоки распознают последовательно. Полученный текст включается в документ в порядке нумерации блоков.
Последний этап работы программы – непосредственно распознавание. Этот этап обычно не требует вмешательства пользователя, за исключением тех случаев, когда распознавание сопровождается «обучением».
Распознанный текст отображается в отдельном окне в виде форматированного текстового документа. Он «теряет связь» с исходным изображением и может редактироваться и форматироваться независимо от него. Программа выделяет цветом те символы, которые она сама рассматривает как неоднозначно опознанные. Это упрощает поиск ошибок. Средствами программы в полученном тексте можно также провести проверку грамматики.
Полученный текст можно сохранить в виде форматированного или неформатированного документа. Предусмотрена также возможность прямой передачи полученного текста в программы Word или Excel, а также в буфер обмена Windows.
2.3. Сканирование документа
Сканирование – это техническая операция, которую выполняет сканирующее устройство. Задача программы FineReader на этом этапе состоит в том, чтобы принять полученную информацию и отобразить значки отсканированных страниц на панели «Пакет». Так страницы готовятся к распознаванию.
Для того чтобы провести сканирование при помощи программы FineReader, необходимо запустить эту программу и включить сканер. Сканирование страницы производится по щелчку на кнопке «Сканировать» на панели инструментов «Scan&Read» или при нажатии комбинации клавиш CTRL+K.
Программа способна работать со сканером как непосредственно, так и через протокол TWAIN. При непосредственном взаимодействии со сканером возможность сканирования цветных изображений не используется, так как предполагается, что текст в любом случае является одноцветным.
Программа использует для сканирования устройство, которое задано по умолчанию. Для того чтобы выбрать такое устройство или изменить его настройку, надо щелкнуть на раскрывающей кнопке рядом с кнопкой «Сканировать» и выбрать в открывшемся меню пункт «Опции» – откроется диалоговое окно «Опции».
Если к компьютеру подключено несколько сканеров или сканер был подключен после установки программы FineReader, следует щелкнуть на кнопке «Выбрать сканер». В этом случае программа проведет поиск подключенных к компьютеру сканеров и позволит выбрать нужный.
Для изменения настроек сканера используют кнопку «Настройки сканера».
Когда сканер выбран, активизируются два флажка в нижней части диалогового окна. Если установить флажок «Показывать диалог TWAIN-драйвера сканера», то сканирование производится через протокол TWAIN с отображением специального диалогового окна. В противном случае программа работает со сканером напрямую. Использовать протокол TWAIN имеет смысл только в том случае, когда работа напрямую невозможна или дает некачественные результаты.
Флажок «Показывать опции перед началом сканирования» применяют только в том случае, когда бумажные страницы документа существенно отличаются друг от друга. Это может быть вызвано, например, свойствами бумаги или тем, что разные страницы печатались в разное время и разными средствами. В этом случае перед сканированием каждой страницы открывается диалоговое окно настройки сканера, чтобы пользователь мог отрегулировать качество процесса.
Сам процесс сканирования происходит в автоматическом режиме. Если требуется обработать много страниц, то лучше всего сначала все их отсканировать, а уже затем приступать к распознаванию. Это связано с тем, что сканирование требует присутствия пользователя из-за необходимости управления сканером (например, для смены страниц), а распознавание может происходить в автоматическом режиме.