Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
windows.doc
Скачиваний:
7
Добавлен:
07.02.2016
Размер:
259.07 Кб
Скачать

4.2. Связь сканера с операционной системой

Для подключения сканера к компьютеру используют разные методы. Существуют сканеры со специальной платой расширения, так называемым контроллером. Плату устанавливают в одно из гнезд расширений материнской платы компьютера, а сканер подключают к разъему платы.

Некоторые сканеры подключают к свободному параллельному порту (порту принтера). В таком случае передача данных происходит медленнее, зато никаких дополнительных устройств для подключения сканера не требуется.

Наиболее производительные сканеры используют интерфейс SCSI, разработанный специально для подключения к компьютеру внешних устройств. Компьютер в этом случае должен иметь специальный контроллер, обеспечивающий работу с этим аппаратным интерфейсом. Такой контроллер чаще всего выполняется на плате расширения.

Поскольку аппаратные интерфейсы сканеров отличаются многообразием, были предприняты специальные меры для стандартизации программного интерфейса, обеспечивающего связь между сканерами и операционной системой. Этот интерфейс основан на специальном протоколе TWAIN. Если сканер поддерживает данный протокол, то операционная система Windows способна обеспечить взаимодействие между сканером и программным приложением, предназначенным для работы с ним. Все современные сканеры поддерживают стандарт TWAIN.

Особенности Windows 98/2000/NT

Операционные системы Windows 98/2000/NT уже осведомлены о наличии такого устройства как сканер. Стандарт TWAIN поддерживается в них по умолчанию, а в случае присоединения к компьютерной системе сканера в окне папки Панель управления появляется соответствующий значок, позволяющий производить настройку.

Таким образом, в большинстве программ работа со сканером производится при посредстве специального диалогового окна, обеспечивающего непосредственное взаимодействие со сканером. После того как пользователь дает команду на сканирование документа, данные передаются в программу, обратившуюся к сканеру, с использованием протокола TWAIN.

4.3. Автоматическое распознавание текстов

После обработки документа сканером получается графическое изображение документа (графический образ). Но графический образ еще не является текстовым документом. Человеку достаточно взглянуть на лист бумаги с текстом, чтобы понять, что на нем написано. С точки зрения компьютера, документ после сканирования превращается в набор разноцветных точек, а вовсе не в текстовый документ.

Проблема распознавания текста в составе точечного графического изображения является весьма сложной. Подобные задачи решают с помощью специальных программных средств, называемых средствами распознавания образов. Реальный технический прорыв в этой области произошел лишь в последние годы. До этого распознавание текста было возможно только путем сравнения обнаруженных конфигураций точек со стандартным образцом (эталоном, хранящимся в памяти компьютера). Авторы программ задавали критерий «похожести», используемый при идентификации символов.

Подобные системы назывались OCR (Optical Character Recognition — оптическое распознавание символов) и опирались на специально разработанные шрифты, облегчавшие такой подход. Если приходилось сталкиваться с произвольным и, тем более, сложным шрифтом, программы такого рода начинали давать серьезные сбои.

Современные научные достижения в области распознавания образов буквально перевернули представление об оптическом распознавании символов. Современные программы вполне могут справляться с различными (и весьма вычурными) шрифтами без перенастройки. Многие распознают даже рукописный текст.

Поскольку потребность в распознавании текста отсканированных документов достаточно велика, неудивительно, что имеется значительное число программ, предназначенных для этой цели. Так как разные научные методы распознавания текста развивались независимо друг от друга, многие из этих программ используют совершенно разные алгоритмы.

Эти алгоритмы могут давать разные результаты на разных документах. Например, упоминавшиеся выше системы OCR способны распознавать только стандартный специально подготовленный шрифт и дают на этом шрифте наилучшие результаты, которые не может превзойти ни одна из более универсальных программ.

Современные алгоритмы распознавания текста не ориентируются ни на конкретный шрифт, ни на конкретный алфавит. Большинство программ способно распознавать текст на нескольких языках. Одни и те же алгоритмы можно использовать для распознавания русского, латинского, арабского и других алфавитов и даже смешанных текстов. Разумеется, программа должна знать, о каком алфавите идет речь.

Нас, прежде всего, интересуют программы, способные распознавать текст, напечатанный на русском языке. Такие программы выпускаются отечественными производителями. Наиболее широко известны и распространены программы FineReader и CuneiForm. Мы подробно остановимся на программе FineReader, обеспечивающей высокое качество распознавания и удобство применения.

Программа Fine Reader выпускается отечественной компанией ABBYY Software (www.bitsoft.ru). Эта программа предназначена для распознавания текстов на русском, английском, немецком, украинском, французском и многих других языках, а также для распознавания смешанных двуязычных текстов.

Программа имеет ряд удобных возможностей. Она позволяет объединять сканирование и распознавание в одну операцию, работать с пакетами документов (или с многостраничными документами) и с бланками. Программу можно обучать для повышения качества распознавания неудачно напечатанных текстов или сложных шрифтов. Она позволяет редактировать распознанный текст и проверять его орфографию.

FineReader работает с разными моделями сканеров. В частности, программа поддерживает стандарт TWAIN.

4.4.2. Порядок распознавания текстовых документов

Преобразование бумажного документа в электронный происходит в три этапа. Каждый из этих этапов программа FineReader может выполнять как автоматически, так и под контролем пользователя. Если все этапы проводятся автоматически, то преобразование документа происходит за один прием.

1. Первый этап работы — сканирование. На этом этапе обычно используют сканер. Однако изображение с листа бумаги может быть преобразовано в цифровую форму и с помощью других средств, таких, например, как цифровые фотоаппараты и цифровые видеокамеры.

2. Второй этап работы — сегментация текста. Дело в том, что в бумажном документе, например на странице книги или журнала, текст не всегда располагается в фиксированном порядке. Он может размещаться в нескольких колонках, содержать иллюстрации (и подписи к ним). Дополнительные врезки и данные, представленные в таблицах, также могут запутать естественный порядок текста. Поэтому, прежде чем включать текст в документ, его разбивают на блоки, содержащие цельные фрагменты. Блоки распознают последовательно. Полученный текст включается в документ в порядке нумерации блоков.

3. Последний этап работы программы — непосредственно распознавание. Этот этап обычно не требует вмешательства пользователя, за исключением тех случаев, когда распознавание сопровождается «обучением».

Распознанный текст отображается в отдельном окне в виде форматированного текстового документа. Он «теряет связь» с исходным изображением и может редактироваться и форматироваться независимо от него. Программа выделяет цветом те символы, которые она сама рассматривает как неоднозначно опознанные. Это упрощает поиск ошибок. Средствами программы в полученном тексте можно также провести проверку грамматики.

4. Полученный текст можно сохранить в виде форматированного или неформатированного документа. Предусмотрена также возможность прямой передачи полученного текста в программы Word или Excel, а также в буфер обмена Windows.

4.4.3. Сканирование документа

Сканирование — это техническая операция, которую выполняет сканирующее устройство. Задача программы FineReader на этом этапе состоит в том, чтобы принять полученную информацию и отобразить значки отсканированных страниц на панели Пакет. Сам процесс сканирования происходит в автоматическом режиме. Если требуется обработать много страниц, то лучше всего сначала все их отсканировать, а уже затем приступать к распознаванию. Это связано с тем, что сканирование требует присутствия пользователя из-за необходимости управления сканером (например, для смены страниц), а распознавание может происходить в автоматическом режиме.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]