Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
2 курс информатика.docx
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
85.75 Кб
Скачать

24.Сканирование документов. Распознавание документов. Автоматизированный перевод документов

СКАНИРОВАНИЕ ДОКУМЕНТОВ

Процесс создания электронного изображения бумажного документа напоминает его фотографирование и требует применения соответствующего устройства. Сегодня в качестве такого устройства выступает сканер. Такие устройства, как цифровые камеры, пока не могут обеспечить для документов стандартного формата качество изображения, к-ое гарантировало бы их надежное распознавание. Основной рабочий элемент сканера включает источник света, используемый для освещения документа, и светочувствительную головку, воспринимающую отраженный свет. Универсальные сканеры, в отношении которых нет специальных требований по функциональным возможностям, качеству и скорости сканирования делятся на 3 основные категории. Ручной сканер протягивается над поверхностью документа вручную. Он обеспечивает минимальное качество сканирования, в частности, непригоден для сканирования документов, содержащих иллюстрации. Листовой сканер способен сканировать отдельные страницы, протягивая их мимо светочувствительного элемента. Его недостатком яв-ся невозможность сканирования книг и журналов без разборки на отдельные страницы. В планшетном сканере подвижный светочувствительный элемент перемещается в ходе сканирования внутри корпуса устройства. Сканируемый документ располагается напротив прозрачного окна в корпусе прибора. Этот вид сканера лишен недостатков, присущих типам, рассмотренным выше.Сканер яв-ся внешним устройством и подключается к компьютеру через специальный разъем. При высоком разрешении и большой площади сканируемого документа объем передаваемых данных оказывается очень большим и требует производительной линии передачи. Малопроизводительные сканеры используют порт принтера. Разные модели сканеров понимают разные управляющие команды. Чтобы избежать разнобоя, был принят универсальный стандарт взаимодействия сканера и приложений. Этот стандарт называется TWAIN. Приложение посылает команды драйверу TWAIN, к-ый преобразует их в инструкции, распознаваемые сканером. Т.О., для приложения перестает иметь значение конкретная модель сканера.

РАСПОЗНАВАНИЕ ДОКУМЕНТОВ

Этап, распознавания документа состоит в преобразовании электронного изображения (фактически набора цветных или черно-белых точек) в текстовый документ. Ранее для описания этого процесса обычно использовался термин OCR (Optical Character Recognition), к-ый соответствует одному из используемых методов. При таком подходе происходит «сравнение» элемента изображения с эталонными вариантами начертания символов, после чего выбирается наиболее подходящий символ. Этот подход требует использования специального комплекта шрифтов, но дает на нем наилучшие результаты. Современные алгоритмы распознавания не привязаны к конкретному начертанию символов, так же, как ч-к способен узнавать буквы при любых начертаниях (и даже при значительных искажениях). В ходе распознавания сначала в изображении выделяются крупные элементы текста: колонки, абзацы, отдельные текстовые блоки (например, подрисуночные подписи), ячейки таблиц. Этот этап называют сегментацией, он может выполняться автоматически или вручную. После этого выполняется автоматический этап распознавания: блоки разбиваются на строки, строки — на отдельные символы, каждый из которых распознается независимо и помещается в итоговый текстовый документ.