Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Додаток до лекц6.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
129.02 Кб
Скачать

4. Перетворення документів в електронну форму Сканування документів

Процес створення електронного зображення паперового доку­мента нагадує його фотографування й потребує застосування відпо­відного сканера. Такі пристрої, як цифрові камери, поки не можуть забезпечити для документів стандартного формату якість зображен­ня, яка б гарантувала їх надійне розпізнавання.

Сканер є зовнішнім пристроєм і підключається до комп'ютера че­рез спеціальний роз'єм. За високої роздільної здатності й великої площі сканованого документа обсяг даних, які передаються, дуже великий і вимагає потужної лінії передачі. Сучасні сканери використовують для підключення порт USB.

Різні моделі сканерів розуміють різні керуючі команди. Щоб уникнути різнобою, було прийнято універсальний стандарт взаємо­дії сканера й програм (applications). Цей стандарт називається TWAIN. Програма посилає команди драйверу TWAIN, що перетво­рює їх в інструкції, які здатен розпізнавати конкретний сканер. Та­ким чином, для програми конкретна модель сканера перестає мати значення. Операційна система Windows ХР підтримує інтерфейс TWAIN, а всі сучасні сканери сумісні з ним і мають необхідні драй­вери.

Сканування за посередництвом інтерфейсу TWAIN здійснюється таким способом. Після ввімкнення сканера та завантаження відпо­відної програми (наприклад Paint) необхідно обрати команду скану­вання документа. Ця команда розташовується у програмі в меню ФАЙЛ (наприклад, у програмі Paint відповідний пункт називається FROM SCANNER OR CAMERA). Після вибору команди відкриваєть­ся діалогове вікно драйвера TWAIN, вид якого залежить від моделі сканера. У цьому вікні задають параметри сканування: чорно-білий або кольоровий режим, роздільна здатність, корекція яскравості й контрастності. Більшість сканерів дають змогу також зробити попе­реднє чорнове сканування з низькою роздільною здатністю і за його результатами точно задати область сканування — частину сторінки документа.

Після настроювання всіх параметрів потрібно натиснути на кноп­ку СКАНУВАТИ. Процес сканування відбувається автоматично, зображення передається у програму. Діалогове вікно драйвера TWAIN автоматично не закривається, тому, наприклад, у багатовіконних графічних редакторах (таких як Adobe PhotoShop) можна одразу провести сканування декількох зображень.

Розпізнавання документів

Наступним кроком є розпізнавання тексту, тобто перетворення фотографії документа в повноцінний електронний текстовий доку­мент. Програми розпізнавання тексту мають загальну назву OCR (Optical character recognition). Такі програми постачаються разом зі сканером, але якість їх роботи невисока. При розпізнаванні відбува­ється "порівняння" елемента зображення з еталонними варіантами написання символів, після чого вибирається найбільш підходящий символ. Цей підхід потребує використання спеціального комплекту шрифтів, але дає на ньому найкращі результати. Сучасні алгоритми розпізнавання не прив'язані до конкретного написання символів: програма, як і людина, здатна визначати літери при будь-яких на­писаннях.

У процесі розпізнавання в зображенні виділяються великі еле­менти тексту: колонки, абзаци, окремі текстові блоки (наприклад, підписи до малюнків), комірки таблиць. Цей етап називають сегмен­тацією, він може виконуватися автоматично або вручну. Після цьо­го виконується автоматичний етап розпізнавання: блоки розбива­ються на рядки, рядки — на окремі символи, кожен з яких розпізна­ється незалежно й поміщається у підсумковий текстовий документ.