
4. Перетворення документів в електронну форму Сканування документів
Процес створення електронного зображення паперового документа нагадує його фотографування й потребує застосування відповідного сканера. Такі пристрої, як цифрові камери, поки не можуть забезпечити для документів стандартного формату якість зображення, яка б гарантувала їх надійне розпізнавання.
Сканер є зовнішнім пристроєм і підключається до комп'ютера через спеціальний роз'єм. За високої роздільної здатності й великої площі сканованого документа обсяг даних, які передаються, дуже великий і вимагає потужної лінії передачі. Сучасні сканери використовують для підключення порт USB.
Різні моделі сканерів розуміють різні керуючі команди. Щоб уникнути різнобою, було прийнято універсальний стандарт взаємодії сканера й програм (applications). Цей стандарт називається TWAIN. Програма посилає команди драйверу TWAIN, що перетворює їх в інструкції, які здатен розпізнавати конкретний сканер. Таким чином, для програми конкретна модель сканера перестає мати значення. Операційна система Windows ХР підтримує інтерфейс TWAIN, а всі сучасні сканери сумісні з ним і мають необхідні драйвери.
Сканування за посередництвом інтерфейсу TWAIN здійснюється таким способом. Після ввімкнення сканера та завантаження відповідної програми (наприклад Paint) необхідно обрати команду сканування документа. Ця команда розташовується у програмі в меню ФАЙЛ (наприклад, у програмі Paint відповідний пункт називається FROM SCANNER OR CAMERA). Після вибору команди відкривається діалогове вікно драйвера TWAIN, вид якого залежить від моделі сканера. У цьому вікні задають параметри сканування: чорно-білий або кольоровий режим, роздільна здатність, корекція яскравості й контрастності. Більшість сканерів дають змогу також зробити попереднє чорнове сканування з низькою роздільною здатністю і за його результатами точно задати область сканування — частину сторінки документа.
Після настроювання всіх параметрів потрібно натиснути на кнопку СКАНУВАТИ. Процес сканування відбувається автоматично, зображення передається у програму. Діалогове вікно драйвера TWAIN автоматично не закривається, тому, наприклад, у багатовіконних графічних редакторах (таких як Adobe PhotoShop) можна одразу провести сканування декількох зображень.
Розпізнавання документів
Наступним кроком є розпізнавання тексту, тобто перетворення фотографії документа в повноцінний електронний текстовий документ. Програми розпізнавання тексту мають загальну назву OCR (Optical character recognition). Такі програми постачаються разом зі сканером, але якість їх роботи невисока. При розпізнаванні відбувається "порівняння" елемента зображення з еталонними варіантами написання символів, після чого вибирається найбільш підходящий символ. Цей підхід потребує використання спеціального комплекту шрифтів, але дає на ньому найкращі результати. Сучасні алгоритми розпізнавання не прив'язані до конкретного написання символів: програма, як і людина, здатна визначати літери при будь-яких написаннях.
У процесі розпізнавання в зображенні виділяються великі елементи тексту: колонки, абзаци, окремі текстові блоки (наприклад, підписи до малюнків), комірки таблиць. Цей етап називають сегментацією, він може виконуватися автоматично або вручну. Після цього виконується автоматичний етап розпізнавання: блоки розбиваються на рядки, рядки — на окремі символи, кожен з яких розпізнається незалежно й поміщається у підсумковий текстовий документ.