
5. Програма FineReader
Однією з найпоширеніших програм такого типу є FineReader фірми ABBYY Software (www.bitsoft.ru). Останні версії цієї програми дуже добре працюють з текстами українською та російською мовами (з латинськими літерами добре працюють усі програми), зі змішаними двомовними текстами. Є можливість розпізнавання рукописного тексту, але це вимагає тренування програми. Програма підтримує протокол TWAIN. У результаті розпізнавання користувач отримує повну електронну копію документа зі збереженням форматування, типу і розміру шрифту, вбудованими ілюстраціями та таблицями. Іноді, коли якість оригіналу невисока, доводиться вручну редагувати помилки. З програми FineReader документ можна безпосередньо передати у текстовий процесор Word, де його нескладно відредагувати, або зробити нову редакцію документа, попередньо зберігши копію оригіналу. Програма підтримує пакетний режим обробки багатосторінкових документів. Спочатку скануються всі оригінали, а потім всі сторінки оригіналу можна розпізнати в автоматичному режимі, що не потребує участі користувача.
Основні операції обробки паперового документа в програмі FineReader виконуються за допомогою панелі інструментів SCAN&READ. У цій програмі процес обробки документа складається з п'яти етапів:
сканування (кнопка СКАНУВАТИ);
сегментація (кнопка СЕГМЕНТУ ВАТИ);
розпізнавання (кнопка РОЗПІЗНАТИ);
редагування й перевірка результату (кнопка ПЕРЕВІРИТИ)
збереження документа (кнопка ЗБЕРЕГТИ).
Сканування документа. На цьому етапі одержують зображення за допомогою сканера й зберігають у вигляді, зручному для наступної обробки. Щоб почати сканування, слід увімкнути сканер і натиснути на кнопку СКАНУВАТИ на панелі інструментів SCAN&READ. У програмі FineReader сканування може проводитися як через драйвер TWAIN, так і без нього. Перший спосіб використовують, коли потрібне точне налаштування параметрів сканування, коли документ має кольорові ілюстрації, які необхідно зберегти, а також коли різні сторінки великого документа сильно розрізняються за якістю. Другий варіант забезпечує максимальну швидкість і зручність сканування. Вибір такого варіанта здійснюється за допомогою прапорця меню СЕРВІС / ОПЦІЇ / СКАНУВАННЯ / ПОКАЗАТИ ВІКНО НАЛАШТУВАНЬ ПЕРЕД СКАНУВАННЯМ.
Процес сканування здійснюється автоматично й вимагає від користувача тільки допоміжних операцій, таких як зміна сканованої сторінки. Можливість втручання в роботу програми заблокована розміщенням на екрані спеціального діалогового вікна з повідомленням про сканування.
Після завершення сканування значки всіх оброблених сторінок відображаються у вікні BATCH (ПАКЕТ). В основній частині робочої області з'являється вікно з зображенням поточної сторінки. Додавати сторінки в пакет можна не тільки шляхом сканування, але й шляхом відкриття файлів із зображеннями, які є на комп'ютері.
Розпізнавання документа. Етап розпізнавання тексту документа можна поділити на дві операції, які виконуються по черзі. Перша операція — сегментація, розбивка сторінки на блоки тексту. Якщо сторінка містить колонки, ілюстрації, вставки, підписи до малюнків або таблиць, то порядок розпізнавання потребує корекції.
У такому випадку вміст сторінки розбивається на блоки. Усередині кожного блоку зберігається природний порядок розпізнавання. Блоки нумеруються з огляду на порядок включення їх у документ. Програма FineReader здатна виконати сегментацію (визначити границі блоків) автоматично навіть для досить складних сторінок. При цьому враховуються поля документа, інтервали між колонками, рамки.
Якщо структура сторінки дуже складна або містить явні дефекти, яких не завжди вдається уникнути при скануванні, зручніше використовувати ручну сегментацію, або ручне редагування результатів автоматичної сегментації. Блоки відображаються у вигляді кольорових прямокутників з номером у лівому верхньому куті. Новий блок створюють шляхом протягування миші по діагоналі прямокутника. Поточний блок позначається виділеною лінією, а його кути — прямокутними маркерами.
За допомогою цих маркерів можна змінити розмір або положення блоку. Команди редагування блоків виведені на панель ЗОБРАЖЕННЯ. Вони дають змогу об'єднати два блоки в один, видалити фрагмент блоку, змінити порядок нумерації блоків і розбивку таблиці на комірки.
Різні типи блоків обробляються програмою по-різному. Щоб змінити тип блоку, слід клацнути правою кнопкою миші в його межах і призначити новий тип за допомогою меню ТИП БЛОКУ в контекстному меню. Програма FineReader підтримує такі типи блоків:
автоматичний (зона розпізнавання) — на етапі розпізнавання аналізується й розбивається на блоки автоматично;
текстовий (текст) — на етапі розпізнавання перетвориться в текст;
табличний (таблиця) — це набір комірок, кожна з яких перетвориться в текст окремо;
зображення (картинка) — включається у документ без змін як графічна ілюстрація, якщо формат збереження перетвореного документа допускає вставні об'єкти.
Процес розпізнавання тексту після сегментації повністю автоматизований. Кнопка РОЗПІЗНАТИ на панелі SCAN&READ дає змогу автоматично виконати сегментацію й розпізнавання, хоча під час сегментації враховуються обмеження, встановлені вручну. У процесі відображається діалогове вікно РОЗПІЗНАВАННЯ, яке дозволяє перервати процес. Крім того, у цьому вікні відображаються повідомлення про проблеми при розпізнаванні. Проблеми зазвичай спричинені неправильним настроюванням або поганою якістю зображення, що розпізнається. Якщо ж справа в особливостях шрифтів документа, який розпізнається, застосовують розпізнавання з навчанням.
Розпізнавання з навчанням полягає у формуванні еталона, що використовується під час розпізнавання. Еталон настроюється так, щоб відповідати певному документові або групі однотипних документів. Щоб створити еталон, використовують команду СЕРВІС / РЕДАКТОР ЕТАЛОНІВ / НОВИЙ. Після цього слід вказати ім'я еталона й клікнути на кнопку ОК. Режим розпізнавання з навчанням включається при настроюванні параметрів роботи програми. Створити, вибрати або змінити еталон можна натиснувши на кнопку ЕТАЛОНИ. Після цього необхідно встановити прапорець РОЗПІЗНАВАННЯ З НАВЧАННЯМ.
Коли в ході розпізнавання з навчанням програма FineReader виявляє символ, який не може інтерпретувати однозначно, на екран видається діалогове вікно РУЧНЕ НАВЧАННЯ ЕТАЛОНА. Програма вказує елемент зображення, що викликав сумнів, і показує, як саме він буде інтерпретований. Якщо допущено помилку, можна вказати потрібний символ у полі ВВЕДІТЬ СИМВОЛ, виділений рамкою, або уточнити область розпізнавання за допомогою кнопок ЗСУНУТИ ВЛІВО й ЗСУНУТИ ВПРАВО. Потім потрібно клацнути на кнопку НАВЧИТИ. Необхідні відомості зберігаються й використовуються при подальшому аналізі зображення. Якщо кількість помилок невелика, можна продовжити розпізнавання у звичайному режимі шляхом натискання кнопки ЗАКРИТИ.
Редагування документа. Коли розпізнавання сторінки завершується, отриманий текстовий документ відображається у вікні ТЕКСТ. Заключні етапи роботи дозволяють відредагувати одежаний текст за допомогою засобів, що нагадують, текстовий редактор WordPad ВИД / ПАНЕЛЬ ІНСТРУМЕНТІВ / ФОРМАТУВАННЯ. Провести перевірку орфографії з урахуванням труднощів розпізнавання дозволяє кнопка ПЕРЕВІРИТИ на панелі інструментів SCAN&READ. Інформація про можливі помилки й неоднозначності відображається в діалоговому вікні ПЕРЕВІРКА.
Збереження документа. При натисканні на кнопку ЗБЕРЕГТИ на панелі інструментів SCAN&READ запускається майстер збереження результатів. Він дає змогу зберегти розпізнаний текст або передати його в іншу програму (наприклад у Microsoft Word) для наступної обробки.
Сканування незамінне, коли потрібно отримати електронну версію рідкісних документів, малюнків, фотографій, карт та інших зображень. Електронні версії документів — це єдина придатна форма для обробки документів з використанням комп'ютерних технологій, зокрема, для передачі їх засобами комп'ютерного зв'язку. Електронні документи іноземною мовою можуть бути передані іншим програмам для машинного перекладу. Електронні версії схем місцевості й карт є основою для використання геоінформаційних технологій.
Питання для контролю знань студентів
Для чого призначені сканери?
Які типи сканерів ви знаєте?
Вкажіть особливості планетарних сканерів.
Як побудована робота планшетного сканера?
Які основні характеристики сканерів потрібно враховувати при їх виборі?
З якою метою прийнято стандарт TWAIN?
Назвіть етапи, з яких складається розпізнавання сканованого зображення.
Які типи блоків утворює FineReader при сегментації?
У чому полягає процес розпізнавання з навчанням?