Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Додаток до лекц6.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
129.02 Кб
Скачать

5. Програма FineReader

Однією з найпоширеніших програм такого типу є FineReader фір­ми ABBYY Software (www.bitsoft.ru). Останні версії цієї програми дуже добре працюють з текстами українською та російською мовами (з латинськими літерами добре працюють усі програми), зі змішани­ми двомовними текстами. Є можливість розпізнавання рукописного тексту, але це вимагає тренування програми. Програма підтримує протокол TWAIN. У результаті розпізнавання користувач отримує повну електронну копію документа зі збереженням форматування, типу і розміру шрифту, вбудованими ілюстраціями та таблицями. Іноді, коли якість оригіналу невисока, доводиться вручну редагува­ти помилки. З програми FineReader документ можна безпосередньо передати у текстовий процесор Word, де його нескладно відредагува­ти, або зробити нову редакцію документа, попередньо зберігши ко­пію оригіналу. Програма підтримує пакетний режим обробки бага­тосторінкових документів. Спочатку скануються всі оригінали, а потім всі сторінки оригіналу можна розпізнати в автоматичному ре­жимі, що не потребує участі користувача.

Основні операції обробки паперового документа в програмі FineReader виконуються за допомогою панелі інструментів SCAN&READ. У цій програмі процес обробки документа складаєть­ся з п'яти етапів:

  1. сканування (кнопка СКАНУВАТИ);

  1. сегментація (кнопка СЕГМЕНТУ ВАТИ);

  1. розпізнавання (кнопка РОЗПІЗНАТИ);

редагування й перевірка результату (кнопка ПЕРЕВІРИТИ)

  1. збереження документа (кнопка ЗБЕРЕГТИ).

Сканування документа. На цьому етапі одержують зображення за допомогою сканера й зберігають у вигляді, зручному для наступ­ної обробки. Щоб почати сканування, слід увімкнути сканер і натис­нути на кнопку СКАНУВАТИ на панелі інструментів SCAN&READ. У програмі FineReader сканування може проводитися як через драй­вер TWAIN, так і без нього. Перший спосіб використовують, коли потрібне точне налаштування параметрів сканування, коли доку­мент має кольорові ілюстрації, які необхідно зберегти, а також коли різні сторінки великого документа сильно розрізняються за якістю. Другий варіант забезпечує максимальну швидкість і зручність ска­нування. Вибір такого варіанта здійснюється за допомогою прапор­ця меню СЕРВІС / ОПЦІЇ / СКАНУВАННЯ / ПОКАЗАТИ ВІКНО НАЛАШТУВАНЬ ПЕРЕД СКАНУВАННЯМ.

Процес сканування здійснюється автоматично й вимагає від ко­ристувача тільки допоміжних операцій, таких як зміна сканованої сторінки. Можливість втручання в роботу програми заблокована розміщенням на екрані спеціального діалогового вікна з повідомлен­ням про сканування.

Після завершення сканування значки всіх оброблених сторінок відображаються у вікні BATCH (ПАКЕТ). В основній частині робочої області з'являється вікно з зображенням поточної сторінки. Додава­ти сторінки в пакет можна не тільки шляхом сканування, але й шля­хом відкриття файлів із зображеннями, які є на комп'ютері.

Розпізнавання документа. Етап розпізнавання тексту докумен­та можна поділити на дві операції, які виконуються по черзі. Перша операція — сегментація, розбивка сторінки на блоки тексту. Якщо сторінка містить колонки, ілюстрації, вставки, підписи до малюнків або таблиць, то порядок розпізнавання потребує корекції.

У такому випадку вміст сторінки розбивається на блоки. Усере­дині кожного блоку зберігається природний порядок розпізнаван­ня. Блоки нумеруються з огляду на порядок включення їх у доку­мент. Програма FineReader здатна виконати сегментацію (визначи­ти границі блоків) автоматично навіть для досить складних сторінок. При цьому враховуються поля документа, інтервали між колонка­ми, рамки.

Якщо структура сторінки дуже складна або містить явні дефек­ти, яких не завжди вдається уникнути при скануванні, зручніше ви­користовувати ручну сегментацію, або ручне редагування результа­тів автоматичної сегментації. Блоки відображаються у вигляді ко­льорових прямокутників з номером у лівому верхньому куті. Новий блок створюють шляхом протягування миші по діагоналі прямокут­ника. Поточний блок позначається виділеною лінією, а його кути — прямокутними маркерами.

За допомогою цих маркерів можна змінити розмір або положен­ня блоку. Команди редагування блоків виведені на панель ЗОБРА­ЖЕННЯ. Вони дають змогу об'єднати два блоки в один, видалити фрагмент блоку, змінити порядок нумерації блоків і розбивку табли­ці на комірки.

Різні типи блоків обробляються програмою по-різному. Щоб змі­нити тип блоку, слід клацнути правою кнопкою миші в його межах і призначити новий тип за допомогою меню ТИП БЛОКУ в контек­стному меню. Програма FineReader підтримує такі типи блоків:

  • автоматичний (зона розпізнавання) — на етапі розпізнаван­ня аналізується й розбивається на блоки автоматично;

  • текстовий (текст) — на етапі розпізнавання перетвориться в текст;

  • табличний (таблиця) — це набір комірок, кожна з яких пере­твориться в текст окремо;

  • зображення (картинка) — включається у документ без змін як графічна ілюстрація, якщо формат збереження перетвореного доку­мента допускає вставні об'єкти.

Процес розпізнавання тексту після сегментації повністю автома­тизований. Кнопка РОЗПІЗНАТИ на панелі SCAN&READ дає змогу автоматично виконати сегментацію й розпізнавання, хоча під час сегментації враховуються обмеження, встановлені вручну. У проце­сі відображається діалогове вікно РОЗПІЗНАВАННЯ, яке дозволяє перервати процес. Крім того, у цьому вікні відображаються пові­домлення про проблеми при розпізнаванні. Проблеми зазвичай спри­чинені неправильним настроюванням або поганою якістю зображен­ня, що розпізнається. Якщо ж справа в особливостях шрифтів доку­мента, який розпізнається, застосовують розпізнавання з навчан­ням.

Розпізнавання з навчанням полягає у формуванні еталона, що використовується під час розпізнавання. Еталон настроюється так, щоб відповідати певному документові або групі однотипних доку­ментів. Щоб створити еталон, використовують команду СЕРВІС / РЕДАКТОР ЕТАЛОНІВ / НОВИЙ. Після цього слід вказати ім'я ета­лона й клікнути на кнопку ОК. Режим розпізнавання з навчанням включається при настроюванні параметрів роботи програми. Ство­рити, вибрати або змінити еталон можна натиснувши на кнопку ЕТАЛОНИ. Після цього необхідно встановити прапорець РОЗПІ­ЗНАВАННЯ З НАВЧАННЯМ.

Коли в ході розпізнавання з навчанням програма FineReader ви­являє символ, який не може інтерпретувати однозначно, на екран видається діалогове вікно РУЧНЕ НАВЧАННЯ ЕТАЛОНА. Програ­ма вказує елемент зображення, що викликав сумнів, і показує, як саме він буде інтерпретований. Якщо допущено помилку, можна вказати потрібний символ у полі ВВЕДІТЬ СИМВОЛ, виділений рам­кою, або уточнити область розпізнавання за допомогою кнопок ЗСУ­НУТИ ВЛІВО й ЗСУНУТИ ВПРАВО. Потім потрібно клацнути на кнопку НАВЧИТИ. Необхідні відомості зберігаються й використо­вуються при подальшому аналізі зображення. Якщо кількість поми­лок невелика, можна продовжити розпізнавання у звичайному ре­жимі шляхом натискання кнопки ЗАКРИТИ.

Редагування документа. Коли розпізнавання сторінки завер­шується, отриманий текстовий документ відображається у вікні ТЕКСТ. Заключні етапи роботи дозволяють відредагувати одежаний текст за допомогою засобів, що нагадують, текстовий редактор WordPad ВИД / ПАНЕЛЬ ІНСТРУМЕНТІВ / ФОРМАТУВАННЯ. Про­вести перевірку орфографії з урахуванням труднощів розпізнавання дозволяє кнопка ПЕРЕВІРИТИ на панелі інструментів SCAN&READ. Інформація про можливі помилки й неоднозначності відображаєть­ся в діалоговому вікні ПЕРЕВІРКА.

Збереження документа. При натисканні на кнопку ЗБЕРЕГТИ на панелі інструментів SCAN&READ запускається майстер збере­ження результатів. Він дає змогу зберегти розпізнаний текст або пе­редати його в іншу програму (наприклад у Microsoft Word) для на­ступної обробки.

Сканування незамінне, коли потрібно отримати електронну вер­сію рідкісних документів, малюнків, фотографій, карт та інших зоб­ражень. Електронні версії документів — це єдина придатна форма для обробки документів з використанням комп'ютерних технологій, зокрема, для передачі їх засобами комп'ютерного зв'язку. Електрон­ні документи іноземною мовою можуть бути передані іншим програ­мам для машинного перекладу. Електронні версії схем місцевості й карт є основою для використання геоінформаційних технологій.

Питання для контролю знань студентів

  1. Для чого призначені сканери?

  2. Які типи сканерів ви знаєте?

  3. Вкажіть особливості планетарних сканерів.

  4. Як побудована робота планшетного сканера?

  5. Які основні характеристики сканерів потрібно враховувати при їх виборі?

  6. З якою метою прийнято стандарт TWAIN?

  1. Назвіть етапи, з яких складається розпізнавання сканованого зображення.

  1. Які типи блоків утворює FineReader при сегментації?

  2. У чому полягає процес розпізнавання з навчанням?

13