Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Збірник.doc
Скачиваний:
9
Добавлен:
12.11.2019
Размер:
1.97 Mб
Скачать

Вказівки до звіту

Звіт повинен мати:

  • - найменування та мету роботи;

  • - короткі теоретичні відомості;

  • - хід виконання лабораторної роботи;

  • - короткі висновки по роботі.

Лабораторна робота №5

Тема: «Встановлення сканера. Робота з програмами розпізнавання тексту»

Мета роботи: Отримати навички по використанню сканера в якості пристрою автоматичного вводу текстової і графічної інформації в ПЕОМ, навчитися працювати з програмним забезпеченням Abbyy FineReader і Adobe Acrobat Professional.

Матеріальне забезпечення занять

1. Типове робоче місце: персональний комп’ютер.

2. Програма FineRiader.

3. Сканер.

Короткі теоретичні відомості

Підключення сканера в ОС Windows

Сучасні сканери мають інтерфейс підключення USB і підтримують стандарт Plug and Play. При цьому живлення пристрою сканера може проводитися або по окремому мережевому шнуру або по інтерфейсному USB-шнуру, оскільки споживана сучасним сканером потужність невелика. Налаштування сканера зазвичай зводиться до установки драйверів і завдання параметрів сканування.

Компонент «Сканери і камери» на панелі управління дозволяє встановлювати сканери, цифрові фото- і відеокамери, а також інші пристрої запису зображень.

Налаштування параметрів сканування

При використанні майстра роботи зі сканером або будь-якої іншої програми сканування потрібно провести налаштування наступних параметрів. Вибирається тип сканованого зображення – кольорове, чорно-біле у відтінках сірого або в двотоновому режимі. Швидкість сканування в кольоровому режимі буде найменшою. Також можна налаштувати роздільну здатність сканування. Вона залежить від характеристик сканера і може складати 300-600 крапок на дюйм або більш. Чим більше роздільна здатність, тим нижче швидкість сканування. Крім того перед скануванням можна задати налаштування яскравості і контрастності, щоб отриманий графічний файл був правильно відрегульований по цих параметрах. У вікні попереднього перегляду можна відстежувати зроблені зміни. Далі вводиться ім'я файлу-одержувача і його формат. Зазвичай вибирають формат JPEG, який має найбільший ступінь стискування. Файл-одержувач після сканування міститимезображення введеного документа – тексту або малюнка. Якщо це малюнок, то його подальшу обробку можна проводити за допомогою таких програм, як Adobe PhotoShop і Corel PhotoPaint. Якщо це текст, то його розпізнавання і перетворення в текстовий формат проводять за допомогою програми розпізнавання, наприклад ABBYY Fine Reader.

Розпізнавання простого тексту за допомогою програми ABBYY FineReader

Як правило, документи простої структури не вимагають спеціальної установки опцій сканування і розпізнавання. Для хорошого розпізнавання дрібного шрифту документ необхідно відсканувати з вищою роздільною здатністю - 400 - 600 dpi (замість звичайних 300 dpi).

Розпізнавання багатоблокового тексту

При розпізнаванні документів з складним форматуванням можлива ситуація виділення великої кількості окремих блоків. При експорті розпізнаного тексту в Word із збереженням повного оформлення сторінки кожен блок передається в окремий фрейм, що незручно для редагування.

Розпізнавання багатомовного документа

На одній сторінці можуть зустрічатися декілька мов розпізнавання. Для розпізнавання даного документа необхідно вибрати декілька мов розпізнавання. Для цього в списку мов на панелі Стандартна виберіть пункт Вибір декількох мов і в діалозі Мова розпізнаваного тексту.

Розпізнавання книжкового розвороту

Інколи за одне сканування потрібно відсканувати пару сторінок (книжковий розворот), при цьому кожна сторінка має свій кут нахилу, що негативно позначається на якості розпізнавання, крім того обидві

сторінки зберігаються на одну сторінку в дві колонки.

Розпізнавання складної журнальної сторінки

При розпізнаванні складного документа можлива погана якість розпізнавання унаслідок неправильного виділення блоків.В результаті автоматичного аналізу даної сторінки могли бути виділені зайві блоки (наприклад, ділянки тексту на картинці). Перевірте кількість блоків, а також відредагуйте форму виділених блоків. Для цього скористайтеся інструментами на панелі Зображення:

- щоб видалити виділені на картинці зайві блоки тексту;

- щоб намалювати блоки непрямокутної форми;

- щоб намалювати текстовий блок і блок-картинку.

При виділенні текстових блоків стежите за тим, щоб кордони блоків збігалися з межами тексту.

Розпізнавання таблиць

Якщо зображення відскановане з правильними параметрами і таблиця має просту структуру (є всі чорні роздільники, таблиця не містить картинок, немає інвертованого або вертикального тексту), то її розпізнавання не вимагає установки яких-небудь спеціальних опцій.Програму можна "змусити" виділяти кожен рядок тексту в окремий рядок таблиці, відзначивши спеціальну опцію на закладці Розпізнавання (меню Сервіс >Опції) в групі Таблиці: У кожному елементі таблиці не більш за один рядок тексту.Можливий також неправильний аналіз таблиць з складною нерегулярною структурою: неправильне розділення таблиці на рядки і стовпці; неправильне виділення картинок в елементах таблиці; погане розпізнавання вертикального і інвертованого тексту.

Скористайтеся інструментами ручної розмітки таблиць, розташованими на панелі Зображення: Розпізнавання лістингів програм

Даний випадок має дві особливості, що впливають на якість розпізнавання:

- програма передає відступи від лівого краю аркуша не пропусками, а за допомогою завдання відступів абзацу;

- при експорті в .txt лівий відступ не зберігається; деякі рядки об'єднуються в один абзац і при експорті об'єднуються в один рядок.

Для розпізнавання таких документів існує спеціальна опція програми Форматований пропусками текст. Встановлюється в групі Тип сторінки на закладці Розпізнавання діалогу (меню Сервіc>опції). В цьому випадку в розпізнаному тексті збережеться ділення на рядки; відступи від лівого краю будуть передані пропусками; кожен рядок виділений в окремий абзац, а відстані між абзацами передані порожніми рядками. Все це дозволить зберегти початкове форматування тексту при збереженні у форматі txt.Для хорошого розпізнавання роздруків програм потрібно встановити спеціальну мову розпізнавання. Для цього в списку мов на панелі Стандартна виберіть значення Вибір з повного списку мов і в діалозі, що відкрився Мова розпізнаваного тексту виберіть пункт C++. Якщо розпізнаваний програмний роздрук окрім програмного коду містить текстові коментарі, то для хорошого розпізнавання необхідно вибрати декілька мов розпізнавання: мова програмування і мова, на якій написані коментарі.

Розпізнавання документів, що використовують декоративний шрифт

Для підвищення якості розпізнавання даного документа скористаємося спеціальним режимом розпізнавання: розпізнавання з навчанням. Зазвичай в даному режимі розпізнаються 1-2 сторінки, внаслідок чого створюється призначений для користувача еталон, який надалі підключається для розпізнавання решти сторінок. При цьому важливо пам'ятати, що створений еталон можна використовувати лише для розпізнавання текстів, що використовують той же шрифт і розмір шрифту і відсканованих з тою ж роздільною здатністю, що і документ, на основі якого даний еталон створювався.

Створення нової мови розпізнавання

При розпізнаванні програма спирається на знання про мову, вказану в якості мови розпізнавання. Вона використовує словник (перевіряє слова по словнику), морфологічну модель мови, правила написання тексту. При обробці текстів, "неприродних" конструкцій, що наприклад, містять багато артикулів, програма розпізнає їх посимвольно, не використовуючи додаткової інформації про побудову даних конструкцій, що збільшує вірогідність виникнення помилок розпізнавання. Перед розпізнаванням даного документа необхідно створити нову мову, наприклад, артикули (Codes). Щоб створити нову мову розпізнавання:

- У меню Сервіс виберіть пункт Редактор мов... і натискуйте кнопку Новий.

- У діалозі, що відкрився, встановіть перемикач в положення Створити нову мову на основі тої, що існує і виберіть мову, на основі якої ви створюєте нову: в даному випадку Англійська.

- Відкриється діалог Властивості мови. При створенні нової мови потрібно визначити наступні параметри (всі параметри задаються в діалозі Властивості мови):

- Ім'я нової мови - Codes.

- У полі Алфавіт мови вказаний алфавіт мови, на основі якої ви створюєте нову мову. Натисніть кнопку , щоб відредагувати алфавіт. У нашому випадку алфавіт мови повинен містити наступні символи: .0123456739BDFGLRW.

- Словник, який використовуватиметься системою при розпізнаванні і перевірці розпізнаного тексту. В даному випадку ми створимо призначений для користувача словник на основі регулярного вираження. Для цього в групі Словник встановіть перемикач в положення Регулярне вираження і введіть наступне регулярне вираження:

DRG|(B[0-9][0-9]|22.5)|(L[0-9])|(F[0-9][0-9][0-9])|(W([0-9] + ))

Завдання для попередньої підготовки.

1. Вивчити відповідний теоретичний матеріал.

2. Опрацювати контрольні запитання.

3. Підготовити звіт.

Хід роботи.

1. Визначити інтерфейс і виконати підключення планшетного сканера до ПЕОМ на робочому місці.

2. Визначити, чи підтримує сканер стандарт Plug & Play і при необхідності виконати установку драйвера.

3. Виконати сканування кольорового зображення (по варіантах) і зберегти його в стислому графічному форматі. Відредагувати зображення в графічному редакторові: відкоректувати кут нахилу, оптимально підібрати яскравість і контрастність для природного перенесення кольорів при друці і ін. Виконати роздрук і отримати точну копію оригіналу.

4. Виконати сканування друкарського текстового документа (по варіантах) і зберегти його в стислому графічному форматі.

5. Перетворити документ у формат pdf за допомогою ПЗ Adobe Acrobat Professional. Вивчити налаштування програми, захистити створений документ від редагування і копіювання окремими паролями.

6. Провести розпізнавання тексту із створеного файлу формату pdf за допомогою ПЗ Fine Reader і отримати точну електронну копію початкового документа (скористатися функцією екранного копіювання). Виконати роздрук і отримати точну копію оригіналу.

Контрольні запитання

1. Які інтерфейси підключення сканерів існують на сьогоднішній день і чим вони розрізняються?

2. Як живиться сканер, що не має мережевого шнура живлення?

3. Які параметри задаються при скануванні зображення?

4. За допомогою яких програмних засобів можна виконувати сканування?

5. Які існують різновиди сканерів окрім планшетного?

6. Як працює програма розпізнавання тексту? Що таке еталон?

7. Для чого потрібно створювати нову мову розпізнавання і проводити навчання програми?

8. Яку роздільну здатність потрібно задати при скануванні, щоб упевнено розпізнавався текст з розміром шрифту 8 кеглів?

9. Які особливості розпізнавання складних журнальних сторінок?

10. Чому сканування в чорно-білому режимі виконується швидше, ніж в кольоровому?

Обробка результатів

1. За результатами роботи оформити звіт.

2. Визначення порівняння використовуваного обладнання