Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Пакет лекций1.doc
Скачиваний:
27
Добавлен:
23.11.2019
Размер:
7.95 Mб
Скачать

Контрольні питання

  1. Як встановити параметри сторінок?

  2. Як встановити номера сторінок?

  3. Як створити колонтитули?

  4. Яким чином можна знизу пронумерувати сторінки?

  5. Як добавити в колонтитули автора доповіді?

  6. Як створити колонки?

Лекція 10. Розпізнавання тексту та графіків за допомогою програми FineReader. План заняття

1 Перетворення документів в електронну форму

2. Робота з програмою Fine Reader.

1 Перетворення документів в електронну форму

Особливістю професійної діяльності в сфері управління підприємствами виробництва харчової продукції є те, що більшість вхідних даних і практично всі вихідні дані вони отримують і готують у вигляді паперових документів. Перехід до безпаперових технологій у цій сфері діяльності може бути забезпечений застосуваням технології електронного документообігу.

Задача переведення в електронну форму даних з твердих копій вирішується застосуванням скануванням документів на паперових носіях з наступним розпізнаванням тексту.

Після опрацювання документа сканером утворюється графічне зображення документа (графічна образ). Але графічний образ ще не є текстовим документом. З погляду комп'ютера, документ після сканування перетворюється в набір точок різного рівня яскравості, а зовсім не в текстовий документ. Текстові процесори не можуть опрацьовувати графічні тексти.

У текстовому документі кожний символ кодирується 8-розрядним числом. У графічному документі символ поданий великою кількістю точок (7000 для шрифту 14 розміру), і кожна точка кодирується числом. Для перекладу графічного документа в текстовий необхідно виділити графічний об'єкт, розпізнати його і замінити відповідним кодом. Після перетворення, текстовий документ має в сотні разів менший розмір, що той же документ у графічному форматі.

Перетворення тексту - достатньо складна науково-технічна задача, що зводиться до проблеми розпізнавання образів у складі крапкового графічного зображення. Подібні задачі вирішують за допомогою спеціальних програмних засобів, називаних засобами розпізнавання образів. Реальний технічний прорив у цій області відбувся лише в останні роки. До цього розпізнавання тексту було можливо тільки шляхом порівняння виявлених конфігурацій точок із стандартним зразком (еталоном, що зберігається в пам'яті комп'ютера). Автори програм задавали критерій «схожості», використовуваний при ідентифікації символів. Подібні системи називалися OCR (Optical Character Recognition -оптичне розпізнавання символів) і спиралися на спеціально розроблені шрифти, що полегшували такий підхід. Якщо доводило зштовхуватися з довільним і, тим більше, складним шрифтом, програми такого роду починали давати серйозні збої.

Останні наукові досягнення в області розпізнавання образів буквально перевернули представлення про оптичне розпізнавання символів. Сучасні програми цілком можуть справлятися з різноманітними (і дуже вигадливими) шрифтами без перенастройки. Багато програм розпізнають навіть рукописний текст.

Оскільки потреба в розпізнаванні тексту отсканованних документів достатньо велика, тому є значне число програм, призначених для цієї цілі. Тому що різні наукові методи розпізнавання тексту розвивалися незалежно друг від друга, багато хто з цих програм використовують цілком різні алгоритми.

Ці алгоритми можуть давати різні результати на різних документах. Наприклад, що згадувалися вище системи OCR спроможні розпізнавати тільки стандартний спеціально підготовлений шрифт і дають на цьому шрифті найкращі результати, що не може перевершити жодна з більш універсальних програм.

Сучасні алгоритми розпізнавання тексту не орієнтуються ні на конкретний шрифт, ні на конкретний алфавіт. Більшість програм здатно розпізнавати текст кількома мовами. Ті самі алгоритми можна використовувати для розпізнавання латинського, російського, українських, арабського й інших алфавітів і навіть змішаних текстів. Зрозуміло, програма повинна знати, про який алфавіт мова йде.

Найбільше широко відомі і поширені програми FineReader і CuneiForm. Ми докладно зупинимося на програмі FineReader, що забезпечує високу якість розпізнавання і зручність застосування. З моменту виходу FineReader завоював 26 нагород за точність і простоту використання.