Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Сканування та розп_знавання тексту.doc
Скачиваний:
1
Добавлен:
01.04.2025
Размер:
177.66 Кб
Скачать

Зміст

Вступ 2

Що таке сканер? 3

Коротка історія сканерів 3

Як працюють сканери 7

Оптичний блок 8

Електронні книги 9

Що таке OCR-системи 11

ABBYY FineReader 7.0 14

Головне вікно програми FineReader 14

Клавіши для роботи з вікнами 16

Як вивести документ за хвилину 17

Інструментальні панелі програми FineReader 18

Головна панель програми - Scan&Read 18

Панель Стандартна 21

Панель Форматування 21

Панель Зображення 22

Настройка інструментальних панелей 22

Сканування 23

Розпізнавання 25

Загальна інформація по розпізнаванню 25

Мова розпізнавання 27

Розпізнавання у фоновому режимі 29

Загальна інформація по аналізу макету сторінки 30

Висновок 31

Список використаної літератури 32

Вступ

Сам процес сканування дуже простий, хоча його результати можуть істотно розрізнятися і залежать від якості оригіналу (сканованого документа). Сторінка, що містить текст, поміщається на стіл для оригіналів і запускається програма розпізнавання тексту. У цій програмі (у даній роботі це FineReader) задаються параметри сканування і тип текстового файлу. Після завершення сканування ми одержуємо текстовий файл, який можна відкрити і редагувати в Word або будь-якій іншій аналогічній програмі.

У минулому OCR-сканери могли розпізнавати тільки певні шрифти, які називалися OCR-шрифтами, а документи, призначені для сканування, також друкувалися цими шрифтами. Для генерації OCR-шрифтів використовувалися спеціальні пишучі машинки.

Крім того, для оригіналів необхідно було використовувати спеціальний папір з дуже високим ступенем білизни (в цьому випадку сканеру простіше відділити чорний шрифт від фону). Ці пристрої дійсно були достатньо капризними, але, оскільки OCR-програми прогресували достатньо швидко, з часом вони навчилися розпізнавати практично будь-який надрукований шрифт, за винятком шрифтів, що імітують рукописний текст.

Для прикладу OCR-системи я вибрав програму ABBYY FineReader 7.0. Багато користувачів комп'ютерів що мають сканер застосовують для сканування і розпізнавання тексту саме цю програму.

Що таке сканер?

Сканер — це «пристрій, що використовується для аналізу початкового зображення або тексту, його оцифровки і збереження з метою подальшої обробки і висновку».

Коротка історія сканерів

Сканери з'явилися достатньо давно, і прийшли на робочі столи домашніх і професійних користувачів з поліграфії. Перші сканери використовувалися для підготовки цветоделенних зображень для чотирьохбарвистого друку і були частиною допечатних комплексів, які, в найдешевшому виконанні, коштували сотні тисяч доларів. Це було в 1970-е роки, коли все було велике, починаючи з автомобілів і закінчуючи допечатними системами. У той час не було потреби в настільних сканерах, оскільки ще не існувало т.зв. «настільних видавничих систем». Поява цих систем стала революцією у виданні друкарської продукції і привела до передачі багатьох технологій широким шарам користувачів, хоча вони для них ніколи не призначалися. У той час сканери практично не використовувалися для оцифровки зображень, оскільки в цьому не було необхідності: зображення готувалися до друку за допомогою фотографічних процесів.

У середині 1980-их років зійшлися разом декілька Технологій. У комп'ютерах Apple Macintosh почала використовуватися відеосистема, що реалізовує концедцшоу оптимістично названу WYSIWYG («what-you-see-is-what-you-get» — що бачите, то і одержуєте). З'явилася мова Postscript компанії Adobe Systems, яка дозволила вивідним пристроям незалежно від їх апаратної реалізації (включаючи лазерні принтери) відтворювати елементи верстки смуги (особливо це відноситься до шрифтів). І, нарешті, була випущена програма PageMaker компанії Aldus, яка була першим повноцінним додатком для створення макетів сторінок на персональному комп'ютері.

Ці події, а також інші, трохи менш помітні досягнення, дали можливість масовому користувачу самостійно готувати публікації до друку. Тепер будь-який користувач комп'ютера міг створити журнал, інформаційний бюлетень і навіть книгу, і цим комп'ютером не обов'язково повинен був бути Macintosh. На платформі PC (у той час ще не було Widows, а тільки DOS) з'явилася програма Xerox Ventura Publisher (сьогодні це Corel Ventura). Це був повноцінний видавничий інструмент, що містить безліч новацій, що випередили свій час, які, зрештою, були включені до складу настільних видавничих систем QuarkXPress і PageMaker, що стали в подальшому популярнішими.

Щоб створити простий інформаційний бюлетень до т.з. революції «настільних видавничих систем», необхідно було уручну набрати текст на великій і дорогій фотонабірній машині, фізично нарізувати плівку з текстом на блоки, і уручну змонтувати (наклеїти) їх на єдину підкладку. Чорно-білі фотографії растріровались за допомогою величезних репродукційних фотоапаратів і також уручну приклеювалися в потрібне місце. Щоб створити цветоделеніє кольорових оригіналів, їх необхідно було фотографувати на спеціальних цветоделітельних машинах.

Революція настільних видавничих систем завершила етап ручного монтажу макетів і перезйомку графічних зображень. Тексти набиралися в програмах типа PageMaker, які забезпечували відображення факсиміле сторінок публікації безпосередньо на екрані комп'ютера. Текст можна було переміщати і форматувати «на льоту». Зараз ми сприймаємо це як очевидний факт, але ті з нас, хто перейшов із старої технології підготовки публікацій на настільні видавничі системи, були приголомшені. На початку 1980-х років я вчився в середній школі і підробляв влітку, набираючи тексти на фотонабірній машині і вмонтовуючи макети. Вперше я побачив PageMaker в 1985 році, коли він тільки що вийшов. Все це виглядало дуже незвично, але принцип був вельми захоплюючим. Недавно, при переїзді на іншу квартиру, я знайшов в одному із завалів свій старий настановний комплект дискет програми PageMaker 1.0, і на мене налинули всі ці спогади...

Так чи інакше, ці хаотичні спогади мають відношення до сканування. Раз ми можемо створювати текст в цифровій формі, те ж саме повинне було відбутися і із зображеннями. Це було ще до створення таких форматів, як JPEG або TIFF, і навіть до появи електронної пошти (вона існувала, але тільки як засіб обміну текстовими повідомленнями серед військових і університетів) і Web (яку не існувало взагалі).

Отже, перші сканери були великими, незграбними і дуже дорогими. Сканування зображень і доведення їх до такого вигляду, щоб вони підходили для друку, було зовсім не домашнім заняттям; це був сервіс, що надається спеціалізованими сервісними бюро. Поступово стали з'являтися невеликі планшетні сканери, які могли сканувати тільки чорно-білі зображення. Вони не давали високої якості, і скануючі зображення вставлялися в макети тільки з метою фіксації їх розмірів і місця розташування!

Такий стан тривав до середини 1990-х років, коли стали з'являтися перші кольорові планшетні сканери, що вже дозволяють говорити про підготовку зображень для друку. Ці пристрої були ще дорогі (більше $1000), але якість і ціни дуже швидко поліпшувалися. До кінця 1990-х років пристойний планшетний сканер можна було придбати за $500. Зараз же хороший сканер стоїть $200, а непоганий — навіть менше $100.

Все це вивело сканери на рівень масового споживача. Пристрої стали настільки дешевими у виробництві, що тепер їх іноді використовують як подарунок при покупці домашнього комп'ютера: купуєте новий PC Pentium і одержуєте «безкоштовний» сканер. Тепер це всього лише один з видів домашньої електронної техніки,. Все більше і більше людей користуються Web і e-mail, і завжди знайдеться достатня кількість старих фотографій, які можна оцифрувати і послати по електронній пошті або розмістити на своїй домашній Web-сторінці або Web-вузлі.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]