
- •Що таке сканер?
- •Коротка історія сканерів
- •Як працюють сканери
- •Оптичний блок
- •Електронні книги
- •Що таке ocr-системи
- •Процес введення документа в комп'ютер можна підрозділити на два етапи:
- •Зупинимося на другому кроці детальніше.
- •В результаті роботи у вікні FineReader з'явиться розпізнаний текст, який Ви можете відредагувати і зберегти в найзручнішому для Вас форматі.
- •Головне вікно програми FineReader
- •Щоб вибрати вид вікна Пакет:
- •Клавіши для роботи з вікнами
- •Як вивести документ за хвилину
- •Інструментальні панелі програми FineReader
- •Головна панель програми - Scan&Read
- •Панель Стандартна
- •Панель Форматування
- •Панель Зображення
- •Настройка інструментальних панелей
- •Сканування
- •Переваги одного режиму перед іншим
- •Щоб запустити розпізнавання:
- •Мова розпізнавання
- •Щоб вказати мову розпізнаваного тексту:
- •Щоб підключити/відключити мову до списку язиків, що показуються:
- •Розпізнавання у фоновому режимі
- •Загальна інформація по аналізу макету сторінки
- •Ручне виділення блоків може знадобитися, якщо
- •Висновок
- •Список використаної літератури
Зміст
Вступ 2
Що таке сканер? 3
Коротка історія сканерів 3
Як працюють сканери 7
Оптичний блок 8
Електронні книги 9
Що таке OCR-системи 11
ABBYY FineReader 7.0 14
Головне вікно програми FineReader 14
Клавіши для роботи з вікнами 16
Як вивести документ за хвилину 17
Інструментальні панелі програми FineReader 18
Головна панель програми - Scan&Read 18
Панель Стандартна 21
Панель Форматування 21
Панель Зображення 22
Настройка інструментальних панелей 22
Сканування 23
Розпізнавання 25
Загальна інформація по розпізнаванню 25
Мова розпізнавання 27
Розпізнавання у фоновому режимі 29
Загальна інформація по аналізу макету сторінки 30
Висновок 31
Список використаної літератури 32
Вступ
Сам процес сканування дуже простий, хоча його результати можуть істотно розрізнятися і залежать від якості оригіналу (сканованого документа). Сторінка, що містить текст, поміщається на стіл для оригіналів і запускається програма розпізнавання тексту. У цій програмі (у даній роботі це FineReader) задаються параметри сканування і тип текстового файлу. Після завершення сканування ми одержуємо текстовий файл, який можна відкрити і редагувати в Word або будь-якій іншій аналогічній програмі.
У минулому OCR-сканери могли розпізнавати тільки певні шрифти, які називалися OCR-шрифтами, а документи, призначені для сканування, також друкувалися цими шрифтами. Для генерації OCR-шрифтів використовувалися спеціальні пишучі машинки.
Крім того, для оригіналів необхідно було використовувати спеціальний папір з дуже високим ступенем білизни (в цьому випадку сканеру простіше відділити чорний шрифт від фону). Ці пристрої дійсно були достатньо капризними, але, оскільки OCR-програми прогресували достатньо швидко, з часом вони навчилися розпізнавати практично будь-який надрукований шрифт, за винятком шрифтів, що імітують рукописний текст.
Для прикладу OCR-системи я вибрав програму ABBYY FineReader 7.0. Багато користувачів комп'ютерів що мають сканер застосовують для сканування і розпізнавання тексту саме цю програму.
Що таке сканер?
Сканер — це «пристрій, що використовується для аналізу початкового зображення або тексту, його оцифровки і збереження з метою подальшої обробки і висновку».
Коротка історія сканерів
Сканери з'явилися достатньо давно, і прийшли на робочі столи домашніх і професійних користувачів з поліграфії. Перші сканери використовувалися для підготовки цветоделенних зображень для чотирьохбарвистого друку і були частиною допечатних комплексів, які, в найдешевшому виконанні, коштували сотні тисяч доларів. Це було в 1970-е роки, коли все було велике, починаючи з автомобілів і закінчуючи допечатними системами. У той час не було потреби в настільних сканерах, оскільки ще не існувало т.зв. «настільних видавничих систем». Поява цих систем стала революцією у виданні друкарської продукції і привела до передачі багатьох технологій широким шарам користувачів, хоча вони для них ніколи не призначалися. У той час сканери практично не використовувалися для оцифровки зображень, оскільки в цьому не було необхідності: зображення готувалися до друку за допомогою фотографічних процесів.
У середині 1980-их років зійшлися разом декілька Технологій. У комп'ютерах Apple Macintosh почала використовуватися відеосистема, що реалізовує концедцшоу оптимістично названу WYSIWYG («what-you-see-is-what-you-get» — що бачите, то і одержуєте). З'явилася мова Postscript компанії Adobe Systems, яка дозволила вивідним пристроям незалежно від їх апаратної реалізації (включаючи лазерні принтери) відтворювати елементи верстки смуги (особливо це відноситься до шрифтів). І, нарешті, була випущена програма PageMaker компанії Aldus, яка була першим повноцінним додатком для створення макетів сторінок на персональному комп'ютері.
Ці події, а також інші, трохи менш помітні досягнення, дали можливість масовому користувачу самостійно готувати публікації до друку. Тепер будь-який користувач комп'ютера міг створити журнал, інформаційний бюлетень і навіть книгу, і цим комп'ютером не обов'язково повинен був бути Macintosh. На платформі PC (у той час ще не було Widows, а тільки DOS) з'явилася програма Xerox Ventura Publisher (сьогодні це Corel Ventura). Це був повноцінний видавничий інструмент, що містить безліч новацій, що випередили свій час, які, зрештою, були включені до складу настільних видавничих систем QuarkXPress і PageMaker, що стали в подальшому популярнішими.
Щоб створити простий інформаційний бюлетень до т.з. революції «настільних видавничих систем», необхідно було уручну набрати текст на великій і дорогій фотонабірній машині, фізично нарізувати плівку з текстом на блоки, і уручну змонтувати (наклеїти) їх на єдину підкладку. Чорно-білі фотографії растріровались за допомогою величезних репродукційних фотоапаратів і також уручну приклеювалися в потрібне місце. Щоб створити цветоделеніє кольорових оригіналів, їх необхідно було фотографувати на спеціальних цветоделітельних машинах.
Революція настільних видавничих систем завершила етап ручного монтажу макетів і перезйомку графічних зображень. Тексти набиралися в програмах типа PageMaker, які забезпечували відображення факсиміле сторінок публікації безпосередньо на екрані комп'ютера. Текст можна було переміщати і форматувати «на льоту». Зараз ми сприймаємо це як очевидний факт, але ті з нас, хто перейшов із старої технології підготовки публікацій на настільні видавничі системи, були приголомшені. На початку 1980-х років я вчився в середній школі і підробляв влітку, набираючи тексти на фотонабірній машині і вмонтовуючи макети. Вперше я побачив PageMaker в 1985 році, коли він тільки що вийшов. Все це виглядало дуже незвично, але принцип був вельми захоплюючим. Недавно, при переїзді на іншу квартиру, я знайшов в одному із завалів свій старий настановний комплект дискет програми PageMaker 1.0, і на мене налинули всі ці спогади...
Так чи інакше, ці хаотичні спогади мають відношення до сканування. Раз ми можемо створювати текст в цифровій формі, те ж саме повинне було відбутися і із зображеннями. Це було ще до створення таких форматів, як JPEG або TIFF, і навіть до появи електронної пошти (вона існувала, але тільки як засіб обміну текстовими повідомленнями серед військових і університетів) і Web (яку не існувало взагалі).
Отже, перші сканери були великими, незграбними і дуже дорогими. Сканування зображень і доведення їх до такого вигляду, щоб вони підходили для друку, було зовсім не домашнім заняттям; це був сервіс, що надається спеціалізованими сервісними бюро. Поступово стали з'являтися невеликі планшетні сканери, які могли сканувати тільки чорно-білі зображення. Вони не давали високої якості, і скануючі зображення вставлялися в макети тільки з метою фіксації їх розмірів і місця розташування!
Такий стан тривав до середини 1990-х років, коли стали з'являтися перші кольорові планшетні сканери, що вже дозволяють говорити про підготовку зображень для друку. Ці пристрої були ще дорогі (більше $1000), але якість і ціни дуже швидко поліпшувалися. До кінця 1990-х років пристойний планшетний сканер можна було придбати за $500. Зараз же хороший сканер стоїть $200, а непоганий — навіть менше $100.
Все це вивело сканери на рівень масового споживача. Пристрої стали настільки дешевими у виробництві, що тепер їх іноді використовують як подарунок при покупці домашнього комп'ютера: купуєте новий PC Pentium і одержуєте «безкоштовний» сканер. Тепер це всього лише один з видів домашньої електронної техніки,. Все більше і більше людей користуються Web і e-mail, і завжди знайдеться достатня кількість старих фотографій, які можна оцифрувати і послати по електронній пошті або розмістити на своїй домашній Web-сторінці або Web-вузлі.