Лабораторная работа № 17
РАБОТА С ПРОГРАММАМИ СКАНИРОВАНИЯ И РАСПОЗНОВАНИЯ ТЕКСТОВЫХ И ГРАФИЧЕСКИХ МАТЕРИАЛОВ
Цель работы: Приобрести навыки сканирования графических изображений сканером Epson; Освоить приёмы работы с программой оптического распознания текстов.
Содержание отчёта:
Программа FineReader — омнифонтовая система оптического распознавания текстов. Это означает, что она позволяет распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения. Особенностью программы FineReader является высокая точность распознавания и малая чувствительность к дефектам печати, что достигается благодаря применению технологии “целостного целенаправленного адаптивного распознавания”.
Основные возможности
Программа FineReader:
дает возможность ввести документ в компьютер посредством нажатия всего на одну кнопку
имеется возможность экспортировать распознанный текст в текстовый редактор или электронную таблицу, а также сохранить его в формате PDF или HTML
имеется возможность сохранять цвета распознанного текста в форматах RTF, PDF и HTML
встроенная технология «адаптивного распознавания»: Необычайно высокая точность распознанных текстов и малая чувствительность к дефектам печати
распознанные страницы представляются миниатюрными изображениями
имеется возможность сканировать разворот книги и распознавать ее каждую страницу по отдельности, при этом, изображение, содержащее сдвоенные страницы, сохраняется в две различные страницы пакета
встроенный алгоритм автоматического поиска блоков (участков изображения, выделенных в рамку) распознаваемого текста: Анализ отсканированного материала и его распознавание происходит одновременно
программа «видит» изображения в распознаваемом макете
176 языков распознавания
распознавание языков программирования (Basic, Cobol, Fortran, Java, C++, Pascal)
распознавание подстрочных символов и вертикального текста
поддержка кодировки Unicode при сохранении распознанного текста в форматах RTF, DOC, XLS, HTML, TXT и CSV
Форматы текстовых файлов, которые поддерживает программа
FineReader может экспортировать распознанный материал в одном из следующих форматов:
Microsoft Word Document (*.DOC).
Rich Text Format (*.RTF).
Adobe Acrobat Format (*.PDF)
HTML.
Comma Separated Values File (*.CSV).
Простой текст (*.TXT).
Microsoft Excel Speadsheet (*.XLS).
DBF.
Форматы графических файлов, которые поддерживает программа
FineReader позволяет импортировать в свою систему файлы следующих форматов:
• TIFF.
• BMP.
• JPEG.
• PCX
• DCX.
• PNG.
Процесс ввода документа в компьютер можно подразделить на два этапа
Сканирование
Распознавание
Целостность – объект описывается как целое с помощью значимых элементов и отношений между ними.
Целенаправленность – распознавание строится как процесс выдвиже ния и целенаправленной проверки гипотез.
Адаптивность – способность OCR–системы к самообучению.
Вывод: Приобрели навыки сканирования графических изображений сканером Epson; Освоили приёмы работы с программой оптического распознания текстов.