- •Лабораторная работа №8 Преобразование бумажных текстовых документов в электронные методом оптического распознавания символов
- •8.1Понятие оптического распознавания
- •8.2Сканирование текста
- •8.3Фотосъемка текста
- •8.4Интерфейс программы abbyy FineReader
- •8.5Понятие о документах FineReader
- •8.6Этапы работы над распознанием текста
- •Этап 1: Добавление страниц в пакет
- •Этап 2. Коррекция изображений
- •Этап 3. Анализ макета страницы
- •Этап 4. Распознавание текста и проверка по словарю
- •Этап 5. Сохранение результатов распознавания
Преобразование бумажных текстовых документов в электронные методом оптического распознавания символов
Лабораторная работа №8 Преобразование бумажных текстовых документов в электронные методом оптического распознавания символов
ЗАДАНИЕ
Запустить программу ABBYY FineReader
Сохранить автоматически созданный пакет, присвоив ему осмысленное имя
Добавить в пакет предложенные преподавателем файлы отсканированных страниц
Убедиться, что порядок нумерации страниц в пакете правильный, в противном случае перенумеровать страницы
Провести анализ макета страниц, исключить формулы (если есть) из процесса распознавания, разделить таблицы на ячейки
Распознать страницы
Передать распознанные страницы в Microsoft Word. Просмотреть документ, удалить лишние разрывы разделов
Открыть документ, созданный в процессе выполнения Лабораторной работы №7. Создать в конце документа новый раздел. Скопировать в него распознанный текст
Осуществить чистовое редактирование и форматирование распознанного текста. Использовать стили. Сохранить готовый документ.
8.1Понятие оптического распознавания
Оптическое распознавание символов (англ. Optical Character Recognition, OCR) – электронный перевод изображений рукописного или печатного текста в текстовые данные для дальнейшей работы с ними в текстовом редакторе. Распознавание широко используется для конвертации книг и печатных документов в электронный вид, допускающий редактирование, или для публикации текста в сети Интернет. Оптическое распознавание текста позволяет редактировать и форматировать текст, осуществлять поиск в тексте слова или фразы, хранить текст в более компактной форме, демонстрировать или распечатывать материал без потери качества, анализировать информацию, а также применять к тексту электронный перевод или преобразование в речь.
Точное распознавание латинских и кириллических символов в печатном тексте возможно, только если доступны чёткие изображения достаточно высокого разрешения. Точность при такой постановке задачи близка к 99%, тем не менее, оставшееся незначительное количество ошибок должно быть найдено и исправлено человеком. Эту процедуру часто называют вычисткой распознанного текста. Проблема распознавания рукописного текста в настоящее время не решена и являются предметом активных исследований.
В практике студентов технических специальностей распространенной задачей является конвертирование изображений, полученных путем сканирования или фотосъемки библиотечных книг, в формат документов Microsoft Word.
К сожалению, программ, которые «умели» бы распознавать математические формулы и превращать их в объекты редактора формул, не существует.
Для оптического распознавания текста необходимо предварительно оцифровать его, т.е. перевести в форму цифрового растрового изображения. Наилучшие результаты в этом случае дают специальные устройства – сканеры (см. Лабораторную работу №1). В случае отсутствия сканера или доступа к нему цифровое растровое изображение можно получить помощи современной цифровой фотокамеры.
Наиболее популярной на постсоветском пространстве программой для оптического распознавания текста является программа FineReader, разработанная московской компанией ABBYY. В лабораторной работе будет рассмотрена 9-я версия данной программы.
Следует отметить, что широко распространенные в сети Интернет книги в формате .djvu представляют собой нераспознанный текст. Большинство книг в формате .pdf также представляют собой отсканированные, но не распознанные изображения. Поиск и редактирование текста в таких книгах невозможны.
