Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лабораторная 8.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
1.28 Mб
Скачать

Преобразование бумажных текстовых документов в электронные методом оптического распознавания символов

Лабораторная работа №8 Преобразование бумажных текстовых документов в электронные методом оптического распознавания символов

ЗАДАНИЕ

  1. Запустить программу ABBYY FineReader

Сохранить автоматически созданный пакет, присвоив ему осмысленное имя

Добавить в пакет предложенные преподавателем файлы отсканированных страниц

Убедиться, что порядок нумерации страниц в пакете правильный, в противном случае перенумеровать страницы

Провести анализ макета страниц, исключить формулы (если есть) из процесса распознавания, разделить таблицы на ячейки

Распознать страницы

Передать распознанные страницы в Microsoft Word. Просмотреть документ, удалить лишние разрывы разделов

Открыть документ, созданный в процессе выполнения Лабораторной работы №7. Создать в конце документа новый раздел. Скопировать в него распознанный текст

Осуществить чистовое редактирование и форматирование распознанного текста. Использовать стили. Сохранить готовый документ.

8.1Понятие оптического распознавания

Оптическое распознавание символов (англ. Optical Character Recognition, OCR) – электронный перевод изображений рукописного или печатного текста в текстовые данные для дальнейшей работы с ними в текстовом редакторе. Распознавание широко используется для конвертации книг и печатных документов в электронный вид, допускающий редактирование, или для публикации текста в сети Интернет. Оптическое распознавание текста позволяет редактировать и форматировать текст, осуществлять поиск в тексте слова или фразы, хранить текст в более компактной форме, демонстрировать или распечатывать материал без потери качества, анализировать информацию, а также применять к тексту электронный перевод или преобразование в речь.

Точное распознавание латинских и кириллических символов в печатном тексте возможно, только если доступны чёткие изображения достаточно высокого разрешения. Точность при такой постановке задачи близка к 99%, тем не менее, оставшееся незначительное количество ошибок должно быть найдено и исправлено человеком. Эту процедуру часто называют вычисткой распознанного текста. Проблема распознавания рукописного текста в настоящее время не решена и являются предметом активных исследований.

В практике студентов технических специальностей распространенной задачей является конвертирование изображений, полученных путем сканирования или фотосъемки библиотечных книг, в формат документов Microsoft Word.

К сожалению, программ, которые «умели» бы распознавать математические формулы и превращать их в объекты редактора формул, не существует.

Для оптического распознавания текста необходимо предварительно оцифровать его, т.е. перевести в форму цифрового растрового изображения. Наилучшие результаты в этом случае дают специальные устройства – сканеры (см. Лабораторную работу №1). В случае отсутствия сканера или доступа к нему цифровое растровое изображение можно получить помощи современной цифровой фотокамеры.

Наиболее популярной на постсоветском пространстве программой для оптического распознавания текста является программа FineReader, разработанная московской компанией ABBYY. В лабораторной работе будет рассмотрена 9-я версия данной программы.

Следует отметить, что широко распространенные в сети Интернет книги в формате .djvu представляют собой нераспознанный текст. Большинство книг в формате .pdf также представляют собой отсканированные, но не распознанные изображения. Поиск и редактирование текста в таких книгах невозможны.