Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Белорусский национальный технический университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Лабораторная 8.doc

Скачиваний:

Добавлен:

01.07.2025

Размер:

1.28 Mб

Скачать

☆

1 / 91 2 3 4 5 6 7 8 9 > Следующая >>>

Преобразование бумажных текстовых документов в электронные методом оптического распознавания символов

Лабораторная работа №8 Преобразование бумажных текстовых документов в электронные методом оптического распознавания символов

ЗАДАНИЕ

Запустить программу ABBYY FineReader

Сохранить автоматически созданный пакет, присвоив ему осмысленное имя

Добавить в пакет предложенные преподавателем файлы отсканированных страниц

Убедиться, что порядок нумерации страниц в пакете правильный, в противном случае перенумеровать страницы

Провести анализ макета страниц, исключить формулы (если есть) из процесса распознавания, разделить таблицы на ячейки

Распознать страницы

Передать распознанные страницы в Microsoft Word. Просмотреть документ, удалить лишние разрывы разделов

Открыть документ, созданный в процессе выполнения Лабораторной работы №7. Создать в конце документа новый раздел. Скопировать в него распознанный текст

Осуществить чистовое редактирование и форматирование распознанного текста. Использовать стили. Сохранить готовый документ.

8.1Понятие оптического распознавания

Оптическое распознавание символов (англ. Optical Character Recognition, OCR) – электронный перевод изображений рукописного или печатного текста в текстовые данные для дальнейшей работы с ними в текстовом редакторе. Распознавание широко используется для конвертации книг и печатных документов в электронный вид, допускающий редактирование, или для публикации текста в сети Интернет. Оптическое распознавание текста позволяет редактировать и форматировать текст, осуществлять поиск в тексте слова или фразы, хранить текст в более компактной форме, демонстрировать или распечатывать материал без потери качества, анализировать информацию, а также применять к тексту электронный перевод или преобразование в речь.

Точное распознавание латинских и кириллических символов в печатном тексте возможно, только если доступны чёткие изображения достаточно высокого разрешения. Точность при такой постановке задачи близка к 99%, тем не менее, оставшееся незначительное количество ошибок должно быть найдено и исправлено человеком. Эту процедуру часто называют вычисткой распознанного текста. Проблема распознавания рукописного текста в настоящее время не решена и являются предметом активных исследований.

В практике студентов технических специальностей распространенной задачей является конвертирование изображений, полученных путем сканирования или фотосъемки библиотечных книг, в формат документов Microsoft Word.

К сожалению, программ, которые «умели» бы распознавать математические формулы и превращать их в объекты редактора формул, не существует.

Для оптического распознавания текста необходимо предварительно оцифровать его, т.е. перевести в форму цифрового растрового изображения. Наилучшие результаты в этом случае дают специальные устройства – сканеры (см. Лабораторную работу №1). В случае отсутствия сканера или доступа к нему цифровое растровое изображение можно получить помощи современной цифровой фотокамеры.

Наиболее популярной на постсоветском пространстве программой для оптического распознавания текста является программа FineReader, разработанная московской компанией ABBYY. В лабораторной работе будет рассмотрена 9-я версия данной программы.

Следует отметить, что широко распространенные в сети Интернет книги в формате .djvu представляют собой нераспознанный текст. Большинство книг в формате .pdf также представляют собой отсканированные, но не распознанные изображения. Поиск и редактирование текста в таких книгах невозможны.

1 / 91 2 3 4 5 6 7 8 9 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.07.20252.51 Mб0Лабораторная 2.doc
#
01.07.20251.67 Mб0Лабораторная 3.doc
#
01.07.20251.01 Mб1Лабораторная 4.doc
#
01.07.20251.17 Mб0Лабораторная 6.doc
#
01.07.20251.01 Mб2Лабораторная 7.doc
#
01.07.20251.28 Mб1Лабораторная 8.doc
#
08.05.2019508.42 Кб8Лабораторная работ 12.doc
#
09.11.2019177.66 Кб6Лабораторная работа ( Дерево, ПКМ).doc
#
09.11.2019209.41 Кб3Лабораторная работа (Кирпич, Заполнитель, ПЦ).doc
#
31.05.2015217.84 Кб20Лабораторная работа 1 Access.pdf
#
31.05.2015862.72 Кб26Лабораторная работа 1. Варианты 30.doc