Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Паутов_П.А._Диплом_Финиш_АНТИПЛАГИАТ.docx
Скачиваний:
34
Добавлен:
14.01.2018
Размер:
90.7 Кб
Скачать

2.3 Сравнительный анализ программ для распознавания текста

В данной части работы, рассмотрим необходимое программное обеспечение для распознавания и перевода вышеприведенных документов из графического формата в текстовый. Безусловно, лидер программ в распознавании текста является ABBYY FineReader, но, чтобы удостовериться в этом, проведем сравнительный анализ еще нескольких программ для распознавания текста из графического файла. В результате мы сможем, во-первых, оценить рынок доступных ПО для распознавания текста, во-вторых, указать сильные и слабые стороны каждого из них.

ABBYY FineReader 12 – это профессиональное программное обеспечение, с помощью которого можно распознавать текст из графического файла и переводить его в различные редактируемые форматы. Программа точно определяет текст и структурно его переводит в нужный формат. Она позволяет не перепечатывать текст в ручную, а это, в свою очередь, сокращает затраты на обработку. Данное ПО используется в фирмах и организациях, которые постоянно работают с бумажной документацией. ABBYY FineReader конвертирует файлы из форматов PDF, TIFF, JPEG в форматы PDF, DOC, XLSX, TXT и другие (Рисунок 6).

Рисунок 6. Начальное окно программы ABBYY FineReader 12

Далее проведем анализ на выявление слов с ошибками и качество обрабатываемого документа на примере 10 исполнительных листов (Таблица 1, Рисунок 7)

Таблица 1

Данные, полученные при обработке документов программой

ABBYY FineReader 12

Рисунок 7. Соотношение слов без ошибок к общему количеству слов (обработано ABBYY FineReader 12)

Как видим из показанной выше диаграммы, программа ABBYY FineReader 12 очень качественно обрабатывает документы, переводя их из графического формата в текстовый формат. В среднем, количество распознанных слов составляет 91,3 %. Данное программное обеспечение показало себя, как качественный продукт. Также стоит отметить, что ключевые поля, по которым в дальнейшем будут выгружаться данные из документа, были распознаны хорошо и без ошибок, а значит, основную задачу оптимизации и автоматизации возможно реализовать.

Плюсы: высокое качество распознавания текстов, широкий выбор входных и выходных форматов документов, простой и понятный пользовательский интерфейс

Минусы: данное ПО платное, не имеется открытого доступа к исходным кодам программы (используя их, можно было бы запускать программу с помощью написанного кода на С#)31

FREE ONLINE OCR SERVICE – это бесплатный онлайн сервис для распознавания текста из различных форматов. Его легко и просто использовать любому пользователю, т.к. нет необходимости загружать и устанавливать программу на компьютер. Данный продукт поддерживает множество языков для распознавания (в том числе и русский).

Форматы выходных файлов в FREE ONLINE OCR SERVICE приведены на рисунке 8.

Рисунок 8. Поддерживаемые форматы в FREE ONLINE OCR SERVICE

Имеется возможность перевести текст в один из трех форматов: Microsoft Word, Microsoft Excel и Text Plain. В основном, для быстрого распознавания текста этих форматов достаточно. Так как имеется необходимый в данной дипломной работе формат .txt, то сравним качество обработанного документа и вероятность некорректного перевода текста (Таблица 2, Рисунок 9).

Таблица 2