- •Введение
- •Глава 2 будет включать в себя структуру документооборота, описанного на частном примере, и процесс совершенствования.
- •Глава 1. Теоретические основы и постановка задачи
- •1.1 Определение документооборота
- •1.2 Объект автоматизации и структура документооборота
- •1.3 Актуальность автоматизации
- •Глава 2. Автоматизация бизнес-процесса обработки документации
- •2.1. Постановка задачи
- •2.2 Виды обрабатываемых документов
- •2.3 Сравнительный анализ программ для распознавания текста
- •Данные, полученные при обработке документов программой
- •Данные, полученные при обработке документов программой
- •Данные, полученные при обработке документов программой ocr CuneiForm
- •2.4. Разработка автоматизированной модели
- •2.5. Расчет экономической эффективности проекта
- •Глава 3 Применение разработанной системы
- •3.1 Описание модулей системы
- •3.2. Описание классов и методов
- •3.3 Оценка качества разработанной системы
- •3.4 Инструкция и рекомендации по работе с системой
- •Заключение
- •Список используемой литературы
- •Приложение
- •Исполняемый код программы
2.3 Сравнительный анализ программ для распознавания текста
В данной части работы, рассмотрим необходимое программное обеспечение для распознавания и перевода вышеприведенных документов из графического формата в текстовый. Безусловно, лидер программ в распознавании текста является ABBYY FineReader, но, чтобы удостовериться в этом, проведем сравнительный анализ еще нескольких программ для распознавания текста из графического файла. В результате мы сможем, во-первых, оценить рынок доступных ПО для распознавания текста, во-вторых, указать сильные и слабые стороны каждого из них.
ABBYY FineReader 12 – это профессиональное программное обеспечение, с помощью которого можно распознавать текст из графического файла и переводить его в различные редактируемые форматы. Программа точно определяет текст и структурно его переводит в нужный формат. Она позволяет не перепечатывать текст в ручную, а это, в свою очередь, сокращает затраты на обработку. Данное ПО используется в фирмах и организациях, которые постоянно работают с бумажной документацией. ABBYY FineReader конвертирует файлы из форматов PDF, TIFF, JPEG в форматы PDF, DOC, XLSX, TXT и другие (Рисунок 6).
Рисунок 6. Начальное окно программы ABBYY FineReader 12
Далее проведем анализ на выявление слов с ошибками и качество обрабатываемого документа на примере 10 исполнительных листов (Таблица 1, Рисунок 7)
Таблица 1
Данные, полученные при обработке документов программой
ABBYY FineReader 12
Рисунок 7. Соотношение слов без ошибок к общему количеству слов (обработано ABBYY FineReader 12)
Как видим из показанной выше диаграммы, программа ABBYY FineReader 12 очень качественно обрабатывает документы, переводя их из графического формата в текстовый формат. В среднем, количество распознанных слов составляет 91,3 %. Данное программное обеспечение показало себя, как качественный продукт. Также стоит отметить, что ключевые поля, по которым в дальнейшем будут выгружаться данные из документа, были распознаны хорошо и без ошибок, а значит, основную задачу оптимизации и автоматизации возможно реализовать.
Плюсы: высокое качество распознавания текстов, широкий выбор входных и выходных форматов документов, простой и понятный пользовательский интерфейс
Минусы: данное ПО платное, не имеется открытого доступа к исходным кодам программы (используя их, можно было бы запускать программу с помощью написанного кода на С#)31
FREE ONLINE OCR SERVICE – это бесплатный онлайн сервис для распознавания текста из различных форматов. Его легко и просто использовать любому пользователю, т.к. нет необходимости загружать и устанавливать программу на компьютер. Данный продукт поддерживает множество языков для распознавания (в том числе и русский).
Форматы выходных файлов в FREE ONLINE OCR SERVICE приведены на рисунке 8.
Рисунок 8. Поддерживаемые форматы в FREE ONLINE OCR SERVICE
Имеется возможность перевести текст в один из трех форматов: Microsoft Word, Microsoft Excel и Text Plain. В основном, для быстрого распознавания текста этих форматов достаточно. Так как имеется необходимый в данной дипломной работе формат .txt, то сравним качество обработанного документа и вероятность некорректного перевода текста (Таблица 2, Рисунок 9).
Таблица 2