Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Паша_Диплом.docx
Скачиваний:
35
Добавлен:
14.01.2018
Размер:
2.07 Mб
Скачать

2.3 Сравнительный анализ программ для распознавания текста

В данной части работы, рассмотрим необходимое программное обеспечение для распознавания и перевода вышеприведенных документов из графического формата в текстовый. Безусловно, лидер программ в распознавании текста является ABBYY FineReader, но, чтобы удостовериться в этом, проведем сравнительный анализ еще нескольких программ для распознавания текста из графического файла. В результате мы сможем, во-первых, оценить рынок доступных ПО для распознавания текста, во-вторых, указать сильные и слабые стороны каждого из них.

ABBYY FineReader 12 – это профессиональное программное обеспечение, с помощью которого можно распознавать текст из графического файла и переводить его в различные редактируемые форматы. Программа точно определяет текст и структурно его переводит в нужный формат. Она позволяет не перепечатывать текст в ручную, а это, в свою очередь, сокращает затраты на обработку. Данное ПО используется в фирмах и организациях, которые постоянно работают с бумажной документацией. ABBYY FineReader конвертирует файлы из форматов PDF, TIFF, JPEG в форматы PDF, DOC, XLSX, TXT и другие (Рисунок 6).

Рисунок 6. Начальное окно программы ABBYY FineReader 12

Далее проведем анализ на выявление слов с ошибками и качество обрабатываемого документа на примере 10 исполнительных листов (Таблица 1, Рисунок 7)

Таблица 1

Данные, полученные при обработке документов программой

ABBYY FineReader 12

Количество слов

Слов с ошибками (нет слов)

Без ошибок

Качество обработки %

1

111

11

100

90,09

2

124

10

114

91,94

3

273

3

270

98,90

4

151

13

138

91,39

5

144

16

128

88,89

6

178

9

169

94,94

7

199

2

197

98,99

8

201

3

198

98,51

9

121

25

96

79,34

10

126

25

101

80,16

 

Среднее значение

162,8

11,7

151,1

91,32

MIN

111

2

96

79,34

MAX

273

25

270

98,99

Рисунок 7. Соотношение слов без ошибок к общему количеству слов (обработано ABBYY FineReader 12)

Как видим из показанной выше диаграммы, программа ABBYY FineReader 12 очень качественно обрабатывает документы, переводя их из графического формата в текстовый формат. В среднем, количество распознанных слов составляет 91,3 %. Данное программное обеспечение показало себя, как качественный продукт. Также стоит отметить, что ключевые поля, по которым в дальнейшем будут выгружаться данные из документа, были распознаны хорошо и без ошибок, а значит, основную задачу оптимизации и автоматизации возможно реализовать.

Плюсы: высокое качество распознавания текстов, широкий выбор входных и выходных форматов документов, простой и понятный пользовательский интерфейс

Минусы: данное ПО платное, не имеется открытого доступа к исходным кодам программы (используя их, можно было бы запускать программу с помощью написанного кода на С#)31

FREE ONLINE OCR SERVICE – это бесплатный онлайн сервис для распознавания текста из различных форматов. Его легко и просто использовать любому пользователю, т.к. нет необходимости загружать и устанавливать программу на компьютер. Данный продукт поддерживает множество языков для распознавания (в том числе и русский).

Форматы выходных файлов в FREE ONLINE OCR SERVICE приведены на рисунке 8.

Рисунок 8. Поддерживаемые форматы в FREE ONLINE OCR SERVICE

Имеется возможность перевести текст в один из трех форматов: Microsoft Word, Microsoft Excel и Text Plain. В основном, для быстрого распознавания текста этих форматов достаточно. Так как имеется необходимый в данной дипломной работе формат .txt, то сравним качество обработанного документа и вероятность некорректного перевода текста (Таблица 2, Рисунок 9).

Таблица 2