Паутов_П.А._Диплом_Финиш
.pdfКак можем видеть, OCR CuneiForm является низкокачественным программным продуктов для распознавания оптического текста. Основную часть слов переводит в непонятный набор символов или вообще не распознает.
В среднем, количество распознанных слов составляет 12,8 %. Это очень низкое качество.
Плюсы: данная программа бесплатная, русифицированная, имеется доступ к исходным кодам программы (используя их, можно запускать программу для анализа графического документа с помощью написанного кода на С#).
Минусы: низкое качество распознавания.
Ниже представлена диаграмма, сравнивающая количество обработанных слов различными программами (Рисунок 12).
Соотношение слов без ошибок разных ПО
Количество слов
300
250
200
150
100
50
0
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
||||
|
|
|
|
|
|
Номер документа |
|
|
|
|
|
||
|
Всего слов |
|
ABBY Fine Reader 12 |
|
|
FREE ONLINE OCR SERVICE |
|
|
OCR ConeiForm |
|
|||
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
Рисунок 12. Соотношение слов без ошибок к общему количеству слов для разных программ по распознаванию текста
31
Анализ проводился без корректировки активных полей для распознавания, т.е. программы переводили текст только в тех местах графического файла, где они его определили. Суть распознавания без корректировки в том, что мы не тратим время на выбор того или иного поля,
соответственно, не затрачиваем время на обработку. В таком виде анализа возможны потери качества, но так как основная цель дипломной работы – оптимизировать бизнес-процесс, значит, будем полагаться на корректную обработку документа программой для оптического распознавания текста
(Рисунок 13).
Качество обработки документов (%)
100,00 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
90,00 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
80,00 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
70,00 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
60,00 |
|
|
|
|
|
|
|
|
|
|
ABBYY Fine Reader 12 |
|
|
|
|
|
|
|
|
|
|
||
50,00 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
||
|
|
91,32 |
|
|
|
|
|
|
|
FREE ONLINE OCR SERVICE |
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
40,00 |
|
|
|
67,51 |
|
|
|
|
|
|
OCR CuneiForm |
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|||
30,00 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
20,00 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
10,00 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
12,78 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
0,00 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
|
|
|
|
|
|
Рисунок 13. Качество обработки документов (количество обработанных слов, выраженное в процентах, %)
Исходя из результатов анализа, можно сделать вывод, что программа
ABBYY FineReader является наилучшим продуктом для оптического распознавания графического файла. Данная программа имеет широкий спектр
32
возможностей и множество плюсов. Сервис FREE ONLINE OCR SERVICE также неплох для быстрого распознавания текста на картинке, но не подходит для автоматизации бизнес-процесса из-за минимального функционала. Программное обеспечение OCR CuneiForm оказалось низкокачественным продуктом и не будет использовано в качестве программы, используемой в данной дипломной работе. 32
Также были проанализированы программы для распознавания текстов,
такие как TopOCRDemo и Capture Text, но ни одна из них в нашем случае не показала достойных результатов в качественном переводе текста из графического формата в текстовый.
Вданной дипломной работе будет использована программа ABBYY FineReader 12.
2.4.Разработка автоматизированной модели
Вданной дипломной работе для автоматизации процесса документооборота в банке использовалось такое программное обеспечение, как
Microsoft Visual Studio 2015. Этот программный продукт имеет широкий спектр возможностей, применяемый как к обычным пользовательским задачам, так и к профессиональным.
Microsoft Visual Studio 2015 – это интегрированная среда разработки с огромными возможностями для создания превосходных приложений для
Windows, Android и iOS, а также современных веб-приложений и облачных служб. В данном программном пакете имеются инструменты и службы для проектов различных размеров и любого уровня сложности. Доступна разработка и написание кодов на таких языках программирования как C#, Visual Basic, F#,
32 Матвеева Л.Г., Молодцов А. В. IT поддержка документооборота в процессе взаимодействия подразделений банка: проектный подход // Белокрылова ОС-д. э. н., профессор, заслуженный деятель науки РФ, профессор кафедры экономической теории ФГАОУ ВО «Южный федеральный университет» Стрельцова ЕД-д. э. н., профессор, ФГБОУ ВПО «Южно-Российский государственный политехнический университет (НПИ) им. МИ Платова. – 2016. – С. 393.
33
C++, Python, Node.js и HTML/JavaScript. 33 Также имеются расширенные возможности отладки, профилирования и тестирования как в автоматическом,
так и в ручном режиме. На рисунке 14 представлен начальный проект, созданный
VS2015 через контекстное меню, с выбранным языком C#.
Рисунок 14. Начальное окно программы Visual Studio 2015
В данной работе с помощью этого программного обеспечения будет написан код на языке программирования C#. С его помощью можно будет получить необходимую информацию из текстового файла, проанализировать ее,
загрузить в БД и выгрузить в Excel для подготовки акта приема-передачи.
33 Гюлмамедов Т. О. разработка информационной системы на платформе «1С: Документооборот» // Теоретические и практические аспекты развития научной мысли в современном мире: сборник статей. – 2017. –
С. 32
34
Так как конечным пользователем данной программы будет человек, не имеющий технического образования, то было решено использовать графический интерфейс, а не командную строку. Для этого будет использован интерфейс
Windows Forms, доступный на платформе VS 2015. Данный интерфейс предоставляет широкие возможности по созданию и настройке графических окон, поддерживая при этом отображение русского языка. По сути – это всего лишь внешняя оболочка, которая ждет действия от пользователя. Самые простые элементы – это кнопки и формы для вывода информации, дающие безграничные возможности.
На рисунке 15 видно, как выглядит простая форма, созданная в несколько кликов мышки.
Рисунок 15. Созданная форма с помощью Windows Forms в VS2015
35
Из рисунка 15 следует, что связующие и более сложные элементы скрыты в окне и не отображаются для пользователя. "Windows Forms – интерфейс программирования приложений (API), отвечающий за графический интерфейс пользователя и являющийся частью Microsoft .NET Framework. Данный интерфейс упрощает доступ к элементам интерфейса Microsoft Windows за счет создания обёртки для существующего Win32 API в управляемом коде".
Обращаясь к интеграции с СУБД, стоит отметить то решение, которое было выбрано для реализации данного проекта – это локальная или встраиваемая база данных. Архитектура клиент-сервер заняла бы слишком большое количество ресурсов для исполнения. Локальная же база выигрывает от снижения общей сложности и уменьшения затрат на администрирование. Также локальная база данных направлена на решение узконаправленных задач, чем и является данная система автоматизации.
Изначально было задумано двухуровневая архитектура: первый уровень
– пользовательское ПО с локальной базой данных, в которую будет заноситься основная информация по заемщику, а второй уровень – банковское ПО, с
помощью которого можно выгружать дополнительную информацию из глобальной банковской базы данных в локальную. Но реализовать столь интересную задумку не получится, так как прямого доступа к глобальной базе данных банка нет, а получить доступ не предоставляется возможным, так как нет специализированного доступа. К тому же такая информация является банковской тайной, и ее распространение влечет за собой уголовную ответственность. Также необходимо отметить, что данные в локальной базе не могут быть защищены, т.к. необходим постоянный доступ простого сотрудника к данной БД, чтобы исправлять неисправности и вносить корректировки по полученной информации. Если же данные будут защищены, то простой сотрудник не сможет вносить какие-либо изменения в БД без вмешательства человека из техподдержки или администратора.
Написанная программа должна иметь следующую функциональность: 1) Обеспечение загрузки и анализа трех видов документов:
36
Исполнительный лист.
Решение суда.
Постановление.
2)Возможность менять и корректировать полученную и проанализированную информацию:
ФИО должника.
Дата рождения должника.
Номер ИЛ.
Дата выдачи ИЛ.
3)Предлагать возможность сформировать акт приема-передачи, на основе полученных данных из таблицы:
Последние добавленные.
За все время работы (для отчетности).
Для разработки базы данных, необходимо заранее указать значение
полей, в которые будут заноситься полученная информация:
Id (Счётчик, Первичный ключ, уникальное);
ФИО (Текстовый, не более 50 символов, необязательно,
неуникально);
Дата рождения (Текстовый, не более 20 символов, необязательно,
неуникально);
Номер ИЛ (Текстовый, не более 15 символов, необязательно,
неуникально);
Дата выдачи ИЛ (Текстовый, не более 20 символов, необязательно,
неуникально);
Так как полученная информация из таблицы в дальнейшем будет использоваться только для составления актов приема-передачи, то было принято решение оставить все поля базы данных в переведенном типе string.
После запуска программа с именем Diploma открывает окно Windows Form с 5 ключевыми элементами:
37
1.Кнопка загрузки файлов, которая позволяет загрузить сразу несколько файлов - переведенные сканы документов из изображения в текстовый документ, с расширением txt
2.Кнопка анализа полученных данных, реализующая основную задачу автоматизации – поиск ключевых слов и занесение их в локальную базу данных
3.Кнопка выгрузки данных из базы данных и формирование акта приема-
передачи по заданным параметрам, в нашем случае – акт по форме отдела по
работе с просроченной задолженностью.
4.Таблица отображения данных, находящихся в локальной базе данных,
ивозможность их корректировки. Возможность исправления ошибок и добавления информации здесь реализована, потому что программы по распознаванию текста неидеальны и не всегда информация выводится верная.
5.Текстовое окно, служащее для отображения данных, загруженных из текстовых файлов, служит вспомогательным элементом для понимания сути происходящего в тексте.
2.5.Расчет экономической эффективности проекта
Прежде всего, для расчета эффективности данного проекта необходимо понять, как данная система будет экономить деньги владельцу и сможет ли программа заменить труд 2-х, 3-х сотрудников, ответственных за данный процесс.
В ходе работы было проанализировано, сколько в среднем проходит документов через департамент по работе с просроченной задолженностью в неделю, в месяц и в год. Данная информация была получена в ходе прохождения производственной преддипломной практики. На рисунке 16 можем видеть часть полей отчетного файла, который содержит информацию по полученным и переданным документам. Большей информации предоставить нельзя, так как это нарушит банковскую тайну.
38
Рисунок 16. Часть полей отчетного документа
В первой ячейке содержится 13-значный счет ссуды заемщика, которая состоит из трех частей: первые четыре цифры – номер территориального офиса,
шесть следующих – персональный номер клиента, последние три – номер ссуды.
Во второй ячейке – полное имя должника. Далее идет ячейка, содержащая информацию об участнике, то есть кто ведет данную ссуду. Это может быть как коллекторское агентство, так и ответственный сотрудник банка в одном из территориальных офисов. Последние две ячейки показывают, какие еще судебные документы приходят в банк.
Чтобы понять, какое количество документов проходит в разные промежутки времени, будем обращаться в отчетный файл. Количество входящих документов сильно варьируется, и это зависит от дня недели, конца квартала и общей загруженности отдела.
Например, на рисунке 17 мы можем видеть, что за неделю было обработано более 100 документов, а именно - 143.
Рисунок 17. Количество документов за неделю работы
39
А следующий рисунок показывает, что за месяц работы было обработано более полутысячи документов двумя сотрудниками, а это значит, что в среднем каждый обработал по 325 документов (Рисунок 18).
Рисунок 18. Количество документов за месяц работы
Эти данные необходимы нам для визуального понимания количества полученных и обработанных документов отделом по работе с просроченной задолженностью. Также эти данные будут играть важную роль при дальнейшем анализе. В итоге были найдены пути автоматизации, проведены расчеты и конкретные аргументы в пользу реализации данного процесса:
За месяц работы сотрудники отдела должны получить, обработать и отправить более полутысячи документов, находящихся на бумажных носителях.
В год данная цифра достигает более 5000 документов.
От скорости обработки и отправки документов зависит скорость предъявления документов в суд на местах, а это влияет на скорость возвращения денежных средств должников в банк.
От качества обработки и соблюдения процесса зависят расходы на канцелярию и почтовые отправления
Чем больше людей вовлечены в процесс обработки, тем выше качество обработки, но также больше и затраты на человеческие ресурсы. Чаще всего данными процессами заняты 1-5 человек.
При проведении анализа затрат времени на обработку документации тремя сотрудниками до и после автоматизации был построен сравнительный график, представленный на рисунке 19.
40