Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

savinkin_yue_razrabotka-intellektualnoy-sistemy-avtomatizacii-cifrovogo-dokumentooborota-na-osnove-algoritmov-op_47138

.pdf
Скачиваний:
13
Добавлен:
14.01.2018
Размер:
8.44 Mб
Скачать

Аннотация

В настоящее время наблюдается постоянный рост интереса к оптимизации систем цифрового документооборота. В этой области до сих пор остаются неразрешенными проблемы с конвертацией рукописного текста в электронный формат.

Также многие проблемы связаны с неправильным заполнением документов,

сложностью интеграции в существующую инфраструктуру и скоростью распознавания документов и исправления ошибок.

Совокупность автоматизированных процессов по работе с документами,

представленными в электронном виде, является важным аспектом продуктивной работы предприятия. Особенно в случае необходимости обработки большого количества документов.

Для решения вышеуказанных задач в данной работе описывается разработка программы, которая использует нейросети и внутренние системы обработки потока визуальных данных, которая позволяет ускорить процесс приема документов по вступительным экзаменам, а также избежать множества мелких ошибок.

Annotation

At present, there is a constant growth of interest in the optimization of digital document management systems. In this area there are still unresolved problems with the conversion of handwriting documentary into electronic format.

Also many problems are associated with incorrect filling of documents, with the complexity of integration into the existing infrastructure and with the speed of document recognition and error correction.

The totality of automated processes for working with documents presented in electronic form is an important aspect of the productive work of the enterprise. Especially if it is necessary to process a large number of documents.

To solve the above tasks, this document describes the development of a program that uses neural networks and internal systems for processing the flow of visual data and allows you to speed up the process of accepting documents for entrance exams, as well as avoiding many small errors.

Оглавление

 

1 Введение ..............................................................................................................

3

2 Анализ существующих технических решений ....................................................

5

2.1

ABBYY FormReader 6.5 ......................................................................................

5

2.1.1 Отличия от предыдущих версий ...................................................................

5

2.1.2

Преимущества системы .................................................................................

6

2.1.3

Недостатки системы .......................................................................................

6

2.2

ABBYY FlexiCapture............................................................................................

6

2.2.1

Преимущества системы .................................................................................

7

2.2.2

Недостатки системы .......................................................................................

8

2.3

Congictive technologies Е1 Евфрат.....................................................................

8

2.3.1

Преимущества системы .................................................................................

9

2.3.2

Недостатки системы .....................................................................................

10

3 Подготовка технического задания на объект разработки/исследования; ......

11

4 Разработка методов решения поставленных задач .........................................

12

4.1

Генерация уникального идентификатора каждой анкеты для дальнейшей

прозрачной привязки к личному кабинету пользователя ...................................

12

4.2

Генерация и нанесение QR кода с сервисной информацией и уникальным

идентификатором анкеты .....................................................................................

13

4.3

Автоматическое добавление логотипа и сервисной информации ..............

15

4.4

Загрузка и парсинг файла шаблона распознавания анкеты .........................

15

4.5

Серийная загрузка отсканированных изображений заполненных анкет ....

16

4.6

Сервисный вывод информации о анкетах, сообщения оператору системы о

выявленных неполадках .......................................................................................

17

4.7

Отслеживание количества введенных в систему анкет................................

18

4.8

Автоматическая система пересчета мер длины в соотношении с

разрешением исходного изображения – фона ....................................................

19

1

4.9 Комплексная система предподготовки изображения..................................

21

4.9.1

Поиск маркеров ............................................................................................

21

4.9.2

Автоматический поворот изображения......................................................

22

4.9.3 Двойная автоподстройка угла наклона изображения...............................

23

4.9.4 Отсечение шумовой составляющей фона изображения...........................

24

4.9.5

Отсечение границ полей ..............................................................................

25

4.9.6 Бинаризация изображения с автоматическим выбором режима черной

гелевой и синей ручки..............................................................................................

27

4.10Тренировка нейросети системы оптического распознавания символов на

реальных данных ..................................................................................................

28

4.11

Автоматическое распознавание данных ...................................................

29

4.12

Возможность ручного исправления данных .............................................

30

4.13

Экспорт распознанных данных в JSON ......................................................

31

5 Обоснование выбора способов реализации решения задач ВКР; ...................

33

6Создание пробной версии программного обеспечения объекта разработки; 35

7

Экспериментальное тестирование объекта разработки; .................................

37

8

Внедрение объекта разработки на предприятии. ............................................

38

9

Заключение ........................................................................................................

39

10

Список использованных источников .................................................................

40

Приложение 1. Техническое задание.......................................................................

41

2

1 Введение

В этой работе описывается разработка проекта, целью которого является создание интеллектуальной системы автоматизации цифрового документооборота на основе алгоритмов оптического распознавания рукописных символов. Используя технологии автоматического распознавания рукопечатных символов и интеграцию с

LMS заказчика, было разработано трехступенчатое приложение, предназначенное для ускорения ввода данных вопросников в систему.

В настоящее время наблюдается постоянный рост интереса к оптимизации систем цифрового документооборота, т.к. в этой области все еще остаются неразрешенными многие проблемы. Во многих организациях существуют проблемы с конверсией рукописного текста в электронный формат – это традиционно считается слишком дорогим и неудобным для небольших компаний. Многие компании,

которые решились на автоматизацию документооборота с распознаванием рукописного текста часто преследуют ошибки, связанные с неправильным заполнением документов. Такие ошибки не могут быть скорректированы с помощью существующего программного обеспечения (только вручную), но отдельные,

ошибочно записанные символы могут быть, успешно исправлены в автоматическом режиме. Но главная проблема, как правило, связана со сложностью внедрения таких комплексов и системной интеграцией в существующие бизнес-процессы.

Несмотря на широкое распространение коммерческих систем оптического распознавания, их недостатки все чаще лежат в области интеграции в существующую инфраструктуру, скорости распознавания документов и исправления ошибок в распознанных документах. Комплексные системы управления документооборотом обычно используются только для большого количества обрабатываемой информации, например в правительственных или бизнес применениях. Но в данной работе комплексная система распознавания текста и автоматизации документооборота будет применяться для меньших масштабов - для организации вступительных экзаменов в образовательные учреждения.

Совокупность автоматизированных процессов работы с документами,

представленными в электронном виде, является важным аспектом продуктивной

3

работы всего предприятия. Это касается необходимости обработки большого количества анкет, содержащих определенную информацию, которую надо быстро классифицировать и использовать. Автоматизация цифрового документооборота позволяет ускорить процесс приема и обработки документов по вступительным экзаменам, избежать множество мелких ошибок и потерю времени, возникающую при ручной проверке анкет. Таким образом, разрабатываемая программа использует нейросети и внутренние системы обработки потока визуальных данных для преобразования в данные, которые можно использовать на программном уровне. Это поможет избежать длительного монотонного перевода текста с бланков анкет в базы данных работникам любой организации. При использовании данной программы операторам необходимо лишь загрузить в сканер весь пакет документов, а также проверить даты и наличие всех необходимых к распознаванию анкет на входе. Данная мера поможет избежать потери документов. Затем, все данные абитуриентов будут обработаны и выведены в виде таблицы или в другом удобном для использования членами экзаменационной коммиссии виде.

Предлагаемый проект -– система автоматизации цифрового документооборота,

ориентированная на создание, распознавание и импорт распознанных анкет в инфраструктуру заказчика.

Основными компонентами данной системы являются:

Приложение – генератор анкет (ШП – Анкета.Генератор, версия v0.1)

Приложение – распознаватель анкет (ШП – Анкета.OCR, версия v0.1)

Облачное приложение, интегрированное в LMS EDUAPP (не является объектом разработки данного проекта, но включено в состав комплекса “ШП – Анкета”) (ШП – Анкета.Импорт, версия v0.1)

4

2 Анализ существующих технических решений

2.1 ABBYY FormReader 6.5

ABBYY в 2005 году создал новую версию системы FormReader, которая является самой универсальной и гибко настраиваемой платформой для потокового типа ввода данных. При производстве были использованы передовые технологии по распознаванию как печатного текста, так и рукописного. Также программа может считывать с документов штрих-коды и метки. Структура модуля дает возможность масштабировать и легко настраивать систему для разрешения конкретной задачи потока данных с документов любых сложностей.

Существует 3 версии данного продукта [1]:

1.Desktop Edition, представляет собой базовую способность для решения ввода данных в малом и среднем объемах; можно устанавливать на 1-м компьютере;

2.Enterprise Edition. Данная версия представляет собой серверное решение для регулярных вводов данных в большом объеме, также с ее помощью поддерживается распределенная работа по сети, сетевая установка, управление лицензией;

3.Developer Edition оснащен открытым API-интерфейсом. Эта версия создана для профессионалов, которые будут проводить точные настройки системы на специфических условиях использования.

2.1.1 Отличия от предыдущих версий

Новая версия отличается поддержкой следующих функций [1]:

Работа с многостраничными документами;

Ввод данных с форм и документов в формате PDF;

Интерфейс ISIS, который дает возможность работать с промышленными сканерами высокой производительности;

Можно использовать любые правила для автопроверок с помощью Visual Basic

Script;

5