- •Распознавание текста
- •Системы оптического распознавания текста
- •Примеры системы оптического распознавания текста
- •Системы оптического распознавания текста
- •Этапы преобразование документа в электронный вид OCR-системами
- •Базовые принципы технологий распознавания текста
- •Принципы IPA
- •Принципы IPA
- •Принципы IPA
- •Многоуровневый анализ документа
- •Многоуровневый анализ документа
- •Механизм «голосования»
- •Многоуровневый анализ документа
- •Описание OCR-процедуры
- •Специальные процедура фильтрации фоновых текстур
- •Адаптивная бинаризация
- •Адаптивная бинаризация
- •Распознавание символов
- •Классификатор
- •Характеристики классификатора
- •Типы классификаторов
- •Растровый классификатор
- •Растровый классификатор
- •Признаковый классификатор
- •Признаковый классификатор
- •Признаковый классификатор
- •Признаковый классификатор
- •Контурный классификатор
- •Признаковый дифференциальный классификатор
- •Признаковый дифференциальный классификатор
- •Признаковый дифференциальный классификатор
- •Признаковый дифференциальный классификатор
- •Алгоритм распознавания
- •Признаковый дифференциальный классификатор
- •Структурный классификатор
- •Структурный классификатор
- •Структурный классификатор
- •Структурирование гипотез
- •Словарная проверка
- •Синтез электронного документа
- •Ввод текста с помощью OCR-систем
- •Оценка качества распознавания текста
- •Исследование эффективности OCR-систем для ввода текста
- •Исследование временных затрат
- •Точность распознавания
- •Статистическое исследование количества ошибок
- •Статистическое исследование количества ошибок
- •Статистическое исследование количества ошибок
- •Статистическое исследование количества ошибок
- •Статистическое исследование количества ошибок
- •Анализ типов ошибок, обнаруженный при вводе текста САР
Точность распознавания
Одним из основных параметров качества функционирования системы распознавания является точность распознавания, обычно выражаемая процентным соотношением:
Acраспi =
где nверно_расп i и nобщ i есть количество верно распознанных символов и общее количество символов на странице (в документе).
Статистическое исследование количества ошибок
Текст хорошего качества
|
Фрагмент |
Кол-во |
Кол-во |
Кол-во |
Кол-во |
Точность |
|
|
знаков |
неуверенно |
распознава |
|
|||
|
ошибок |
|
|||||
|
по 10 страниц |
(символов) |
слов |
распознанных |
nо |
ния |
|
|
|
nобщ |
|
символов |
Acрасп (%) |
|
|
|
|
|
|
|
|||
|
1 |
26377 |
3344 |
62 |
7 |
99,97 % |
|
|
|
|
|
|
|
|
|
|
2 |
27266 |
3422 |
39 |
3 |
99,99 % |
|
|
|
|
|
|
|
|
|
|
3 |
29809 |
3865 |
38 |
13 |
99,96 % |
|
|
|
|
|
|
|
|
|
|
4 |
26796 |
3324 |
267 |
17 |
99,94 % |
|
|
|
|
|
|
|
|
|
|
5 |
24361 |
3445 |
88 |
7 |
99,97 % |
|
|
|
|
|
|
|
|
|
|
6 |
26597 |
3343 |
78 |
4 |
99,98 % |
|
|
|
|
|
|
|
|
|
|
… |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
10 |
26800 |
3410 |
63 |
4 |
99,99 % |
|
|
|
|
|
|
|
|
|
|
Среднее |
27251 |
3484 |
102 |
8 |
99,97 % |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Статистическое исследование количества ошибок
Текст плохого качества
|
|
|
|
|
Кол-во |
Кол-во |
Точность |
|
Фрагмент по |
Кол-во знаков |
Кол-во |
неуверенно |
|||
|
ошибок |
распознаван |
|||||
|
10 страниц |
(символов) n |
общ |
слов |
распознанных |
||
|
|
|
|
символов |
nо |
ия Acрасп (%) |
|
|
|
|
|
|
|||
|
1 |
19540 |
|
3085 |
126 |
75 |
99,62 % |
|
|
|
|
|
|
|
|
|
2 |
25517 |
|
3668 |
138 |
31 |
99,88 % |
|
|
|
|
|
|
|
|
|
3 |
33841 |
|
5290 |
604 |
427 |
98,74 % |
|
|
|
|
|
|
|
|
|
6 |
19566 |
|
2869 |
548 |
35 |
99,82 % |
|
|
|
|
|
|
|
|
|
…. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
9 |
24953 |
|
3201 |
414 |
76 |
99,70 % |
|
|
|
|
|
|
|
|
|
Среднее |
22831 |
|
3394 |
234 |
79 |
99,61 % |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Статистическое исследование количества ошибок
Текст XVIII в. (САР)
|
|
|
Кол-во знаков |
Кол-во |
Кол-во |
Кол-во |
Точность |
|
Страница |
неуверенно |
|||||
|
(символов) |
слов |
распознанных |
ошибок |
распознавания |
||
|
|
|
nобщ |
nо |
Acрасп (%) |
||
|
|
|
|
символов |
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
т.: 377-378 |
2005 |
328 |
304 |
220 |
89,03 % |
|
|
|
|
|
|
|
|
|
2 |
т.: 19-20 |
2340 |
376 |
368 |
297 |
87,31 % |
|
|
|
|
|
|
|
|
|
3 |
т.: 519-520 |
2097 |
305 |
366 |
248 |
88,17 % |
|
|
|
|
|
|
|
|
|
5 |
т.: 43-44 |
2117 |
328 |
425 |
241 |
88,62 % |
|
|
|
|
|
|
|
|
|
6 |
т.: 447-448 |
2060 |
351 |
375 |
277 |
86,55 % |
|
|
|
|
|
|
|
|
|
1 |
т.: 319-320 |
1578 |
265 |
70 |
84 |
94,68 % |
|
|
|
|
|
|
|
|
|
3 |
т.: 9-10 |
2343 |
311 |
458 |
200 |
91,46 % |
|
|
|
|
|
|
|
|
|
3 |
т.: 137-138 |
2173 |
343 |
560 |
389 |
82,10 % |
|
|
|
|
|
|
|
|
|
Среднее |
2065 |
314 |
428 |
286 |
86,00 % |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|