Технологии автоматизированного ввода документа (осr-системы)

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Международный университет МИТСО

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Курс лекций КИТ.doc

Скачиваний:

Добавлен:

25.11.2019

Размер:

1.91 Mб

Скачать

☆

<<< < Предыдущая 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 3738 / 4038 39 40 > Следующая >>>

Технологии автоматизированного ввода документа (осr-системы)

Довольно часто в офисной работе возникает ситуация, когда имеется текст документа, напечатанный на бумаге, а электронная версия этого документа отсутствует. Причем, в текст этого документа надо внести свои исправления, дополнения и т.д. Конечно, эту задачу легко решить, если документ в несколько строк: можно просто сесть за компьютер и напечатать текст с бумаги и дополнить своим. Но если в документе 20-30-50 страниц с текстом, таблицами и графиками, понадобится много времени для ввода текста с бумаги в компьютер. Тут уж не обойтись без сканера и специальных программ для распознавания текста.

OCR (Optical Character Recognition) — общее названия программ для распознавания текста, без них сканер не сможет понять ни одной буквы. Программы OCR делятся на программы «начального уровня» и профессиональные. Программы «начального уровня» при сканировании решают поставленную задачу, как говорится «в лоб»: переводят текст на бумаге в набор символов и далее предлагают пользователю самостоятельно разобраться с тем, что получилось. Для простых текстовых документов большего и не надо. На листе есть набор символов, и он преобразуется в такой же набор, только в текстовом файле. Но если документ, который находится в сканере имеет сложную структуру — с графическими вставками или таблицами, то такая программа сделает столько ошибок, что неизвестно, что проще — набирать текст вручную или редактировать то, что выдал сканер. В этом случае приходится использовать профессиональную программу OCR, с помощью которой можно распознать не только символы, но и структуру документа: система «понимает», где находится графика, где простой текст, а где таблица. И, соответственно, делит документ на фрагменты, а каждый фрагмент, согласно его свойствам, вставляет в конечный файл. Разумеется, график или чертеж программа не трогает вовсе — «понимает», что здесь нечего распознавать; она пытается восстановить таблицы именно той структуры, какой они были в оригинальном документе — с таким же распределением ячеек по столбцам и строкам. Кроме того, профессиональные программы умеют обрабатывать многоязычные документы. Одной из лучших в мире профессиональных OCR считается программа FineReader — разработка российской фирмы ABBYY. Она выпускается в нескольких вариантах, начиная со средней сложности и до самой высокой (последние варианты применяют при огромных объемах сканирования, например, при переводе бумажных архивов в электронную форму).

Сканер снимает изображение не целиком, а по строчкам. Если назвать длинную сторону сканера вертикалью планшета, а короткую — горизонталью, то по вертикали движется полоска светочувствительных элементов и снимает изображение строку за строкой. Но и строки снимаются не целиком, а по точкам. Чем больше светочувствительных элементов у сканера, тем больше точек он может снять с каждой горизонтальной полосы изображения. Это называется оптическим разрешением сканера. Обычно его считают по количеству точек на дюйм — dpi (dots per inch). Сегодня даже для недорогих сканеров считается нормой уровень разрешения 600 dpi. Этого достаточно для выполнения 95% работ с бумажными носителями. Увеличивать разрешение еще дальше — значит, применять более дорогую оптику, более дорогие светочувствительные элементы, а также многократно затягивать время сканирования. Это может понадобиться разве что для обработки слайдов: для сканирования кадров обычной 35-миллиметровой пленки обычно необходимо разрешение 1200 dpi. Сканирование текста обычно происходит в режиме «Оттенки серого цвета» с разрешением порядка 200—300 dpi — это наиболее благоприятный режим для программ OCR. То есть, при таком режиме сканер не «забивает» программу лишней информацией, с одной стороны, а с другой — у программы достаточно данных, чтобы распознать даже мелкий текст с минимальными ошибками.

PenReader (Paragon Software Group) - многоязыковая система распознавания рукописного ввода для Tablet PC, которая не требует обучения и "на лету" переводит рукописный текст в набранный, имеет гибкую и мощную систему настроек, позволяющую настраивать его под свои нужды. PenReader - одна из немногих в мире систем полноценно работающих с русским языком для Tablet PC.

<<< < Предыдущая 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 3738 / 4038 39 40 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
15.02.2016699.28 Кб41Кривые второго порядка.pdf
#
15.02.2016198.66 Кб19КСР Хоз. право(днев.).doc
#
11.09.2019167.99 Кб23ксст.docx
#
15.02.20161.08 Mб20кур.денеж обращение.rtf
#
15.02.201687.35 Кб32Куросвая по ДКБ(Захаренко И.Г.).docx
#
25.11.20191.91 Mб31Курс лекций КИТ.doc
#
15.02.20161.57 Mб228Курс лекций Ценообразование 2009.doc
#
15.02.201656.86 Кб38курсач сегментаия — копия.docx
#
15.02.2016112.27 Кб206КУРСАЧ_3 к.docx
#
15.02.2016123.9 Кб58Курсовая образец ОТП.doc
#
20.11.201982.85 Кб58курсовая по тр рб.docx