
- •Тема1.1)Предмет и содержание дисциплины
- •5)Обработка информации
- •Тема2:Техническое обеспечение кит
- •3 Базовых :
- •Тема3.1) Компьютерные сети
- •Тема3.2)Стандартизация кс
- •Тема4.1)Классификация по
- •4.1.9: При помощи средства «Помощник по поиску»
- •Тема6.1)Прикладное программное обеспечение
- •Тема5.1)Сервисные программы
- •Тема6.4)Системы распознавания текстов
- •Тема6.5)текстовый процессорMs Word
- •Тема6.3)Системы обработки текстовых док
- •Тема10.1) Программы-органайзеры
- •Тема6.2)Защита инф в mc Office
- •Тема7.1)Табличные процессоры
- •Тема11.4)Технология программирования
- •Тема8.1) Классификация компьютерной графики
- •Тема9.2) . Пакет MathCad
- •Тема9.1)Пакеты для математической обработки данных
- •Тема11.2) Алгоритм
- •Тема11.5) Макропрограмирование в Word
- •Тема10.2) Outlook 2000
- •Тема10.4)outlook.Средства организации совместной работы.
- •Тема11.1) Этапы решения задач на компе
- •Тема11.3) Средства программирования
Тема6.4)Системы распознавания текстов
OCR-системы оптического распознавания символов. Первая такая система появилась в 1959г и могла распознавать тексты набранные только одним шрифтом(OCR-A, OCR-B). В 70-х гг 20в появилась OCR система, кот распознавала любой шрифт, но требовала предварительного обучения. В 1986г появилась система, кот могла распознавать шрифты без предварительного обучения. Сегодня OCR-система базируется на технологии целостного, целенаправленного, адаптивного распознавания. Целостность – объект воспринимается как единое целое с помощью значимых элементов и отношений между ними. Целенаправленность – распознавание строится как процесс выдвижения и целенаправленных проверок гипотез. адаптивность – способность системы к самообучению. Наиболее известной OCR-системой является Fine Reader. Этот продукт полностью совместим с последними версиями системы Windows. Его версия 6.0. поддерживает 177 языков мира, а также комбинацию рус-анг и др. процесс распознавания происходит без вмешательства человека, человек включается в окончательное редактирование полученного образа. Среди других систем этого класса – CuneiForm. Российская разработка конкурирующая с Fine Reader, о ее достоинствах говорит то, что ряд фирм включила ее в свои офисные пакеты.
3 этапа:
Сканирование-получение граф образа, Распознавание, Верификация.
1) OCR решает классич. задачу распозн. печ. символов. нанес. на бумагу при пом. принтера, плоттера или пишуш. машинки. 2) ICR осущ-ет распознование рукопечатных символов. основное назнач. этих двух систем сэкономить на ввод бумажных док-том в электроред. форму. Данные системы характеризуется точностью распознавания текста, точностью хранения, оформления в док-тах для текстовых процессов для послед. электронной публикации, возможностями по работе с таблицами и многоколонными текстами, простотой использования, надежность и скорость работы, многоязычное распознавание, удобство поиска ошибок и сверки с оригиналом, работа с цветом, экспорт в другие приложения. Лидирует 1) ScanSaft и 2) FineReader (ABBY) – эта прог-ма позвол. распознования текста на 179 языков и имеют проверку орфографии для 36 языков. Это лидер поточности образования. Есть версия для домашних пользователей и небольших офисов и для эфф. организации совм. работы в накопленной сети по распознанию большого кол-ва док-тов, и версия для пользоват. комп. Apple 3) Cuneiform. Она распространяется сосканерами и многофункц. офисными уст-вами, выполняет мн-во различных операций. Данные системы развиваются в таком направлении: отсканир стр, человек должен получ. точную эл. копию исходноко док-та с сохранением шрифтов, распознование картинок, верстки и т. д.
Классификация по специфике перевода в эл вид:
Неформатированные(договора, письма)
Специализированные(карты)
Формализованные(бланки, анкеты)
Классификация программ: Для формализации(Персональный ввод и промышленный ввод), для неформализации(Персональн и промышл ввод.)
Алгоритмы распознавания:
Multifont(шрифтовые)
Omnifont(шрифтонезависимые)
Самообучающиеся
Структурные
Когнитивного распознавания
Multifont-изображение, накладывающееся на подходящий шаблон, у которого наим кол-во отличается от исслед изображения.
Пакет Fine Reader: Омнифонтовая программа
Интуитивно-понятный интерфейс
Мощные возможности оптического распознавания текста
Очистка страницы от мусора
Инстументы для расчистки
Особенность:
Высокая мощность
Малая чувствит и дефект.
Cunei form:
Экспорт распознанного текста с сохранением исходного форматирования
Прямой экспорт в офис
Печать текста и изображения
Поддержка OLE-технологий
Сохранение в RTF.TXT, HTML.
OMR-системы:
Abby Form Reader
Распознавание формы, заполнение от руки и т.д
Выделяет цветом плохо распознанные символы
Автоматически проверяет валидность с БД
Различные типы форм, благодаря методам удаления изображения форм
Экспорт в БД, графич оформление и т.д