Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Информационные технологии.docx
Скачиваний:
31
Добавлен:
08.06.2015
Размер:
112.98 Кб
Скачать

1. Целостность – объект описывается как целое с помощью значимых элементов и отношений между ними.

2. целенаправленность – распознавание строится как процесс выдвижения и целенаправленной проверки гипотез

3. адаптивность – способность компьютерной системы к самообучению

Этапы работы Fine Reader:

1. сканирование – получение графического образа документа

2. распознавание – а) анализ графического макета страницы (выделение областей для распознавания: таблиц, картинок, текстов)

б) распознавание каждого символа на основе различных форм распознавания

3. проверка орфографии

4. сохранение

Алгоритмы распознавания (классификаторы)

1. Шаблонные – растровое изображение накладывается на шаблон, содержащийся в базе данных. Наиболее подходящим является тот, у которого наименьшее количество точек отличается от исследуемого изображения.

2. Признаковые – позволяют анализировать не все изображение знака, а лишь некоторые признаки, которые вычисляются по формулам. Распознаванию подвергается не сам символ (оригинал), а некоторые его характеристики. Этот классификатор не отвечает принципу целостности, т.к. при вычислении признаков теряется часть инфы.

3. Структурные – содержат инфу не о точечном изображении символа, а о правилах начертания. Структурными элементами являются составляющие символ линии. Все символы работают с векторными изображениями. Недостаток – чувствительность к дефектам изображения.

4. Структурно-пятенный эталон – совмещение шаблонного и структурного позволяет представить изображение в виде набора пятен, связанных между собой парными отношениями, задающими структуру символов.

В Fine Reader все 4 типа работают. А экспертная система, встроенная внутрь ядра, сама выбирает оптимальный для данного текста алгоритм.

Возможности системы OCR:

1. во время сканирования система автоматически подбирает яркость сканирования, фрагментирует каждую страницу, распознает символы текста, проверяет орфографию.

2. позволяет распознавать печатные символы (200 языков), рукопечатные символы, рукописные тексты для портативных устройств.

3. способность самообучаться и распознавать плохопропечатанные символы незнакомых языков.

4. позволяет распознавать изображения, полученные с помощью цифрового фотоаппарата.

5. распознает файлы в формате pdf

Развитие программ автоматического чтения текстов в ближайшем будущем пойдет в направлении повышения точности распознавания текстов низкого качества, распознавание рукописных текстов для портативных устройств, выделение текстовой инфы на фоне шумов (распознавание номерных знаков автомобилей)

Автоматическое аннотирование и реферирование текстов

1. Реферат и аннотация текста. Общее понятие

2. Методы автоматического аннотирования и реферирования текстов

3. Составление рефератов и аннотации текста компом на основе статистического метода

Реферат – связный текст, который кратко выражает не только центральную тему или предмет какого-либо документа, но и цель, применяемые методы, основные результаты описанного исследования или разработки.

Аннотация – это краткое изложение содержания документа, дающее общее представление о его теме.

Реферат и аннотация представляют собой вторичные документы. Обычно они составляются к научным книгам, статьям, патентам на изображение.

Составление реферата (аннотации, текста) с помощью компа называют автоматическим реферированием (аннотированием)

Этапы построения реферата человеком: