Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Информатика зачет.docx
Скачиваний:
113
Добавлен:
13.06.2017
Размер:
598.54 Кб
Скачать

Организация поиска в документах апис

1) формулирование запроса на естественном языке, выбор поисковых системы и сервисов, формализация запроса на соответствующем ИПЯ;

2) проведение поиска в одной или нескольких поисковых системах;

3) обзор полученных результатов (ссылок);

4) предварительная обработка полученных результатов: просмотр содержания ссылок, извлечение и сохранение релевантных и пертинентных данных;

5) при необходимости, модификация запроса и проведение повторного (уточняющего) поиска с последующей обработкой полученных результатов.

Для уменьшения объёма отобранных материалов осуществляют фильтрацию результатов поиска по типу источников (сайтов, порталов), тематике и другим основаниям.

По используемым поисковым технологиямИС можно разбить на 4 категории:

1. Тематические каталоги;

2. Специализированные каталоги (онлайновые справочники);

3. Поисковые машины (полнотекстовый поиск);

4. Средства метапоиска.

34. Основные принципы распознавания документов и символов.

Чтобы реализовать автоматический или автоматизированный перевод бумажных документов в электронный вид, необходимо выполнить сканирование бумажных документов и распознать их содержимое с помощью специальных программ, называемых системами оптического распознавания символов (Optical Character Recognition - OCR). Системы оптического распознавания символов предназначены для автоматического ввода печатных документов в компьютер. Обработка изображения OCR-системой включает в себя анализ графического изображения, переданного сканером, и распознавание каждого символа. Процессы анализа макета страницы:

  1. определение областей распознавания

  2. определение таблиц

  3. определение картинок

  4. выделение в тексте строк и отдельных символов

и распознавания изображения тесно связаны между собой: алгоритм поиска блоков использует информацию о распознанном тексте для более точного анализа страницы.

Современные программно-аппаратные системы позволяют автоматизировать ввод больших объемов информации в компьютер, используя, например, сетевой сканер и параллельное распознавание текстов на нескольких компьютерах одновременно.

ДАЛЕЕ СМОТРИ МЕТОДЫ В ПУНКТЕ 31

35. Отличительные черты гипертекста. Структура гипертекстовой системы. Модель поиска в гипертекстовой системе.

В гипертекстовых системах база данных не строится в соответствии с к. л. заранее установленной системой связи, а организует в виде открытой, свободно наращиваемой самим пользователем сети, узлы которой соединяются с уже имеющимися в базе узлами. Следовательно, гипертекст не требует предварительной формализации знаний, но предполагает лишь его дискретность и возможность явного указания имеющихся связей между узлами и единицами. К достоинствам гипертекста относят широкие возможности автоматизированного обучения. Гипертекст позволяет не только посмотреть большую группу релевантных док-ов, но и изучить механизм образования ассоциативных связей. В принципе пользователь может работать с гипертекстовой системой без знания специальных зыков поиска и запроса. Вместо них исп-ся браузинг– операция просмотра узлов гипертекстовой сети по связи движения от известной инф-ии к связанной с ней неизвестной, явл-ся предметом поиска. Браузер дает пользователю относительно легкий способ отыскания релевантной инф-ии без изучения запросного языка независимо от объемов базы данных. Другой отличительной чертой гипертекста явл-ся способность интегрировать разнотипные виды инф-ии в единую гиперсреду./Гипертекстовая технология ориентирована на обработку информации не вместо человека, а вместе с человеком, т е. становится авторской. Удобство ее использования состоит в том, что пользователь сам определяет подход к изучению или созданию материала с учетом своих индивидуальных способностей, знаний, уровня квалификации и подготовки. Гипертекст содержит не только информацию, но и аппарат ее эффективного поиска. По глубине формализации информации гипертекстовая технология занимает промежуточное положение между документальными и фактографическими информационными системами.