Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
МИР-лекции (рабочий вариатнт).doc
Скачиваний:
6
Добавлен:
22.11.2019
Размер:
839.68 Кб
Скачать

10.4.Хранение индексированных документов

Организация хранения массива поисковых образов документов – одна из критических частей поискового аппарата ИПС.

Индексирование документов является разовым процессом в локальных системах, или постоянным в глобальных, но в любом случае оно не производится одновременно с поиском (для поиска и индексирования не используются одновременно одни и те же аппаратные ресурсы). Вследствие этого скорость поиска информации в ИПС определяется скоростью доступа к хранилищу поисковых образов (второй влияющий фактор – поисковый алгоритм), которая зависит от структуры и объема базы данных документов.

Прямой просмотр файлов поисковых образов документов занимает слишком много времени, что является неприемлемым для пользователя, особенно в Интернет. Поэтому база данных документов обычно организуется в виде ряда связанных друг с другом таблиц.

Помимо информации о соответствии терминов и документов (идентификаторы терминов и документов, веса терминов и т. д.), в базах данных ИПС хранятся также различные дополнительные сведения. Некоторые из них непосредственно используются при поиске, например, даты последних изменений документов или информация о содержащихся в документах ссылках на другие документы (это особенно актуально для ИПС сети Интернет). Часть данных необходима для облегчения работы пользователя с результатами поиска (заголовки и аннотации документов и др.). Обычно информация о терминах и документах, которая находится в базах данных ИПС, может быть использована одновременно для нескольких алгоритмов поиска (см. раздел 11).

Рассмотрим общую структуру базы данных поисковых образов интернет-документов (гипертекстовых страниц).

Рис. 3. Структура базы данных поисковых образов

База данных (рис. Рис. 3) состоит из таблицы адресов страниц, таблицы ключевых слов, таблицы заголовков страниц, таблицы с датами изменения страниц, таблицы гиперссылок, а также двух таблиц-списков – прямого и инвертированного.

11.Модели поиска информации

Главная цель информационно-поисковой системы – наилучшим образом удовлетворить потребности пользователей в необходимой информации. Для реализации этой глобальной цели необходимо проделать ряд подготовительных операций, которые были подробно рассмотрены выше: проанализировать информационный массив и представить его в форме, удобной для хранения и обработки. Второй частью поискового аппарата ИПС является непосредственно модель поиска информации.

Любая стратегия поиска тесно связана с информационно-поисковым языком. Информационно-поисковый язык (ИПЯ) – это специальный язык для формирования запросов к ИПС. Необходимость создания ИПЯ вызвана трудностями интерпретации естественного языка в случае его использования в системе. Однако синтаксис поисковых языков обычно довольно прост и внешне они часто похожи на естественные.

Современные поисковые системы позволяют полностью формулировать запрос на естественном языке. Перед использованием таких запросов обычно проводится морфологическая (нормализация терминов запроса3), лексическая (удаление из запроса терминов, присутствующих в стоп-словаре), реже синтаксическая и семантическая обработка.

Рассмотрим основные модели поиска информации, применяемые в ИПС.