Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекция 1 Введение.doc
Скачиваний:
42
Добавлен:
02.05.2015
Размер:
372.74 Кб
Скачать
    1. Информационно - поисковые системы в Интернет

Информационно- поисковые системы в Интернет можно разделить на три класса:

  1. Распределенные системы, в которых процесс поиска реализуется на всей совокупности распределенных по сети ресурсов, как первичных – текстовых файлов, так и вторичных – реферативная и библиографическая информация.

  2. Частично распределенные, в которых вторичная информация располагается на одном поисковом сервере, а первичная распределена по всей совокупности серверов.

  3. Локальные системы, которые обеспечивают доступ пользователей к ресурсам сосредоточенном на одном сервере.

Пример системы первого типа – распределенная информационная система WAIS (Wide Area Information Servers). Эта система состоит из поисковой машины и интерфейса пользователя, которые связаны между собой универсальным протоколом WAIS на основе стандарта Z39.50.

Протокол Z39.50 определяет механизм информационного обмена в процессе обработки поисковых запросов и протокол обмена данными, которые хранятся в базах данных. Единица хранения в базе, которая может быть найдена, — это файл. Каждый файл имеет определенную точку доступа — ключ, по которому его можно идентифицировать. Ключом могут быть совокупности элементов данных, отдельные элементы и части элемента.

Запрос на поиск составляется из ключевых слов. Он выполняется по всей базе данных, и его реализация заключается в проверке совпадения точек доступа и элементов запроса. Набор записей, удовлетворяющих запросу, есть ответ системы на запрос, однако в отчет о проведенном поиске включаются только идентификаторы записей, а не сами записи.

Примером системы второго типа может служить информационно - поисковая система WWW, структурная система которой для Интернета показана на рис. 1.3

Первичные документальные массивы хранятся на сайтах ИПС и представляют собой разнородную информацию в различных, не согласованных друг с другом форматах. Робот - индексировщик сканирует сетевые ресурсы и поддерживает базу данных индекса в актуальном состоянии. Эта база служит для поиска адреса информационного ресурса. Интерфейс пользователя представляет собой программу просмотра и средства общения пользователя с поисковым аппаратом системы. Трансляция запроса пользователя с информационно-поискового языка в формальный запрос, поиск ссылок на информационный ресурс и выдача результата поиска пользователю — все это функции поисковой машины. Запросы пользователя, на которые получены удовлетворительные ответы, накапливаются в его личной базе запросов; впоследствии это поможет ему сберечь время на доступ к нужному ресурсу.

Одна из центральных задач, от решения которых зависит эффективность ИПС, — это формирование поискового образа документа. Ее решает робот -индексировщик. Он регулярно просматривает ресурсы сети, находит новые ресурсы, приписывает им термины и помещает в базу индекса. Для индексирования используются гипертекстовые ссылки, заголовки, заглавия, аннотации, списки ключевых слов, полные тексты документов, сообщения администраторов о своих Web-страницах. При этом часто проводится нормализация лексики.

Поисковый образ документа — это одна часть поискового аппарата. Другая его часть — информационно-поисковый язык. Обычно он строится на основе естественного языка, но из него исключаются запрещенные в общие слова, лексика нормализуется, и добавляются связки типа AND, NOT и OR.

Результат поиска в базе данных ИПС — список указателей на документы, удовлетворяющие запросу.

Пример ИПС третьего типа — библиотечная система IRBIS. Рассмотрим кратко работу с ней. В начале работы пользователь вводит свои регистрационные данные и выбирает из предлагаемого списка доступных баз базу данных, в которой он предполагает проводить поиск. Функция «Ввод» проверяет права доступа пользователя, открывает базу данных (если пользователю разрешен доступ к ней) и выводит страницу формы конструктора для формирования предложения запроса по одной из трех технологий: 1) «по простому вхождению»; 2) «по логическому выражению»; 3) «по образцу».

В первом случае поиск идет по наличию в документе указанных слов (полностью

или без окончаний). Во втором варианте запрос на поиск состоит из поисковых условий, объединенных одним из операторов И/ИЛИ/НЕ; каждое условие включает наименование фрагмента документа и поисковые термины. Третий способ обеспечивает упрощенный процесс формирования структурно заданного поискового условия.

Область поиска может быть расширена путем использования гипертекстовых ссылок или коррекцией запроса.

Результат поиска — библиографические документы. Они могут выводиться на экран постранично; предусмотрена возможность заказа копии первоисточника с получением ее либо по почте, либо в виде электронного файла (если он существует).