Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИСЭ-пособие.doc
Скачиваний:
1
Добавлен:
01.03.2025
Размер:
1.99 Mб
Скачать

1. Объем поискового индекса

Поисковые системы периодически просматривают узлы Интернет и формируют постоянно обновляемые индексы документов. Из-за экспоненциального расширения Всемирной сети исчерпывающее индексирование всего содержимого Web и создание одного огромного индекса практически невозможно. В настоящее время даже лучшие поисковые системы индексируют не более трети всего содержимого Сети.

Самый больший объем индексируемой информации собран на узле HotBot (34%); несколько меньший — на Alta Vista (28%), Northern Light (20%) и Excite (14%). Список замыкает Lycos, поисковая машина которого индексирует только около 3% всей информации.

  1. Метод выбора серверов для просмотра (опроса)

Генерация поискового индекса требует систематического обхода Web-узлов и определения местонахождения каждого документа. Структура Web аналогична структуре ориентированного графа, поэтому здесь применимы алгоритмы обхода графа. Существуют четыре метода такого обхода:

  • случайный выбор первого URL-адреса для инициализации поиска. Программа индексирует начальный документ, выделяет URL-адреса, указывающие на другие документы, а затем анализирует эти URL для поиска «преимущественно в ширину» или «преимущественно в глубину»;

  • поиск начинается с набора URL-адресов, определяемых на основе популярности Web-узлов;

  • пространство Web делится на разделы на основе системы имен Интернет или кодов стран, а для полного исследования этих разделов выделяется одна или несколько программ-роботов;

  • такой метод используется чаще, чем первые два;

  • частота опроса — каждые несколько часов, каждый день каждый месяц. Частота опроса является важной характеристикой качества работы системы, т. к. определяет актуальность и полноту индекса.

3. Используемые поисковые технологии

По этому критерию поисковые системы можно разбить на 4 категории:

  • Тематические каталоги.

  • Специализированные каталоги (онлайновые справочники).

  • Поисковые машины (полнотекстовый поиск).

  • Средства мета-поиска.

Тематические каталоги предусматривают обработку документов и отнесение их к одной из нескольких категорий, перечень которых заранее задан. Фактически — это индексирование на основе классификации.

Индексирование может проводиться автоматически либо вручную с помощью специалистов, которые просматривают популярные Web-узлы и составляют краткое описание документов-резюме (ключевые слова, аннотация, реферат).

Например, в ИПС Yahoo каталог построен на основе фасетно-иерархической классификации. Иерархически организованный тематический каталог Web генерируется полуавтоматически. Ссылки на различные ресурсы собираются двумя способами: присылаются пользователями и извлекаются программами-роботами, считывающими новые ссылки из известных источников. Тематика каталога разделена на большие классы, например. Компьютеры, Правительство, которые далее детализируются по иерархическому принципу.

В ИПС Magellan индексируются Web-узлы, серверы FTP и Gopher, а также новости Usenet и сеансы Telnet. Коллектив редакторов и авторов просматривает Web-узлы и ранжирует их по таким факторам, как полнота и простота исследования. Пользователи могут присылать для рецензии свои URL-адреса. Критерий выдачи оценивается на основе частоты вхождения терминов запроса в документ. Более релевантными считаются те документы, которые содержат указанные в запросе термины в заголовке, дескрипторе МЕТА или URL-адреса. Результаты запроса ранжируются.

Специализированные каталоги или справочники создаются по отдельным отраслям и темам, по новостям, по городам, по адресам электронной почты и т. п.

Поисковые машины (самое развитое средство поиска) реализуют технологию полнотекстового поиска. Индексируются тексты, расположенные на опрашиваемых серверах. Индекс может содержать информацию о нескольких миллионах документов. Например, в индексе популярной ИС AltaVista около 60 млн. URL-адресов. Запрос может быть сформулирован как запрос к полнотекстовой базе данных, распределенной в сети. Поскольку это база огромных размеров, характер запроса очень сильно влияет на результат. При формировании запроса в ПС могут использоваться следующие инструменты:

1. Отдельные ключевые слова этот вид запроса целесообразно использовать только для узко специальных терминов. В противном случае количество найденных документов может достигать нескольких десятков тысяч, т. е. такой поиск становится бессмысленным.

2. Логические операторы (булев поиск).