Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ТЕМА 7_ИПС.doc
Скачиваний:
4
Добавлен:
17.04.2019
Размер:
148.48 Кб
Скачать

3. Используемые поисковые технологии

По этому критерию поисковые системы можно разбить на 4 категории:

  • Тематические каталоги.

  • Специализированные каталоги (онлайновые справочники).

  • Поисковые машины (полнотекстовый поиск).

  • Средства мета-поиска.

Тематические каталоги предусматривают обработку документов и отнесение их к одной из нескольких категорий, перечень которых заранее задан. Фактически - это индексирование на основе классификации. Индексирование может проводиться автоматически либо вручную с помощью специалистов, которые просматривают популярные Web-узлы и составляют краткое описание документов-резюме (ключевые слова, аннотация, реферат).

Например, в ИПС Yahoo каталог построен на основе фасетно-иерархической классификации. Иерархически организованный тематический каталог Web генерируется полуавтоматически. Ссылки на различные ресурсы собираются двумя способами: присылаются пользователями и извлекаются программами-роботами, считывающими новые ссылки из известных источников. Тематика каталога разделена на большие классы, например, Компьютеры, Правительство, которые далее детализируются по иерархическому принципу.

В ИПС Magellan индексируются Web-узлы, серверы FTP и Gopher, а также новости Usenet и сеансы Telnet. Коллектив редакторов и авторов просматривает Web-узлы и ранжирует их по таким факторам, как полнота и простота исследования. Пользователи могут присылать для рецензии свои URL-адреса. Критерий выдачи оценивается на основе частоты вхождения терминов запроса в документ. Более релевантными считаются те документы, которые содержат указанные в запросе термины в заголовке, дескрипторе МЕТА или URL-адреса. Результаты запроса ранжируются.

Специализированные каталоги или справочники создаются по отдельным отраслям и темам, по новостям, по городам, по адресам электронной почты и т. п.

Поисковые машины (самое развитое средство поиска) реализуют технологию полнотекстового поиска. Индексируются тексты, расположенные на опрашиваемых серверах. Индекс может содержать информацию о нескольких миллионах документов. Например, в индексе популярной ИПС AltaVista более 60 млн. URL-адресов.

Запрос может быть сформулирован как запрос к полнотекстовой базе данных, распределенной в сети. Поскольку это база огромных размеров, характер запроса очень сильно влияет на результат.

Средства мета-поиска позволяют осуществлять запрос одновременно несколькими поисковыми системами, результат поиска объединяется в общий, упорядоченный по степени релевантности список. Каждая система обрабатывает только часть узлов сети, это позволяет значительно расширить базу поиска. К подобному классу можно также отнести «персональные программы поиска», которые позволяют формировать свои собственные инструменты мета-поиска (например, автоматически опрашивать часто посещаемые узлы).

Примерами систем данного вида могут служить: IBM InfoMarket, которая выполняет поиск в Yahoo, OpenText, Magellan, различных коммерческих ресурсах и группах новостей одновременно, генерируя ранжированные результаты обработки запроса; MetaCrawler, которая посылает запросы восьми различным серверам поиска: OpenText, Lycos, WebCrawler, InfoSeek, Excite, AltaVista, Yahoo и Galaxy, поддерживает булевы операции и поиск фраз.

Известно, что для количественной оценки эффективности ИПС используется формальное измерение точности и полноты поиска, полученное на основе экспериментов в контролируемых условиях. Это требует наличия экспериментальной системы с фиксированным числом документов, стандартного набора запросов и множества документов, релевантных и нерелевантных каждому обрабатываемому в эксперименте запросу. Создание подобных условий в контексте Web крайне затруднено. Поскольку различные серверы поиска работают с разными индексами, различающимися полнотой охвата документов Web, то достаточно сложно осуществить объективное сравнение эффективности поиска различных поисковых систем.