3. Используемые поисковые технологии

По этому критерию поисковые системы можно разбить на 4 категории:

Тематические каталоги.
Специализированные каталоги (онлайновые справочники).
Поисковые машины (полнотекстовый поиск).
Средства мета-поиска.

Тематические каталоги предусматривают обработку документов и отнесение их к одной из нескольких категорий, перечень которых заранее задан. Фактически - это индексирование на основе классификации. Индексирование может проводиться автоматически либо вручную с помощью специалистов, которые просматривают популярные Web-узлы и составляют краткое описание документов-резюме (ключевые слова, аннотация, реферат).

Например, в ИПС Yahoo каталог построен на основе фасетно-иерархической классификации. Иерархически организованный тематический каталог Web генерируется полуавтоматически. Ссылки на различные ресурсы собираются двумя способами: присылаются пользователями и извлекаются программами-роботами, считывающими новые ссылки из известных источников. Тематика каталога разделена на большие классы, например, Компьютеры, Правительство, которые далее детализируются по иерархическому принципу.

В ИПС Magellan индексируются Web-узлы, серверы FTP и Gopher, а также новости Usenet и сеансы Telnet. Коллектив редакторов и авторов просматривает Web-узлы и ранжирует их по таким факторам, как полнота и простота исследования. Пользователи могут присылать для рецензии свои URL-адреса. Критерий выдачи оценивается на основе частоты вхождения терминов запроса в документ. Более релевантными считаются те документы, которые содержат указанные в запросе термины в заголовке, дескрипторе МЕТА или URL-адреса. Результаты запроса ранжируются.

Специализированные каталоги или справочники создаются по отдельным отраслям и темам, по новостям, по городам, по адресам электронной почты и т. п.

Поисковые машины (самое развитое средство поиска) реализуют технологию полнотекстового поиска. Индексируются тексты, расположенные на опрашиваемых серверах. Индекс может содержать информацию о нескольких миллионах документов. Например, в индексе популярной ИПС AltaVista более 60 млн. URL-адресов.

Запрос может быть сформулирован как запрос к полнотекстовой базе данных, распределенной в сети. Поскольку это база огромных размеров, характер запроса очень сильно влияет на результат.

Средства мета-поиска позволяют осуществлять запрос одновременно несколькими поисковыми системами, результат поиска объединяется в общий, упорядоченный по степени релевантности список. Каждая система обрабатывает только часть узлов сети, это позволяет значительно расширить базу поиска. К подобному классу можно также отнести «персональные программы поиска», которые позволяют формировать свои собственные инструменты мета-поиска (например, автоматически опрашивать часто посещаемые узлы).

Примерами систем данного вида могут служить: IBM InfoMarket, которая выполняет поиск в Yahoo, OpenText, Magellan, различных коммерческих ресурсах и группах новостей одновременно, генерируя ранжированные результаты обработки запроса; MetaCrawler, которая посылает запросы восьми различным серверам поиска: OpenText, Lycos, WebCrawler, InfoSeek, Excite, AltaVista, Yahoo и Galaxy, поддерживает булевы операции и поиск фраз.

Известно, что для количественной оценки эффективности ИПС используется формальное измерение точности и полноты поиска, полученное на основе экспериментов в контролируемых условиях. Это требует наличия экспериментальной системы с фиксированным числом документов, стандартного набора запросов и множества документов, релевантных и нерелевантных каждому обрабатываемому в эксперименте запросу. Создание подобных условий в контексте Web крайне затруднено. Поскольку различные серверы поиска работают с разными индексами, различающимися полнотой охвата документов Web, то достаточно сложно осуществить объективное сравнение эффективности поиска различных поисковых систем.

<<< < Предыдущая 12 / 92 3 4 5 6 7 8 9 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
17.04.2019317.44 Кб28ТЕМА 4_Операционные оболочки и системы.doc
#
20.07.201960.42 Кб18Тема 5.1 Управление системой образования ч2.doc
#
05.12.201850.18 Кб10Тема 6 Экономика образования.doc
#
17.04.2019213.5 Кб19ТЕМА 6_Сетевые технологии_Ресурсы Интернет.doc
#
01.07.2025157.7 Кб2Тема 7 Жизнен цикл.doc
#
17.04.2019148.48 Кб10ТЕМА 7_ИПС.doc
#
17.04.2019426.5 Кб16ТЕМА 9_MS Office_Word_Excel_Access_PowerP.doc
#
08.12.201828.08 Кб16Темы рефератов по юрпсихологии.docx
#
11.04.2015144.38 Кб747Теор.грамматика.doc
#
11.04.2015285.7 Кб98Теоретическая педагогика.doc
#
01.05.2025274.3 Кб3теория 2.docx