- •Тема: информационно-поисковые системы
- •1.Классификация поисковых систем интернет
- •1. Объем поискового индекса
- •2. Метод выбора серверов для просмотра (опроса)
- •3. Используемые поисковые технологии
- •2.Информационно-поисковые системы
- •1. Каталог
- •2. Поисковая машина
- •3.Метапоисковая машина
- •4. Поиск источников информации
- •3.3. Инструментарий поисковых систем сетевой службы www
- •3.1. Инструментарий формирования запросов в ипс
- •2. Логические операторы (булев поиск).
- •7. Определение области поиска (наименование сервиса), домена (серверы с определенным расширением имени, su,ru) и т. П.
- •3.2. Язык запросов ипс Яndex
- •1. Булев поиск:
- •Пример 1.1.
- •Пример 1.2.
- •Пример 1.3.
- •Пример 1.4.
- •2. Контекстный поиск:
- •Пример 2.1.
- •Пример 2.2.
- •Пример 3.1.
- •Пример 3.2.
- •5. Поиск по адресам:
- •8. Ранжирование результата поиска
- •Пример 8.1.
- •Пример 8.2.
3. Используемые поисковые технологии
По этому критерию поисковые системы можно разбить на 4 категории:
Тематические каталоги.
Специализированные каталоги (онлайновые справочники).
Поисковые машины (полнотекстовый поиск).
Средства мета-поиска.
Тематические каталоги предусматривают обработку документов и отнесение их к одной из нескольких категорий, перечень которых заранее задан. Фактически - это индексирование на основе классификации. Индексирование может проводиться автоматически либо вручную с помощью специалистов, которые просматривают популярные Web-узлы и составляют краткое описание документов-резюме (ключевые слова, аннотация, реферат).
Например, в ИПС Yahoo каталог построен на основе фасетно-иерархической классификации. Иерархически организованный тематический каталог Web генерируется полуавтоматически. Ссылки на различные ресурсы собираются двумя способами: присылаются пользователями и извлекаются программами-роботами, считывающими новые ссылки из известных источников. Тематика каталога разделена на большие классы, например, Компьютеры, Правительство, которые далее детализируются по иерархическому принципу.
В ИПС Magellan индексируются Web-узлы, серверы FTP и Gopher, а также новости Usenet и сеансы Telnet. Коллектив редакторов и авторов просматривает Web-узлы и ранжирует их по таким факторам, как полнота и простота исследования. Пользователи могут присылать для рецензии свои URL-адреса. Критерий выдачи оценивается на основе частоты вхождения терминов запроса в документ. Более релевантными считаются те документы, которые содержат указанные в запросе термины в заголовке, дескрипторе МЕТА или URL-адреса. Результаты запроса ранжируются.
Специализированные каталоги или справочники создаются по отдельным отраслям и темам, по новостям, по городам, по адресам электронной почты и т. п.
Поисковые машины (самое развитое средство поиска) реализуют технологию полнотекстового поиска. Индексируются тексты, расположенные на опрашиваемых серверах. Индекс может содержать информацию о нескольких миллионах документов. Например, в индексе популярной ИПС AltaVista более 60 млн. URL-адресов.
Запрос может быть сформулирован как запрос к полнотекстовой базе данных, распределенной в сети. Поскольку это база огромных размеров, характер запроса очень сильно влияет на результат.
Средства мета-поиска позволяют осуществлять запрос одновременно несколькими поисковыми системами, результат поиска объединяется в общий, упорядоченный по степени релевантности список. Каждая система обрабатывает только часть узлов сети, это позволяет значительно расширить базу поиска. К подобному классу можно также отнести «персональные программы поиска», которые позволяют формировать свои собственные инструменты мета-поиска (например, автоматически опрашивать часто посещаемые узлы).
Примерами систем данного вида могут служить: IBM InfoMarket, которая выполняет поиск в Yahoo, OpenText, Magellan, различных коммерческих ресурсах и группах новостей одновременно, генерируя ранжированные результаты обработки запроса; MetaCrawler, которая посылает запросы восьми различным серверам поиска: OpenText, Lycos, WebCrawler, InfoSeek, Excite, AltaVista, Yahoo и Galaxy, поддерживает булевы операции и поиск фраз.
Известно, что для количественной оценки эффективности ИПС используется формальное измерение точности и полноты поиска, полученное на основе экспериментов в контролируемых условиях. Это требует наличия экспериментальной системы с фиксированным числом документов, стандартного набора запросов и множества документов, релевантных и нерелевантных каждому обрабатываемому в эксперименте запросу. Создание подобных условий в контексте Web крайне затруднено. Поскольку различные серверы поиска работают с разными индексами, различающимися полнотой охвата документов Web, то достаточно сложно осуществить объективное сравнение эффективности поиска различных поисковых систем.