- •1. Типы поисковых систем
- •2. Поисковые каталоги
- •4 По какому принципу организованные индексные поисковые системы?
- •6 Сравнения индексных поисковых систем и поисковых каталогов
- •9 Принципы работы индексных поисковых систем
- •10 Сканирование World Wide Web
- •12 Ранжирование результатов поиска
- •15 Команды простого поиска
- •16 Команды языка запросов
- •17. Команды расширенного поиска
10 Сканирование World Wide Web
Для собора сведений о ресурсах WWW индексной поисковой системой используются специальные программные средства, называемые поисковыми роботами, пауками, кролерами (от англ. crawler - тот, кто ползет) и т.п. Как правило, каждая индексная поисковая система имеет свою собственную программу, построенную по запатентованному алгоритму. Общий принцип действия индексных поисковых систем состоит в том, что они начинают просмотр Сети из некоторого заданного адреса Web-странички, копируют найденный документ на сервер своей системы, пересматривают его, находят в нем все гиперссылки, переходят за ними, находят новые документы, копируют их, проявляют в них гиперссылки, снова выполняют переход и т.д.
Поисковые роботы сканируют информационное пространство круглые сутки, не пропускают ни единого документа, не пересматривая лишь те Web-узлы, вход на которые защищен паролем. Спустя некоторое время (по заданному алгоритму) роботы возвращаются к прежде просмотренным ресурсам для того, чтобы узнать, не состоялись ли некоторые изменения. Об изменениях говорят размеры файлов и даты их создания. Повторные просмотры разрешают индексным поисковым системам очищать свои базы данных от ссылок на Web-ресурсы, которые уже не существуют и ссылки на которые утратили актуальность.
Индексация World Wide Web
Собранные копии Web-ресурсов - это лишь исходный материал. Проводить в них поиск информации, заданный пользователем, очень неудобно, поскольку это занимает много времени. Поэтому собранные данные проходят предварительную обработку, которая называется индексацией. Цель индексации - предварительная обработка сканированных документов и получение индексного файла, с помощью которого запрос пользователя можно быстро обработать. Каждая поисковая система проводит такую индексацию по своим алгоритмам, которые составляют коммерческую тайну системы.
Одним из примеров индексации есть индексация обратным файлом (инверсным файлом, inverted file). Обратный файл - это обычный словарь, в который входят все слова, выявленные на Web-страничках, скопированных с Web-пространства. Рядом с каждым словом проставляются номера Web-документов, в которых это слово было выявлено. Нередко проставляется и вес слова - число, которое показывает, как часто данное слово встретилось в данном Web-документе. Дополнительно прибавляется еще адресная таблица, в которой для каждого номера Web-документа указанная его URL-адреса.
Если, например, клиент дает задание на поиск документов, которые содержат слова справочник и энциклопедия, с помощью обратного файла будут получены два списка номеров документов. В первом содержатся документы, в которых встречается первое слово. Во втором - документы, в которые входит второе слово. Далее из этих списков будут выбранные лишь те документы, которые входят в первый и второй список одновременно. По номерам этих документов в адресной таблице определяются их URL-адреса. Прежде чем выдать клиенту эти адреса, как итог обработки запроса, происходит ранжирование результатов поиска.