Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Ответы.docx
Скачиваний:
28
Добавлен:
20.02.2016
Размер:
33.05 Кб
Скачать

10 Сканирование World Wide Web

  • Для собора сведений о ресурсах WWW индексной поисковой системой используются специальные программные средства, называемые поисковыми роботами, пауками, кролерами (от англ. crawler - тот, кто ползет) и т.п. Как правило, каждая индексная поисковая система имеет свою собственную программу, построенную по запатентованному алгоритму. Общий принцип действия индексных поисковых систем состоит в том, что они начинают просмотр Сети из некоторого заданного адреса Web-странички, копируют найденный документ на сервер своей системы, пересматривают его, находят в нем все гиперссылки, переходят за ними, находят новые документы, копируют их, проявляют в них гиперссылки, снова выполняют переход и т.д.

  • Поисковые роботы сканируют информационное пространство круглые сутки, не пропускают ни единого документа, не пересматривая лишь те Web-узлы, вход на которые защищен паролем. Спустя некоторое время (по заданному алгоритму) роботы возвращаются к прежде просмотренным ресурсам для того, чтобы узнать, не состоялись ли некоторые изменения. Об изменениях говорят размеры файлов и даты их создания. Повторные просмотры разрешают индексным поисковым системам очищать свои базы данных от ссылок на Web-ресурсы, которые уже не существуют и ссылки на которые утратили актуальность.

Индексация World Wide Web

  • Собранные копии Web-ресурсов - это лишь исходный материал. Проводить в них поиск информации, заданный пользователем, очень неудобно, поскольку это занимает много времени. Поэтому собранные данные проходят предварительную обработку, которая называется индексацией. Цель индексации - предварительная обработка сканированных документов и получение индексного файла, с помощью которого запрос пользователя можно быстро обработать. Каждая поисковая система проводит такую индексацию по своим алгоритмам, которые составляют коммерческую тайну системы.

  • Одним из примеров индексации есть индексация обратным файлом (инверсным файлом, inverted file). Обратный файл - это обычный словарь, в который входят все слова, выявленные на Web-страничках, скопированных с Web-пространства. Рядом с каждым словом проставляются номера Web-документов, в которых это слово было выявлено. Нередко проставляется и вес слова - число, которое показывает, как часто данное слово встретилось в данном Web-документе. Дополнительно прибавляется еще адресная таблица, в которой для каждого номера Web-документа указанная его URL-адреса.

  • Если, например, клиент дает задание на поиск документов, которые содержат слова справочник и энциклопедия, с помощью обратного файла будут получены два списка номеров документов. В первом содержатся документы, в которых встречается первое слово. Во втором - документы, в которые входит второе слово. Далее из этих списков будут выбранные лишь те документы, которые входят в первый и второй список одновременно. По номерам этих документов в адресной таблице определяются их URL-адреса. Прежде чем выдать клиенту эти адреса, как итог обработки запроса, происходит ранжирование результатов поиска.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]