10 Сканирование World Wide Web

Для собора сведений о ресурсах WWW индексной поисковой системой используются специальные программные средства, называемые поисковыми роботами, пауками, кролерами (от англ. crawler - тот, кто ползет) и т.п. Как правило, каждая индексная поисковая система имеет свою собственную программу, построенную по запатентованному алгоритму. Общий принцип действия индексных поисковых систем состоит в том, что они начинают просмотр Сети из некоторого заданного адреса Web-странички, копируют найденный документ на сервер своей системы, пересматривают его, находят в нем все гиперссылки, переходят за ними, находят новые документы, копируют их, проявляют в них гиперссылки, снова выполняют переход и т.д.
Поисковые роботы сканируют информационное пространство круглые сутки, не пропускают ни единого документа, не пересматривая лишь те Web-узлы, вход на которые защищен паролем. Спустя некоторое время (по заданному алгоритму) роботы возвращаются к прежде просмотренным ресурсам для того, чтобы узнать, не состоялись ли некоторые изменения. Об изменениях говорят размеры файлов и даты их создания. Повторные просмотры разрешают индексным поисковым системам очищать свои базы данных от ссылок на Web-ресурсы, которые уже не существуют и ссылки на которые утратили актуальность.

Индексация World Wide Web

Собранные копии Web-ресурсов - это лишь исходный материал. Проводить в них поиск информации, заданный пользователем, очень неудобно, поскольку это занимает много времени. Поэтому собранные данные проходят предварительную обработку, которая называется индексацией. Цель индексации - предварительная обработка сканированных документов и получение индексного файла, с помощью которого запрос пользователя можно быстро обработать. Каждая поисковая система проводит такую индексацию по своим алгоритмам, которые составляют коммерческую тайну системы.
Одним из примеров индексации есть индексация обратным файлом (инверсным файлом, inverted file). Обратный файл - это обычный словарь, в который входят все слова, выявленные на Web-страничках, скопированных с Web-пространства. Рядом с каждым словом проставляются номера Web-документов, в которых это слово было выявлено. Нередко проставляется и вес слова - число, которое показывает, как часто данное слово встретилось в данном Web-документе. Дополнительно прибавляется еще адресная таблица, в которой для каждого номера Web-документа указанная его URL-адреса.
Если, например, клиент дает задание на поиск документов, которые содержат слова справочник и энциклопедия, с помощью обратного файла будут получены два списка номеров документов. В первом содержатся документы, в которых встречается первое слово. Во втором - документы, в которые входит второе слово. Далее из этих списков будут выбранные лишь те документы, которые входят в первый и второй список одновременно. По номерам этих документов в адресной таблице определяются их URL-адреса. Прежде чем выдать клиенту эти адреса, как итог обработки запроса, происходит ранжирование результатов поиска.

<<< < Предыдущая 1 23 / 53 4 5 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
20.02.2016617.19 Кб27ОММ методичка.pdf
#
19.11.2019890.37 Кб10ОПГ.doc
#
08.09.201969.63 Кб8ОСНОВИ СПАДКОВОГО ПРАВА УКРАЇНИ.doc
#
20.02.2016273.92 Кб11ОсновиРимскЦП.doc
#
20.02.2016804.86 Кб22ОСПО білети.doc
#
20.02.201633.05 Кб28Ответы.docx
#
14.07.201948.37 Кб7отчет 5.docx
#
20.02.2016261.62 Кб15Отчет Моисеенко самій последний.docx
#
14.07.201949.37 Кб3отчет по 3 лабе (Автосохраненный).docx
#
03.11.2018548.86 Кб27отчёт-текст.doc
#
21.11.2018214.79 Кб57ПІДРУЧНИК.docx