Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лаб раб05.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
261.12 Кб
Скачать

2.2. Индексация World Wide Web

  • Собранные копии Web-ресурсов - это лишь исходный материал. Проводить в них поиск информации, заданный пользователем, очень неудобно, поскольку это занимает много времени. Поэтому собранные данные проходят предварительную обработку, которая называется индексацией. Цель индексации - предварительная обработка сканированных документов и получение индексного файла, с помощью которого запрос пользователя можно быстро обработать. Каждая поисковая система проводит такую индексацию по своим алгоритмам, которые составляют коммерческую тайну системы.

  • Одним из примеров индексации есть индексация обратным файлом (инверсным файлом, inverted file). Обратный файл - это обычный словарь, в который входят все слова, выявленные на Web-страничках, скопированных с Web-пространства. Рядом с каждым словом проставляются номера Web-документов, в которых это слово было выявлено. Нередко проставляется и вес слова - число, которое показывает, как часто данное слово встретилось в данном Web-документе. Дополнительно прибавляется еще адресная таблица, в которой для каждого номера Web-документа указанная его URL-адреса.

  • Если, например, клиент дает задание на поиск документов, которые содержат слова справочник и энциклопедия, с помощью обратного файла будут получены два списка номеров документов. В первом содержатся документы, в которых встречается первое слово. Во втором - документы, в которые входит второе слово. Далее из этих списков будут выбранные лишь те документы, которые входят в первый и второй список одновременно. По номерам этих документов в адресной таблице определяются их URL-адреса. Прежде чем выдать клиенту эти адреса, как итог обработки запроса, происходит ранжирование результатов поиска.

  • Еще одним примером индексации есть применения технологии PageRank, которая для оценки информационной полезности Web-ресурсов использует принцип своеобразного голосования: если страница А ссылается на страницу Б, она тем самым "голосует" за нее, чем повышает ее рейтинг. Кроме того, каждый "голос" имеет собственный вес - ссылка с страницы с высоким рейтингом "весит" больше, чем ссылка с неизвестного сайта. Алгоритм PageRank подобен алгоритму, который используется в процессе определения победителя шахматного турнира, который проводится за швейцарской системой. Такую технологию используют система Google и частично <МЕТА>.

2.3. Ранжирование результатов поиска

Ранжирование результатов поиска - очень важный этап, качество которого определяет удовлетворенность клиента результатами поиска. Современные индексные поисковые системы работают с миллиардами Web-документов, и потому отчеты о результатах поиска часто содержат сотни тысяч адресов. Чаще пользователю достаточно около десяти ссылок, но на наилучшие информационные ресурсы.

На этапе ранжирования поисковая система старается по своим алгоритмам определить ценность каждого из найденных ресурсов и упорядочить их таким образом, чтобы наиболее ценные (с точки зрения системы) располагались в начале списка. Для этого каждому ресурсу дается некоторая условная оценка. При ее подсчете отдельным Web-ресурсам могут начисляться призовые баллы, а некоторым - штрафные.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]