Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
шпора медиа.docx
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
104.88 Кб
Скачать

Билет 22 Мета и мультипоисковые машины

Метапоиск. Базы д-х поисковых систем интернета отличатся и по объему и по содержанию. Кроме того вычисления релевантности результатов выполняется разными алгоритмами. Релевантность – числовая характеристика отражающая степень соответствия полученных результатов ожиданием пользователя. Вот почему мощный ЯНДЕКС порой не выдает нужного результата на обозримом количестве первых ссылок. А менее мощный АПОРТ неожиданно выкладывает горячую информацию на первую страницу. В сложных случаях приходится пользоваться услугами нескольких поисковых систем. Именно поэтому в Сети завоёвывают популярность поисковики нового типа: метапоисковые машины.У этих поисковиков нет собственных баз д-х. Они обращаются к «настоящим» поисковым системам (индексы, каталоги, рейтинги), переадресуя им запрос пользователя, а затем суммируют результаты, удаляя дублирующиеся записи и сортируя сводный список по релевантности.Кроме метапоисковых систем в Сети существуют более простые мультипоисковые машины (мультипоисковые формы) – они не суммируют результаты, полученные от поисковиков, а предлагают их для обозрения в отдельных окнах.: xrambler.ru

Примеры популярных метапоисковых систем рассмотрим более подробно. MetaBot - www.metabot.ru – возм-ть явного задания набора поисковиков отсутствует. Если выбран «русский» поиск, он выполняется при помощи серверов:

Рамблер, Апорт, Google, AltaVista, MSN

Для поиска по всему миру используются –AltaVista, MSN.В дополнение к обычному поиску MetaBot поддерживает язык запросов, в котором присутствуют эл-ты. Nigmanigma.ru – есть возможность явно задать набор систем поиска.В каждой результирующей записи присутствует ссылка на поисковики.

Билет 25 Индексы (состав и схема работы, популярные индексы)

Каталоги и рейтинги удобны для поиска сайтов по теме, но они плохо помогают, когда нужно найти конкретную информацию или фрагмент текста, содержащий определенные ключевые слова.Кроме того, каталоги и рейтинги охватывают лишь очень небольшую часть Интернета, и даже в ней плохо отслеживают изменения, которые происходят в Интернете каждый день.Более мощным инструментом поиска с широким охватом Сети являются индексы (поисковые системы, поисковики) — сервера, которые автоматически, при помощи специальных программ (их называют пауками) постоянно сканируют страницы Интернета и индексируют их, то есть заносят в свою огромную базу д-х.Когда пользователь выдает запрос в индекс, поиск выполняется уже не в Интернете, а в базе д-х индекса, и поэтому отнимает очень мало времени.

На сервере индекса располагаются: 1)База д-х по страницам Интернета: сами страницы в сжатом виде и словарь по ним (индекс). 2)Программы для сбора страниц Интернета (пауки). 3)Программа для поиска информации в базе д-х.4)Сайт, на котором пользователь может записывать запросы на поиск и просматривать результаты. Состав и схема работы индекса. Сетевые пауки трудятся непрерывно и автономно: они обшаривают по гипертекстовым ссылкам все закоулки Паутины и заносят информацию в базу д-х, периодически проводя ревизию уже проиндексированного материала. Популярные сайты с быстро обновляемым содержимым (новостные порталы, интернет-магазины, аукционы и т.п.) переиндексируются несколько раз в час, обычные — несколько раз в месяц или реже.Стартовыми точками для пауков яв-ся крупные популярные сайты.Паук начинает свой путь с такого сайта, обрабатывает его и двигается дальше по внешним ссылкам сайта.При вычислении веса ссылки, связанной со словом из индекса учитываются следующие факторы:1)Индекс цитирования документа (ИЦ). Более весомым считается документ, на который есть много ссылок с других сайтов, причем цитирование с крупных популярных сайтов оценивается выше.2)Свежесть страницы. Вес ссылки выше для более “свежих” страниц, то есть страниц с более новой датой обновления.3)Написание ссылки. Ссылка имеет повышенный вес, если слово входит в состав самой ссылки (например, слово microsoft входит в состав ссылки на сайт компании: www.microsoft.com).

  1. Ссылка имеет повышенный вес, если слово входит в состав названия окна, в которое выводится страница документа. В HTML-коде название окна задается тегом TITLE.Вес ссылки повышается, если слово входит в состав списка ключевых слов страницы (тег META с атрибутом keywords), или в состав описания страницы (тег META с атрибутом description), или если слово входит в состав альтернативного текста картинки (атрибут alt тега IMG).Кроме того, при подсчете веса ссылки учитываются разные параметры появления слова (к которому относится ссылка) в тексте документа: 1)Форматирование. Больший вес имеют документы, в которых слово встречается в заголовках и разного рода выделениях (жирность, курсив, повышенный размер шрифта). 2)Место слова в документе. Больший вес имеют док-ы, в кот-х слово встречается в начале док-а, а также в навигационном меню сайта или страницы. 3)Частота появления слова в документе. Документ, в кот-м слово встречается чаще, имеет больший вес.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]