- •Принцип адресации ресурсов в сети internet.
- •Принципы построения и модели работы поисковых машин разных поколений.
- •Современная модель работы поисковой системы.
- •Способы оценки степени релевантности запросу пользователя информации, найденной поисковой машиной.
- •Функции оценки релевантности tf/idf, PageRank, LexRank.
-
Принципы построения и модели работы поисковых машин разных поколений.
Поисковая машина – программная часть поисковой системы (поисковый движок), представляющая собой комплекс программ, обеспечивающий функциональность поисковой системы и обычно являющийся коммерческой тайной компании-разработчика поисковой системы.
-
Первое поколение. Эти поисковики уделяли внимание таким факторам, как частота ключевых слов на странице, заглавие страницы, место размещения ключевых слов в теле страницы и т. п. Среди прочих факторов значительную роль играли и мета-теги (keywords, description и другие). Также, желательно было, чтобы доменное имя и URL страницы содержали ключевые слова, что долгие годы было практически невозможно использовать для сайтов на кириллице, пока не появилась поддержка кирилличных доменов.
-
Второе поколение добавило к упомянутым выше факторам, влияющим на оценку релевантности, такие факторы, как количество внешних ссылок (индекс цитирования), сами характеристики таких ссылок (текст ссылки, релевантность ресурса, на котором она находится), количество прохождений по конкретной ссылке с данного поисковика и некоторые другие.
-
Третье поколение включает поисковые машины, способные понимать различные грамматические формы слов. Такие машины создают собственные карты, которые позволяют отфильтровывать такие явления, как дорвеи, сплеш-страницы, страницы, подаваемые приёмами клоакинга, и другие методы искусственного завышения популярности. На сегодняшний день поисковые системы Яндекс и Google умеют различать словоформы и достаточно грамотно находят релевантные к данному запросу страницы, не смотря на различия в падежах.
-
Современная модель работы поисковой системы.
Поисковые машины состоят из трёх основных элементов: индексатора, индекса и программного обеспечения поисковой машины.
Индексатор, или, как его ещё называют, «поисковый робот» считывает информацию с web-страницы и переходит по ссылкам на другие страницы этого же web-сайта. Web-сайты просматриваются регулярно (несколько раз в месяц); это необходимо, чтобы следить за изменениями. Все данные о найденной информации поступают во вторую часть поисковой машины.
Индекс (каталог) хранит все, найденные индексатором данные о страницах. При изменении web-страницы, со временем меняется и информация о ней в индексе. Пока данные о web-странице не попали в каталог, страница недоступна для поисковой машины.
Программное обеспечение поисковой машины – её третья составляющая. Эта программа просеивает миллионы записанных в каталог страниц, чтобы найти информацию, отвечающую цели поиска, и затем ранжирует их по степени соответствия заданному запросу.
-
Способы оценки степени релевантности запросу пользователя информации, найденной поисковой машиной.
Релевантность в информационном поиске – семантическое соответствие поискового запроса и поискового образа документа. В более общем смысле, одно из наиболее близких понятию качества «релевантности» — «адекватность», то есть не только оценка степени соответствия, но и степени практической применимости результата, а также степени социальной применимости варианта решения задачи.
Вначале на релевантность влияли такие показатели, как плотность ключевых слов на странице и текст заголовков, но после того, как хитрые оптимизаторы научились этим пользоваться, поисковики поменяли алгоритмы поиска. В основе внешних критериев релевантности лёг принцип цитируемости. Этот принцип подразумевает, что релевантность сайта определяется тем, насколько много других сайтов ссылается на данный сайт. Объясняется это тем, что чем больше сайтов рекомендуют посетителям зайти на этот ресурс, тем более высокую оценку получает он у поисковой машины. Но когда появилось множество так называемых каталогов, где любой желающий мог просто купить эти ссылки, этот метод устарел.
Затем обратили внимание не только на количество, но и на качество ссылок. По этой причине 90% каталогов стали абсолютно бесполезны. Компания Google первой модернизировала свою поисковую машину. Поисковый робот не просто бродил по сети и собирал ссылки, но и смотрел, на каких сайтах они находятся, оценивал важность каждой ссылки. Новый алгоритм поиска получил название PageRank, и сводился к попытке оценивать каждый документ с учётом его веса в среде всех других проиндексированных документов сети, ссылающихся на оцениваемый.
Тематический индекс цитирования (тИЦ) определяет «авторитетность» Интернет-ресурсов с учётом качественной характеристики ссылок на них с других сайтов. Эту качественную характеристику называют «весом» ссылки. Рассчитывается она по специально разработанному алгоритму. Большую роль играет тематическая близость ресурса и ссылающихся на него сайтов. Само по себе количество ссылок на ресурс также влияет на значение его тИЦ, но тИЦ определяется не количеством ссылок, а суммой их весов.
тИЦ как средство определения авторитетности ресурсов призван обеспечить релевантность расположения ресурсов в рубриках каталога Яндекса.
