Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Хайретдинов_Лекции_СИТ-n.doc
Скачиваний:
2
Добавлен:
01.04.2025
Размер:
13.84 Mб
Скачать

Что такое PageRank или что надо знать о pr.

Как известно, статус сайта в Интернете измеряется в двух величинах: Яндекс тИЦ и Google PageRank. Про первую есть отдельная статья, а вот с тем, что за зверь такой - Google PageRank - мы сейчас постараемся разобраться.

Прежде всего, стоит сказать, что PR высчитывается по достаточно сложному алгоритму, который, как и в случае с тИЦ, известен только работникам самого поисковика, в нашем случае - Google - крупнейшей и популярнейшей поисковой машины в мире.

Основная задача поисковой машины, как известно, не просто найти все страницы, содержащие нужную информацию, а упорядочить найденные документы так, чтобы наиболее полезная информация отображалась выше, чем менее важная. К тому же те алгоритмы ранжирования, которые были разработаны для коллекций документов, используемых поисковиками при поиске, оказались беззащитны перед простейшими способами воздействия на них, когда для обеспечения хорошего результата достаточно было просто скопировать порядок расположения ключевых слов из текста, хорошо ранжируемого по этому запросу документа. Появилась необходимость разделять информацию на более и менее достоверную, учитывать важность, авторитетность и уникальность данных на ресурсах, предоставляющих ее. Остаётся выбрать оптимальный способ для этого. Лучше всего на основе данных о популярности страницы у пользователей, например посещаемости. Но тогда потребуется устанавливать какой-либо счетчик на каждую страницу (А именно так и сделал, к примеру, Rambler со своим счётчиком Rambler top100). Такой вариант для глобального поиска не подходит - всё-таки Рамблер - это исключение из правила. Тогда в качестве критерия была выбрана теоретическая посещаемость страницы.

Была разработана модель, эмулирующая движение пользователя по документам сети путем перехода по ссылкам с документа на документ, подразумевающая, что пользователь с равной долей вероятности перейдет по любой из ссылок, содержащихся в документе, который он в данный момент просматривает. То есть вероятность пользователя попасть на конкретный документ зависит от количества ссылок на него с других документов и от того, насколько вероятно нахождение пользователя на одном из ссылающихся документов и сколько уникальных исходящих ссылок содержит этот ссылающийся документ. Именно эта вероятность и была принята за показатель авторитетности или ранг страницы (PageRank): PR a = (1-d) + d * ([Сумма от i=1 до n] PRi/Ci), где

PR a – PageRank рассматриваемой страницы, d – коэффициент затухания (означает вероятность того, что пользователь, зашедший на страницу, перейдет по одной из ссылок, содержащейся на этой странице, а не прекратит путешествие по сети, обычно устанавливается равным 0,85), PR i – PageRank i-й страницы, ссылающейся на страницу a, C i – общее чисто ссылок на i-й странице.

Одним из самых распространенных заблуждений, связанных с PageRank является то, что можно вычислить PageRank по этой формуле для отдельно взятого документа, используя уже известные значения PageRank для документов, ссылающихся на него. На самом деле всё намного сложнее. Чтобы подсчитать PageRank одного документа, надо составить систему из N линейных уравнений данного вида для каждого из документов из поисковой базы, где число N – количество документов в поисковой базе. Эта система будет содержать N неизвестных. Решив ее, получим значения PageRank для каждого документа, известного поисковой машине. В поисковой базе крупнейших поисковых машин содержится огромнейшее число документов. Несмотря на то, что матрица, соответствующая системе уравнений будет сильно разряжена, численное решение этой системы требует огромных вычислительных мощностей. Поэтому поисковая система должна постараться максимально упростить процесс расчета, вводя некоторые допущения. Вот эти конкретные особенности реализации классической формулы PageRank, увы, составляют коммерческую тайну поисковых машин.

Возникает логичный вопрос: "А как узнать свой PageRank или PageRank какого-либо сайта? Узнать PageRank можно с помощью Google Toolbar - надстройки для браузера от крупнейшего мирового поисковика.

Ange1's fall - специально для promote-sites.by.ru