Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
46
Добавлен:
28.06.2014
Размер:
228.17 Кб
Скачать

LexRank

Алгоритм вычисления этого показателя основан на следующей идее: в документе находятся «центральные» предложения, которые содержат необходимое и достаточное количество информации об основной теме документа.

Центральность сообщения обычно понимается как центральность тех слов, которые оно содержит. Обычно для оценки центральности слова прибегают к сравнению его с так называемым центроидом набора документов в векторном пространстве. Центроид – это псевдо-документ, который содержит все слова, для которых рассчитанный показатель tf-idfпревышает некоторую заданную границу. В некоторых алгоритмах, основанных на этой идее, предложения, которые содержат большое количество слов, принадлежащих центроиду, считаются центральными.

При использовании алгоритма LexRankпоступают следующим образом:

Набор документов представляют в виде сети предложений, которые некоторым образом относятся друг к другу. Некоторые из предложений имеют больше общего с другими, а некоторые имеют лишь небольшой объем общей информации с остальными. Предположение авторов алгоритма заключается в том, что те предложения, которые связаны с большим количеством других предложений, являются более центральными по отношению к теме.

Нам необходимо выяснить, как вычислять похожесть двух предложений в конкретном тексте и как вычислять общую меру схожести одного предложения по отношению ко всем остальным.

Первая величина определяется как косинус угла между двумя векторами в N-мерном пространстве (N-количество всех слов в языке, на котором написан текст). Элементы вектора являются произведениями числа вхождений слова в предложения иidfслова. Так, мы приходим к формуле:

, где - число вхождений слова в предложение

Набор документов характеризуется матрицей схожести, каждый элемент которой соответствует вычисленной величине схожести между парой предложений. Эту матрицу можно интерпретировать как матрицу связности взвешенного графа, содержащую веса ребер.

Формальное обоснование алгоритма вычисления LexRankопирается на теорию цепей Маркова и является довольно громоздким. Опустим его. Суть алгоритма заключается в том, что мы на основе некоторой заданной границы строим по исходному графу граф схожести. После этого те элементы матрицы схожести, которые больше заданной границы, заменяются единицами, а остальные обнуляются. Затем ненулевые элементы матрицы схожести умножаются на степень вершины в графе схожести. Нормированный вектор собственных значений полученной матрицы и содержит значения величиныLexRankдля каждого из предложений.

Существует модификация этого показателя – непрерывный LexRank. Его идея заключается в том, что не стоит заменять значения в матрице схожести на единицы, а использовать их нормированные значения при вычислении показателя по следующей формуле:

Коэффициент затухания dприсутствует в формуле для обеспечения сходимости метода, остальные обозначения имеют очевидный смысл.

PageRank

PageRank (пэйдж-ранк) — один из алгоритмов ссылочного ранжирования. Алгоритм применяется к коллекции документов, связанных гиперссылками (таких, как веб-страницыиз всемирной паутины), и назначает каждому из них некоторое численное значение, измеряющее его «важность» или «авторитетность» среди остальных документов. Вообще говоря, алгоритм может применяться не только к веб-страницам, но и к любому набору объектов, связанных между собой взаимными ссылками, то есть к любому графу.

Этот показатель вычисляется при помощи алгоритма, основанного на графе, вершинами которого выступают веб-страницы, а ребрами являются гиперссылки. Значение PageRankпоказывает значимость конкретной страницы. Эта величина определяется рекурсивно и зависит от количества и значенийPageRankвсех страниц, на которых расположены ссылки на текущую страницу. Страница, которая соединена с множеством страниц, имеющих высокий показательPageRank, и сама получает высокое значение этого показателя.

Сам алгоритм вычисления этой величины основан на следующем принципе: эта величина принимает значение от 0 до 1, которое показывает, насколько правдоподобным является тот факт, что человек, произвольным образом кликающий на ссылки, попадает на конкретную страницу. В некоторых научных работах полагают, что при начале вычислений эти вероятности должны быть поровну разделены между всеми документами коллекции. Вычисления показателя PageRankтребуют нескольких «проходов» по всей коллекции документов. Это делается для того, чтобы полученные показатели наиболее точно отражали реальное соотношение «важности» документов коллекции.

Приведем упрощенную схему алгоритма вычисления PageRank

Предположим, что в нашей коллекции имеется всего 4 веб-страницы: A,B,CиD. Первоначальные значенияPRдля всех страниц будут равны 0.25.

В оригинальном алгоритме все начальные значения были бы равны 1. Это было сделано для того, чтобы суммарные значения PageRankравнялись общему числу веб-страниц на тот момент. Более поздние модификации алгоритма инициализировали значения показателей значениями, полученными из некоторого распределения.

Если у каждой из страниц B,CиDимеются ссылки только на страницуA, тоPR(A) будет равен суммеPR(B),PR(C) иPR(D), так как все ссылки в этой простой системе будут указывать наA:

Предположим теперь, что на странице Bрасположена ссылка на страницыAиC, а на страницеDимеется ссылка на все документы коллекции. В этом случае показательPR(A) необходимо рассчитывать так:

Получается, что каждая из страниц дает вклад в значение PR, равныйPRэтой страницы, отнесенной к количеству исходящих ссылок (каждая ссылка на конкретный уникальный документ учитывается только один раз).

В общем случае значение этого показателя для произвольной страницы uможет быть вычислено по приведенной ниже формуле:

, где– множество страниц, с которых имеются ссылки на страницуu, а– функция, значение которой показывает число исходящих ссылок со страницы.

Также при вычислении этой величины иногда исходят из предположения, что даже воображаемый интернет-серфер рано или поздно остановит просмотр. Вводят специальную величину – dampingfactor(коэффициент затухания). Этот коэффициент показывает, какова вероятность того, что на произвольном шаге пользователь (возможно, воображаемый) продолжает просмотр. Опытным путем были получены различные значения этой величины, но обычно предполагается, что этот коэффициент примерно равен 0.85.

В случае, если мы хотим учитывать этот фактор, формула для подсчета PRслегка модифицируется и принимает вид:

, гдеd–dampingfactor,N– число документов в коллекции.

По информации, полученной от одного из сотрудников Google, эта технология больше не применяется в их системе ранжирования результатов выдачи.

Соседние файлы в папке Лабораторная работа 1