Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
36
Добавлен:
28.06.2014
Размер:
116.08 Кб
Скачать
  1. Функции оценки релевантности.

    1. TF-IDF

TF-IDF (от англ. TF — term frequency, IDF — inverse document frequency) — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален количеству употребления этого слова в документе, и обратно пропорционален частоте употребления слова в других документах коллекции.

Мера TF-IDF часто используется в задачах анализа текстов и информационного поиска, например, как один из критериев релевантности документа поисковому запросу, при расчёте меры близости документов при кластеризации.

Структура формулы:

TF (term frequency — частота слова) — отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом, оценивается важность слова ti в пределах отдельного документа.

 ,

где ni есть число вхождений слова в документ, а в знаменателе — общее число слов в данном документе.

IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции. Учёт IDF уменьшает вес широкоупотребительных слов.

где

|D| — количество документов в корпусе;

—количество документов, в которых встречается ti (когда ).

Таким образом, мера TF-IDF является произведением двух сомножителей: TF и IDF.

Большой вес в TF-IDF получат слова с высокой частотой в пределах конкретного документа и с низкой частотой употреблений в других документах.

Пример

Если документ содержит 100 слов и слово «заяц» встречается в нём 3 раза, то частота слова (TF) для слова «заяц» в документе будет 0,03 (3/100). Один из вариантов вычисления частоты документа (DF) определяется как количество документов содержащих слово «заяц», разделенное на количество всех документов. Таким образом, если «заяц» содержится в 1000 документов из 10 000 000 документов, то частота документа (DF) будет равной 0,0001 (1000/10000000). Для расчета окончательного значения веса слова необходимо разделить TF на DF (или умножить на IDF). В данном примере, TF-IDF вес для слова «заяц» в выбранном документе будет 300 (0,03/0,0001).[TFIDF]

    1. PageRank

PageRank (пэйдж-ранк) — один из алгоритмов ссылочного ранжирования. Алгоритм применяется к коллекции документов, связанных гиперссылками (таких, как веб-страницы из всемирной паутины), и назначает каждому из них некоторое численное значение, измеряющее его «важность» или «авторитетность» среди остальных документов. Вообще говоря, алгоритм может применяться не только к веб-страницам, но и к любому набору объектов, связанных между собой взаимными ссылками, то есть к любому графу.

PageRank — это числовая величина, характеризующая «важность» веб-страницы. Чем больше ссылок на страницу, тем она становится «важнее». Кроме того, «вес» страницы А определяется весом ссылки, передаваемой страницей B. Таким образом, PageRank — это метод вычисления веса страницы путём подсчёта важности ссылок на неё.

Упрощенный алгоритм вычисления PageRank(на примере)

Пусть имеется небольшое множество, состоящее из 4 страниц: ABC и D. Начальное приближение PageRank одинаково распределится между этими документами. То есть, для каждой страницы значение PageRank будет равняться 0.25.

Если страницы BC, and D ссылаются лишь на страницу A, то они отдадут по 0.25 значения PageRank странице A. Таким образом,

Значение PR(A) = 0.75.

Предположим, что страница B ссылается на страницы C и A, а страница D ссылается на все три страницы. Количество голосов (ссылок) распределяется между всеми внешними ссылками на странице. Таким образом, страница B отдает голос, значением в 0.125 странице A и голос значением в 0.125 странице C. Только треть PageRank страницы D подсчитывается для PageRank страницы A (примерно 0.083).

В общем случае, значение PageRank для страницы u может быть выражено так:

,

то есть значение PageRank для страницы u зависит от значений PageRank для каждой страницы v из множества Bu (это множество содержит в себе все страницы,ссылающихся на страницу u), подделеных на число L(v) ссылок на странице v.[PageRank]

Соседние файлы в папке Лабораторная работа 1