- •2012 Г. Оглавление
- •Адресация ресурсов в сети Интернет
- •Способы оценки релевантности
- •Понятие и функции поисковой системы
- •Модели работы поисковых машин разных поколений
- •Состав и принципы работы поисковой системы
- •Модуль индексирования
- •База данных
- •Поисковый сервер
- •Расширенный режим подачи запросов к поисковой системе
- •Форма расширенный поиск Яндекса
- •Язык запросов Яндекса
- •Поисковый контекст
- •Документные операторы
- •Язык запросов Google
- •Функции оценки релевантности.
- •PageRank
- •LexRank
- •Методы борьбы с нерелевантным содержимым
- •Список используемых источников
Функции оценки релевантности.
TF-IDF
TF-IDF (от англ. TF — term frequency, IDF — inverse document frequency) — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален количеству употребления этого слова в документе, и обратно пропорционален частоте употребления слова в других документах коллекции.
Мера TF-IDF часто используется в задачах анализа текстов и информационного поиска, например, как один из критериев релевантности документа поисковому запросу, при расчёте меры близости документов при кластеризации.
Структура формулы:
TF (term frequency — частота слова) — отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом, оценивается важность слова ti в пределах отдельного документа.
,
где ni есть число вхождений слова в документ, а в знаменателе — общее число слов в данном документе.
IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции. Учёт IDF уменьшает вес широкоупотребительных слов.
где
|D| — количество документов в корпусе;
![]()
—количество
документов, в которых встречается ti
(когда ).
Таким образом, мера TF-IDF является произведением двух сомножителей: TF и IDF.
Большой вес в TF-IDF получат слова с высокой частотой в пределах конкретного документа и с низкой частотой употреблений в других документах.
Пример
Если документ содержит 100 слов и слово «заяц» встречается в нём 3 раза, то частота слова (TF) для слова «заяц» в документе будет 0,03 (3/100). Один из вариантов вычисления частоты документа (DF) определяется как количество документов содержащих слово «заяц», разделенное на количество всех документов. Таким образом, если «заяц» содержится в 1000 документов из 10 000 000 документов, то частота документа (DF) будет равной 0,0001 (1000/10000000). Для расчета окончательного значения веса слова необходимо разделить TF на DF (или умножить на IDF). В данном примере, TF-IDF вес для слова «заяц» в выбранном документе будет 300 (0,03/0,0001).[TFIDF]
PageRank
PageRank (пэйдж-ранк) — один из алгоритмов ссылочного ранжирования. Алгоритм применяется к коллекции документов, связанных гиперссылками (таких, как веб-страницы из всемирной паутины), и назначает каждому из них некоторое численное значение, измеряющее его «важность» или «авторитетность» среди остальных документов. Вообще говоря, алгоритм может применяться не только к веб-страницам, но и к любому набору объектов, связанных между собой взаимными ссылками, то есть к любому графу.
PageRank — это числовая величина, характеризующая «важность» веб-страницы. Чем больше ссылок на страницу, тем она становится «важнее». Кроме того, «вес» страницы А определяется весом ссылки, передаваемой страницей B. Таким образом, PageRank — это метод вычисления веса страницы путём подсчёта важности ссылок на неё.
Упрощенный алгоритм вычисления PageRank(на примере)
Пусть имеется небольшое множество, состоящее из 4 страниц: A, B, C и D. Начальное приближение PageRank одинаково распределится между этими документами. То есть, для каждой страницы значение PageRank будет равняться 0.25.
Если страницы B, C, and D ссылаются лишь на страницу A, то они отдадут по 0.25 значения PageRank странице A. Таким образом,
![]()
Значение PR(A) = 0.75.
Предположим, что страница B ссылается на страницы C и A, а страница D ссылается на все три страницы. Количество голосов (ссылок) распределяется между всеми внешними ссылками на странице. Таким образом, страница B отдает голос, значением в 0.125 странице A и голос значением в 0.125 странице C. Только треть PageRank страницы D подсчитывается для PageRank страницы A (примерно 0.083).
![]()
В общем случае, значение PageRank для страницы u может быть выражено так:
,
то есть значение PageRank для страницы u зависит от значений PageRank для каждой страницы v из множества Bu (это множество содержит в себе все страницы,ссылающихся на страницу u), подделеных на число L(v) ссылок на странице v.[PageRank]
