- •Лабораторная работа №1
- •Сетевые адреса
- •Доменные имена
- •Способы оценки релевантности
- •Функции оценки релевантности
- •LexRank
- •PageRank
- •Современная модель работы поисковой системы
- •Классификация ипс
- •Выполнение основной части работы
- •Методы борьбы с нерелевантным содержимым в выдаче
- •Анализ функций оценки релевантности
Способы оценки релевантности
Дадим определения основным понятиям, которые будут использоваться далее.
Релева́нтность (лат.relevo — поднимать, облегчать) винформационном поиске— семантическое соответствие поискового запроса и поискового образа документа. В более общем смысле, одно из наиболее близких понятию качества «релевантности» — «адекватность», то есть не только оценка степени соответствия, но и степени практической применимости результата, а также степени социальной применимости варианта решения задачи.
Релевантность бывает двух видов:
содержательная
четкого формального критерия для определения соответствия документа запросу не существует. На практике применяется большое число методов оценки релевантности (например, TF-IDFметод)
формальная
формальная релевантность определяется как соответствие, определяемое путем сравнения образа поискового запроса с поисковым образом документа по определенному алгоритму.
Другим важным термином является пертинентность. Дадим определение этому понятию:
Пертине́нтность (лат.pertineo — касаюсь, отношусь) — соответствие найденных информационно-поисковой системой документов информационным потребностям пользователя, независимо от того, как полно и как точно эта информационная потребность выражена в тексте информационного запроса. Иначе говоря, это соотношение объёма полезной информации к общему объёму полученной информации.
Из того, что документ является релевантным какому-то запросу, вообще говоря, не следует, что он является пертинентным, и наоборот.
Перейдем к рассмотрению основных функций, используемых для оценки релевантности документа запросу.
Функции оценки релевантности
Рассмотрим три наиболее часто используемые функции оценки релевантности:
TF-IDF
LexRank
PageRank
TF-IDF
Этот метод подсчета релевантности результатов поиска является достаточно распространенным, возможно, в силу простоты и привлекательности заложенной в нем идеи. Суть этого метода заключается в том, что, чем больше локальная частота термина (запроса) (TF–termfrequency) в документе и больше «редкость» термина во всей коллекции документов, тем выше вес данного документа (результата поиска) по отношению к термину. Именно документ, имеющий наибольший вес по отношению к конкретному термину, будет выдан первым в результатах поиска по данному термину.
Приведем один из вариантов формулы расчета этого показателя:
TF (term frequency — частота слова) — отношение числа вхождения некоторого слова к общему количеству слов документа. Так оценивается важность слова t в пределах отдельного документа. Вычисляется этот показатель обычно так:
,
где ni есть
число вхождений слова t
в документ, а в знаменателе находится
общее число слов в документе d
IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции. Учёт IDF уменьшает вес широкоупотребительных слов.
,
где |D| — количество документов в коллекции
документов, а
— количество документов, в которых
встречаетсяt(иногда,
чтобы избежать возможного деления на
0, к знаменателю прибавляют 1 или же
вычисляютidfтолько в
случае, еслиtf(t,d)
не равно 0).
Результирующая мера получается при помощи перемножения полученных чисел tfиidf.
Вообще говоря, показатель TFнеобязательно вычислять именно отношением числа вхождений слова в документ к общему количеству слов. Возможно большое количество модификаций этого показателя. Так, иногда вычисляют логарифм полученной величиныTFи т.п.
