Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
46
Добавлен:
28.06.2014
Размер:
228.17 Кб
Скачать

Способы оценки релевантности

Дадим определения основным понятиям, которые будут использоваться далее.

Релева́нтность (лат.relevo — поднимать, облегчать) винформационном поиске— семантическое соответствие поискового запроса и поискового образа документа. В более общем смысле, одно из наиболее близких понятию качества «релевантности» — «адекватность», то есть не только оценка степени соответствия, но и степени практической применимости результата, а также степени социальной применимости варианта решения задачи.

Релевантность бывает двух видов:

  • содержательная

    • четкого формального критерия для определения соответствия документа запросу не существует. На практике применяется большое число методов оценки релевантности (например, TF-IDFметод)

  • формальная

    • формальная релевантность определяется как соответствие, определяемое путем сравнения образа поискового запроса с поисковым образом документа по определенному алгоритму.

Другим важным термином является пертинентность. Дадим определение этому понятию:

Пертине́нтность (лат.pertineo — касаюсь, отношусь) — соответствие найденных информационно-поисковой системой документов информационным потребностям пользователя, независимо от того, как полно и как точно эта информационная потребность выражена в тексте информационного запроса. Иначе говоря, это соотношение объёма полезной информации к общему объёму полученной информации.

Из того, что документ является релевантным какому-то запросу, вообще говоря, не следует, что он является пертинентным, и наоборот.

Перейдем к рассмотрению основных функций, используемых для оценки релевантности документа запросу.

Функции оценки релевантности

Рассмотрим три наиболее часто используемые функции оценки релевантности:

  • TF-IDF

  • LexRank

  • PageRank

TF-IDF

Этот метод подсчета релевантности результатов поиска является достаточно распространенным, возможно, в силу простоты и привлекательности заложенной в нем идеи. Суть этого метода заключается в том, что, чем больше локальная частота термина (запроса) (TF–termfrequency) в документе и больше «редкость» термина во всей коллекции документов, тем выше вес данного документа (результата поиска) по отношению к термину. Именно документ, имеющий наибольший вес по отношению к конкретному термину, будет выдан первым в результатах поиска по данному термину.

Приведем один из вариантов формулы расчета этого показателя:

TF (term frequency — частота слова) — отношение числа вхождения некоторого слова к общему количеству слов документа. Так оценивается важность слова t в пределах отдельного документа. Вычисляется этот показатель обычно так:

, где ni есть число вхождений слова t в документ, а в знаменателе находится общее число слов в документе d

IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции. Учёт IDF уменьшает вес широкоупотребительных слов.

, где |D| — количество документов в коллекции документов, а— количество документов, в которых встречаетсяt(иногда, чтобы избежать возможного деления на 0, к знаменателю прибавляют 1 или же вычисляютidfтолько в случае, еслиtf(t,d) не равно 0).

Результирующая мера получается при помощи перемножения полученных чисел tfиidf.

Вообще говоря, показатель TFнеобязательно вычислять именно отношением числа вхождений слова в документ к общему количеству слов. Возможно большое количество модификаций этого показателя. Так, иногда вычисляют логарифм полученной величиныTFи т.п.

Соседние файлы в папке Лабораторная работа 1