Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
46
Добавлен:
28.06.2014
Размер:
228.17 Кб
Скачать

Анализ функций оценки релевантности

TF-IDF

Преимущества

  • привязка к частотной характеристике (обратной частоте документа), которая заметно занижает вес распространённых слов, несущих не высокую смысловую нагрузку

Недостатки

  • существенное занижение веса документов включающих схожие определения

  • документов большой длины, которые по определению будут проигрывать по tf коэффициенту

  • завышение веса «коротких» документов

  • не учитывается связность слов, входящих в документ, он представляется просто набором слов

PageRank

Недостатки

  • Метод отдает предпочтение старым страницам, поскольку, как хороша бы ни была только что созданная страница , для набора достаточного количества ссылок требуется значительный промежуток времени

  • Метод провоцирует создание так называемых «ферм ссылок» и прочих методов с целью искусственного повышения этого показателя

LexRank

Поскольку этот алгоритм использует и меру tf-idfна одном из этапов, и идею, схожую с алгоритмомPageRank, то этот метод совмещает в определенной степени недостатки каждого из приведенных методов (однако, возможно, не в таком явном виде). Этот метод является достаточно молодым, но, несмотря на свою новизну, уже неплохо зарекомендовал себя в области автоматического обобщения (summarization) текстов.

Приложение 1. Операторы языка запросов Yandex

Пример

Значение

"К нам на утренний рассол"

Слова идут подряд в точной форме

"Прибыл * посол"

Пропущено слово в цитате

полгорбушки & мосол

Слова в пределах одного предложения

снаряжайся && добудь

Слова в пределах одного документа

технический прогресс +антирес

Поиск документов, в которых обязательно встречается определённое слово

глухаря | куропатку | кого-нибудь

Поиск любого из слов

не смогешь << винить

Неранжирующее "и": выражение после оператора не влияет на позицию документа в выдаче

я должон /2 казнить

Расстояние в пределах двух слов в любую сторону (то есть между заданными словами может встречаться одно слово)

государственное дело && /3 улавливаешь нить

Расстояние в 3 предложения в любую сторону

нешто я ~~ пойму

Исключение слова пойму из поиска

при моем /+2 уму

Расстояние в пределах двух слов в прямом порядке

чай ~ лаптем

Поиск предложения, где слово чай встречается без слова лаптем

щи /(-1 +2) хлебаю

Расстояние от одного слова в обратном порядке до двух слов в прямом

!Соображаю !что !чему

Слова в точной форме с заданным регистром

получается && (+на | !мне)

Скобки формируют группы в сложных запросах

!!политика

Словарная форма слова

title:(в стране)

Поиск по заголовкам документов

url:ptici.narod.ru/ptici/kuropatka.htm

Поиск по URL

беспременно inurl:vojne

Поиск с учетом фрагмента URL

host:lib.ru

Поиск по хосту

rhost:ru.lib.*

Поиск по хосту в обратной записи

site:http://www.lib.ru/PXESY/FILATOW

Поиск по всем поддоменам и страницам заданного сайта

mime:pdf

Поиск по одному типу файлов

lang:en

Поиск с ограничением по языку

domain:ru

Поиск с ограничением по домену

date:200712*

Поиск с ограничением по дате

date:20071215..20080101, date:>20091231

Поиск с ограничением по интервалу дат

cat:11000051

Поиск по рубрике Яндекс.Каталога

Соседние файлы в папке Лабораторная работа 1