- •Лабораторная работа №1
- •Сетевые адреса
- •Доменные имена
- •Способы оценки релевантности
- •Функции оценки релевантности
- •LexRank
- •PageRank
- •Современная модель работы поисковой системы
- •Классификация ипс
- •Выполнение основной части работы
- •Методы борьбы с нерелевантным содержимым в выдаче
- •Анализ функций оценки релевантности
Анализ функций оценки релевантности
TF-IDF
Преимущества
привязка к частотной характеристике (обратной частоте документа), которая заметно занижает вес распространённых слов, несущих не высокую смысловую нагрузку
Недостатки
существенное занижение веса документов включающих схожие определения
документов большой длины, которые по определению будут проигрывать по tf коэффициенту
завышение веса «коротких» документов
не учитывается связность слов, входящих в документ, он представляется просто набором слов
PageRank
Недостатки
Метод отдает предпочтение старым страницам, поскольку, как хороша бы ни была только что созданная страница , для набора достаточного количества ссылок требуется значительный промежуток времени
Метод провоцирует создание так называемых «ферм ссылок» и прочих методов с целью искусственного повышения этого показателя
LexRank
Поскольку этот алгоритм использует и меру tf-idfна одном из этапов, и идею, схожую с алгоритмомPageRank, то этот метод совмещает в определенной степени недостатки каждого из приведенных методов (однако, возможно, не в таком явном виде). Этот метод является достаточно молодым, но, несмотря на свою новизну, уже неплохо зарекомендовал себя в области автоматического обобщения (summarization) текстов.
Приложение 1. Операторы языка запросов Yandex
|
Пример |
Значение |
|
"К нам на утренний рассол" |
Слова идут подряд в точной форме |
|
"Прибыл * посол" |
Пропущено слово в цитате |
|
полгорбушки & мосол |
Слова в пределах одного предложения |
|
снаряжайся && добудь |
Слова в пределах одного документа |
|
технический прогресс +антирес |
Поиск документов, в которых обязательно встречается определённое слово |
|
глухаря | куропатку | кого-нибудь |
Поиск любого из слов |
|
не смогешь << винить |
Неранжирующее "и": выражение после оператора не влияет на позицию документа в выдаче |
|
я должон /2 казнить |
Расстояние в пределах двух слов в любую сторону (то есть между заданными словами может встречаться одно слово) |
|
государственное дело && /3 улавливаешь нить |
Расстояние в 3 предложения в любую сторону |
|
нешто я ~~ пойму |
Исключение слова пойму из поиска |
|
при моем /+2 уму |
Расстояние в пределах двух слов в прямом порядке |
|
чай ~ лаптем |
Поиск предложения, где слово чай встречается без слова лаптем |
|
щи /(-1 +2) хлебаю |
Расстояние от одного слова в обратном порядке до двух слов в прямом |
|
!Соображаю !что !чему |
Слова в точной форме с заданным регистром |
|
получается && (+на | !мне) |
Скобки формируют группы в сложных запросах |
|
!!политика |
Словарная форма слова |
|
title:(в стране) |
Поиск по заголовкам документов |
|
url:ptici.narod.ru/ptici/kuropatka.htm |
Поиск по URL |
|
беспременно inurl:vojne |
Поиск с учетом фрагмента URL |
|
host:lib.ru |
Поиск по хосту |
|
rhost:ru.lib.* |
Поиск по хосту в обратной записи |
|
site:http://www.lib.ru/PXESY/FILATOW |
Поиск по всем поддоменам и страницам заданного сайта |
|
mime:pdf |
Поиск по одному типу файлов |
|
lang:en |
Поиск с ограничением по языку |
|
domain:ru |
Поиск с ограничением по домену |
|
date:200712* |
Поиск с ограничением по дате |
|
date:20071215..20080101, date:>20091231 |
Поиск с ограничением по интервалу дат |
|
cat:11000051 |
Поиск по рубрике Яндекс.Каталога |
