Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
36
Добавлен:
28.06.2014
Размер:
338.41 Кб
Скачать

Расширенный режим подачи запросов к поисковой системе.

Наиболее популярным способом работы с поисковиком является подача запроса, состоящего из одного слова. Между тем, поисковые системы предоставляют возможность расширенного поиска, позволяющего задавать более точные настройки параметров запроса. Например, можно определить, где должно находиться искомое слово (в документах, в их названиях, в заголовках документов и т. д.), уточнить язык документов, по которым осуществляется поиск, и даже указать системе, нужно ли искать однокоренные слова или поиск следует ограничить лишь словом в том виде, как оно написано в строке запроса. В дополнение к этому, особая опция позволяет исключать из результатов поиска документы, содержащие определенные слова.

Расширенный поиск в разных поисковых системах:

Способы оценки степени релевантности запросу пользователя информации, найденной поисковой машиной.

Релевантность (лат. relevo — поднимать, облегчать) в информационном поиске — семантическое соответствие поискового запроса и поискового образа документа. В более общем смысле, одно из наиболее близких понятию качества «релевантности» — «адекватность», то есть не только оценка степени соответствия, но и степени практической применимости результата, а также степени социальной применимости варианта решения задачи.

Способы оценки степени релевантности:

  1. TF/IDF

  2. PageRank

  3. LexRank

  4. ТИЦ

Анализ различных функций оценки релевантности

Изначально поисковые машины, учитывая популярность ссылок, считали количество ссылающихся сайтов или страниц, выводя самую простую закономерность – чем больше таких страниц существует, тем популярнее и важнее сайт. Однако, по мере того как борьба за первые места в выдаче поисковиков ужесточалась, все более давало себя знать желание раскрутчиков сайтов обмануть поисковую машину. Для начала появилось множество специальных сайтов, так называемых «ферм ссылок», или «FFA (Free for All)», на которых любой веб-мастер мог бесплатно разместить ссылку на свой сайт. Такая методика искусственного повышения популярности ссылок некоторое время вполне работала. Однако очень быстро популярность FFA сыграла с раскручиваемыми сайтами нехорошую шутку: появились автоматические программы, которые одновременно регистрировали ссылку на тысячах «ферм». FFA-сайты, как правило, работали по принципу конвейера – новые ссылки вытесняли старые в низ страницы. Поскольку количество ссылок на странице ограничено, а скорость продвижения по мере автоматизации увеличилась до нескольких сотен ссылок в час, то, собственно, время присутствия вашей ссылки в «нужном месте» сводилось буквально до пары минут. Времени, a priori, недостаточном для индексации ссылки поисковой машиной.

Tf-idf

TF-IDF (от англ. TF — term frequency, IDF — inverse document frequency) — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален количеству употребления этого слова в документе, и обратно пропорционален частоте употребления слова в других документах коллекции.

Мера TF-IDF часто используется в задачах анализа текстов и информационного поиска, например, как один из критериев релевантности документа поисковому запросу, при расчёте меры близости документов при кластеризации.

Структура формулы

TF (term frequency — частота слова) — отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом, оценивается важность слова ti в пределах отдельного документа.

 ,

где ni есть число вхождений слова в документ, а в знаменателе — общее число слов в данном документе.

Соседние файлы в папке Лабораторная работа 1