Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
40
Добавлен:
28.06.2014
Размер:
345.97 Кб
Скачать

Достоинства и недостатки различных функций оценки релевантности

TF/IDF

Достоинства:

  • Учитывает не только конкретный документ, в котором встречается слово, но и другие документы коллекции.

  • Скорость вычисления. Для формирования оценки достаточно просканировать все документы в пределах одной коллекции.

Недостатки:

  • Оценка является статической. Может измениться только при изменении одного из документов коллекции.

  • Частота встречаемости слова далеко не самый надёжный показатель релевантности, особенно для русского языка. Можно составить документ, в котором релевантное слово не будет повторяться (с использованием синонимов), или же, наоборот, текст будет перегружен омонимами нерелевантного слова.

  • Совершенно бесполезный текст, буквально перегруженный ключевыми словами, позволит обхитрить данную оценку.

  • Не учитывается уровень вложенности документа.

PageRank

Достоинства:

  • Учитывается своего рода «мнение» других страниц.

  • Оценка является динамической. PageRank в результате каких-либо событий может и упасть, и возрасти.

Недостатки:

  • Порождает множество путей искусственного увеличения PageRank и, как результат, попадание в поисковую выдачу нерелевантных страниц.

  • Относительно медленная скорость получения актуального значения оценки, так как перед вычислением PageRank конкретной страницы требуется вычислить PageRank страниц, ссылающихся на данную.

Обзор методов борьбы с нерелевантным содержимым

  • Использование синонимов. Если список найденных страниц слишком мал или не содержит полезных страниц, попробуйте изменить слово.

  • Понимание запросов. Важно понимать, что ищут пользователи (больше, чем просто слова в их запросе). Должна существовать система распознавания текстового содержимого, систему синонимов и очень мощную систему анализирования. Системе известно, что кто-то, вводящий в строке поиска [kofee annan], на самом деле ищет мистера Кофи Аннана, и подсказывает ему об этом: Did you mean: kofi annan; тогда как если кто-то ищет [kofee beans], то ему на самом деле нужны coffee beans (кофейные бобы).

  • Системы распознания. Поисковые машины научились понимать, что ищут пользователи. Существуют системы распознавания текстового содержимого, системы синонимов и очень мощные системы анализирования. Например: на запрос «посик боваров» Google выдаст результаты по «поиск товаров»

  • Персонализация. Пользователи, которые "залогинились" во время поиска и имеют включенный журнал посещений, получают результаты, которые более релевантны для них, чем общие результаты Google. Например, пользователь, который имеет множество запросов, относящихся к футболу, получит более «футбольные» результаты на запрос [giants], тогда как другие пользователи могут получить результаты, относящиеся к бейсбольной команде.

  • Использование результатов на другом языке. Это позволяет пользователям сначала получить информацию не на их родном языке, а затем, используя технологию перевода Google, мы делаем информацию доступной. Например пользователь, который ищет биографию Тони Блэра в России, набирающий [Тони Блэр биография] получает предложение посмотреть результаты, переведенные с английского.

Соседние файлы в папке Лабораторная работа 1