Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
36
Добавлен:
28.06.2014
Размер:
116.08 Кб
Скачать
    1. LexRank

LexRank относится к оценке релевантости документа. Резюмируя документ, приходится иметь дело с большими тестовыми единицами – целыми прделожениями, вместо слов и фраз. Представляя набор предложений как граф, LexRank он специальным образом обрабатывается, и на конечном этапе используется PageRank, чтобы получить веса предложений.[LexRank]

  1. Методы борьбы с нерелевантным содержимым

  1. Понимание запросов

Важно понимать, что ищут пользователи (больше, чем просто слова в их запросе). Должна существовать система распознавания текстового содержимого, систему синонимов и очень мощную систему анализирования.

Системе известно, что кто-то, вводящий в строке поиска [kofee annan], на самом деле ищет мистера Кофи Аннана, и подсказывает ему об этом: Did you mean: kofi annan; тогда как если кто-то ищет [kofee beans], то ему на самом деле нужны coffee beans (кофейные бобы).

  1. Синонимы

Синонимы — это фундамент работы по пониманию запросов. Даже если что-то очевидно для человека, это может быть неразрешимой проблемой для автоматического языкового обработчика.

  1. Поиск идеи

Обнаружение главной идеи запроса позволяет возвратить намного более релевантные результаты. Например, алгоритмы Google понимают, что в запросе [new york times square church] пользователь ищет известную церковь на Times Square, а не статьи из New York Times.

  1. Понимание пользователей

Упор на принцип «наиболее релевантные запросу результаты» отражается в нашей работе по локализации. Один и тот же запрос, написанный в различных странах, даст абсолютно разные результаты. Пользователь, ищущий [bank] в США, должен получить Американские банки, в то время как пользователь в Великобритании ищет Bank Fashion line или British financial institutions. Результаты этого запроса должны содержать местные финансовые подразделения в других англоговорящих странах, таких как Австралия, Канада, Новая Зеландий, ЮАР.

  1. Персонализация

Пользователи, которые "залогинились" во время поиска и имеют включенный журнал посещений, получают результаты, которые более релевантны для них, чем общие результаты Google. Например, пользователь, который имеет множество запросов, относящихся к футболу, получит более «футбольные» результаты на запрос [giants], тогда как другие пользователи могут получить результаты, относящиеся к бейсбольной команде.

  1. Использование результатов запроса на другом языке

Позволяет пользователям сначала получить информацию не на их родном языке, а затем, используя технологию перевода Google, мы делаем информацию доступной. Пользователь, который ищет биографию Тони Блэра в России, набирающий [Тони Блэр биография] получает предложение посмотреть результаты, переведенные с английского.[Методыборьбы]

Список используемых источников

релев: , (1),

common: , (1),

yadvanced: , (2),

ycontext: , (3),

ydoc: , (4),

gsyntax: , (5),

TFIDF: , (6),

PageRank: , (7),

LexRank: , (8),

Методыборьбы: , (9),

Соседние файлы в папке Лабораторная работа 1