- •2012 Г. Оглавление
- •Адресация ресурсов в сети Интернет
- •Способы оценки релевантности
- •Понятие и функции поисковой системы
- •Модели работы поисковых машин разных поколений
- •Состав и принципы работы поисковой системы
- •Модуль индексирования
- •База данных
- •Поисковый сервер
- •Расширенный режим подачи запросов к поисковой системе
- •Форма расширенный поиск Яндекса
- •Язык запросов Яндекса
- •Поисковый контекст
- •Документные операторы
- •Язык запросов Google
- •Функции оценки релевантности.
- •PageRank
- •LexRank
- •Методы борьбы с нерелевантным содержимым
- •Список используемых источников
LexRank
LexRank относится к оценке релевантости документа. Резюмируя документ, приходится иметь дело с большими тестовыми единицами – целыми прделожениями, вместо слов и фраз. Представляя набор предложений как граф, LexRank он специальным образом обрабатывается, и на конечном этапе используется PageRank, чтобы получить веса предложений.[LexRank]
Методы борьбы с нерелевантным содержимым
Понимание запросов
Важно понимать, что ищут пользователи (больше, чем просто слова в их запросе). Должна существовать система распознавания текстового содержимого, систему синонимов и очень мощную систему анализирования.
Системе известно, что кто-то, вводящий в строке поиска [kofee annan], на самом деле ищет мистера Кофи Аннана, и подсказывает ему об этом: Did you mean: kofi annan; тогда как если кто-то ищет [kofee beans], то ему на самом деле нужны coffee beans (кофейные бобы).
Синонимы
Синонимы — это фундамент работы по пониманию запросов. Даже если что-то очевидно для человека, это может быть неразрешимой проблемой для автоматического языкового обработчика.
Поиск идеи
Обнаружение главной идеи запроса позволяет возвратить намного более релевантные результаты. Например, алгоритмы Google понимают, что в запросе [new york times square church] пользователь ищет известную церковь на Times Square, а не статьи из New York Times.
Понимание пользователей
Упор на принцип «наиболее релевантные запросу результаты» отражается в нашей работе по локализации. Один и тот же запрос, написанный в различных странах, даст абсолютно разные результаты. Пользователь, ищущий [bank] в США, должен получить Американские банки, в то время как пользователь в Великобритании ищет Bank Fashion line или British financial institutions. Результаты этого запроса должны содержать местные финансовые подразделения в других англоговорящих странах, таких как Австралия, Канада, Новая Зеландий, ЮАР.
Персонализация
Пользователи, которые "залогинились" во время поиска и имеют включенный журнал посещений, получают результаты, которые более релевантны для них, чем общие результаты Google. Например, пользователь, который имеет множество запросов, относящихся к футболу, получит более «футбольные» результаты на запрос [giants], тогда как другие пользователи могут получить результаты, относящиеся к бейсбольной команде.
Использование результатов запроса на другом языке
Позволяет пользователям сначала получить информацию не на их родном языке, а затем, используя технологию перевода Google, мы делаем информацию доступной. Пользователь, который ищет биографию Тони Блэра в России, набирающий [Тони Блэр биография] получает предложение посмотреть результаты, переведенные с английского.[Методыборьбы]
Список используемых источников
релев: , (1),
common: , (1),
yadvanced: , (2),
ycontext: , (3),
ydoc: , (4),
gsyntax: , (5),
TFIDF: , (6),
PageRank: , (7),
LexRank: , (8),
Методыборьбы: , (9),
