
- •Мессенджеры-программы или сервисы для мгновенного обмена сообщениями, голосовой связи и видеосвязи в сети Интернет.
- •Организация информационного поиска в Internet.
- •Особенности информационного поиска в web по сравнению с информационно-справочными системами. Модель поведения типичного пользователя.
- •Архитектура поисковой системы для web. Понятия: хранилище документов, модуль индексирования, индекс, сетевой робот, поисковая машина, формат запроса.
- •Хранилище
- •Понятие релевантного и нерелевантного документа. Методы ранжирования результатов поиска. Модели PageRank, “голосования”, hits.
- •Архитектуры Информационно-поисковых систем(ипс): распределенные, метапоисковые .
-
Понятие релевантного и нерелевантного документа. Методы ранжирования результатов поиска. Модели PageRank, “голосования”, hits.
Релева́нтность (лат. relevo — поднимать, облегчать) в информационном поиске — семантическое соответствие поискового запроса и поискового образа документа[1]. В более общем смысле, одно из наиболее близких понятию качества «релевантности» — «адекватность», то есть не только оценка степени соответствия, но и степени практической применимости результата
Целью ИПС является выдача документов, релевантных(семантически соответствующих) запросу (по-английски relevant - относящийся к делу). Различают релевантностьсодержательнуюи формальную. Релевантность содержательная трактуется как соответствие документа информационному запросу, определяемое неформальным путем (Василиса Премудрая сама прочитает письма всех добрых молодцев и выберет кандидатов в женихи, отвечающих ее требованиям), а релевантность формальная - как соответствие, определяемое алгоритмически путем сравнения поискового предписания и поискового образа документа на основании применяемого в информационно-поисковой системе критерия выдачи.
Критерий выдачи- формальное правило, совокупность признаков, по которым определяется степень формальной релевантности поискового образа документа и поискового предписания и принимается решение о выдаче/невыдаче некоторого документа в ответ на информационный запрос.
Ранжированием в применении к поисковым системам называют сортировку сайтов в поисковой выдаче. Как правило, существует множество факторов для ранжирования, среди которых можно отметить рейтинг сайта, количество и качество внешних ссылок, релевантность текста к поисковому запросу и многие другие, на основании которых поисковая система формирует список сайтов в поисковой выдаче.
PageRank (пэйдж-ранк) — один из алгоритмов ссылочного ранжирования. Алгоритм применяется к коллекции документов, связанных гиперссылками (таких, как веб-страницы из всемирной паутины), и назначает каждому из них некоторое численное значение, измеряющее его «важность» или «авторитетность» среди остальных документов. Вообще говоря, алгоритм может применяться не только к веб-страницам, но и к любому набору объектов, связанных между собой взаимными ссылками, то есть к любому графу.
PageRank — это числовая величина, характеризующая «важность» веб-страницы. Чем больше ссылок на страницу, тем она «важнее». Кроме того, «вес» страницы А определяется весом ссылки, передаваемой страницей B. Таким образом, PageRank — это метод вычисления веса страницы путём подсчёта важности ссылок на неё.
Алгоритм HITS (англ. Hyperlink Induced Topic Search), предложенный в 1999 году Джоном Клейнбергом, позволяет находить Интернет-страницы, соответствующие запросу пользователя, на основе информации, заложенной в гиперссылки. Метрика HITS часто используется для ответа на широкую тему запросов и нахождения сообществ документов(англ. Tightly-Knit Community), в Интернете. Идея алгоритма основана на предположении, что гиперссылки кодируют значительное количество скрытых авторитетных страниц.
Первым шагом в алгоритме HITS, является получение наиболее релевантных страниц в поисковом запросе. Это множество называется корневым набором и может быть получено путем принятия самых популярных страниц n, возвращаемых текстовым алгоритмом поиска. Базовый набор формируется путем увеличения корневого набора со всеми веб-страницами, которые с ним связаны и с некоторыми страницами, ссылающихся на него. Веб-страницы в базовом наборе и все гиперссылки между этих страниц, образуют сосредоточенный подграф. HITS вычисления выполняются только на этом подграфе.
Оценки авторитетного документа и посредника определены в терминах друг друга во взаимной рекурсии. Оценка авторитетности страницы вычисляется как сумма значений оценок посреднических страниц, которые указывают на эту страницу. Значение оценки посредника вычисляется как сумма оценок авторитетных страниц, на которые он указывает
Алгоритм выполняет ряд итераций, каждая из которых состоит из двух основных этапов:
-
Обновление авторитетности. Обновление авторитетной оценки каждой вершины подграфа, эквивалентное сумме посреднических оценок каждой из вершин, указывающих на них.
-
Хаб-обновление. Обновление посреднической оценки каждой вершины подграфа, путем суммирования авторитетных оценок каждой из вершин, на которые они указывают.
Оценка авторитетности и посредническая оценка для вершины рассчитывается по следующему алгоритму:
-
Начните с вершин, оценка авторитетности и посредническая оценка которых равна 1.
-
Выполнение правила обновления авторитетности.
-
Выполнение правила хаб-обновления.
-
Нормализация значений путем деления каждой посреднической оценки на корень квадратный из суммы квадратов всех посреднических оценок, и деления каждой оценки авторитетности на корень квадратный из суммы квадратов всех оценок авторитетности.
-
Повторение со второго шага по мере необходимости.