- •Лабораторная работа №1
- •Сетевые адреса
- •Доменные имена
- •Способы оценки релевантности
- •Функции оценки релевантности
- •LexRank
- •PageRank
- •Современная модель работы поисковой системы
- •Классификация ипс
- •Выполнение основной части работы
- •Методы борьбы с нерелевантным содержимым в выдаче
- •Анализ функций оценки релевантности
Современная модель работы поисковой системы
Рассмотрим современную модель работы поисковой системы. Приведем иллюстрацию:

Дадим краткую характеристику каждому компоненту системы:
client - это программа просмотра конкретного информационного ресурса. В настоящее время наиболее популярны мультипротокольные программы типа Netscape Navigator. Такая программа обеспечивает просмотр документов World Wide Web, Gopher, FTP-архивов, почтовых списков рассылки и групп новостей Usenet. В свою очередь все эти информационные ресурсы являются объектом поиска информационно-поисковой системы.
user interface - интерфейс пользователя. В случае информационно-поисковой системы под этим словосочетанием понимают и способ общения пользователя с поисковым аппаратом системы, т.е. с системой формирования запросов и просмотров результатов поиска.
search engine - поисковая машина служит для трансляции запроса пользователя, который подготавливается на информационно-поисковом языке (ИПЯ), в формальный запрос системы, поиска ссылок на информационные ресурсы Сети и выдачи результатов этого поиска пользователю.
index database - индекс - это основной массив данных информационно-поисковой системы. Он служит для поиска адреса информационного ресурса. Архитектура индекса устроена таким образом, чтобы поиск происходил максимально быстро и при этом можно было бы оценить ценность каждого из найденных информационных ресурсов сети.
queries – личная база данных запросов пользователя. На отладку каждого запроса уходит достаточно много времени, и поэтому чрезвычайно важно хранить запросы, на которые система дает хорошие ответы.
index robot(spider, ant, bot) - робот-индексировщик. Cлужит для сканирования Internet и поддержки базы данных индекса в актуальном состоянии. Эта программа является основным источником информации о состоянии информационных ресурсов сети.
www sites - информационные ресурсы, просмотр которых обеспечивается программами просмотра.
Поскольку поисковая система работает с очень большими объёмами информации, по каждому запросу ей нужно проверить признаки миллионов страниц, определить их релевантность и соответственно упорядочить. Чтобы проверить свойства всех страниц по очереди, нужно либо очень много серверов, которые могут быстро обработать информацию обо всех страницах, либо очень много времени — а поиск должен работать быстро, иначе пользователи не дождутся результатов. Матрикснет (технология компании Яндекс) позволяет проверить очень много факторов за короткое время и без существенного увеличения вычислительных мощностей.
Поиск ведётся одновременно на тысячах серверов. Каждый сервер ищет по своей части индекса и формирует список самых лучших результатов. В него гарантированно попадают все самые релевантные запросу страницы.
Дальше из этих списков составляется один общий, и страницы, попавшие туда, упорядочиваются по формуле ранжирования — той самой длинной и сложной формуле, построенной с помощью Матрикснета, с учётом всех факторов и их комбинаций. Таким образом, наверху поисковой выдачи оказываются все самые релевантные сайты — и пользователь почти мгновенно получает ответ на свой вопрос.
Касательно технологий ранжирования в поисковой системе Google, можно сказать следующее:
Команда Googleстарается поддерживать свой очень большой каталог проиндексированных страниц в максимально свежем состоянии. Одной из ключевых технологий, используемых в их системе, является технология, которая привязывает логически важные понятия к странице, даже если та их не содержит.
В поисковой системе Googleбольшое внимание уделяется проблеме понимания запросов. Для этого разработчиками команды были созданы развитая система синонимов, мощная система анализирования и система распознавания текстового содержимого.
Система синонимов позволяет выполнять достаточно сложные модификации запросов, сохраняя при этом первоначальный смысл, заключенный в запросе. Так, пользователь который ищет [back bumper repair] получает результаты для rear bumper repair.
Другой технологией, успешно применяемой инженерами Google, является технология поиска идеи. Обнаружение главной идеи запроса позволяет возвратить намного более релевантные результаты. Например, алгоритмы, разработанные сотрудникамиGoogleпоймут, что в запросе [new york times square church] пользователь ищет известную церковь на Times Square, а не статьи из New York Times.
Одной из ключевых особенностей, присущих конкретно этой поисковой системе, является персонализация поиска. Те пользователи которые "залогинились" во время поиска и имеют включенный журнал посещений, получают результаты, которые более релевантны для них, чем общие результаты Google. Например, пользователь, который имеет множество запросов, относящихся к футболу, получит более «футбольные» результаты на запрос [ЦСКА], тогда как другие пользователи могут получить результаты, относящиеся к баскетбольной команде. По оценкам Google, пользователи, получающие персональные результаты, находят их более релевантными, чем неперсонализированные результаты.
Последней технологией, о которой пойдет речь, будет технология Cross Language Information Retrieval (CLIR). Она позволяет пользователям сначала получить информацию не на их родном языке, а затем, при использовании технологии перевода Google, информация становится доступной.
