- •Ресурсы индустриального и информационного общества. Определение информационного ресурса.
- •Документный ресурс, его свойства.
- •Мировые информационные ресурсы: определение, классификация и характеристика основных структур.
- •Рынки информационных ресурсов: особенности спроса, предложения, рыночного равновесия.
- •Информационные продукты и услуги. Классификация баз данных с позиций их использования.
- •Инфраструктура информационного рынка России. Сектора информационного рынка.
- •Справочники и поисковые системы как инструменты информационного поиска интернета.
- •Особенности составления запроса при работе с поисковыми системами.
- •Представление результатов поиска и ранжирование документов.
- •5. Перспективы развития алгоритмов ранжирования
5. Перспективы развития алгоритмов ранжирования
На мой взгляд, общий вектор, в направлении которого в ближайшее время будут двигаться поисковые машины в плане усовершенствования алгоритмов ранжирования, задан в Заявке на Патент США № 20050071741 "Information Retrieval Based on Historical Data" ("Получение информации, основанное на временных данных"), поданной компанией Google 31 марта 2005 года. В этом документе даны теоретические аспекты учета различных дополнительных факторов для коррекции релевантности документа запросу. Эти факторы разбиты на несколько категорий:
-
Временные данные Дата регистрации домена, дата первой индексации сайта, документа, динамика изменения документа, данные о переходе пользователей (click-through rate) на страницы сайта по ссылкам в результатах поиска и т.п.
-
Информация о входящих ссылках Динамика появления и изменения ссылок на документ, возраст ссылок на документ, тематика ссылок на документ, процент схожих текстов ссылок на документ и т.д.
-
Информация об исходящих ссылках Динамика появления и изменения исходящих ссылок, качество и тематика ресурсов, на которые ведут ссылки и т.п.
-
Информация о домене Дата окончания срока регистрации домена, DNS records, адреса name-серверов, хостинг-компания и расположение хостинга и т.п., динамика изменения этих данных.
-
Информация о ранжировании Динамика изменений в ранжировании сайта, учет сезонности и "ажиотажности" тематики сайта и т.п.
-
Поведение пользователя Частота визитов пользователей на страницы сайта и продолжительность проведенного там времени и т.п.
-
Данные, предоставляемые пользователем Динамика появления страниц сайта в данных, генерируемых пользователями (закладки, кеш и временные файлы браузеров пользователей и т.п.)
-
Тематика документа и др.
Все эти дополнительные факторы призваны сделать более корректным учет основных факторов и уменьшить возможность искусственного влияния на них. Некоторые из них, похоже, уже активно используются Google для составления различных фильтров для внешних факторов (упоминавшиеся выше фильтры "sandbox" и "aging"), а некоторые еще ждут своего часа. Другие поисковые машины, вероятно, тоже будут работать в плане автоматического определения и фильтрации искусственных ссылок и контента.
-
Факторы, влияющие на достоверность найденной информации.
-
Элементы организации интерактивного поиска: ИПС и пользователь.
-
Дайте характеристику одной из поисковых систем интернета.
-
Охарактеризуйте одну из популярных программ мгновенного обмена сообщениями.
-
Дайте характеристику одного из популярных браузеров.
-
Охарактеризуйте итог анализа заданного текста на предмет обнаружения заимствований из других документов.