Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Ответы к экзамену по МИР.doc
Скачиваний:
15
Добавлен:
31.03.2015
Размер:
11.49 Mб
Скачать

5. Перспективы развития алгоритмов ранжирования

На мой взгляд, общий вектор, в направлении которого в ближайшее время будут двигаться поисковые машины в плане усовершенствования алгоритмов ранжирования, задан в Заявке на Патент США № 20050071741 "Information Retrieval Based on Historical Data" ("Получение информации, основанное на временных данных"), поданной компанией Google 31 марта 2005 года. В этом документе даны теоретические аспекты учета различных дополнительных факторов для коррекции релевантности документа запросу. Эти факторы разбиты на несколько категорий:

  • Временные данные Дата регистрации домена, дата первой индексации сайта, документа, динамика изменения документа, данные о переходе пользователей (click-through rate) на страницы сайта по ссылкам в результатах поиска и т.п.

  • Информация о входящих ссылках Динамика появления и изменения ссылок на документ, возраст ссылок на документ, тематика ссылок на документ, процент схожих текстов ссылок на документ и т.д.

  • Информация об исходящих ссылках Динамика появления и изменения исходящих ссылок, качество и тематика ресурсов, на которые ведут ссылки и т.п.

  • Информация о домене Дата окончания срока регистрации домена, DNS records, адреса name-серверов, хостинг-компания и расположение хостинга и т.п., динамика изменения этих данных.

  • Информация о ранжировании Динамика изменений в ранжировании сайта, учет сезонности и "ажиотажности" тематики сайта и т.п.

  • Поведение пользователя Частота визитов пользователей на страницы сайта и продолжительность проведенного там времени и т.п.

  • Данные, предоставляемые пользователем Динамика появления страниц сайта в данных, генерируемых пользователями (закладки, кеш и временные файлы браузеров пользователей и т.п.)

  • Тематика документа и др.

Все эти дополнительные факторы призваны сделать более корректным учет основных факторов и уменьшить возможность искусственного влияния на них. Некоторые из них, похоже, уже активно используются Google для составления различных фильтров для внешних факторов (упоминавшиеся выше фильтры "sandbox" и "aging"), а некоторые еще ждут своего часа. Другие поисковые машины, вероятно, тоже будут работать в плане автоматического определения и фильтрации искусственных ссылок и контента.

  1. Факторы, влияющие на достоверность найденной информации.

  1. Элементы организации интерактивного поиска: ИПС и пользователь.

  1. Дайте характеристику одной из поисковых систем интернета.

  2. Охарактеризуйте одну из популярных программ мгновенного обмена сообщениями.

  3. Дайте характеристику одного из популярных браузеров.

  4. Охарактеризуйте итог анализа заданного текста на предмет обнаружения заимствований из других документов.