Выполнение работы.
Изучить принципы и модель работы поисковой машины Yandex.
Сканирование.
Поисковая машина Яндекса отвечает на вопросы пользователей, находя нужные документы в интернете. А размеры современного интернета исчисляются в экзабайтах, то есть в миллиардах миллиардов байтов.
Яндекс ищет по поисковому индексу – базе данных, где для всех слов, которые есть на известных поиску сайтах, указано их местонахождение — адрес страницы и место на ней.
Подготовка данных, по которым ищет поисковая машина, называется индексированием. Специальная компьютерная система (поисковый робот) регулярно обходит интернет, выкачивает документы и обрабатывает их. Создается своего рода слепок интернета, который хранится на серверах поисковика и обновляется при каждом новом обходе.
У Яндекса два поисковых робота – основной и быстрый (он называется Orange). Основной робот индексирует интернет в целом, а Orange отвечает за то, чтобы в поиске можно было найти самые свежие документы, которые появились минуты или даже секунды назад. У каждого робота есть список адресов документов, которые нужно проиндексировать.
Индексирование.
Когда при обходе робот видит на уже известных сайтах новые ссылки, он добавляет их в свой список, увеличивая количество индексируемых страниц. Впрочем, владелец сайта сам может помочь основному роботу Яндекса найти свой ресурс и подсказать, например, как часто обновляются его страницы – через сервис Яндекс.Вебмастер.
После создания маршрута планировщик отдаёт его другой части поискового робота – «пауку». Паук регулярно обходит документы по заданному маршруту. Если сайт на месте, то есть работает и доступен, паук выкачивает запланированные в маршруте документы. Он определяет тип скачанного документа (html, pdf, swf и т.п.), кодировку и язык, а затем отправляет данные в хранилище.
Там
программа разбирает документ: очищает
от картинок и html-разметки, оставляет
чистый текст, выделяет данные о
местоположении каждого слова и добавляет
их в индекс. Сам документ в исходном
виде также остается в хранилище до
следующего обхода.
Поисковый
индекс, данные о типе документов,
кодировке, языке и сохраненные копии
документов вместе составляют поисковую
базу. Она обновляется постоянно, но,
чтобы это обновление стало доступно
пользователям, её нужно перенести на
«базовый поиск». Базовый поиск — сервера,
которые отвечают пользователям на
запросы. Туда переносится не вся поисковая
база, а только её полезная часть – без
спама, дубликатов сайтов (зеркал) и
других ненужных документов.
Обновление поисковой базы из хранилища основного робота попадает в поиск «пакетами» – раз в несколько дней. Этот процесс создаёт дополнительную нагрузку на сервера, поэтому производится ночью, когда к Яндексу обращаются на порядок меньше пользователей. Сначала новые части базы помещаются рядом с такими же частями из прошлого обхода. Затем они проверяются по целому ряду факторов, чтобы обновление не ухудшило качество поиска. Если проверка прошла успешно, новая часть базы заменяет собой старую.
Робот Orange предназначен для поиска в реальном времени. Его планировщик и паук настроены так, чтобы находить новые документы и выбирать из огромного их количества все, хоть сколько-нибудь интересные. Каждый такой документ Orange сразу обрабатывает и выкладывает на базовый поиск. Срочных документов не очень много по сравнению с общим объемом интернета, поэтому обновление базы в реальном времени можно делать и при дневных нагрузках на сервера.
Можно сказать, что поиск в интернете состоит из двух больших частей. Первая – когда Яндекс ищет различные документы в интернете и составляет поисковый индекс. Вторая – когда система ищет ответ на конкретный запрос пользователя в уже подготовленной поисковой базе.
Показ результатов.
В ответ на поисковые запросы пользователей система находит в индексе подходящие страницы и выдаёт наиболее релевантные результаты. Релевантность определяется различными факторами. Один из них – это тематический индекс цитирования тИЦ.
Функции Яндекс «Расширенный поиск», «Исправление опечаток» и «автозаполнение» помогают пользователям быстрее находить нужную информацию, исправляя орфографические ошибки и предоставляя удобный интерфейс для конкретизации запросов.
Изучить принципы и модель работы поисковой машины Google.
Сканирование.
В ходе сканирования робот Googlebot обнаруживает новые и обновлённые страницы для добавления в индекс Google.
Google использует огромную сеть компьютеров, чтобы извлечь содержание миллиардов веб-страниц. Программа, выполняющая сканирование, называется роботом Google. Робот Googlebot использует алгоритмический процесс: программы определяют, какие сайты нужно сканировать, как часто это нужно делать, а также какое количество страниц следует выбрать на каждом сайте.
Процесс сканирования Google начинается со списка URL-адресов веб-страниц, созданного на основе предыдущих сеансов сканирования. Просматривая каждый из этих сайтов, поисковый робот Googlebot находит на каждой странице ссылки и добавляет их в список страниц, подлежащих сканированию. Робот Googlebot отмечает все новые и обновлённые сайты, а также неработающие ссылки.
Индексирование.
Робот Googlebot обрабатывает каждую сканируемую страницу, чтобы составить полный индекс всех найденных слов, а также отметить, где именно на странице они находятся. Кроме того, обрабатываются данные из основных тегов и атрибутов, например тегов title и атрибутов alt. Робот Googlebot способен обрабатывать многие (но не все) типы содержания. К примеру, обработке не поддаётся содержание некоторых файлов мультимедиа и динамически создаваемых страниц.
Показ результатов.
Когда пользователь вводит поисковый запрос, система находит в индексе подходящие страницы и выдаёт наиболее релевантные, по мнению системы, результаты. Релевантность определяется различными факторами, которых насчитывается более 200. Один из них – это рейтинг страницы PageRank. PageRank является показателем «важности» страницы и определяется по входящим ссылкам с других страниц.
Функции Google «Похожие запросы», «Возможно, вы имели в виду» и «автозаполнение» помогают пользователям быстрее находить нужную информацию, исправляя орфографические ошибки и подсказывая похожие ключевые слова и популярные запросы.
Изучить расширенный режим подачи запросов к поисковой системе.
Яндекс позволяет решать сложные поисковые задачи, не пользуясь языком запросов. Для этого воспользуйтесь формой расширенного поиска, где сложные поисковые условия задаются в простой и наглядной форме [13].
Яндекс позволяет искать страницы не только по всей базе, но и по группе страниц, расположенных на одном или нескольких сайтах. Для этого достаточно указать через запятую адреса сайтов в поле находятся на сайте.
Дополнительно расширенный поиск позволяет указать регион, расположение искомых слов на странице («в заголовке» или «где угодно»), точность соответствия форме поискового запроса («в любой форме» или «точно так, как в запросе»), язык, дату обновления и формат интересующих страниц.

Расширенный поиск поисковой системы Яндекс yandex.ru/search/advanced
Гораздо более широкие возможности предоставляет язык запросов [14]:
|
Пример |
Значение |
|
"прикладная математика" |
Слова идут подряд в точной форме |
|
"кафедра * математики" |
Пропущено слово в цитате |
|
системы & сети |
Слова в пределах одного предложения |
|
математика && алгебра |
Слова в пределах одного документа |
|
институт +физика |
Поиск документов, в которых обязательно встречается определённое слово |
|
математика | алгебра | анализ |
Поиск любого из слов |
|
математические модели << примеры |
Выражение после оператора не влияет на позицию документа в выдаче |
|
ведь не даром /2 Москва |
Расстояние в пределах двух слов в любую сторону (то есть между заданными словами может встречаться одно слово) |
|
государственное дело && /3 право |
Расстояние в 3 предложения в любую сторону |
|
калина красная ~~ автомобиль |
Исключение слова «автомобиль» из поиска |
|
при моем /+2 уму |
Расстояние в пределах двух слов в прямом порядке |
|
чай ~ лаптем |
Поиск предложения, где слово чай встречается без слова лаптем |
|
щи /(-1 +2) хлебаю |
Расстояние от одного слова в обратном порядке до двух слов в прямом |
|
!Соображаю !что !чему |
Слова в точной форме с заданным регистром |
|
получается && (+на | !мне) |
Скобки формируют группы в сложных запросах |
|
!!математика |
Словарная форма слова |
|
title:(энергетический институт) |
Поиск по заголовкам документов |
|
url:a1308.ru/homework/id451 |
Поиск по URL |
|
host:mpei.ru |
Поиск по хосту |
|
rhost:vmss.* |
Поиск по хосту в обратной записи |
|
site:mpei.ru |
Поиск по всем поддоменам и страницам заданного сайта |
|
mime:doc |
Поиск по одному типу файлов |
|
lang:ru |
Поиск с ограничением по языку |
|
domain:com |
Поиск с ограничением по домену |
|
date:201201* |
Поиск с ограничением по дате |
|
date:20120101..20120218, date:>20120101 |
Поиск с ограничением по интервалу дат |
|
cat:11000051 |
Поиск по рубрике Яндекс.Каталога |
Проанализировать различные функции оценки релевантности. Указать для каждой функции достоинства и недостатки (например, вероятность выдачи нерелевантной информации).
Функция оценки релевантности TF/IDF.
Достоинства:
Учитывает не только конкретный документ, в котором встречается слово, но и другие документы коллекции.
Скорость вычисления. Для формирования оценки достаточно просканировать все документы в пределах одной коллекции.
Недостатки:
Оценка является статической. Может измениться только при изменении одного из документов коллекции. Не стоит забывать, что Интернет – это не фиксированный набор статических страниц, и то, что было релевантным 10 лет назад, сейчас, возможно, уже нет.
Частота встречаемости слова далеко не самый надёжный показатель релевантности, особенно для русского языка. Можно составить документ, в котором релевантное слово не будет повторяться (с использованием синонимов), или же, наоборот, текст будет перегружен омонимами нерелевантного слова. В обоих случая функция TF/IDF даст ошибочную оценку релевантности данных слов.
Совершенно бесполезный текст, буквально перегруженный ключевыми словами, позволит «обхитрить» данную оценку.
Не учитывается уровень вложенности документа.
Функция оценки релевантности PageRank.
Достоинства:
Учитывается своего рода «мнение» других страниц.
Оценка является динамической. PageRank в результате каких-либо событий может и упасть, и возрасти.
Недостатки:
Порождает множество путей искусственного увеличения PageRank и, как результат, опадание в поисковую выдачу нерелевантных страниц.
Относительно медленная скорость получения актуального значения оценки, так как перед вычислением PageRank конкретной страницы требуется вычислить PageRank страниц, ссылающихся на данную.
Составить обзор методов борьбы с нерелевантным содержимым.
Любые методы борьбы с нерелевантным контентом всегда плотно связаны с различными уловками сайтов для подъёма в поисковой выдаче. Чтобы бороться с нерелевантным содержимым, необходимо понимать, как оно попадает в результаты поиска.
Биржи ссылок позволяют вам выбирать сайты, которые хотят продать текстовые ссылки. Обычно система автоматизирована, продавцы размещают код на своих сайтах, позволяя бирже распространять ссылки в сети. Это самый очевидный способ, который поисковые системы легко обнаруживают и накладывают «штраф» на биржи и сайты, пользующиеся подобными «чёрными услугами».
Отношения ссылок – если все 100% ссылок ведущих на сайт используют исключительно ключевые слова, то это непременно будет сигналом для поисковой системы.
Рост ссылок – заключается в сравнении роста естественных и купленных ссылок. Естественный рост будет медленным, но последовательным, с несколькими пиками, связанными с новым контентом и обновлением сайта. Искусственный рост будет быстрым, со многими пиками и даже с полными падениями, так как люди часто забывают проплатить свои ссылки. Посмотрите на диаграмму ниже, которая показывает, как выглядит естественный рост и как очевидна манипуляция:

Учёт PageRank ссылающихся сайтов. Если ни с того ни с сего на новый сайт начинают ссылаться с десяток сайтов с PR 5, 6, 7, то такому сайту недолго осталось пробыть в индексе поисковой системы.
Сайты, которые «Яндекс» не индексирует или ограничивает ранжирование:
Копирующие или переписывающие информацию с других ресурсов и не создающие оригинального контента.
Единственной целью которых является перенаправление пользователя на другой ресурс, автоматически (редирект) или добровольно.
С автоматически сгенерированным (бессмысленным) текстом.
С каталогами (статей, программ, предприятий и т. п.), если они являются только агрегаторами контента, не создают тексты и описания самостоятельно и не предоставляют никакого уникального сервиса.
С невидимым или слабовидимым текстом или ссылками.
Отдающие разный контент пользователям и роботам поисковых систем (клоакинг).
Предоставляющие товары или информацию по партнёрским программам, но не представляющие никакой ценности для пользователя.
Использующие обманные техники (например, вредоносный код, скрипты, настройки серверов), перенаправляющие пользователей на сторонние ресурсы или меняющие окно результатов поиска на страницы других ресурсов при переходе из поисковых систем.
Содержащие списки поисковых запросов (многократное повторение и перечисление ключевых слов), предназначенные исключительно для обмана поисковой системы и манипулирования результатами её работы, в том числе использование элементов страниц, скрывающих ключевые слова, например, посредством скроллинга или других технических приёмов.
Группы сайтов одного владельца/компании, предоставляющие пользователю одни и те же товары или услуги, созданные с целью заполнения нескольких позиций в результатах поиска и сбора трафика.
Ставящие внешние ссылки исключительно для обмана поисковых систем и «накачивания» релевантности и не являющиеся рекомендацией автора посетить ресурс.
Сайты или группы сайтов, интенсивно ссылающиеся друг на друга (линкфармы).
Страницы сайта с результатами поиска.
