- •2012 Г. Оглавление
- •Адресация ресурсов в сети Интернет
- •Способы оценки релевантности
- •Понятие и функции поисковой системы
- •Модели работы поисковых машин разных поколений
- •Состав и принципы работы поисковой системы
- •Модуль индексирования
- •База данных
- •Поисковый сервер
- •Расширенный режим подачи запросов к поисковой системе
- •Форма расширенный поиск Яндекса
- •Язык запросов Яндекса
- •Поисковый контекст
- •Документные операторы
- •Язык запросов Google
- •Функции оценки релевантности.
- •PageRank
- •LexRank
- •Методы борьбы с нерелевантным содержимым
- •Список используемых источников
База данных
База данных, или индекс поисковой системы - это система хранения данных, информационный массив, в котором хранятся специальным образом преобразованные параметры всех скачанных и обработанных модулем индексирования документов.
Поисковый сервер
Поисковый сервер является важнейшим элементом всей системы, так как от алгоритмов, которые лежат в основе ее функционирования, напрямую зависит качество и скорость поиска.
Поисковый сервер работает следующим образом:
Полученный от пользователя запрос подвергается морфологическому анализу. Генерируется информационное окружение каждого документа, содержащегося в базе (которое и будет впоследствии отображено в виде сниппета, то есть соответствующей запросу текстовой информации на странице выдачи результатов поиска).
Полученные данные передаются в качестве входных параметров специальному модулю ранжирования. Происходит обработка данных по всем документам, в результате чего, для каждого документа рассчитывается собственный рейтинг, характеризующий релевантность запроса, введенного пользователем, и различных составляющих этого документа, хранящихся в индексе поисковой системы.
В зависимости от выбора пользователя этот рейтинг может быть скорректирован дополнительными условиями (например, так называемый «расширенный поиск»).
Далее генерируется сниппет, то есть, для каждого найденного документа из таблицы документов извлекаются заголовок, краткая аннотация, наиболее соответствующая запросу и ссылка на сам документ, причем найденные слова подсвечиваются.
Полученные результаты поиска передаются пользователю в виде SERP (Search Engine Result Page) – страницы выдачи поисковых результатов.
Как видно, все эти компоненты тесно связаны друг с другом и работают во взаимодействии, образовывая четкий, достаточно сложный механизм работы поисковой системы, требующий огромных затрат ресурсов.[common]
Расширенный режим подачи запросов к поисковой системе
Форма расширенный поиск Яндекса
Яндекс позволяет решать сложные поисковые задачи, не пользуясь языком запросов. Для этого можно воспользоваться формой расширенного поиска, где сложные поисковые условия задаются в простой и наглядной форме.
Обратите внимание, что при заполнении нескольких полей Яндекс учитывает все заданные условия одновременно. Например, указав язык документа как «русский» и введя в поле находятся на сайте адрес какого-либо сайта, в результате поиска будет получин список документов с заданного сайта, написанных на русском языке.
Поиск на сайте

Яндекс позволяет искать страницы не только по всей базе, но и по группе страниц, расположенных на одном или нескольких сайтах. Для этого достаточно указать через запятую адреса сайтов в поле находятся на сайте.
Итого
После слова «Итого» вы можете прочитать описание заданного запроса на естественном языке. Выглядеть это может, например, так:

Все параметры поиска, у которых вы не меняли значение по умолчанию, не упоминаются.[yadvanced]
Язык запросов Яндекса
Поисковый контекст
Можно указать требования к совместной встречаемости слов запроса.
Точное совпадение
Слова идут подряд в точной форме
Такой порядок слов можно указать с помощью запроса в кавычках.
Пример:
По запросу "остров детства" будут найдены страницы, где есть подряд два слова: вначале остров, затем детства именно в такой форме.
Джокер
При поиске точного выражения в кавычках можно разрешить одно или несколько пропущенных слов. Для этого надо использовать одну или несколько звездочек через пробел.
Пример:
По запросу "ползет змея, как * дьявола" можно найти страницы с недостающим словом цитаты.
Совместная встречаемость
В одном предложении
Ограничить поиск страницами, где слова запроса находятся в пределах предложения, можно, соединив слова оператором & через пробел.
Пример:
Запрос культура & Китая найдет страницы, где есть сочетания слов культура Древнего Китая или Китай и его культура.
В одном документе
Если нужны документы, где присутствуют заданные слова — неважно, на каком расстоянии друг от друга и в каком порядке — надо соединить их оператором && через пробел.
Пример:
По запросу продажа & сканеров && Новосибирск найдутся страницы, где в одном предложении должны встретиться слова продажа и сканеры, и где угодно на странице должно быть слово Новосибирск.
Слова также могут быть соединены оператором "неранжирующее И": запрос << уточняющий запрос. Этот оператор очень похож на &&, с той лишь разницей, что выражение из правой части влияет на возможность документов попасть в результаты поиска, но не влияет на их ранжирование.
Пример:
Сравните результаты поиска по запросам: Москва && США и запросу Москва << США. В первом случае ранжирование происходит по обоим словам — Москва и США, а во втором — только по слову Москва, а США просто должно встречаться в тексте документа.
Исключить слова
В одном документе
Яндекс позволяет исключать из поисковой выдачи страницы, где есть определенные слова. Для этого используется оператор ~~.
Если ищется информацию о немосковских кремлях, можете задать запрос Кремль ~~ Москва. Будут найдены все страницы, где есть слово кремль и нет слова Москва.
В одном предложении
Иногда требуется, чтобы слово встречалось на странице, но не в одном предложении с другим словом запроса. С этой целью используйтся оператор ~.
Пример:
Если ищется информацию о г-же Кузькиной, то более информативные результаты даст запрос Кузькина ~ мать, который ищет страницы, включающие такие предложения со словом Кузькина, в которых одновременно нет слова мать. Можно так же уточнить запрос оператором расстояния: Кузькина ~/+1 мать. По такому запросу найдутся документы, где слово мать может встречаться в том же предложении, но не сразу после слова Кузькина.
Расстояние между словами
.
Расстояние между словами a и b — это разница между номерами слов b и a. Таким образом, расстояние между соседними словами равно 1 (а не 0), а расстояние между соседними словами, стоящими "не в том порядке", равно -1.
Слова на расстоянии в несколько слов
Можно указать максимально допустимое расстояние между двумя любыми словами запроса, поставив после первого слова символ /, сразу за которым идет число, означающее расстояние.
Пример:
Запрос великий /2 хурал найдет страницы, где есть фразы хурал великий, или великий народный хурал, или великий государственный хурал, но не найдет страницы, где есть великий государственный народный хурал (расстояние между словами равно 3).
Слова на расстоянии в несколько предложений
Аналогично записи, указывающей расстояния между словами, можно задавать расстояние в предложениях. Для этого перед оператором расстояния / нужно указать оператор &&.
Пример:
Если нужно найти статью, где упоминается памятник Пушкину на площади Искусств, можете задать запрос памятник Пушкину && /3 площадь Искусств.
Порядок слов
Кроме расстояния между словами, вы можете указывать и порядок их следования.
Слова следуют в определенном порядке на заданном расстоянии
Если очно неизвестно не только расстояние, но и порядок слов запроса, в котором они должны идти в тексте искомых страниц, можно указать между символом / и числом-расстоянием символ + для прямого порядка слов или - для обратного.
Пример:
Если вы хотите найти отчество Тургенева, то задайте запрос Иван /+2 Тургенев. Будут найдены страницы, где между словами Иван и Тургенев есть ровно одно третье слово.
Слова расположены в заданной окрестности
Вы можете потребовать, чтобы искомые слова шли не только в нужном порядке, но и чтобы между ними было от n (минимум) до m (максимум) слов. Добавив между словами запроса оператор /(n m), вы получите интересующие вас страницы. Оператор расстояния должен отделяться пробелами с обеих сторон.
Пример:
Запрос Алексей /(-1 +2) Толстой найдет как страницы с текстом Толстой Алексей Константинович, так и Алексей Николаевич Толстой.
Найти любое из слов
Можно указать Яндексу найти любое из заданных слов. Достаточно поставить между словами символ |, окруженный пробелами, и вы получите страницы, где содержится хотя бы одно из слов запроса.
Пример:
По запросу аэроплан | самолет | планер | дирижабль | аэростат | вертолет | пепелац будут найдены страницы, где встречается хоть одно из этих слов.
Сложные запросы: скобки
Можно строить сколь угодно сложные конструкции запроса, подставляя в каждом из операторов вместо отдельного слова целые выражения.
Пример:
Чтобы найти документы, ни в одном предложении которого слова не встречаются рядом (но при этом могут быть в соседних предложениях), запрос в виде: кривой ~~ (кривой & рог). [ycontext]
