Принцип работы ипс Google
Каких-либо особенных отличий в логике работы поисковой системы Google от поисковой системы Яндекс нет.
В Google используются два основных принципа, руководствуясь которыми он определяет позицию того или иного документа в выдаче по определенному поисковому запросу. Во-первых, Google анализирует текстовое содержимое документа, определяя таким образом тематику данного документа и производя подсчет плотности употребления в документе определенных слов. Во-вторых, Google анализирует обратные ссылки, проставленные на этот документ с других ресурсов на предмет их тематичности данному документу и учитывая те слова, которые были использованы в анкорах этих обратных ссылок (текстах ссылок) и в тегах TITLE этих обратных ссылок. И уже на основании двух этих факторов (содержимого документа и ссылочного ранжирования) определяет позицию сайта в поисковой выдаче Google по тому или иному поисковому запросу.
Google ведет поиск по коллекции поисковой системы, которая представляет собой все проиндексированные поисковиком Google документы в сети. В поисковую базу добавляются так же и сохраненные копии документов, на основании которых затем поисковая система Google будет формировать сниппеты под те или иные поисковые запросы. Индексная база Google состоит из двух частей: основного индекса и дополнительного. Поисковая система Google производит поиск только по документам, находящимся в основном индексе, а документы, которые попали в дополнительный индекс, в поиске практически не участвуют, разве что только в том случае, если в основном индексе Google вообще не найдется релевантных поисковому запросу документов. А вероятность такого случая крайне мала.
Сканированием сайтов в сети занимаются так называемые поисковые боты, которые переходят от документа к документу по ссылкам, ведущих с этих документов. Поисковые боты Google осуществляют поиск новых страниц ресурса следующим образом. Во-первых, задание на посещение того или иного документа поисковый бот Google может получить после того, как вы добавите адрес той или иной страницы в аддурику Google. Во-вторых, поисковый бот Google может проиндексировать документ, перейдя на него по ссылке с другого или же с вашего же ресурса.
При расчете релевантности учитывается содержание документа (насколько он хорошо оптимизирован под данный поисковый запрос), а так же учитывается количество и качество обратных ссылок на данный документ.
В принципе, точно такие же принципы работы заложены и в других поисковых системах. Но у поисковой системы Google есть одно отличие от других (более мелких) поисковых систем. Материальные возможности компании Google (как денежные, так и аппаратные) позволяют этой поисковой системе индексировать все страницы подряд и хранить их в своей индексной базе. Более мелкие поисковые системы, в том числе и Яндекс, не могут позволить себе такой роскоши и удаляют из индекса дублированный контент и прочие, не качественные (по мнению поисковых систем) документы. Google обладает настолько большими мощностями, что способен хранить в своей коллекции все проиндексированные им в сети документы.
Расширенный режим запросов
Яндекс
|
Пример |
Значение |
|
"К нам на утренний рассол" |
Слова идут подряд в точной форме |
|
"Прибыл * посол" |
Пропущено слово в цитате |
|
полгорбушки & мосол |
Слова в пределах одного предложения |
|
снаряжайся && добудь |
Слова в пределах одного документа |
|
технический прогресс +антирес |
Поиск документов, в которых обязательно встречается определённое слово |
|
глухаря | куропатку | кого-нибудь |
Поиск любого из слов |
|
не смогешь << винить |
Неранжирующее "и": выражение после оператора не влияет на позицию документа в выдаче |
|
я должон /2 казнить |
Расстояние в пределах двух слов в любую сторону (то есть между заданными словами может встречаться одно слово) |
|
государственное дело && /3 улавливаешь нить |
Расстояние в 3 предложения в любую сторону |
|
нешто я ~~ пойму |
Исключение слова пойму из поиска |
|
при моем /+2 уму |
Расстояние в пределах двух слов в прямом порядке |
|
чай ~ лаптем |
Поиск предложения, где слово чай встречается без слова лаптем |
|
щи /(-1 +2) хлебаю |
Расстояние от одного слова в обратном порядке до двух слов в прямом |
|
!Соображаю !что !чему |
Слова в точной форме с заданным регистром |
|
получается && (+на | !мне) |
Скобки формируют группы в сложных запросах |
|
!!политика |
Словарная форма слова |
|
title:(в стране) |
Поиск по заголовкам документов |
|
url:ptici.narod.ru/ptici/kuropatka.htm |
Поиск по URL |
|
беспременно inurl:vojne |
Поиск с учетом фрагмента URL |
|
host:lib.ru |
Поиск по хосту |
|
rhost:ru.lib.* |
Поиск по хосту в обратной записи |
|
site:http://www.lib.ru/PXESY/FILATOW |
Поиск по всем поддоменам и страницам заданного сайта |
|
mime:pdf |
Поиск по одному типу файлов |
|
lang:en |
Поиск с ограничением по языку |
|
domain:ru |
Поиск с ограничением по домену |
|
date:200712* |
Поиск с ограничением по дате |
|
date:20071215..20080101, date:>20091231 |
Поиск с ограничением по интервалу дат |
|
cat:11000051 |
Поиск по рубрике Яндекс.Каталога |
Оператор «Плюс» (+): Для ситуации, когда надо принудительно включить в текст какое-либо обязательное слово. Для этого используется оператор "+" перед обязательным словом.
Пример: Уравнение +Бернулли
Исключение слов из запроса. Логическое «не» (-): Чтобы исключать какие-либо слова используются операторы исключения "минус" (-). То есть логическое «НЕ». Полезно в случаях, когда результаты прямого поиска слишком замусорены.
Пример: Аквариум -группа - ищем все про аквариум исключая группу "Аквариум".
Поиск точной фразы (""): Полезно для поиска конкретного текста (целой статьи по цитате). Для этого надо заключить запрос в кавычки (двойные кавычки).
Пример: "И темница тесна, и свобода одна И всегда на нее уповаем" - ищем балладу Высоцкого по одной строке.
Оператор неизвестных знаков в слове (?). Символ "?" в ключевом слове запроса заменяет один символ в слове. Если в слове запроса неизвестна точно одна из букв, вместо неё может быть подставлен символ "?".
Ппример: при вводе слова велос?пед , с подставленным символом "?", поисковая машина сама вставит недостающую букву "и", и выдаст результат, соответствующий запросу.
Усечение слова (*): Иногда требуется искать информацию о словосочетании слов, в котором неизвестно одно или несколько слов. Для этих целей вместо неизвестных слов используется оператор "*". Т.е. "*" - любое слово или группа слов.
Пример: Мастер и *
Оператор поиска синонимов (~): Если вы хотите найти тексты, содержащие не только ключевые слова, но и их синонимы, то можно воспользоваться оператором "~" перед словом, к которому необходимо найти синонимы.
Пример: ~Объектное ориентирование
Оператор диапазона (..): Для тех, кому приходится работать с цифрами, Google дал возможность искать диапазоны между числами. Для того, чтобы найти все страницы, содержащие числа в неком диапазоне «от - до», надо между этими крайними значениями поставить две точки (..), то есть, оператор диапозона.
Пример: Численность населения 1913..1935
cache: Если Вы будете включать другие слова в запрос, то Google подсветит эти включенные слова в пределах кэшируемого документа.
Пример: cache:www.books.com web покажет кэшируемое содержимое с подсвеченным словом 'web'.
link: рассматриваемый выше поисковой запрос покажет веб-страницы, на которых содержатся ссылки к указанному запросу.
Пример: link:www.books.com отобразит все страницы, на которых есть ссылка на http://www.books.com
related: Отобразит web-страницы, которые являются 'подобными' (related) указанной web-странице. Пример: related:www.google.com перечислит web-страницы, которые являются подобными домашней странице Google.
info: Информация запроса: представит немного информации, которую Google имеет о запрашиваемой web-странице.
Пример: info:www.books.com покажет информацию об этом сайте.
define: Запрос define: обеспечит определение слов, которые Вы вводите после того, как это, собранный из различных сетевых источников. Определение будет для всей введенной фразы (то есть, это будет включать все слова в точный запрос).
site: Если Вы включаете site: в ваш запрос, Google ограничит результаты теми вебсайтами, которые найдет в данном домене. Также можно искать и по отдельным зонам, как таковое ru, org, com ( site:com site:ru).
intitle: Если Вы включаете intitle: в вашем запросе, Google ограничит результаты документами, содержащими то слово в заголовке.
allinurl: Если Вы запускаете запрос с allinurl: Google ограничит результаты, со всеми словами запроса в URL.
Пример: allinurl: google search вернет документы с google и search в заголовке.
Также как вариант можно разделять слова слэшем (/) тогда слова по обе стороны слэша будут искаться в пределах одной страницы.
Пример allinurl: foo/bar
inurl: Если Вы включаете inurl: в вашем запросе, Google ограничит результаты документами, содержащими то слово в URL.
Пример: Animation inurl:books.com
daterange: ищет во временных рамках. Даты для времени указываются в Юлианском формате. filetype: Как известно, Google индексирует не только html страницы. Если, к примеру, понадобилось найти какую-нибудь информацию в отличном от html типе файла, можно воспользоваться оператором filetype, который позволяет искать информацию в определенном типе файлов (html, pdf, doc, rtf...).
Пример: Сочинения filetype:rtf
