Скачиваний:
36
Добавлен:
28.06.2014
Размер:
63.5 Кб
Скачать

Принцип работы ипс Google

Каких-либо особенных отличий в логике работы поисковой системы Google от поисковой системы Яндекс нет. 

В Google используются два основных принципа, руководствуясь которыми он определяет позицию того или иного документа в выдаче по определенному поисковому запросу. Во-первых, Google анализирует текстовое содержимое документа, определяя таким образом тематику данного документа и производя подсчет плотности употребления в документе определенных слов. Во-вторых, Google анализирует обратные ссылки, проставленные на этот документ с других ресурсов на предмет их тематичности данному документу и учитывая те слова, которые были использованы в анкорах этих обратных ссылок (текстах ссылок) и в тегах TITLE этих обратных ссылок. И уже на основании двух этих факторов (содержимого документа и ссылочного ранжирования) определяет позицию сайта в поисковой выдаче Google по тому или иному поисковому запросу.

Google ведет поиск по коллекции поисковой системы, которая представляет собой все проиндексированные поисковиком Google документы в сети. В поисковую базу добавляются так же и сохраненные копии документов, на основании которых затем поисковая система Google будет формировать сниппеты под те или иные поисковые запросы. Индексная база Google состоит из двух частей: основного индекса и дополнительного. Поисковая система Google производит поиск только по документам, находящимся в основном индексе, а документы, которые попали в дополнительный индекс, в поиске практически не участвуют, разве что только в том случае, если в основном индексе Google вообще не найдется релевантных поисковому запросу документов. А вероятность такого случая крайне мала.

Сканированием сайтов в сети занимаются так называемые поисковые боты, которые переходят от документа к документу по ссылкам, ведущих с этих документов. Поисковые боты Google осуществляют поиск новых страниц ресурса следующим образом. Во-первых, задание на посещение того или иного документа поисковый бот Google может получить после того, как вы добавите адрес той или иной страницы в аддурику Google. Во-вторых, поисковый бот Google может проиндексировать документ, перейдя на него по ссылке с другого или же с вашего же ресурса.

При расчете релевантности учитывается содержание документа (насколько он хорошо оптимизирован под данный поисковый запрос), а так же учитывается количество и качество обратных ссылок на данный документ.

В принципе, точно такие же принципы работы заложены и в других поисковых системах. Но у поисковой системы Google есть одно отличие от других (более мелких) поисковых систем. Материальные возможности компании Google (как денежные, так и аппаратные) позволяют этой поисковой системе индексировать все страницы подряд и хранить их в своей индексной базе. Более мелкие поисковые системы, в том числе и Яндекс, не могут позволить себе такой роскоши и удаляют из индекса дублированный контент и прочие, не качественные (по мнению поисковых систем) документы. Google обладает настолько большими мощностями, что способен хранить в своей коллекции все проиндексированные им в сети документы.

Расширенный режим запросов

Яндекс

Пример

Значение

"К нам на утренний рассол"

Слова идут подряд в точной форме

"Прибыл * посол"

Пропущено слово в цитате

полгорбушки & мосол

Слова в пределах одного предложения

снаряжайся && добудь

Слова в пределах одного документа

технический прогресс +антирес

Поиск документов, в которых обязательно встречается определённое слово

глухаря | куропатку | кого-нибудь

Поиск любого из слов

не смогешь << винить

Неранжирующее "и": выражение после оператора не влияет на позицию документа в выдаче

я должон /2 казнить

Расстояние в пределах двух слов в любую сторону (то есть между заданными словами может встречаться одно слово)

государственное дело && /3 улавливаешь нить

Расстояние в 3 предложения в любую сторону

нешто я ~~ пойму

Исключение слова пойму из поиска

при моем /+2 уму

Расстояние в пределах двух слов в прямом порядке

чай ~ лаптем

Поиск предложения, где слово чай встречается без слова лаптем

щи /(-1 +2) хлебаю

Расстояние от одного слова в обратном порядке до двух слов в прямом

!Соображаю !что !чему

Слова в точной форме с заданным регистром

получается && (+на | !мне)

Скобки формируют группы в сложных запросах

!!политика

Словарная форма слова

title:(в стране)

Поиск по заголовкам документов

url:ptici.narod.ru/ptici/kuropatka.htm

Поиск по URL

беспременно inurl:vojne

Поиск с учетом фрагмента URL

host:lib.ru

Поиск по хосту

rhost:ru.lib.*

Поиск по хосту в обратной записи

site:http://www.lib.ru/PXESY/FILATOW

Поиск по всем поддоменам и страницам заданного сайта

mime:pdf

Поиск по одному типу файлов

lang:en

Поиск с ограничением по языку

domain:ru

Поиск с ограничением по домену

date:200712*

Поиск с ограничением по дате

date:20071215..20080101, date:>20091231

Поиск с ограничением по интервалу дат

cat:11000051

Поиск по рубрике Яндекс.Каталога

Google

Оператор «Плюс» (+): Для ситуации, когда надо принудительно включить в текст какое-либо обязательное слово. Для этого используется оператор "+" перед обязательным словом.

Пример: Уравнение +Бернулли 

Исключение слов из запроса. Логическое «не» (-): Чтобы исключать какие-либо слова используются операторы исключения "минус" (-). То есть логическое «НЕ». Полезно в случаях, когда результаты прямого поиска слишком замусорены.

Пример: Аквариум -группа - ищем все про аквариум исключая группу "Аквариум".

Поиск точной фразы (""): Полезно для поиска конкретного текста (целой статьи по цитате). Для этого надо заключить запрос в кавычки (двойные кавычки). 

Пример: "И темница тесна, и свобода одна И всегда на нее уповаем" - ищем балладу Высоцкого по одной строке.

Оператор неизвестных знаков в слове (?). Символ "?" в ключевом слове запроса заменяет один символ в слове. Если в слове запроса неизвестна точно одна из букв, вместо неё может быть подставлен символ "?".

Ппример: при вводе слова велос?пед , с подставленным символом "?", поисковая машина сама вставит недостающую букву "и", и выдаст результат, соответствующий запросу.

Усечение слова (*): Иногда требуется искать информацию о словосочетании слов, в котором неизвестно одно или несколько слов. Для этих целей вместо неизвестных слов используется оператор "*". Т.е. "*" - любое слово или группа слов.

Пример: Мастер и *

Оператор поиска синонимов (~): Если вы хотите найти тексты, содержащие не только ключевые слова, но и их синонимы, то можно воспользоваться оператором "~" перед словом, к которому необходимо найти синонимы.

Пример: ~Объектное ориентирование

Оператор диапазона (..): Для тех, кому приходится работать с цифрами, Google дал возможность искать диапазоны между числами. Для того, чтобы найти все страницы, содержащие числа в неком диапазоне «от - до», надо между этими крайними значениями поставить две точки (..), то есть, оператор диапозона.

Пример: Численность населения 1913..1935

cache: Если Вы будете включать другие слова в запрос, то Google подсветит эти включенные слова в пределах кэшируемого документа.

Пример: cache:www.books.com web покажет кэшируемое содержимое с подсвеченным словом 'web'.

link: рассматриваемый выше поисковой запрос покажет веб-страницы, на которых содержатся ссылки к указанному запросу.

Пример: link:www.books.com отобразит все страницы, на которых есть ссылка на http://www.books.com

related: Отобразит web-страницы, которые являются 'подобными' (related) указанной web-странице.  Пример: related:www.google.com перечислит web-страницы, которые являются подобными домашней странице Google.

info: Информация запроса: представит немного информации, которую Google имеет о запрашиваемой web-странице.

Пример: info:www.books.com  покажет информацию об этом сайте.

define: Запрос define: обеспечит определение слов, которые Вы вводите после того, как это, собранный из различных сетевых источников. Определение будет для всей введенной фразы (то есть, это будет включать все слова в точный запрос).

site: Если Вы включаете site: в ваш запрос, Google ограничит результаты теми вебсайтами, которые найдет в данном домене. Также можно искать и по отдельным зонам, как таковое ru, org, com ( site:com site:ru).

intitle: Если Вы включаете intitle: в вашем запросе, Google ограничит результаты документами, содержащими то слово в заголовке.

allinurl: Если Вы запускаете запрос с allinurl: Google ограничит результаты, со всеми словами запроса в URL.

Пример: allinurl: google search вернет документы с google и search в заголовке.

Также как вариант можно разделять слова слэшем (/) тогда слова по обе стороны слэша будут искаться в пределах одной страницы.

Пример allinurl: foo/bar

inurl: Если Вы включаете inurl: в вашем запросе, Google ограничит результаты документами, содержащими то слово в URL.

Пример: Animation inurl:books.com

daterange: ищет во временных рамках. Даты для времени указываются в Юлианском формате. filetype: Как известно, Google индексирует не только html страницы. Если, к примеру, понадобилось найти какую-нибудь информацию в отличном от html типе файла, можно воспользоваться оператором filetype, который позволяет искать информацию в определенном типе файлов (html, pdf, doc, rtf...).

Пример: Сочинения filetype:rtf

Соседние файлы в папке Лабораторная работа 1