Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
! Гос Имэк .docx
Скачиваний:
1
Добавлен:
01.04.2025
Размер:
472.1 Кб
Скачать

7. Компоненты поисковых систем. Индексация сайта.

Поисковая система включает в себя такие компоненты:

Spider (“паук”) – эта программа скачивает веб-страницы точно так же, как и пользовательский браузер. Но! Браузер показывает всю информацию, которая имеется на странице (графическую, текстовую и т.д.), тогда как паук не обладает никакими визуальными компонентами и работает сразу с html-текстом.

Indexer (индексатор) – индексатор занимается разбором страницы на составляющие, затем анализирует их. Он выделяет и анализирует разные компоненты страницы: текст, заголовки, стилевые и структурные особенности, html-тэги и прочее.

Search Engine Results Engine – это система выдачи результатов. В ее задачи входит решение того, насколько возможные страницы удовлетворяют запрос пользователя, а также, в каком порядке отсортировать результаты поиска. Этот процесс осуществляется согласно алгоритму ранжирования поисковой системы. Такая информация наиболее ценна для оптимизатора, именно с этим компонентом следует взаимодействовать при попытке повысить позиции сайта в выдаче результатов поиска.

Crawler – этот компонент выделяет все ссылки, имеющиеся на странице. В его задачу входит определение последующего пути. Вычисление этого пути основывается на ссылках или исходя из заданного заранее ряда адресов. Crawler следует по найденным ссылкам и так осуществляет поиск новых документов, которые еще неизвестны поисковой системе.

Database – это база данных, в ней хранятся все данные, которые скачивает и анализирует поисковая система. Базу данных могут называть и индексом поисковой системы.

Web server – на сервере обычно присутствует html-страница с полем ввода, где пользователи могут задать интересующий их поисковый термин. Веб-сервер тоже отвечает за результаты, выдаваемые пользователю, в виде html-страницы.

Индексация сайта означает, что поисковый робот посетил ваш сайт, проанализировал его и занес информацию в базу данных поисковой системы. Прежде чем сайт появится в результатах поиска, он должен быть проиндексирован поисковой системой. 

Если некоторая страница занесена в индекс поисковика, то она может быть показана в результатах поиска. Если страница в индексе отсутствует, то поисковая система ничего не знает о ней, и, следовательно, никак не может использовать информацию с этой страницы.   Большинство сайтов среднего размера (то есть содержащих несколько десятков или сотен страниц) обычно не испытывают никаких проблем с правильной индексацией поисковыми системами. Однако, существует ряд моментов, которые стоит учитывать при работе над сайтом. 

   Поисковая система может узнать о вновь созданном сайте двумя путями:

   - ручное добавление адреса сайта через соответствующую форму поисковой системы. В этом случае вы сами сообщаете поисковой системе о новом сайте и его адрес попадает в очередь на индексацию. Добавлять следует лишь главную страницу сайта, остальные будут найдены поисковым роботом по ссылкам;

   - предоставить поисковому роботу самостоятельно найти ваш сайт. Если на ваш новый ресурс есть хотя бы одна внешняя ссылка с других ресурсов, уже проиндексированных поисковой системой, то поисковый робот в короткие сроки сам посетит и проиндексирует ваш сайт. В большинстве случаев рекомендуется использовать именно этот вариант, то есть получить несколько внешних ссылок на сайт и просто дождаться прихода робота. Ручное добавление сайта может даже удлинить время ожидания робота.     Время необходимое для индексации сайта составляет, как правило, от 2-3 дней до 2 недель, в зависимости от поисковой системы. Быстрее всех индексирует сайты поисковая система Google.

Базы данных поисковых систем постоянно обновляются, записи в базе могут подвергаться изменениям, исчезать и появляться снова, поэтому число проиндексированных страниц вашего сайта может периодически меняться.     Одной из наиболее частых причин исчезновения страницы из индекса является недоступность сервера, то есть поисковый робот при попытке индексации сайта не смог получить доступ к нему. После восстановления работоспособности сервера сайт должен появиться в индексе снова через некоторое время. 

8. Релевантность сайта поисковому запросу. внутренние факторы ранжирования.

Релевантность (лат.relevo- поднимать,облегчать) – степень соответствия найденной информации по отношению к запросу в поисковой системе.

Содержательная релевантность: поисковые системы для оценки релевантности найденных документов в базовом варианте используют TF-IDF-метод. Суть его в том, что релевантность документа будет выше, в том случае, если слово или словосочетание из запроса как можно чаще встречается в документе (параметр TF) и при этом, как можно реже это же слово или словосочетание встречается в базе данных поисковой систем (параметр IDF).