Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Поисковая система.docx
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
154.72 Кб
Скачать
    1. Алгоритмы работы поисковых систем — прямой поиск и алгоритм обратных (инвертированных) индексов

      1. Алгоритм прямого поиска

Метод простого перебора всех страниц (документов), хранящихся в базе данных поисковиков, очевидно, что не будет являться оптимальным. При том, что этот метод позволяет наверняка найти нужную информацию не пропустив ничего важного, он совершенно не подходит для работы с большими объемами данных, ибо поиск будет занимать слишком много времени.

      1. Алгоритм обратных (инвертированных) индексов.

Был разработан для эффективного поиска в больших объемах данных. И что примечательно, именно этот алгоритм используется всеми крупными поисковыми системами в мире.

При использовании алгоритма обратных (инвертированных) индексов, поисковые системы преобразовывают документы в текстовые файлы, содержащие список всех имеющихся в документе слов. Слова в таких списках (индекс-файлах) располагаются в алфавитном порядке и рядом с каждым словом указаны в виде координат те места в документе, где это слово встречается. Кроме позиции в документе, для каждого слова приводятся еще и другие параметры, определяющие его значение в документе.

Поисковые системы ищут информацию не в интернете, а в обратных индексах обработанных ими документов сети. Хотя и прямые индексы (оригинальный текст документов) поисковики тоже сохраняют, т.к. он им в последствии понадобится для составления сниппетов.

Алгоритм обратных индексов документов используется всеми поисковыми системами, т.к. он позволяет ускорить процесс поиска, но при этом будут неизбежны потери информации за счет искажений внесенных преобразованием документа в индекс-файл. Для удобства хранения файлы обратных индексов обычно способом сжимаются.

    1. Задержка индексации Яндексом сайтов в не-русскоязычных доменных зонах

В связи с тем, что Яндекс до недавнего времени являлся поисковой системой только по русскоязычной части интернета, то и индексировал он в основном русскоязычные сайты. Поэтому, если создается сайт не в доменных зонах, которые Яндекс по умолчанию относит к русскоязычным (RU, SU и UA), то ждать быстрой индексации сайта не стоит, т.к. Яндекс, скорее всего, его найдет не ранее чем через месяц. Но уже последующая индексация страниц вашего сайта, расположенного в не-русскоязычных доменных зонах, будет происходить с той же частотой, что и в русскоязычных доменных зонах.

Т.е. доменная зона сайта влияет лишь на время, которое пройдет до начала индексации Яндексом сайта, но не будет влиять в дальнейшем на частоту индексации.

Логика работы поисковых систем по переиндексации документов (страниц) сводится примерно к следующему:

найдя и проиндексировав новую страницу, робот поисковой системы заходит на нее на следующий день

сравнив содержимое страницы с тем, что было вчера и не найдя отличий робот поисковой системы придет на эту страницу еще раз только через три дня

если и в этот раз на данной странице ничего не измениться, то робот придет через неделю и т.д.

Таким образом, со временем, частота прихода поискового робота на эту страницу сравняется с частотой ее обновления или будет сопоставима с ней. Причем, время повторного захода робота поисковых систем может измеряться для разных сайтов как в минутах, так и в годах.