6) Поисковые системы в интернет-кэшировании, алгоритмы поиска.

С точки зрения пользователя, современные кэширующие сервисы подразделяются на две большие группы: веб-кэши универсальных интернет-поисковиков и специализированные сервисы.

Как известно, интернет-поисковики скачивают веб-страницы для последующего индексирования. Это своеобразное «информационное сырье», продукт переработки которого – индексная база. Таким образом, кэш есть у всех поисковиков, различаются только условия доступа к нему пользователей и удобство применения. В данной статье будут рассмотрены нюансы использования веб-кэша наиболее популярных в наших широтах универсальных поисковых систем: "Яндекс" и Google.

Обратиться к кэшу Google можно прямо на странице результатов поиска посредством ссылки «Сохраненная копия». Еще один вариант – использование в поле поиска оператора cache: с указанием адреса интересующей веб-страницы. Выдача такого поиска – наиболее свежая копия страницы. При обновлении кэша сохраненная копия будет заменена новой. Причем сохраненная страница может выводиться с упрощенной версткой и без некоторых мультимедийных элементов. Она сопровождается служебным заголовком Google, где сообщается дата сохранения демонстрируемой копии.

Похожим образом организован и доступ к кэшу "Яндекса": рядом с результатами поиска предлагается ссылка «Копия», открывающая сохраненную копию страницы. Служебный заголовок выдаваемой по запросу страницы (как и в Google, здесь демонстрируется только самая свежая копия), кроме даты «снимка», содержит ссылку на текущую версию, а также переключатель подсветки ключевых слов из запроса в тексте демонстрируемой страницы.

Преимущество этого способа – простота. Основной недостаток – отсутствие гибкости. Дело в том, что обращение к кэшу для универсальных поисковиков является все-таки вспомогательной функцией. Она бывает полезна в первую очередь при нарушении доступа к нужному ресурсу либо при наличии других подобных препятствий, а вот для восстановления «истории» какого-либо проекта подходит плохо.

При решении более сложных задач имеет смысл обратиться к специализированным ресурсам. Такие проекты веб-кэширования имеют ряд особенностей. Как правило, они не просто предоставляют доступ к кэшированным страницам, но и предусматривают дополнительные инструменты, оптимизированные для работы с веб-кэшем на практике. Различные акценты в подобных решениях приводят к усилению их индивидуальности: прямая конкуренция нескольких проектов с близкой функциональностью в этой сфере, как правило, случается редко. С точки зрения пользователя, это означает наличие выбора специализированных инструментов, оптимальных для решения собственного круга задач. Необходимо отменить, что в данной сфере присутствуют как бесплатные, так и коммерческие решения.

Алгоритмы работы поисковых систем — прямой поиск и алгоритм обратных (инвертированных) индексов

Очевидно, что метод простого перебора всех страниц (документов), хранящихся в базе данных поисковиков, не будет являться оптимальным. Этот метод называется алгоритмом прямого поиска и при том, что этот метод позволяет наверняка найти нужную информацию не пропустив ничего важного, он совершенно не подходит для работы с большими объемами данных, ибо поиск будет занимать слишком много времени.

Поэтому для эффективного поиска в больших объемах данных был разработан алгоритм обратных (инвертированных) индексов. И что примечательно, именно этот алгоритм используется всеми крупными поисковыми системами в мире. Поэтому на нем мы остановимся подробнее и рассмотрим принципы его работы.

При использовании алгоритма обратных (инвертированных) индексов, поисковые системы преобразовывают документы в текстовые файлы, содержащие список всех имеющихся в документе слов. Слова в таких списках (индекс-файлах) располагаются в алфавитном порядке и рядом с каждым словом указаны в виде координат те места в документе, где это слово встречается. Кроме позиции в документе, для каждого слова приводятся еще и другие параметры, определяющие его значение в документе.

Во многих книгах (в основном технических или научных) на последних страницах приводится список слов, используемых в данной книге, с указанием номеров страниц, где эти слова встречаются в этой книге. Конечно же, этот список не включает всех слов, используемых в книге, но тем не менее может служить примером построения индекс-файла с помощью алгоритма обратных (инвертированных) индексов.

Поисковые системы ищут информацию не в интернете, а в обратных индексах обработанных ими документов сети. Алгоритм обратных индексов документов используется всеми поисковыми системами, т.к. он позволяет ускорить процесс поиска, но при этом будут неизбежны потери информации за счет искажений внесенных преобразованием документа в индекс-файл. Для удобства хранения файлы обратных индексов обычно хитрым способом сжимаются.

<<< < Предыдущая 1 2 3 45 / 125 6 7 8 9 10 11 12 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
18.08.20191.1 Mб2homework_chemestry.doc
#
11.11.20181.34 Mб6homework_chemestry.doc
#
28.08.2019107.15 Кб2HTathfn 1.docx
#
25.11.201817.28 Mб2http.doc
#
25.09.20192.45 Mб4informatika.rtf
#
20.09.2019253.44 Кб1INFORMATsIONN_E_TEKhNOLOGII_V_REKLAME_-_voprosy...doc
#
27.05.20152.48 Mб40instrukcija_studentu_SDO_MTI (1).doc
#
27.05.20154.64 Mб20intrukcija_studentu_SDO_MTI_red_6.10.2011.doc
#
25.04.2019158.72 Кб0Istorya c 16-21.doc
#
25.04.2019311.81 Кб1Istorya vopros s 5-10.doc
#
21.07.201998.3 Кб1IT_2011_S1_RGR_1_Excel Automatization.doc