Поисковые машины

Поисковые машины (автоматизированные индексы — Search Engines) — это роботизированные системы, которые обеспечивают поиск актуальной, уникальной и специальной информации, которая не охвачена и не может быть охвачена поисковыми каталогами. Они дают во много раз больший охват ресурсов WWW (до 20 %), так как процесс наполнения базы данных поисковых машин автоматизирован. Разумеется, при этом значительно снижается качество ссылок, предоставляемых по результатам поиска, но одновременно увеличивается их количество.

Основной принцип работы поисковой машины заключается в поиске Web-ресурсов по ключевым словам. Пользователь описывает искомый документ с помощью ключевых слов, после чего дает задание на поиск. Поисковая система просматривает свою базу данных и выдает список гиперссылок на Web-страницы, соответствующие запросу. Вместе с гиперссылками выдаются краткие сведения о найденных ресурсах (заголовки, адреса и описания документов) и отрывки (цитаты) из документов, где встречаются искомые слова, на основании которых пользователь может выбрать нужные ему ресурсы.

Работу поисковой машины условно можно разделить на 2 этапа. Первый этап является подготовительным и незаметен для пользователя. На этом этапе специальные программы — роботы, известные также как «пауки» (spiders) или «черви» (crawlers), в автоматическом режиме обследуют информационное пространство WWW. Следуя по гиперссылкам, роботы разыскивают в сети Web-ресурсы и, если они системе не известны, копируют их в свою базу данных. Одновременно производится обновление уже известных документов, но измененных за время после предыдущего копирования.

В дальнейшем базы данных проходят предварительную обработку, называемую индексацией. В результате индексации создаются поисковые указатели или индексы. Простейший тип индекса — это словарь, в который входят все слова, встреченные при просмотре Web-ресурсов. Против каждого слова приводится список ссылок, указывающих на местоположение соответствующих ресурсов в базе данных. При обслуживании запросов пользователей просмотр поискового указателя происходит очень быстро, так как он предварительно отсортирован по алфавиту.

На втором этапе осуществляется взаимодействие с пользователем. Пользователь задает ключевые слова, поисковая система создает список ссылок и возвращает их в качестве результата.

Результирующий список подвергается фильтрации и ранжированию. Под фильтрацией понимается отсев ссылок, которые выдавать нецелесообразно (прежде всего проверяется наличие дубликатов). Ранжирование заключается в создании специального порядка представления результирующего списка, при котором наиболее «полезные» (с точки зрения поисковой системы) ссылки приводятся в начале списка, а наименее «полезные» — в конце.

Понимание критерия «полезности» той или иной ссылки может быть различным. Каждая система имеет свой алгоритм ранжирования результатов поиска. Прежде всего, учитывается количество появлений искомых слов в Web-документе и их место в тексте. Хорошо, когда искомые слова появляются достаточно часто в начале документа, в заголовке и в тексте, написанном прописными буквами. Кроме того, может проверяться близость искомых слов друг к другу, наличие сопутствующих (уточняющих) слов или количество ссылок на данный документ с других Web-документов (считается, что документы, которые чаще цитируются, более «полезны»).

Упорядочение результирующего списка по степени соответствия содержания найденных документов поисковому запросу называют сортировкой по релевантности. Стандартную сортировку результатов выполнения запроса (по релевантности) можно заменить сортировкой по дате обновления страниц (то есть по степени «свежести» материала).

В результирующем списке все найденные документы группируются, как правило, по серверам (сайтам). Альтернативной является группировка по страницам.

Сегодня в Интернете имеется около 10 тыс. поисковых машин. К наиболее известным зарубежным машинам относятся AltaVista, Northern Light, Lycos, HotBot, Google и некоторые другие. В России в настоящее время действует три примерно одинаковых по мощности системы: Апорт, Рамблер и Яндекс.

<<< < Предыдущая 1 23 / 113 4 5 6 7 8 9 10 11 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
18.08.2019369.66 Кб2Лаб работа 7 ч 2.doc
#
18.08.2019605.18 Кб2Лаб работа 7 ч 3.doc
#
01.05.20251.45 Mб1Лаб работа Инд.поля.осн.№ 4 последнее.doc
#
25.11.2019865.66 Кб2лаб работа1 монастырская.docx
#
19.11.2019337.41 Кб5Лаб. практикум I.doc
#
01.05.2025992.26 Кб0ЛАБ.РАБ.№1.doc
#
01.05.2025482.3 Кб0ЛАБ.РАБ.№2.doc
#
01.05.2025333.82 Кб0ЛАБ.РАБ.№3.doc
#
01.05.2025194.56 Кб0ЛАБ.РАБ.№4.doc
#
01.05.20251.08 Mб0ЛАБ.РАБ.№5.doc
#
01.05.2025280.58 Кб1ЛАБ.РАБ.№6.doc