
- •Технология поиска информационных ресурсов в интернет. Поиск и изучение нормативных актов, определяющих основы информационной работы в россии методические указания
- •Содержание
- •Общие положения
- •Поисковые (тематические) каталоги
- •Поисковые машины
- •Основные характеристики поисковых систем
- •Общие принципы составления запросов
- •Приемы поиска web-документов
- •Язык запросов
- •Системы метапоиска
- •Поиск файлов
- •Поиск электронных адресов
- •Сохранение и обработка материалов, собранных в интернет
- •Задание технология поиска информационных ресурсов в интернет.
- •Поиск и изучение нормативных актов, определяющих основы информационной работы в россии
- •Приложение а Синтаксис языка запросов русскоязычных поисковых машин
- •Продолжение приложения а
- •Приложение б
- •Продолжение приложения б
Поисковые машины
Поисковые машины (автоматизированные индексы — Search Engines) — это роботизированные системы, которые обеспечивают поиск актуальной, уникальной и специальной информации, которая не охвачена и не может быть охвачена поисковыми каталогами. Они дают во много раз больший охват ресурсов WWW (до 20 %), так как процесс наполнения базы данных поисковых машин автоматизирован. Разумеется, при этом значительно снижается качество ссылок, предоставляемых по результатам поиска, но одновременно увеличивается их количество.
Основной принцип работы поисковой машины заключается в поиске Web-ресурсов по ключевым словам. Пользователь описывает искомый документ с помощью ключевых слов, после чего дает задание на поиск. Поисковая система просматривает свою базу данных и выдает список гиперссылок на Web-страницы, соответствующие запросу. Вместе с гиперссылками выдаются краткие сведения о найденных ресурсах (заголовки, адреса и описания документов) и отрывки (цитаты) из документов, где встречаются искомые слова, на основании которых пользователь может выбрать нужные ему ресурсы.
Работу поисковой машины условно можно разделить на 2 этапа. Первый этап является подготовительным и незаметен для пользователя. На этом этапе специальные программы — роботы, известные также как «пауки» (spiders) или «черви» (crawlers), в автоматическом режиме обследуют информационное пространство WWW. Следуя по гиперссылкам, роботы разыскивают в сети Web-ресурсы и, если они системе не известны, копируют их в свою базу данных. Одновременно производится обновление уже известных документов, но измененных за время после предыдущего копирования.
В дальнейшем базы данных проходят предварительную обработку, называемую индексацией. В результате индексации создаются поисковые указатели или индексы. Простейший тип индекса — это словарь, в который входят все слова, встреченные при просмотре Web-ресурсов. Против каждого слова приводится список ссылок, указывающих на местоположение соответствующих ресурсов в базе данных. При обслуживании запросов пользователей просмотр поискового указателя происходит очень быстро, так как он предварительно отсортирован по алфавиту.
На втором этапе осуществляется взаимодействие с пользователем. Пользователь задает ключевые слова, поисковая система создает список ссылок и возвращает их в качестве результата.
Результирующий список подвергается фильтрации и ранжированию. Под фильтрацией понимается отсев ссылок, которые выдавать нецелесообразно (прежде всего проверяется наличие дубликатов). Ранжирование заключается в создании специального порядка представления результирующего списка, при котором наиболее «полезные» (с точки зрения поисковой системы) ссылки приводятся в начале списка, а наименее «полезные» — в конце.
Понимание критерия «полезности» той или иной ссылки может быть различным. Каждая система имеет свой алгоритм ранжирования результатов поиска. Прежде всего, учитывается количество появлений искомых слов в Web-документе и их место в тексте. Хорошо, когда искомые слова появляются достаточно часто в начале документа, в заголовке и в тексте, написанном прописными буквами. Кроме того, может проверяться близость искомых слов друг к другу, наличие сопутствующих (уточняющих) слов или количество ссылок на данный документ с других Web-документов (считается, что документы, которые чаще цитируются, более «полезны»).
Упорядочение результирующего списка по степени соответствия содержания найденных документов поисковому запросу называют сортировкой по релевантности. Стандартную сортировку результатов выполнения запроса (по релевантности) можно заменить сортировкой по дате обновления страниц (то есть по степени «свежести» материала).
В результирующем списке все найденные документы группируются, как правило, по серверам (сайтам). Альтернативной является группировка по страницам.
Сегодня в Интернете имеется около 10 тыс. поисковых машин. К наиболее известным зарубежным машинам относятся AltaVista, Northern Light, Lycos, HotBot, Google и некоторые другие. В России в настоящее время действует три примерно одинаковых по мощности системы: Апорт, Рамблер и Яндекс.