Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
SIT.doc
Скачиваний:
47
Добавлен:
27.10.2018
Размер:
275.97 Кб
Скачать

21. Поиск информации и навигация в Интернет

Методы поиска: а) по адресу (url – Uniform Resource Locator: протокол://адрес, т.е. метод доступа к ресурсу, сервер, к кот. необходимо обратиться, местонахождение ресурса на сервере); б) по ключевым словам

Все средства поиска делятся на:

А) поисковые каталоги (пк)

ПК похожи на предметные каталоги биб­лиотек. На начальной странице каталога - тема, которая нас интересует, затем в рамках темы - категория, подкатегорию, и так до конкретного списка Web-ресур­сов. Крупнейший поисковый каталогом мира - поисковая система Yahoo!

Б) ПОИСКОВЫЕ УКАЗАТЕЛИ (ИНДЕКСЫ) (ПУ)

Принцип действия – как в пред­метном каталоге библиотеки. Пользователь формирует запрос с помощью ключевых слов, а поисковая система выдает ему список ссылок на Web-страницы, содержащие данные ключевые слова.:

Отличие ПУ от ПК - полная автоматизация всех этапов работы (нет “чел фактора»: прогр-роботы автомат. выбирают ссылки на новые адреса и ресурсы.

Поисковые указатели работают в три этапа.

1. Сбор информации поисковыми роботами

Создание поисковой системы начинается с разработки специальной агентской программы, которая спо­собна путешествовать по Web-узлам Интернета, просматривать Web-стра­ницы и копировать их содержание на центральный сервер поисковой системы. Такие агентские программы называют “червяками”, “пауками”, “поис­ковыми роботами” (сокращенно “ботами”), “поисковыми машинами”, “краулерами”

2. Индексация ресурсов - процесс пре­образования данных из той формы, в которой они хранятся на Web-стра­ницах, в другие формы, удобные для быстр просмотра. В результате - БД, кот наз поисковым указателем (индексом).

3. Исполнение запроса клиента. Лучшие поисковые системы в ответ на запрос просматривают свои индексы за десятые доли секунды и возвращают списки ссылок к затребованным ресурсам. Система а) анализирует ключевые слова зап­роса, б)освобождает от зарезервиро­ванных слов и нормализует, в)ищет совпадения с содержимым поисковых индексов. Эти операции у всех одинаковы, а последняя (формир-е итогового списка ссылок) всегда различается. (своя политика формир-я результирующего списка)

От чего зависит качество поиска (достоинства ПК являются недостатками ПУ и наоборот)

Параметры оценки качества поисковых систем:

1. Коэффициент попадания - какой процент ссылок, выданных поисковой системой, действительно относится к теме, которая интере­сует клиента. Для ПК - высок. (их составляют люди и появление “мусорной” ссылки — редкость, только если за время после регистра­ции, Web-страница перестает существовать (70-80%, не менее 50 %.) Для ПУ - единицы процентов, т.к. а) автом ср-ва не могут точно выявлять темат принадлежность Web-страниц на основе формаль­ных признаков, б) большинство клиентов формируют зада­ние не оптимально.

2. Коэффициент охвата - насколько база данных поисковой сис­темы отражает истинное количество информации, имеющейся по данной теме в мире. (лучше ПУ до 25%. ПК охватывают менее 1% всех наличных ресурсов).

В) Гибридные системы

Повысить качество работы поисковых служб -совместить оба подхода

1) ПК привлекают возможности ПУ, переадресуя им запрос. (Yahoo! привлекает средства другого— Inktomi.) 2) ПУ научились выполнять автоматическую каталогизацию своих ресурсов и предоставлять к ним доступ так как это принято в поисковых каталогах. (Fast Search )

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]