Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Заочники лекция 4 часа.doc
Скачиваний:
2
Добавлен:
01.05.2025
Размер:
227.33 Кб
Скачать

Поиск по категориям

В Интернете собирается информация о web-страницах и ссылки на них раскладываются по категориям, каталогам. Этим занимаются серверы: Yahoo, Excite, Infoseek, Lycos, Magellan и др. Кроме них есть и русскоязычные серверы, например: @Rus (Atrus) (http://atrus.ru), Созвездие Интернет (http://www.stars.ru), Se@rch (http://www.hi.ru), Список российских web-серверов (http: //weblist. ru).

На начальной странице такого сервера можно найти список основных категорий. Названия и количество категорий меняются от сервера к серверу, но они отражают основные сферы человеческих интересов и ориентироваться в них легко. Например:

  • искусство и гуманитарные науки,

  • бизнес и экономика,

  • компьютеры и Интернет,

  • образование,

  • развлечения и т.д.

При щелчке на какой-либо категории, открывается список подкатегорий, в котором можно выбрать подходящую подкатегорию, и так далее, пока не появится список конкретных web-страниц. Количество разделов и глубина разных каталогов могут существенно различаться.

Составляются каталоги обычно вручную, поэтому охватывают лишь небольшую часть web-пространства. Каталог Yahoo, например, охватывает более миллиона документов, что составляет лишь 0,1% всех документов. Однако полторы сотни редакторов-специалистов Yahoo обеспечивают отбор и классификацию наиболее ценных документов, отсевая малозначащие страницы-однодневки.

Поиск по ключевым словам

Это вторая из наиболее распространенных технология поиска в сети необходимой информации. Она известна также под именами «поисковых указателей», «индексов». Суть технологии заключается в том, что пользователь отсылает запрос, состоящий из ключевых слов, на центральный сервер. Для формирования запроса на web-странице расположено поле для ввода и редактирования текста, которое может служить визитной карточкой такой технологии. Сервер ищет в своей базе данных ключевые слова и выдает список документов, которые их включают. Но это лишь видимая вершина айсберга.

Эта технология берет свое начало с программ мониторинга сети, которые вначале 1990-х годов разрабатывались в ряде американских университетов. Она состоит из регулярного сканирования Сети и получения данных. Второй этап — составление из них гигантской базы данных, поискового индекса. И третий этап — этап получения запроса от пользователя, нахождение в базе соответствующих ссылок и возвращение результатов пользователю. Весь процесс автоматизирован, получение и обновление данных идет непрерывно, благодаря чему подобные поисковые системы имеют поистине огромные базы проиндексированных web-страниц. Основу этой автоматизации составляет технология spider (паук).

Найденные ключевые слова выделяются цветом или шрифтом. Иногда присутствует рейтинговое число, выраженное в процентах. Если результаты поиска не уместились на одной странице, что бывает весьма часто, то внизу появляются ссылки на оставшиеся страницы, которые загружаются по мере вызова.

Число страниц, поставляемых вышеописанными поисковыми указателями, обычно велико, поскольку базы данных охватывают до 25% всех web-ресурсов. Однако качество поиска, выражающееся в том, какой процент ссылок действительно подойдет, оставляет желать лучшего.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]