Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ТЕМА 7_ИПС.doc
Скачиваний:
4
Добавлен:
17.04.2019
Размер:
148.48 Кб
Скачать

Тема: информационно-поисковые системы

1.Классификация поисковых систем интернет

Интернет представляет собой огромное хранилище распределенной документальной информации, различных форматов и видов:

  • Web-страницы,

  • онлайновые электронные библиотеки,

  • виртуальные музеи,

  • каталоги по продуктам и услугам,

  • открытая правительственная информация,

  • научно-исследовательские публикации,

  • документы различных сервисов Интернет: Gopher, FTP, Usenet и электронной почты,

  • коммерческая и финансовая информация.

Одна из основных проблем пользователя современного Интернета - эффективный поиск информации. Очевидно, что актуальность этой проблемы будет возрастать, так как объем документальной информации в Интернет возрастает экспоненциально.

Как показывает практика, существующие инструменты поиска документальной информации в Интернет пока имеют неудовлетворительную точность выдачи и возвращают слишком много документов, из которых лишь небольшая часть действительно соответствует запросу пользователя.

Основным инструментом поиска в Интернет являются информационно-поисковые системы (ИПС). В настоящее время известно более 200 поисковых систем.

Существующие поисковые системы Интернет можно классифицировать по нескольким критериям:

1. Объем поискового индекса

Поисковые системы периодически просматривают узлы Интернет и формируют постоянно обновляемые индексы документов. Из-за экспоненциального расширения Всемирной сети исчерпывающее индексирование всего содержимого Web и создание одного огромного индекса практически невозможно. В настоящее время даже лучшие поисковые системы индексируют не более трети всего содержимого Сети. Распределение объемов индексируемой информации на узлах представлено на рис. 1.

2. Метод выбора серверов для просмотра (опроса)

Генерация поискового индекса требует систематического обхода Web-узлов и определения местонахождения каждого документа. Структура Web аналогична структуре ориентированного: графа, поэтому здесь применимы алгоритмы обхода графа.

Существуют четыре метода такого обхода:

  • случайный выбор первого URL-адреса для инициализации поиска. Программа индексирует начальный документ, выделяет URL-адреса, указывающие на другие документы, а затем анализирует эти URL для поиска «преимущественно в ширину» или «преимущественно в глубину»;

  • поиск начинается с набора URL-адресов, определяемых на основе популярности Web-узлов;

  • пространство Web делится на разделы на основе системы имен Интернет или кодов стран, а для полного исследования этих разделов выделяется одна или несколько программ-роботов; такой метод используется чаще, чем первые два;

  • частота опроса — каждые несколько часов, каждый день каждый месяц. Частота опроса является важной характеристикой качества работы системы, т. к. определяет актуальность и полноту индекса.

Поисковые системы Интернет различаются по следующим критериям:

1. Объем поискового индекса

  • HotBot (34%);

  • AltaVista (28%);

  • Northern Light (20%);

  • Excite (14%);

  • Lycos (3%).

2. Метод выбора серверов для просмотра (опроса)

  • случайный выбор первого URL-адреса;

  • выбор URL-адресов наиболее популярных Web-узлов;

  • поиск по разделам на основе системы имен Интернет или кодов стран;

  • задание частоты поиска.

3. Используемые поисковые технологии

  • тематические каталоги;

  • специализированные каталоги (онлайновые справочники);

  • поисковые машины (полнотекстовый поиск);

  • средства мета-поиска.

Рис. 1. Критерии классификации поисковых систем Интернет