
- •Тема: информационно-поисковые системы
- •1.Классификация поисковых систем интернет
- •1. Объем поискового индекса
- •2. Метод выбора серверов для просмотра (опроса)
- •3. Используемые поисковые технологии
- •2.Информационно-поисковые системы
- •1. Каталог
- •2. Поисковая машина
- •3.Метапоисковая машина
- •4. Поиск источников информации
- •3.3. Инструментарий поисковых систем сетевой службы www
- •3.1. Инструментарий формирования запросов в ипс
- •2. Логические операторы (булев поиск).
- •7. Определение области поиска (наименование сервиса), домена (серверы с определенным расширением имени, su,ru) и т. П.
- •3.2. Язык запросов ипс Яndex
- •1. Булев поиск:
- •Пример 1.1.
- •Пример 1.2.
- •Пример 1.3.
- •Пример 1.4.
- •2. Контекстный поиск:
- •Пример 2.1.
- •Пример 2.2.
- •Пример 3.1.
- •Пример 3.2.
- •5. Поиск по адресам:
- •8. Ранжирование результата поиска
- •Пример 8.1.
- •Пример 8.2.
Тема: информационно-поисковые системы
1.Классификация поисковых систем интернет
Интернет представляет собой огромное хранилище распределенной документальной информации, различных форматов и видов:
Web-страницы,
онлайновые электронные библиотеки,
виртуальные музеи,
каталоги по продуктам и услугам,
открытая правительственная информация,
научно-исследовательские публикации,
документы различных сервисов Интернет: Gopher, FTP, Usenet и электронной почты,
коммерческая и финансовая информация.
Одна из основных проблем пользователя современного Интернета - эффективный поиск информации. Очевидно, что актуальность этой проблемы будет возрастать, так как объем документальной информации в Интернет возрастает экспоненциально.
Как показывает практика, существующие инструменты поиска документальной информации в Интернет пока имеют неудовлетворительную точность выдачи и возвращают слишком много документов, из которых лишь небольшая часть действительно соответствует запросу пользователя.
Основным инструментом поиска в Интернет являются информационно-поисковые системы (ИПС). В настоящее время известно более 200 поисковых систем.
Существующие поисковые системы Интернет можно классифицировать по нескольким критериям:
1. Объем поискового индекса
Поисковые системы периодически просматривают узлы Интернет и формируют постоянно обновляемые индексы документов. Из-за экспоненциального расширения Всемирной сети исчерпывающее индексирование всего содержимого Web и создание одного огромного индекса практически невозможно. В настоящее время даже лучшие поисковые системы индексируют не более трети всего содержимого Сети. Распределение объемов индексируемой информации на узлах представлено на рис. 1.
2. Метод выбора серверов для просмотра (опроса)
Генерация поискового индекса требует систематического обхода Web-узлов и определения местонахождения каждого документа. Структура Web аналогична структуре ориентированного: графа, поэтому здесь применимы алгоритмы обхода графа.
Существуют четыре метода такого обхода:
случайный выбор первого URL-адреса для инициализации поиска. Программа индексирует начальный документ, выделяет URL-адреса, указывающие на другие документы, а затем анализирует эти URL для поиска «преимущественно в ширину» или «преимущественно в глубину»;
поиск начинается с набора URL-адресов, определяемых на основе популярности Web-узлов;
пространство Web делится на разделы на основе системы имен Интернет или кодов стран, а для полного исследования этих разделов выделяется одна или несколько программ-роботов; такой метод используется чаще, чем первые два;
частота опроса — каждые несколько часов, каждый день каждый месяц. Частота опроса является важной характеристикой качества работы системы, т. к. определяет актуальность и полноту индекса.
Поисковые системы Интернет различаются по следующим критериям: |
|
|
|
|
1. Объем поискового индекса |
|
|
|
|
|
2. Метод выбора серверов для просмотра (опроса) |
|
|
|
|
|
3. Используемые поисковые технологии |
|
|
Рис. 1. Критерии классификации поисковых систем Интернет