Тема: информационно-поисковые системы

1.Классификация поисковых систем интернет

Интернет представляет собой огромное хранилище распределенной документальной информации, различных форматов и видов:

Web-страницы,
онлайновые электронные библиотеки,
виртуальные музеи,
каталоги по продуктам и услугам,
открытая правительственная информация,
научно-исследовательские публикации,
документы различных сервисов Интернет: Gopher, FTP, Usenet и электронной почты,
коммерческая и финансовая информация.

Одна из основных проблем пользователя современного Интернета - эффективный поиск информации. Очевидно, что актуальность этой проблемы будет возрастать, так как объем документальной информации в Интернет возрастает экспоненциально.

Как показывает практика, существующие инструменты поиска документальной информации в Интернет пока имеют неудовлетворительную точность выдачи и возвращают слишком много документов, из которых лишь небольшая часть действительно соответствует запросу пользователя.

Основным инструментом поиска в Интернет являются информационно-поисковые системы (ИПС). В настоящее время известно более 200 поисковых систем.

Существующие поисковые системы Интернет можно классифицировать по нескольким критериям:

1. Объем поискового индекса

Поисковые системы периодически просматривают узлы Интернет и формируют постоянно обновляемые индексы документов. Из-за экспоненциального расширения Всемирной сети исчерпывающее индексирование всего содержимого Web и создание одного огромного индекса практически невозможно. В настоящее время даже лучшие поисковые системы индексируют не более трети всего содержимого Сети. Распределение объемов индексируемой информации на узлах представлено на рис. 1.

2. Метод выбора серверов для просмотра (опроса)

Генерация поискового индекса требует систематического обхода Web-узлов и определения местонахождения каждого документа. Структура Web аналогична структуре ориентированного: графа, поэтому здесь применимы алгоритмы обхода графа.

Существуют четыре метода такого обхода:

случайный выбор первого URL-адреса для инициализации поиска. Программа индексирует начальный документ, выделяет URL-адреса, указывающие на другие документы, а затем анализирует эти URL для поиска «преимущественно в ширину» или «преимущественно в глубину»;
поиск начинается с набора URL-адресов, определяемых на основе популярности Web-узлов;
пространство Web делится на разделы на основе системы имен Интернет или кодов стран, а для полного исследования этих разделов выделяется одна или несколько программ-роботов; такой метод используется чаще, чем первые два;
частота опроса — каждые несколько часов, каждый день каждый месяц. Частота опроса является важной характеристикой качества работы системы, т. к. определяет актуальность и полноту индекса.

Поисковые системы Интернет различаются по следующим критериям:

	1. Объем поискового индекса
	HotBot (34%); AltaVista (28%); Northern Light (20%); Excite (14%); Lycos (3%).

	2. Метод выбора серверов для просмотра (опроса)
	случайный выбор первого URL-адреса; выбор URL-адресов наиболее популярных Web-узлов; поиск по разделам на основе системы имен Интернет или кодов стран; задание частоты поиска.

	3. Используемые поисковые технологии
	тематические каталоги; специализированные каталоги (онлайновые справочники); поисковые машины (полнотекстовый поиск); средства мета-поиска.

Рис. 1. Критерии классификации поисковых систем Интернет

1 / 91 2 3 4 5 6 7 8 9 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
17.04.2019317 Кб28ТЕМА 4_Операционные оболочки и системы.doc
#
20.07.201960 Кб18Тема 5.1 Управление системой образования ч2.doc
#
05.12.201850 Кб10Тема 6 Экономика образования.doc
#
17.04.2019214 Кб19ТЕМА 6_Сетевые технологии_Ресурсы Интернет.doc
#
01.07.2025158 Кб2Тема 7 Жизнен цикл.doc
#
17.04.2019148 Кб10ТЕМА 7_ИПС.doc
#
17.04.2019426 Кб16ТЕМА 9_MS Office_Word_Excel_Access_PowerP.doc
#
08.12.201828 Кб16Темы рефератов по юрпсихологии.docx
#
11.04.2015144 Кб747Теор.грамматика.doc
#
11.04.2015286 Кб98Теоретическая педагогика.doc
#
01.05.2025274 Кб3теория 2.docx