Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Хорошилов Управление ИР.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
14.79 Mб
Скачать

7.3. Технологии доступа к деловым ресурсам Интернета

Интернет, являясь глобальной телекоммуникационной се­тью, предоставляет возможность доступа к большому количеству информационных ресурсов. По некоторым оценкам, объем Ин­тернет-ресурсов превышает 50 млн веб-сайтов и 10 млрд веб­-страниц [25].

Под веб-страницей понимается электронный документ, кото­рый может содержать информацию в различном формате в виде текста, изображения, звука и т.д. Веб-сайт является совокупнос­тью веб-страниц, связанных по смыслу или ссылками. В наибо­лее благоприятном случае пользователь знает адрес сайта. Адрес он может получить различными способами: из книг, справочни­ков, периодических изданий, рекламных проспектов и других ис­точников.

Основной проблемой, с которой сталкивается пользователь при работе в Интернете, является обнаружение необходимых ему информационных ресурсов.

Поиск необходимых сведений в Интернете осуществляется либо при помощи поисковых машин (search engine), либо катало­гов (directory). Но и здесь пользователь сталкивается с проблемой выбора, так как в 2001 г. количество поисковых машин в Интер­нете превысило 2000 [18].

На практике часто оба типа информационных поисковых систем представлены на одном веб-сервере. Эти веб-серверы так же принято называть порталами. Портал представляет собой веб-­сайт, организованный как системное многоуровневое объедине­ние разных ресурсов и сервисов.

Мы будем рассматривать поисковые машины и каталоги отдельно в виду принципиальных различий в организации их работы.

      1. Поисковые машины

Задача поисковых машин — найти документы в Интернете по запросу пользователя. Поисковые системы состоят из трех основ­ных частей.

  • Робот/Паук — программа, которая систематически посеща­ет веб-страницы, считывает и индексирует полностью или час­тично их содержимое и далее следует по найденным ссылкам. Полученная информация заносится в базу данных поисковой машины.

  • Поисковая база данных Индекс представляет собой гигант­ское хранилище, которое содержит опеределенным образом организованные данные: индексы, ссылки на веб-страницы и другую дополнительную информацию.

  • Поисковая программа, которая в соответствии с запросом пользователя перебирает индексы в поисках соответствующей информации и выдает результаты поиска в виде ранжированного списка найденных веб-документов. Место в списке определяется тем, насколько полно тот или иной документ отвечает критери­ям, указанным в запросе пользователя.

Принципы работы паука, организации индекса, поисковой программы в поисковых машинах, как правило, различаются. Поэтому запрос по одним и тем же выражениям в разных поис­ковых машинах обычно дает разные результаты.

Программа поиска отыскивает страницы, которые соответст­вуют формальным требованиям запроса. Чтобы определить по­следовательность, в которой отобранные страницы будут пред­ставлены пользователю, применяется алгоритм ранжирования. В интересах пользователя документы, наиболее соответствующие потребностям пользователя, должны быть помещены первыми в списке результатов. Поисковые системы используют различные алгоритмы ранжирования, однако основные принципы опреде­ления соответствия документов запросу следующие:

  • количество слов запроса в текстовом содержимом до­кумента;

  • тэги, в которых эти слова располагаются;

  • местоположение искомых слов в документе;

  • удельный вес искомых слов в общем количестве слов до­кумента;

  • время — как долго страница находится в базе поискового сервера;

  • индекс цитируемости — как много ссылок на данную стра­ницу идет с других страниц, зарегистрированных в базе поиско­вой машины.

Однако эффективность работы поисковых машин ограничи­вается четырьмя существенными факторами.

1.Топология Интернета такова, что поисковые машины мо­гут просматривать не больше трети всех сайтов в Интернете.

В 2000 г. специалисты компаний AltaVista,IВМ и Compag исследовали ресурсы и гиперсвязи существующего информа­ционного пространства WWW. Просмотрев с помощью поис­ковых средств AltaVista свыше 600 млн веб-страниц и 1,5 млрд ссылок, размещенных на этих страницах, они пришли к выводу, что исследуемое пространство состоит из следующих компо­нентов:

  • центральное ядро — эго тесно связанные между собой веб­страницы, с каждой из которых можно попасть на любую другую (27%);

  • отправные страницы. В них могут быть ссылки, ведущие к ядру, но из ядра к отправным страницам попасть нельзя (22%);

  • конечные веб-страницы, к которым можно прийти по ссыл­кам из ядра, но к ядру от них попасть нельзя (22%);

  • полностью изолированные от центрального ядра страницы, имеющие ссылки либо на конечные веб-страницы, либо ссылки с отправных веб-страниц (22%);

  • веб-страницы, не пересекающиеся с остальными ресурсами Интернета (7%).

Исследования показали, что при увеличении общего объема информационных ресурсов Интернета установленные отноше­ния компонентов остаются прежними. Проведенный анализ позволяет сделать вывод о том, что информационное простран­ ство Интернета является достаточно сложным и неоднородным. К отдельным ресурсам Интернета поисковые машины не имеют доступа.

2.Глубина индексирования веб-сайтов. Большинство поис­ковых машин индексируют только определенное количество до­кументов на одном веб-сайте.

3."Невидимый Интернет" (скрытый). "Видимая" часть сайтов — это та часть, которая обрабатывается поисковыми системами и индексируется. "Невидимая" часть — это та часть сайта, которая не предназначена для обработки поисковыми системами. Амери­канская фирма BrightPlanet разработала программное обеспече­ние по исследованию "невидимой" части сайтов. Полученные ре­зультаты показывают, что число документов "невидимой" части более чем в 500 раз превышает число документов, относящихся к "видимой" части [25].

К невидимому Интернету в первую очередь относятся ресур­сы, для доступа к которым требуется пароль или регистрация, профессиональные базы данных, а также различные форматы предоставления информации. Например, только с недавнего вре­мени поисковые машины начали индексировать информацию в PDF-формате.

Лидирующие позиции по количеству проиндексированных веб-страниц занимают поисковые машины Google, AltaVista (рис. 7.2).

При работе с поисковыми машинами большое значение име­ет язык запросов, так как единственным инструментом поиска становится полнотекстовый поиск по ключевым словам.

В большинстве поисковых систем доступен набор поисковых операторов. Наиболее распространены операторы, реализующие логические условия "И" (AND), "ИЛИ" (OR), "НЕ" (NOT), "РЯ­ДОМ" (NEAR). Эти условия пишутся на английском языке и имеют символьные сокращения. Символьное обозначение поисковых операторов и возможности их использования значительно различаются в поисковых машинах. Оператор бли­зости в чистом виде практически не присутствует (в AltaVista оператор NEAR задает поиск слов запроса в пределах 10 слов, в Lycos — в пределах 25), обычно он обозначается числом в окруже­нии каких-либо специальных символов.

Рис. 7.2. Количество проиндексированных веб-страниц поисковыми машинами, млн веб-документов

Источник: Захаров В. П. Информационные ресурсы (документаль­ный поиск). - СПб.: Санкт-Петербургский гос. ун-т, 2002. - С. 145.