
- •Управление информационными ресурсами
- •Кафедра информационных технологий
- •Оглавление
- •Глава 1. Экономика знаний. Рынок информации и знаний и его роль в управлении экономикой и в развитии общества.................................................. 9
- •Глава 2. Состояние мирового рынка информации............................................. 47
- •Глава 4. Информационные образовательные ресурсы.................................. 137
- •Глава 5. Международные и российские
- •Глава 6. Зарубежный и российский рынки знаний............................................. 180
- •Глава 7. Технологии доступа к информационным
- •Предисловие
- •Глава 1 экономика знаний. Рынок информации и знаний и его роль в управлении экономикой и в развитии общества
- •1.1. Основные понятия
- •1,2. Роль информации в развитии общества
- •Число персональных компьютеров и число подключений к Интернету для стран "Большой восьмерки"
- •1.3. Роль информации в экономике
- •1.4. Государственное управление информационными ресурсами
- •1.4.1. Государственные информационные ресурсы
- •1.4.2. Представление информации в государственные информационные ресурсы
- •1.4.3. Категории доступа к информации
- •1.4.4. Ограничения на содержимое средств массовой информации
- •1.4.5. Авторское право
- •1.5. Управление информационными ресурсами на предприятии, фирме
- •1.5.1. Информационные потребности при планировании деятельности предприятия
- •Менеджмент:
- •1.5.2. Бизнес-план и выявление требований к информационному обеспечению
- •1.5.3. Внешнеэкономическая деятельность и выявление требований к информационному обеспечению
- •1.5.4. Методика решения задач кредитования в банке и выявление требований к информационному обеспечению
- •Требования к информации на первом этапе
- •Вопросы для самопроверки
- •Глава 2 состояние мирового рынка информации
- •2.1. Этапы развития мирового рынка информации
- •2.2. Профессиональные базы Информационная корпорация
- •("Дан энд Брэдстрит")
- •Информационная корпорация QuestelOrbit
- •Информационное агентство LexisNexis
- •2.3. Деловые ресурсы Интернета
- •2.4. Виды информации в Интернете и профессиональных базах
- •Вопросы для самопроверки
- •Глава 3 состояние российского рынка информации
- •3.1. Справочная правовая информация
- •3.1.1. Государственные системы справочной правовой информации
- •3.1.2. Коммерческие системы справочной правовой информации
- •"КонсультантПлюс"
- •Консорциум "Кодекс"
- •Юридическое информационное агентство intralex
- •Компания "арбт"
- •3.2. Биржевая и финансовая информация
- •3.2.1. Основные зарубежные производители информационных продуктов и услуг на биржевом и финансовом рынках
- •Агентство Рейтер
- •Агентство Телерейт
- •Агентство Тенфор
- •Агентство "Блумберг"
- •3.2.2. Российские информационные агентства и службы в сфере биржевой и финансовой информации Информационное агентство РосБизнесКонсалтинг
- •Акционерное общество ак&м
- •Информационная коммерческая система "Международные информационные рынки" (икс мир)
- •Информационное агентство "Финмаркет"
- •Компания Парк.Ру
- •Агентство экономической информации "прайм-тасс"
- •Общество с ограниченной ответственностью мфд "ИнфоЦентр".
- •Состав информации и ее стоимость в пакете
- •Агентство "Интериндекс"
- •Агентство Интерфакс
- •3.3. Коммерческая информация
- •Агентство деловой информации (ади) Бизнес-Карта
- •Агентство "асу-Импульс"
- •"ИнформСистема"
- •Инфогруппа Компас
- •Институт промышленного развития (Информэлектро) Министерства экономического развития и торговли Российской Федерации
- •Информационное агентство "Норма"
- •Информационно-консультативный центр "Мосвнешинформ"
- •Информационное агентство Вдохновение
- •Агентство социум инфополис
- •Вопросы для самопроверки
- •Глава 4 информационные образовательные ресурсы
- •4.1. Виды информационных образовательных ресурсов
- •Образовательные порталы
- •Образовательные порталы
- •4.2. Уровни интеграции информационных ресурсов в образовании
- •4.3. Использование электронных информационных ресурсов в учебном процессе
- •4.3.1. Информационная грамотность
- •4.3.2. Обучение на базе мировых информационных ресурсов
- •Вопросы для самопроверки
- •Глава 5 международные и российские статистические ресурсы
- •5.1. Система международной статистики
- •5.2. Национальные системы статистики
- •5.3. Использование статистической информации в экономике и социологии
- •5.4. Федеральная служба государственной статистики (Росстат)
- •5.5. Статистические ресурсы в Интернете
- •Вопросы для самопроверки
- •Глава 6 зарубежный и российский рынки знаний
- •6.1. Зарубежный рынок знаний
- •6.2. Российский рынок знаний
- •6.2.1. Библиотечная сеть
- •Перечень библиотечно-информационных организаций, получающих из Российской книжной палаты обязательный бесплатный федеральный экземпляр изданий
- •6.2.2 Электронные библиотеки
- •6.2.3. Система научно-технической информации
- •Информация, предоставляемая федеральными органами нти
- •6.2.4. Система патентной информации
- •Взаимный обмен патентной документацией
- •Вопросы для самопроверки
- •Глава 7 технологии доступа к информационным ресурсам и ресурсам знаний
- •Выбор информационных ресурсов
- •Поиск информации в профессиональных базах
- •7.3. Технологии доступа к деловым ресурсам Интернета
- •Поисковые машины
- •Каталоги в Интернете
- •7.4. Технологии доступа к информации в электронных библиотеках
- •Процессы аналитико-синтетической обработки
- •Классификация информационных продуктов и услуг библиотек
- •7.5. Сравнительные характеристики эффективности поиска в различных системах и оценка достоверности
- •Вопросы для самопроверки
7.3. Технологии доступа к деловым ресурсам Интернета
Интернет, являясь глобальной телекоммуникационной сетью, предоставляет возможность доступа к большому количеству информационных ресурсов. По некоторым оценкам, объем Интернет-ресурсов превышает 50 млн веб-сайтов и 10 млрд веб-страниц [25].
Под веб-страницей понимается электронный документ, который может содержать информацию в различном формате в виде текста, изображения, звука и т.д. Веб-сайт является совокупностью веб-страниц, связанных по смыслу или ссылками. В наиболее благоприятном случае пользователь знает адрес сайта. Адрес он может получить различными способами: из книг, справочников, периодических изданий, рекламных проспектов и других источников.
Основной проблемой, с которой сталкивается пользователь при работе в Интернете, является обнаружение необходимых ему информационных ресурсов.
Поиск необходимых сведений в Интернете осуществляется либо при помощи поисковых машин (search engine), либо каталогов (directory). Но и здесь пользователь сталкивается с проблемой выбора, так как в 2001 г. количество поисковых машин в Интернете превысило 2000 [18].
На практике часто оба типа информационных поисковых систем представлены на одном веб-сервере. Эти веб-серверы так же принято называть порталами. Портал представляет собой веб-сайт, организованный как системное многоуровневое объединение разных ресурсов и сервисов.
Мы будем рассматривать поисковые машины и каталоги отдельно в виду принципиальных различий в организации их работы.
Поисковые машины
Задача поисковых машин — найти документы в Интернете по запросу пользователя. Поисковые системы состоят из трех основных частей.
Робот/Паук — программа, которая систематически посещает веб-страницы, считывает и индексирует полностью или частично их содержимое и далее следует по найденным ссылкам. Полученная информация заносится в базу данных поисковой машины.
Поисковая база данных Индекс представляет собой гигантское хранилище, которое содержит опеределенным образом организованные данные: индексы, ссылки на веб-страницы и другую дополнительную информацию.
Поисковая программа, которая в соответствии с запросом пользователя перебирает индексы в поисках соответствующей информации и выдает результаты поиска в виде ранжированного списка найденных веб-документов. Место в списке определяется тем, насколько полно тот или иной документ отвечает критериям, указанным в запросе пользователя.
Принципы работы паука, организации индекса, поисковой программы в поисковых машинах, как правило, различаются. Поэтому запрос по одним и тем же выражениям в разных поисковых машинах обычно дает разные результаты.
Программа поиска отыскивает страницы, которые соответствуют формальным требованиям запроса. Чтобы определить последовательность, в которой отобранные страницы будут представлены пользователю, применяется алгоритм ранжирования. В интересах пользователя документы, наиболее соответствующие потребностям пользователя, должны быть помещены первыми в списке результатов. Поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения соответствия документов запросу следующие:
количество слов запроса в текстовом содержимом документа;
тэги, в которых эти слова располагаются;
местоположение искомых слов в документе;
удельный вес искомых слов в общем количестве слов документа;
время — как долго страница находится в базе поискового сервера;
индекс цитируемости — как много ссылок на данную страницу идет с других страниц, зарегистрированных в базе поисковой машины.
Однако эффективность работы поисковых машин ограничивается четырьмя существенными факторами.
1.Топология Интернета такова, что поисковые машины могут просматривать не больше трети всех сайтов в Интернете.
В 2000 г. специалисты компаний AltaVista,IВМ и Compag исследовали ресурсы и гиперсвязи существующего информационного пространства WWW. Просмотрев с помощью поисковых средств AltaVista свыше 600 млн веб-страниц и 1,5 млрд ссылок, размещенных на этих страницах, они пришли к выводу, что исследуемое пространство состоит из следующих компонентов:
центральное ядро — эго тесно связанные между собой вебстраницы, с каждой из которых можно попасть на любую другую (27%);
отправные страницы. В них могут быть ссылки, ведущие к ядру, но из ядра к отправным страницам попасть нельзя (22%);
конечные веб-страницы, к которым можно прийти по ссылкам из ядра, но к ядру от них попасть нельзя (22%);
полностью изолированные от центрального ядра страницы, имеющие ссылки либо на конечные веб-страницы, либо ссылки с отправных веб-страниц (22%);
веб-страницы, не пересекающиеся с остальными ресурсами Интернета (7%).
Исследования показали, что при увеличении общего объема информационных ресурсов Интернета установленные отношения компонентов остаются прежними. Проведенный анализ позволяет сделать вывод о том, что информационное простран ство Интернета является достаточно сложным и неоднородным. К отдельным ресурсам Интернета поисковые машины не имеют доступа.
2.Глубина индексирования веб-сайтов. Большинство поисковых машин индексируют только определенное количество документов на одном веб-сайте.
3."Невидимый Интернет" (скрытый). "Видимая" часть сайтов — это та часть, которая обрабатывается поисковыми системами и индексируется. "Невидимая" часть — это та часть сайта, которая не предназначена для обработки поисковыми системами. Американская фирма BrightPlanet разработала программное обеспечение по исследованию "невидимой" части сайтов. Полученные результаты показывают, что число документов "невидимой" части более чем в 500 раз превышает число документов, относящихся к "видимой" части [25].
К невидимому Интернету в первую очередь относятся ресурсы, для доступа к которым требуется пароль или регистрация, профессиональные базы данных, а также различные форматы предоставления информации. Например, только с недавнего времени поисковые машины начали индексировать информацию в PDF-формате.
Лидирующие позиции по количеству проиндексированных веб-страниц занимают поисковые машины Google, AltaVista (рис. 7.2).
При работе с поисковыми машинами большое значение имеет язык запросов, так как единственным инструментом поиска становится полнотекстовый поиск по ключевым словам.
В большинстве поисковых систем доступен набор поисковых операторов. Наиболее распространены операторы, реализующие логические условия "И" (AND), "ИЛИ" (OR), "НЕ" (NOT), "РЯДОМ" (NEAR). Эти условия пишутся на английском языке и имеют символьные сокращения. Символьное обозначение поисковых операторов и возможности их использования значительно различаются в поисковых машинах. Оператор близости в чистом виде практически не присутствует (в AltaVista оператор NEAR задает поиск слов запроса в пределах 10 слов, в Lycos — в пределах 25), обычно он обозначается числом в окружении каких-либо специальных символов.
Рис. 7.2. Количество проиндексированных веб-страниц поисковыми машинами, млн веб-документов
Источник: Захаров В. П. Информационные ресурсы (документальный поиск). - СПб.: Санкт-Петербургский гос. ун-т, 2002. - С. 145.