Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Электронная информация и электронные ресурсы

..pdf
Скачиваний:
3
Добавлен:
20.11.2023
Размер:
20.88 Mб
Скачать

Коллективные системы хранения

Доступны по протоколу Z39.50 — 2,4 млн БЗ (в основном ка­ талоги непериодических изданий и полнотекстовых докумен­ тов).

Вне сетевой среды — 2,2 млн БЗ.

Создан Тренинг-центр КСМБ, в котором прошли обучение по трем специализациям 300 ведущих сотрудников библиотек — участниц корпоративных объединений разных регионов Рос­ сии.

Портал КСМ Б, включая шлюз Z39.50, реализует возмож­ ность работы с ресурсами КСМБ в режимах Интернет/Интранет, в том числе предлагая и ЭДД.

Разработана и внедрена подсистема авторизованного досту­ па к ЭК КСМ Б.

Отдельно следует сказать про Международную ассоциацию пользователей и разработчиков электронных библиотек и новых информационных технологий (ассоциацию ЭБНИТ), которая за последние годы объединила более 200 библиотек из России и 10 стран СНГ, разработала и поставила в более чем 1600 библио­ тек типовые решения по автоматизации библиотек на базе сис­ темы И РБИ С (www.elnit.ru).

11.4. Коллективные системы хранения

Проект JSTOR. Проект JSTOR (Journal Storage, электрон­ ный архив научной периодики), некоммерческая организация, был инициирован Фондом Эндрю Меллона (The Andrew W. Mellon Foundation), сейчас поддерживается также фондом Буша и реализуется Университетом штата Миннесота и рядом част­ ных колледжей американских штатов Миннесота, Северная и Южная Дакоты. Первоначальная задача — за счет конвертиро­ вания печатных мало спрашиваемых периодических изданий в электронный формат создать условия для долговременного и компактного хранения научной периодики, добиться экономии библиотечных площадей и расходов на содержание библиотеч­ ных депозитарных фондов. Журнальные страницы сканируют­ ся с довольно высоким разрешением — 600 dpi (600 точек на дюйм), и файл изображения связывается специально разрабо­ танной для этого проекта программой с текстом, полученным в

471

Глава 11. Растущая роль консолидации и кооперации библиотек...

результате оптического распознавания части статьи. В сочета­ нии с записями из таблицы содержания данного выпуска фор­ мируется база данных изображений полных текстов, допускаю­ щая точный поиск любой статьи, ее распечатку и т. п. Удобные поисковые средства превратили систему из просто архивной в мощный инструмент научной работы и обучения. Экономиче­ ская суть идеи состоит в том, что никакой выгоды от проведе­ ния оцифровки своих фондов отдельно взятая библиотека не получает. А вот если оцифровкой фондов займется несколько библиотек, и затем к оцифрованным ресурсам будет обеспечен доступ из всех библиотек-участниц, то создастся возможность сделать эту работу экономически эффективной. Еще одна осо­ бенность проекта — введение понятия и практики применения так называемой движущейся стенки (moving wall), то есть фик­ сированного промежутка времени (в большинстве случаев от 2 до 5 лет) между временем публикации данного тома и его появ­ лением в коллекции JSTOR. Такой подход позволяет издателям сохранить в основном свой сектор рынка, свои доходы и при­ влекает их к сотрудничеству с JSTOR. Тем самым наиболее ще­ петильные и трудоемкие для долговременного хранения вопро­ сы авторского права решаются положительно в пользу читателя. Определенной гарантией разумного решения всех технологиче­ ских вопросов хранения и обслуживания в данном проекте яв­ ляется тот факт, что проект организован профессиональными специалистами, а не коммерсантами. Система JSTOR (jstor-info @umich.edu) на начало 2004 г. имела 11 специализированных коллекций общим количеством 13,4 млн страниц. В работе сис­ темы принимают участие 2000 коллективных пользователей, 230 издательств (в основном университетских), в ней хранятся цифровые копии 9460 наименований научных журналов. В со­ ответствии с принципом moving wall сейчас выдаются издания 2000 г. В год примерно по этому принципу «расчищается дос­ туп» к 1150 томам или к 300 тыс. журнальных страниц. С 1997 г. по настоящее время получено 130 млн заказов, распечатано 6,4 млн статей. При опросе библиотекарей 33% из них призна­ ли, что перестали переплетать журнальные тома для длительно­ го депозитарного хранения, а 23% стали отдавать переплетен­ ные старые тома в удаленное хранилище, все потому, что они полностью доверяют системе JSTOR.

472

Интернет - коллективное обслуживание и творчество

11.5.Интернет — коллективное обслуживание

итворчество

17 мая 1974 г. академик Андрей Дмитриевич Сахаров в статье «Мир через полвека», написанной по просьбе американского журнала Saturday Review попытался предсказать будущее чело­ вечества. В разделе «Связь и информационные службы» он ут­ верждал: «Я предполагаю создание всемирной информацион­ ной системы. В перспективе, быть может, позднее чем через 50 лет, я предполагаю создание Всемирной информационной системы (ВИС), которая сделает доступным для каждого в лю­ бую минуту содержание любой книги, любой статьи, получение любой справки (...). Но поистине историческая роль ВИС будет в том, что исчезнут все барьеры обмена информацией между странами и людьми».

Проект Комиссии Европейского сообщества Minerva PLUS (Ministerial Network for Valorising Activities in Digitisation), сете­ вое взаимодействие министерств культуры стран — членов ЕС для координации, усиления и оценки деятельности по оциф­ ровке культурного и научного наследия — один из весьма харак­ терных примеров в этой сфере.

В 2000 г. Европейский союз принял 10-летнюю программу экономического, социального и экологического обновления, целью которой является переход к наукоемкой конкурентоспо­ собной экономике. Ставится задача увеличения к 2010 г. доли НИОКР до 3% от ВВП по сравнению с 1,9% в 2000 г. В этом рус­ ле находятся программы технологии информационного обще­ ства, создание «Электронной Европы», программ «е-Content» по формированию европейских информационных ресурсов по куль­ туре и науке и обеспечению доступа к ним. Предложен даже ме­ ханизм координации национальных программ (так называемый Лундский план действий). В России также предполагается соз­ дать Стратегический совет по участию страны в этих проектах.

Интересно отметить, что через четыре года после своего соз­ дания бесплатная и открытая сетевая энциклопедия Wikipedia получила свою миллионную статью. В целом в нее поставляется информация на 100 языках мира, при этом 14 языков формиру­ ют массивы более чем по 10 тыс. статей каждый. На первом мес­ те по количеству статей идет Великобритания, на втором — Гер­

473

Глава 11. Растущая роль консолидации и кооперации библиотек...

мания (140 тыс. статей). Предполагается, что немецкая часть энциклопедии будет издана на CD-ROM и тираж из 30 тыс. дис­ ков будет распространен бесплатно во все организации, постав­ лявшие статьи для энциклопедии. Сейчас 30 добровольцев-об- щественников ведут проверку правильности информации. В свое время Wikipedia создавалась как конкурент Британской энциклопедии. В Wikipedia любой пользователь Интернета мо­ жет создавать собственные статьи, вносить поправки или до­ полнения к любым записям. Почетный приз конкурса Webby Awards — спираль, напоминающая вынутую из автомобильной подвески пружину, — вручен лучшим, по мнению академиков Международной академии цифровых искусств и наук (The International Academy of Digital Aris and Sciences), Интер­ нет-проектам. Среди «коммерческих» сайтов в 2004 г. приз взял iTunes Music Store. В категории «Сообщество» (Community) вы­ играл сайт этой сетевой энциклопедии www.wikipedia.org. Дан­ ная номинация единственная, в которой посещение сайтовлауреатов не связано с преодолением языкового барьера. Для тех, кто готов принять посильное участие в определении и тол­ ковании терминов для Wikipedia, есть раздел на русском языке.

11.6.Семантическая разметка сетевых материалов

Данный раздел подготовлен по материалам статьи «Когда Сеть сама начнет думать для себя» (When the web starts thinking for itself) руководителя службы Сети и электронного маркетинга компании «Делуатг Туш Тохамацу» (Deloitte Touche Tohamatsu) г-на Дэвида Грина (David Green), персональный веб-сайт www.davidgreen.me.uk. Мы умышленно даем этот материал как завершающий и главу, и книгу в целом, так как уже сегодня без знания и умения принимать такие сведения нет перспективы создания и применения электронных ресурсов. Только интел­ лектуальная среда может быть эффективной платформой взра­ щивания и целенаправленного использования электронных ин­ формационных ресурсов.

«В семантической сети, — пишет г-н Грин, — документы вначале будут размечаться таким образом, чтобы поисковые ма-

474

Семантическая разметка сетевых материалов

шины могли бы различать их содержание». Но затем начнется внедрение процессов автоматической интеллектуальной обра­ ботки данных, «Сеть начнет думать». В семантической сети дан­ ные обозначаются семантическими метками, которые интер­ претируются как отражение содержания документов, в отличие от меток, обозначающих расположение и форматирование до­ кумента (как это делается в формате языка разметки HTML). Предоставив любому человеку возможности для простой, дос­ тупной публикации, сеть оказала глубокое воздействие на об­ щество, изменив поведение и дав надежду на повышение эф­ фективности в таких процессах, как поиск информации, рас­ пространение знаний, коллективная работа. И в то же время пока что и поиск, и обмен данными не столь уж просты.

В сентябре 1998 г. Тим Бернере Ли, создатель системы WWW, высказал свое мнение о путях развития сети и устране­ ния недостатков. Его работа «Дорожная карта для семантиче­ ской сети» (Semantic Web Road Мар) опубликована на веб-сайте консорциума W3C (некоммерческой организации, координи­ рующей разработку стандартов сети в мировом масштабе). «До­ рожная карта» послужила толчком к разработке исследований во всем мире, направленных на создание стандартов и инфра­ структуры, которые в конечном счете привели бы к формирова­ нию сети, способной автоматически производить несложный поиск и обработку информации. Семантическая сеть — это ес­ тественное продолжение существующей ныне сети; однако в се­ мантической сети данные приобретают некоторый смысл, а не только вид. Как это делается, какие технологии используются или разрабатываются — предмет изложения данной статьи.

Прежде всего документы в сети будут снабжаться при опуб­ ликовании семантическими разметками — ярлыками (тэгами), которые будут определять не внешний вид документа (так пока что делается в языке разметки HTML), а относиться к его содер­ жанию. Этот фундаментальный шаг в изменении условий пуб­ ликации в сети будет иметь очень глубокие и важные последст­ вия, в корне меняющие условия работы поисковых машин. Вместо того чтобы с помощью поисковой машины грести все из сети (как рыбаки «вспахивают» тралом толщу океанских вод), вы сможете точно сформулировать запрос и получить «отфильт­ рованный» ответ.

475

Глава 11. Растущая роль консолидации и кооперации библиотек...

Семантическая сеть будет дополнять работу людей в тех об­ ластях, где производительность человеческого труда пока невы­ сока, например при необходимости провести быструю обработ­ ку больших объемов информации, проанализировать большие куски текста в поисках нужной информации и т. п.

Можно также предположить продвижение этих технологий

ив обычный, обыденный мир, в котором всякие электрические

иэлектронные приборы будут «объявлять» свои функциональ­ ные возможности посредством микропроцессоров и тех самых тэгов. Например, мобильный телефон сможет «сам» описать спецификации своего дисплея так, что какой-то сетевой доку­ мент без вашего участия будет сделан доступным (читаемым, в данном случае) автоматически, как принято говорить — налету.

Семантическая сеть берет свои истоки из уже имеющихся технологий, например таких, как:

язык разметки ХМ L;

Схема описания ресурсов (Resource Description Frame­ work — RDF);

онтология;

интеллектуальные агенты.

Как известно, язык разметки XML является логическим про­ должением языка HTML. Это открытая, семантически скон­ центрированная технология разметки. Она предусматривает су­ щественно большие возможности, чем просто метаданные, по­ скольку позволяет издателю указывать содержание документа. Язык XML — мощный инструмент структурированного поиска в текстовых сетевых страницах, который направляет пользова­ теля непосредственно к тем частям документа, где расположена необходимая ему информация. С помощью специальных стан­ дартов форматирования (например, XSL) через язык разметки XML осуществляется обработка текста, в результате чего сете­ вая страница уже имеет какой-то определенный вид. После та­ кой обработки однажды сформатированный текст может быть опубликован много раз на любых программных платформах.

При том, что издатели самостоятельно создают свои тэги — разметки языка XML, соответствующая прикладываемая схема объясняет структуру разметки данного издателя путем выпуска Словаря разметок и обеспечивает семантическую связь с этими

476

Семантическая разметка сетевых материалов

словарями. Все сколько-нибудь значимые крупные информа­ ционные и издательские компании используют эту технологию. В действительности в области работы с базами данных XML превратился де-факто в признанный стандарт по передаче дан­ ных из одного программного приложения в другое.

Еще одна новая технология, Схема описания ресурсов, исполь­ зуется для обозначения смысла документа, записанного в форма­ те XML. Точно так же, как и в обычном разговорном языке, в ко­ тором смысл передается предложением, содержащим 1) сущест­ вительное, 2) глагол и 3) объект, система RDF направлена на выражение смысла сетевого текста и соотношения между раз­ личными сетевыми страницами посредством программирован­ ного формирования структуры, содержащей: 1) предмет (вещь), 2) свойства, 3) значения.

Например, некто Дэвид Грин (предмет) является автором (свойство) этой статьи и ряда других (значения). Субъект, объ­ ект и глагол (или вещь, свойство и значение) кодируются в до­ кументе посредством Единого идентификатора ресурса (Uniform Resource Identifier — URI), который обеспечивает еди­ ный подход к связыванию слов внутри документа с определени­ ем. Таким образом обеспечивается возможность обмена данны­ ми между системами. Однако, если RDF позволяет издателю информировать входящий компьютер о том, какой термин ис­ пользован для разметки содержания документа, разные издате­ ли будут пользоваться различными терминами и идентификато­ рами для выражения одной и той же концепции (мысли). Онто­ логии обеспечивают более глубокое понимание содержания за счет установления эквивалентности в соотношениях между тер­ минами (то есть, например, термин А на моей веб-странице вы­ ражает ту же самую концепцию, что и термин Б на вашей веб-странице). Онтология — это файл, который формально оп­ ределяет соответствие между терминами, например «таксоно­ мия» и «набор правил составления определений». Создавая та­ кой «словарь значений» (в философии слово «онтология» озна­ чает «природа бытия») онтология может улучшить точность результатов поиска в сети, заставляя поисковую программу найти страницы документов, относящихся к определенной за­ данной концепции, а не какой-то определенный термин, как это сейчас происходит.

477

Глава 11. Растущая роль консолидации и кооперации библиотек...

Если XML, RDF и онтологии формируют основу инфра­ структуры семантической сети, то именно интеллектуальные агенты (роботы поисковых систем) реализуют все раскрываю­ щиеся возможности и демонстрируют всю мощь сети. Интел­ лектуальным агентом, пожалуй, можно назвать часть адаптив­ ной системы кодирования компьютера, способной к выполне­ нию рассуждения и самообучаемости на примере наших, человеческих привычек, образа действия и преференций и та­ ким образом составляющей свой («сфотографированный» с на­ шего) алгоритм действия. Можно сказать, что речь идет о «про­ активной персонализации» компьютера.

Существуют тысячи различных агентов, каждый из которых нацелен на выполнение своих специфических задач (например, в осуществлении поиска, в проведении сетевых бесед — чатов, в интернет-покупках и т. д.). Важным аспектом этих помощников является их социальный, общественный характер — они могут взаимодействовать и передавать сообщения людям или друг другу. В семантической сети различные агенты работают совме­ стно, создавая информационно значимые цепочки, в которых запрос пользователя обрабатывается пакетно, через сборки бло­ ков информации, просматриваемых помощниками, — и каж­ дый из них вносит что-то свое, тем самым повышая ценность конечного результата.

Процесс происходит следующим образом. Пользователь формулирует информационный запрос высокого уровня слож­ ности. Интеллектуальный агент (помощник) анализирует этот запрос и передает его далее, другим работающим в этой сфере помощникам — агентам и службам, которые в сетевых объявле­ ниях рекламировали свои услуги по данной тематике. Помощ­ ники «просеивают» большие объемы информации, имеющиеся в сети, и последовательно приводят этот объем к небольшому массиву высококачественной информации, то есть формируют точный ответ на запрос.

Автоматизация выполнения поисковых запросов будет иметь результатом все увеличивающуюся роль систем искусст­ венного интеллекта — таких, например, как интеллектуальные помощники. Один из ключевых моментов формирования ново­ го мира интеллектуальных агентов состоит в том, что при их растущей автономности будет падать уровень их подотчетности

478

Семантическая разметка сетевых материалов

человеку. В каком объеме информация о наших привычках и поведении передается от одного интеллектуального агента к другому, к другим базам данных и к другим системам? Создает­ ся ли некая обратная связь, при которой помощник-агент не только учится у нас, но и начинает учить других нашим обычаям и пристрастиям? Необходимо построить некие границы, обо­ значая их только потребностями пользователя, с тем чтобы обезопасить себя на всякий случай.

Точно так же интеллектуальные помощники должны будут проводить проверку аутентичности и качества источников ин­ формации, а также и других интеллектуальных агентов, с кото­ рыми им приходится взаимодействовать при выполнении своей работы. Соответствующая технология уже имеется — это элек­ тронная подпись. Поскольку в будущем значительная часть преступлений будет совершаться путем воровства персональ­ ных данных, а не конкретных физически ощутимых вещей (ар­ тефактов), то отлаживание подобного рода систем безопасности приобретает особое значение.

Признавая это, Объединенный исследовательский центр Европейской комиссии создает интеллектуального агента, спо­ собного обеспечить защиту права на частную жизнь с использо­ ванием технологии семантической сети, и протокол РЗР защи­ ты персональных данных, разработанный консорциумом W3C. Этот агент будет в полуавтоматическом режиме осуществлять защиту персональных данных методом сравнения предпочте­ ний пользователя с рекомендованными процедурами.

Семантическая сеть и другие технологические продвиже­ ния, такие, как, например, коллективные сетевые вычисления (когда один сетевой компьютер использует суммарные вычис­ лительные мощности многих других компьютеров), операцион­ ные системы Интернета — все это подводит к концепции некое­ го «мирового мозга». Сеть, насыщенная думающими, рассуж­ дающими, интеллектуальными агентами-помощниками, будет действовать как некий суперорганизм — мозг всего общества. Все это откроет запасы коллективного мирового знания для ин­ теллектуального анализа и выявления новых концептуальных связей, даже там, где пока не существует терминологического единства. Агенты будут также самостоятельно обрабатывать страницы и динамично добавлять новые ссылки и связи к смеж­

479

Глава 11. Растущая роль консолидации и кооперации библиотек...

ным концепциям, тем самым выявляя новые соотношения межау отраслями знания. Интеллигентность динамической самооргани­ зующейся сети, в которой активно используемые связи приобре­ тают высокий иерархический уровень, а мало используемые связи отмирают (точно так же, как это происходит с нейронами челове­ ческого организма), будет постепенно наращиваться за счет взаи­ модействия автономных и первоначально ограниченных каки­ ми-то контекстными рамками интеллектуальных агентов.

Известен девиз проекта «Открытый каталог» — «Люди дела­ ют это лучше». По мнению Тима Бернерса Ли, семантическая сеть многое может сделать лучше, чем люди: «Автоматическое обнаружение простой, несложной информации, обмен ею, по­ могут людям качественно выполнять более сложные задания». Такого рода симбиоз интеллектуального потенциала людей, компьютеров, интеллектуальных помощников, обеспечиваю­ щий немедленный доступ к мировым запасам человеческого знания, кажется какой-то утопией. Точно так же выглядит уто­ пией и самообучающаяся система компьютерного интеллекта, которая очень быстро обгонит в своем развитии нашу способ­ ность контролировать такую систему.

Будет ли такой мировой разум действовать как электронный диктатор, для которого интересы отдельных личностей окажут­ ся на втором месте по сравнению с общественными потребно­ стями? Два исследования, опубликованные в журнале Nature (Природа), указывают на то, что Интернет скорее эволюциони­ рует как живой организм, чем по модели роста случайных нежи­ вых сетей. Комментируя эти исследования в журнале «Новый ученый» (New Scientist), г-н Даниэль Деннер (Daniel Denner), директор Центра изучения познания Университета Медфорда, Массачусетс, США, указывает: «Глобальная коммуникацион­ ная сеть уже сейчас способна к сложному поведению, которое игнорирует стремление людей контролировать ее». Семантиче­ ская сеть может действовать как коллективная память, тем са­ мым умножая мощь человеческого мозга отдельного лица и зна­ чительно ускоряя темп обучения людей и появление новых от­ крытий. Но нам нужно быть очень аккуратными в организации контроля за ее развитием и за степенью нашей зависимости от нее, если мы хотим избежать сценария формирования ужасного и могучего электронного диктатора».

Соседние файлы в папке книги