Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
163
Добавлен:
22.08.2013
Размер:
294.27 Кб
Скачать

13.4. Проектирование распределенных документальных информационных ресурсов

Одна из главных задач, которую призваны решать системы управления - это интеграция данных из различных источников, в том числе со слабоструктурированными данными. Системы интеграции данных должны обрабатывать запросы, для ответа на которые может потребоваться извлечение и обобщение данных из различных источников. При этом возможны следующие варианты:

  • Регулярные источники, где представление и организация данных в той или иной степени формализованы, хотя при этом могут использоваться различные модели данных и интерфейсы доступа к ним, или данные источника могут быть не структурированными.

  • Источники уникальные, т.е. взаимодействовать с источником можно только через предоставляемый им интерфейс и нет никакой возможности повлиять на его внутренние процессы.

Теоретически и практически возможны два подхода к решению задачи интеграции данных – хранилища данных и виртуальные хранилища (или «витрины данных»).

Для построения систем объединяющих большое количество источников, содержание которых часто изменяется (например, Web-ресурсы), наиболее предпочтительным является виртуальный подход.

Рассматривая типичную организацию виртуального хранилища, выделим два уровня логический и физический.

Логический уровень определяется выбором модели данных и языка запросов для этой модели. Выбранная модель используется для представления данных, извлекаемых из всех источников. Таким образом, пользователь системы интеграции получает возможность унифицированного доступа ко всем данным. Важным требованием к модели данных является обеспечение прозрачности доступа к внешним источникам, т.е. пользователь видит внешние данные как локальные и в выбранной им модели, не заботясь об управлении доступом к источнику.

Физический уровень. Ключевым понятием организации виртуального хранилища являются средства преобразования данных. На слайде 13.12 приведена типичная архитектура, основанная на распространенной концепции посредников.

Основными компонентами, обеспечивающими возможность интегральной обработки распределенных данных, являются «оболочка» и «посредник».

Оболочка используется для хранения информации о внешнем источнике и организации доступа к нему. При получении запроса оболочка обращается к источнику через предоставляемый им интерфейс. Полученные от источника данные конвертируются во внутренний формат данных хранилища.

Посредник осуществляет интеграцию данных из различных источников (используя различные оболочки). Посредник может взаимодействовать как с оболочками, так и с другими посредниками. Таким образом, предоставляется возможность построения сложной сети взаимодействующих между собой посредников, что позволит обобщать данные различными способами для удовлетворения нужд различных приложений.

Существо проектирования распределенных документальных ИР имеет свои особенности. В следствие того, что основное назначение документальных ресурсов - долговременное хранение и ретроспективный поиск информации, практически каждый ресурс имеет свою историю и, часто, создается как уникальный. Поэтому объектом проектирования является не архитектур обобщенного ресурса, для в результате проектирования которой определяются свойства составляющих, а скорее их информационные взаимосвязи, которые можно установить исходя из возможностей уже существующих решений.

Для распределенных информационных систем характерны огромные объемы и низкая структурированность данных, неоднородность, независимость и разные условия управления и политики доступа. При этом возникают вопросы информационной совместимости, в частности на техническом, синтаксическом и семантическом уровнях.

Для преодоления этой «анархии» используется унификация метаданных, описывающих содержимое ресурса в виде набора именованных значений, в том числе связей с другими ресурсами (одним из средств в этом случае является использование спецификации Namespaces, которая решает задачу унификации имен в XML-документах и разделения имен между различными системами управления ресурсом вместо многочисленных переопределений).

Метаданные могут относиться к различным предметным областям, в рамках одной иметь разные выражение и интерпретацию. Создание и согласование стандартных прикладных профилей метаданных и онтологий упростит интеграцию разнообразных систем, позволит автоматизировать обмен метаданными, их обработку и преобразование, повысить точность и эффективность поиска.

На этапе проектирования необходимо специализировать общие схемы метаданных под потребности конечных приложений, разработать набор элементов метаданных для общей части ПрО и профили метаданных конкретных научных областей, согласуя их с отраслевыми и международными стандартами; обеспечить выделение и согласование общепринятых классификаторов ресурсов и тезаурусов.

Другой аспект проектирования распределенной ИС - маршрутизация запросов и объединение ответов. При этом используются “предварительные знания” – информацию, используемую с целью обоснованной рассылки поисковых запросов, и формируемую на основе локальных индексов.

Соседние файлы в папке Lekcii