
- •Необходимость создания метаданных
- •Существующие системы метаданных
- •Цели, задачи создания метаданных и требования к ним
- •Классификация метаданных
- •Обоснование выделения объектов метаданных – место метаданных на различных этапах обработки данных
- •Выделение атрибутов метаданных
- •Организация хранения метаданных
- •Агрегация и аналитика для метаданных
- •Список литературы
- •Перечень вопросов для самопроверки
Организация хранения метаданных
Во многих СУБД имеются службы метаданных. Создание и работа с этими метаданными обеспечиваются механизмами используемых СУБД. Для решения локальных задач в большинстве случаев этих метаданных будет достаточно.
Среда управления метаданными должна включать в себя [10, 12] источники метаданных, средства интеграции метаданных, базу метаданных, средства доставки, доступа и публикации метаданных. Источники метаданных – это информационные системы, которые включены в систему управления метаданными. Средства интеграции метаданных предназначены для извлечения метаданных из источников и размещения в базе метаданных База метаданных содержит бизнес-правила, определения, терминологию, глоссарий, происхождение данных и алгоритмы их обработки, описания таблиц и столбцов (атрибутов), включающие статистику работы приложений, данные для аудита. Средства управления метаданными обеспечивают определение прав, ответственности и управляемости. Средства доставки, доступа и публикации метаданных позволяют пользователям и информационным системам работать с метаданными наиболее удобным способом.
База метаданных может иметь централизованную, децентрализованную или распределенную архитектуру [11]. Централизованная архитектура предполагает наличие глобальной базы метаданных, который построен на основе единой модели метаданных и обслуживает все корпоративные системы. Необходимость доступа систем к единой централизованной базе метаданных может привести к деградации производительности удаленных программно-аппаратных комплексов из-за возможных проблем связи. В распределенной архитектуре глобальная база метаданных содержит корпоративные метаданные для централизованных информационных систем, а локальные базы метаданных, содержащие подмножество метаданных, обслуживают периферийные системы. Децентрализованная архитектура предполагает, что центральная база метаданных содержит только ссылки на локальные базы метаданных, которые ведутся независимо в локальных базах метаднных. Отсутствие затрат на согласование терминов и понятий значительно сокращает стоимость разработки, но приводит к множественным и разнообразным моделям, несовместимых друг с другом. Применимость этой архитектуры ограничена случаем, когда интегрируются системы внутри непересекающихся направлений производственной деятельности компании. Выбор между централизованной и распределенной архитектурой основан на том, что все системы расположены в центральном офисе, и проблем с устойчивой связью нет. К сожалению, такие ситуации встречаются очень редко. Таким образом, наиболее приемлемой является централизованно-распределенная архитектура базы метаданных. Интеграция данных, метаданных и НСИ должна выполняться одновременно.
Для централизованной базы метаданных предлагается создание единой модели метаданных включающей тематические (существующие и развиваемые новые) объекты метаданных.
Для хранения и обеспечения доступа к метаданным разрабатываются схемы баз метаданных, включающие описание данных, структур таблиц с метаданными и т.п., позволяющие без дублирования организовать их хранение. Для управления метаданными необходимо:
-
описание объектов управления данными (технологий, массивов, платформ, приборов, проектов, программных средств и т.п.) для прямого информирования конечного пользователя;
-
описание функциональных элементов интерфейса для технологических приложений (контроль, слияние массивов, удаление дублей и другие) и приложений конечного пользователя (предоставление сведений о наличии данных, выборка данных и др.).
Основной вход в систему поиска исходных данных должен начинаться с общих сведений о БД, позволяющий по логическим характеристикам БД (имя, метод получения, пространственно-временной масштаб представления, тип данных – текст, фактография, пространственные данные) и условиям поиска (географический район, период наблюдений) получить либо физические адреса хранения данных (имя таблицы), либо имя приложения для вычисления значений этого параметра или его статистических характеристик).
В условиях развития интегрированных технологий роль метаданных существенно возрастает и даже становится определяющей и связана со следующими положениями:
-
метаданные должны сопровождать данные и нужны, как для поиска и получения детальной информации о данных (методах, сетях наблюдений и др.), так и мониторинга жизненного цикла данных;
-
метаданные должны обеспечить поддержку механизма и логики работы системы распределенных данных;
-
метаданные и данные должны использовать единые лингвистические средства (классификаторы, коды, словари и др.).
Список связей объектов метаданных представлен в табл.9. Экземпляр одного объекта метаданных может быть связан с любым количеством экземпляров других объектов. Метаданные представляют множество связанных различными отношениями экземпляров, описывающих различные стороны сведений о данных, например, сведения о массивах и БД имеют связи практически со всеми объектами метаданных. Между двумя экземплярами разных объектов могут быть заданы прямые и обратные отношения. Для обеспечения навигации устанавливается связь для обратных отношений путем гиперссылок.
Для использования отдельных объектов метаданных в нескольких других объектах метаданных, необходимо использовать атрибут «Роль». Этот атрибут может применяться для таких объектов метаданных как организации, персона, проект, др. Например, эксперт может быть разработчиком БД, формата данных, прибора, программного средства, руководителем экспедиции; организация - судовладельцем, автором БД, хранителем данных, др.
При создании различных объектов метаданных широко используются классификаторы, табл.10.
Таблица 9 - Связи между различными объектами метаданных
Название объекта |
Объекты связи |
||||||||||||
Организации |
Эксперты |
Проекты |
Форматы |
Приборы |
Платформы |
Программные средства |
Параметры |
НИС |
Массивы данных |
Методы |
Наблюдательные сети |
Воздействия |
|
Описания массивов и баз данных |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
|
|
|
|
|
Мореведческие организации |
|
+ |
|
|
|
|
|
|
|
|
|
|
|
Форматы данных |
+ |
+ |
|
|
|
|
+ |
|
|
|
|
|
|
Проекты и программы |
+ |
+ |
|
|
|
|
|
|
+ |
|
|
|
|
Эксперты |
+ |
|
|
|
|
|
|
|
|
|
|
|
|
Модели, программные средства |
+ |
+ |
+ |
|
|
|
|
|
|
+ |
|
|
|
Наблюдательные сети |
+ |
|
|
|
|
|
|
+ |
|
|
|
|
|
Рейсы НИС |
+ |
+ |
+ |
|
|
|
|
+ |
+ |
|
|
|
|
Методы |
+ |
+ |
|
|
+ |
|
|
+ |
|
|
|
|
|
НИС |
+ |
|
|
|
|
|
|
|
|
|
|
|
|
Спутники |
+ |
|
|
|
+ |
|
|
+ |
|
|
|
|
|
Приборы |
+ |
|
|
|
|
+ |
|
|
+ |
|
|
|
|
Сведения о прибрежных станциях |
+ |
|
|
|
+ |
|
|
|
|
|
+ |
|
|
Web-ресурсы (ссылки на сайты) |
+ |
+ |
+ |
|
|
|
|
|
|
|
|
|
|
Оснащение приборами морской сети и приборный парк организаций |
+ |
|
|
|
+ |
|
|
|
|
|
|
|
|
Таблица 10 - Использование кодификаторов в различных объектах метаданных
Кодификаторы |
Массивы |
Формат |
Методы |
Проекты |
Программы |
НМД |
Приборы |
Организации |
Эксперты |
Набл. сети |
Суда |
Рейсы НИС |
Прибрежные станции |
Спутники |
Информационные ресурсы |
Карты |
Параметры |
|
+ |
= |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
|
|
+ |
= |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
|
|
+ |
|
+ |
|
|
|
+ |
|
|
|
|
|
|
|
+ |
|
+ |
|
+ |
|
+ |
|
|
|
+ |
|
|
|
|
|
|
|
+ |
|
+ |
|
+ |
|
|
|
+ |
|
|
|
|
|
|
|
|
|
|
|
|
|
+ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
+ |
|
|
|
|
|
|
|
|
|
|
|
|
|
+ |
|
|
|
+ |
|
|
|
|
|
|
|
|
|
|
|
|
|
+ |
|
|
|
+ |
|
|
|
|
|
|
|
|
|
|
|
|
|
+ |
|
|
|
+ |
|
|
|
|
|
|
|
|
|
|
+ |
|
|
+ |
|
|
|
+ |
+ |
+ |
+ |
|
|
+ |
|
|
+ |
+ |
+ |
+ |
+ |
|
+ |
|
|
+ |
|
+ |
|
|
|
+ |
|
|
+ |
+ |
+ |
+ |
+ |
+ |
|
|
|
+ |
|
+ |
+ |
+ |
+ |
|
+ |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
|
|
+ |
+ |
|
|
|
|
|
|
|
|
|
+ |
|
+ |
+ |
|
|
|
+ |
|
+ |
|
|
+ |
+ |
|
|
|
|
+ |
|
|
+ |
+ |
|
|
|
+ |
+ |
+ |
|
|
|
|
|
|
|
|
|
|
+ |
|
|
|
|
+ |
|
|
|
+ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
+ |
|
|
|
+ |
|
|
|
|
|
|
|
|
|
+ |
|
|
|
|
|
|
|
+ |
|
|
|
|
|
|
|
+ |
|
+ |
|
+ |
= |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
|
|
|
|
|
|
|
|
|
|
|
|
+ |
+ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
+ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
+ |
|
|
|
|
|
+ |
|
+ |
|
|
|
+ |
|
|
+ |
|
|
+ |
+ |
|
|
+ |
|
+ |
|
|
|
|
|
|
+ |
+ |
|
|
|
|
|
+ |
|
+ |
Существует большая потребность в комплексной системе поиска метаданных, единой для любой предметной области. Модель метаданных должна позволять легко добавлять новые объекты метаданных без изменения имеющейся структуры. Для создания модели базы метаданных необходимо решить следующие задачи:
-
выбрать модель хранения метаданных в БД;
-
определить методы доступа к объектам метаданных (только чтение или чтение и запись);
-
решить вопросы использования объектов метаданных – они будут использоваться вместе с другими объектами или отдельно.
Существует несколько способов выбора модели базы метаданных:
-
создание специальной (собственной) модели для работы с метаданными;
-
оснащение доступной базы метаданных инструментами, позволяющими использовать ее как источник метаданных;
-
использование имеющихся стандартных моделей.
Создание собственной модели метаданных реализуется в случае решения частной задачи, когда не требуется взаимодействие с другими системами. Для создания единой модели метаданных важно иметь корректные определения объектов, их атрибуты и связи с другими объектами. Такая модель данных должна основываться на общедоступных стандартах W3C, ISO, др. организаций:
-
ISO 19115, GML - базовые для многих объектов метаданных;
-
vCard – эксперт;
-
CERIF или EDMERP – научные проекты;
-
Dublin Core – библиография (НМД, НПД, др.);
-
RDF, E2EDM – описание информационных ресурсов;
-
TML –датчики, приборы.
После выбора модели метаданных можно приступать к созданию метаданных. При этом надо обеспечить:
-
возможность обеспечения 90% полноты источников метаданных;
-
физическую организацию метаданных (реляционная база данных, система файлов или репозиторий XML);
-
вопросы безопасности (кто управляет; кто имеет право читать или обновлять информацию);
-
механизмы создания, чтения и добавления объектов и экземпляров метаданных;
-
мониторинг и отчетность по метаданным.
Для ведения метаданных создается техническая и организационная инфраструктура поддержки и обновления метаданных. Служба метаданных должна иметь регламенты и комплект инструкций. Большой объем работы приходится на обработку кодов, на их классификацию, кодирование. Классификатор позволяет оперативно и точно осуществлять поиск необходимых пользователю кодификаторов, получить достоверные данные, централизовать управление процессом ведения метаданных.
Для получения метаданных разрабатываются программные средства для удаленного ввода сведений о массивах данных, организациях, наблюдательных проектах, экспертах, сетях наблюдений; получения метаданных из самих данных путем выборки и/или агрегации значений ключевых атрибутов данных.
Пользователь для поиска метаданных должен:
-
изучить имеющиеся поисковые стратегии,
-
сформировать поисковые требования,
-
осуществить доступ к объекту метаданных,
-
оценить экземпляр (ы) метаданных (качество, полноту),
-
использовать метаданные (чтение, просмотр, рассылка, повторное использование, трансформация).
Программное обеспечение должно поддерживать следующие возможности поиска:
-
быстрый поиск слов и фраз в полях название, аннотация, ключевые слова, др.;
-
поиск по всему каталогу;
-
расширенный многокритериальный поиск (по организации, сфере, категории данных, др.).
Роли различных участников процессов создания и эксплуатации баз метаданных представлены в табл. 11.
Таблица 11 – Роли различных участников процесса создания и эксплуатации баз метаданных
Руководитель |
Аналитик |
Разработчик ПС |
Администратор БД |
Оператор |
Пользователь |
Этап «Проектирование метаданных» |
|||||
Организует обследование существующей ИС |
Выполняет анализ ИС и создает классификацию Создает спецификации потоков данных от источника до пользователя. Создает правила оценки данных. Выявляет, моделирует ресурсы. |
Создает логическую и физическую модели данных. Программирует логику обработки данных. Разрабатывает процедуры стандартизации, преобразования и передачи данных пользователю. Создает сервисы. |
Сообщает требования к метаданным |
Готовит тестовые описания метаданных |
Сообщает требования к метаданным |
Этап «Эксплуатация базы метаданных» |
|||||
Назначение операторов. Анализ воздействий изменений. |
Выявление противоречий в метаданных. Достижение наблюдаемости данных. Обновляет классификацию. Поддерживает понимание смысла данных |
Создает средства работы с метаданными. Управляет ИР |
Управляет полномочиями участников работ по эксплуатации базы метаданных. Устраняет противоречия в метаданных. Готовит отчеты о состоянии метаданных |
Вводит новые и редактирует описания метаданных |
Сообщает замечания по метаданным Доступ к данным |