- •Необходимость создания метаданных
- •Существующие системы метаданных
- •Цели, задачи создания метаданных и требования к ним
- •Классификация метаданных
- •Обоснование выделения объектов метаданных – место метаданных на различных этапах обработки данных
- •Выделение атрибутов метаданных
- •Организация хранения метаданных
- •Агрегация и аналитика для метаданных
- •Список литературы
- •Перечень вопросов для самопроверки
Цели, задачи создания метаданных и требования к ним
Целями создания метаданных являются:
-
эффективная организация работ по разработке, администрированию БД и более быстрому извлечению информации из БД, повышение качества информационных услуг;
-
развитие стратегического управления данными и получение автоматизированной отчетности по управлению данными, включая мониторинг состояния БД.
Для достижения этих целей с помощью метаданных решаются следующие задачи:
-
интегрируются данные за счет отдельного хранения описания структур данных, кроме того, для создания многомерных интегрированных БД требуются более подробные метаданные, такие как сведения об источниках интегрируемой информации, методах создания и обработки данных, др.;
-
поддерживается проектирование новых приложений;
-
повышается гибкость создаваемой системы и возможности повторного использования существующих приложений (это обеспечивается информацией о программных средствах с исходными текстами кодов программ, web – сервисах, структурах данных);
-
автоматизируются административные процессы управления загрузкой, обновлением и использованием БД;
-
улучшается информирование пользователей, эксплуатационного персонала сведениями об использовании БД и т.п.;
-
пользователи обеспечиваются информацией (например, сведениями об источниках данных, организациях, приборах, проектах), которую можно считывать и визуализировать или агрегировать;
-
информация о времени создания, об авторе, происхождении, источнике данных, правилах наследовании данных и о путях трансформации данных от источника к текущему местоположению данных позволяет пользователям восстановить цепочку, по которой проходят данные за время преобразования, и выявить места возникновения ошибочной информации;
-
усиливается механизм безопасности (метаданные хранят правила доступа и пользовательские права для всей системы и для отдельных компонент, приложений и таблиц);
-
повышается качество данных (метаданные хранят правила проверки качества данных, процедуры их запуска и результаты контроля данных);
-
разработчики обеспечиваются информацией о структурах данных, программных средствах создания и обработки данных;
-
улучшается взаимодействие внутри системы (метаданные обеспечивают сведениями о времени и месте измерения данных, их связи с данными, представляют дополнительные атрибуты поиска для выполнения запросов);
-
улучшается анализ данных (метаданные дают информацию о методах анализа и обработки данных);
-
стандартизируется применение общей терминологии и языка взаимодействия пользователей и разработчиков.
Метаданные должны:
-
описывать, как было произведено измерение (платформа, приборы и т.д.) и как была получена продукция (метод, программное обеспечение и т.д.). Метаданные, дающие оценку качества данных, представляют важность для выделения необходимых наборов данных, которые можно использовать для конкретных целей;
-
отражать структуру комплектов данных (таблицы, атрибуты, свойства данных и т.д.) и специфику их хранения (СУБД, файловая система, ГИС), систему локальных кодов, единиц и наименования атрибутов данных для обеспечения доступа к неоднородным массивам данных (желаемым порциям данных), которые требуются для прикладной обработки;
-
обеспечивать создание каталогов (регистров) данных и сервисов для поиска данных, а также цепочек сервисов обработки данных, которые удовлетворяют потребностям и запросам потребителей;
-
помогать отслеживать происхождение и обновление новых версий данных, представленных авторами БД, т.е. вести справочную информацию по массивам данных – документацию, библиографические ссылки и цитируемость данных, потенциально структура и средства поддержки метаданных должны позволять пользователям БД публиковать новую и редактировать старую информацию о них;
-
давать информацию о технологиях сбора, передачи и доступа к данным;
-
предоставлять метаданные в технологии обработки и визуализации данных для лучшей их идентификации;
-
выдавать соответствующую информацию о пользователях (это могут быть конечные пользователя и внешние системы, web-приложения или сервисы), необходимую для их идентификации и авторизации, а также для предоставления отчетной информации о работе системы;
-
упрощать управление данными, формулировку и задание критериев запросов на данные;
-
помогать управлению обслуживающим персоналом БД эффективнее эксплуатировать, технические средства и технологии, касающиеся сбора, обработки, обмена данными;
-
поддерживать миграцию данных на современные носители и компьютеры новых поколений;
-
помогать пользователям полноценно использовать данные, поддерживать огромные объемы информации, доступные в электронной форме;
-
обеспечивать прозрачный доступ ко всем полям объектов метаданных, включая поля, необходимые для содержательной работы с данными;
-
содействовать интеграции данных, облегчать доступ к тем данным, о существование которых пользователь ранее не знал;
-
уменьшить дублирование данных;
-
гарантировать согласованные средства взаимодействия и интерпретации информации из БД, а также обеспечивать согласованность сведений по предметной области.
Для решения этих задач необходимо в различных предметных областях интегрировать метаданные в централизованные БД. За счет централизации метаданных можно оптимизировать процессы ведения метаданных, информационное взаимодействие, уменьшить затраты на ведение и сопровождение, повысить скорость обучения и взаимодействия с новыми системами, эффективность управления, производительность баз метаданных.
Необходимо не только расширить и стандартизовать состав объектов метаданных и их атрибутов, но и создать единую систему хранения метаданных, включающую все объекты метаданных и позволяющую интегрировать различные объекты метаданных, созданные в различных странах и организациях.
Метаданные могут использоваться одновременно в нескольких приложениях. Поэтому важно сформулировать соглашения о том, какие системы имеют право доступа, кто имеет право на изменение и удаление экземпляров метаданных. При централизации метаданных можно получить необходимые метаданные непосредственно в любой момент сразу после ее внесения в БД, организовать хранение, агрегацию и проведение анализа метаданных.
Большинство экземпляров объектов метаданных мало изменяется во времени. Тем не менее, важно проследить изменение отдельных объектов во времени. Поэтому в состав атрибутов должны вводиться «дата разработки прибора», «начало их применения», «дата ввода и редактирования описания экземпляра метаданных». Основные данные, необходимые для создания метаданных, содержатся в технической документации, поэтому они требуют дополнительного упорядочения и формализации.
Система ведения метаданных должна:
-
обеспечить актуальную и доступную централизованную информацию обо всех информационных ресурсах и их связях;
-
установить единое терминологическое пространство;
-
иметь информацию обо всех эксплуатируемых БД;
-
отражать контекст, дату, время, место, роль организации, хранящей данные (автор, провайдер, др.).
Жизненный цикл включает для:
данных - наблюдение (измерение), сбор, создание, загрузку БД, контроль, редактирование, консолидацию, архивирование, извлечение, трансформацию (структурные преобразования), обработку, агрегацию, доставку, использование, начало эксплуатации;
метаданных (рис.1) [16] - анализ предметной области, понимание, проектирование, моделирование, разработку, преобразование, публикацию, владение, потребление, управление качеством, управление метаданными, отчетность, аудит, описание, редактирование;
нормативно-справочной информации (НСИ) - отождествление, создание, обзор, публикацию, обновление, выведение из использования.
Анализ и понимание включают определение структур данных, понимание смысла и содержания входных данных, выявление связей между таблицами БД, анализ зависимостей и связей информации, исследование данных для их интеграции.
Моделирование подразумевает выявление схем объединения данных, выявление и отображение взаимосвязей в метаданных, моделирование структур данных и схем объединения данных, анализ влияния и синхронизации между моделями.
Разработка предполагает создание новых метаданных. Разработка обеспечивает коллективное создание и управление словарем параметров, поддержку функций информационных систем, усвоение потоков трансформации и доставки данных.
Преобразование заключается в автоматизации трансформации данных, связывании источников и БД с помощью определенных правил.
Рисунок 1 - Жизненный цикл метаданных [16]
Публикация извещает заинтересованных пользователей о существовании искомых метаданных и их расположении. Публикация предоставляет унифицированный механизм размещения метаданных и оповещения об обновлениях.
Владение позволяет определять права использования метаданных. Использование метаданных осуществляется сотрудниками или информационными системами. Управление, выполняемое руководителем, включает в себя модификацию, расширение метаданных и контроль доступа.
Потребление – это поиск, визуальная навигация и отображение метаданных и их взаимосвязей, доступ к метаданным, их интеграция, импорт и экспорт; анализ влияния изменений.
Управление качеством метаданных решает задачи проверки разнородных данных в рамках их интеграции, повышения качества информационных ресурсов, мониторинга качества входных данных и позволяет устранять проблемы со структурами данных и их пригодностью до того, как они повлияют на проект.
Отчетность и аудит предполагают определение функций подготовки, исполнения отчетов по расписанию, форматирования результатов отчета, сохранения и просмотра версий отчета. Результаты аудита должны использоваться для анализа и понимания на следующем витке жизненного цикла метаданных.
Управление метаданными состоит в организации доступа к шаблонам, отчетам и результатам, навигации по объектам метаданных; определении прав и ответственности за поддержание качества и актуальности метаданных.