
- •Необходимость создания метаданных
- •Существующие системы метаданных
- •Цели, задачи создания метаданных и требования к ним
- •Классификация метаданных
- •Обоснование выделения объектов метаданных – место метаданных на различных этапах обработки данных
- •Выделение атрибутов метаданных
- •Организация хранения метаданных
- •Агрегация и аналитика для метаданных
- •Список литературы
- •Перечень вопросов для самопроверки
Классификация метаданных
Метаданные подразделяют на:
-
системные (технические) метаданные - используются для извлечения, преобразования, загрузки БД, описывают информационную и функциональную части системы, определяют структуру данных – состав и названия таблиц, атрибутов, их свойства, правила их преобразования, в соответствии с которыми осуществляется их обработка, типы связи, форматы хранения, ограничение на доступ; необходимы пользователям инструментальных средств для профилирования, моделирования и разработки информационных систем;
-
тематические (описательные) метаданные - представляют смысловое содержание данных (название БД, период наблюдений, географический район, пространственно-временные масштабы обобщения данных, др.), определения, терминологию, глоссарии, происхождение данных и алгоритмы их обработки; содержат как информацию, взятую из самих БД (дата наблюдений в первой и последней записи, объем данных в логических и физических единицах), так и введенную дополнительно; предназначены для внешних пользователей;
-
интерфейсные метаданные - используются для описания экранов и создания отчетов, примером таких метаданных является реестр web-сервисов WSDL;
-
метаданные процессов (операционные метаданные) - отражают информацию о характеристиках системы обработки данных (статистику загрузки БД, работы приложений - частоту исполнения, количество записей), календарном планировании и обработке исключений, трафике, скорости доступа и жизненном цикле данных; востребованы пользователями, управляющим и операционным персоналом;
-
проектные метаданные - отражают документирование результатов разработки и предоставляют данные для аудита разработки и поддерживают управление изменениями.
Системные метаданные можно разделить на:
-
метаданные для источников данных (частота и средства обновления, ограничения и методы доступа);
-
метаданные для преобразования данных - информация о получении данных (планирование создания массивов данных и проведение измерений), использовании данных – методы обработки); управлении таблицами измерений; преобразовании и агрегации (программы контроля и обработки данных, загрузки БД); документировании проверок, проводимых работ с БД (журналы и протоколы обработки, рекомендации по обработке данных);
-
метаданные СУБД (содержание таблиц и форматы полей).
Описательные метаданные включают следующие объекты метаданных - сведения о массивах и БД; организациях, форматах, наблюдательных сетях, платформах, приборах, программных средствах, др. Их можно также классифицировать по уровню необходимого обобщения данных – глобальные, национальные и корпоративные метаданные.
В каждой системе метаданных вне зависимости от уровня обобщения метаданных в них можно выделить общие сведения, источники данных, сведения об экземплярах данных, рис.2. Состав объектов метаданных и агрегация атрибутов зависит от уровня обобщения метаданных. Сведения об организациях, форматах, экспертах, приборах, методах используются во всех системах и во многих объектах метаданных.
Рисунок 2 – Уровни метаданных
Общие сведения о массивах и БД рассчитаны на широкий круг пользователей. Здесь находятся сведения о глобальных массивах и БД, имеющихся в различных организациях, странах; сведения об информационных ресурсах, представленных в Интернет.
Источники данных рассчитаны на пользователей специалистов, которые хотят оценить содержание, количество, достоверность, полноту той или иной базы исходных данных. Поэтому здесь используются базы метаданных, представляющие сведения о наблюдательных платформах (НИС, прибрежных станциях, спутниках и т.п.), методах наблюдений, используемых на наблюдательных платформах, проектах, в рамках которых получены данные и т.п.
Сведения об экземплярах данных (каталоги метаданных) предназначены для поиска данных и выдачи их в удобной для пользователя форме. Эти метаданные используются администраторами БД и специалистами, работающими с данными (подробные каталоги изученности того или иного района, сведения о пространственно- временных координатах каждого наблюдения). Создаваемые здесь базы метаданных позволят по логическим характеристикам данных найти их физические адреса хранения на технических носителях. Так как объем метаданных на этом уровне может быть достаточно большим (сравним с объемом исходных данных), то создание отдельной схемы метаданных для каждого вида наблюдений не всегда целесообразно. Особенно, если объем метаданных составляет около 30-50% от всей БД, а многие значения атрибутов повторяются от наблюдения к наблюдению. В таких случаях эффективнее использовать метаданные напрямую из базы исходных данных.
При создании системы метаданных необходимо выделить следующие структурные элементы.
База метаданных – совокупность объектов метаданных в определенной предметной области или организационной единице хранения данных (мировой, национальный, ведомственный центр данных, предприятие).
Объект метаданных – одна из сущностей, которая отражает тот или иной срез сведений о данных (что - массивы и базы данных; где – наблюдательные сети, организации, платформы, рейсы, проекты как источники данных; чем – приборы, методы, программные средства).
Экземпляр метаданных – единица описания для одного из объектов метаданных (одна база данных, или организация, или формат, или метод и т.п.).
Описание массива, БД или их частей представляет единицу описания информационного пространства и характеризуется сочетанием свойств физического представления - уникальным URI ресурса и семантического представления - свойствами относительно тематики, пространственно-временного представления, формой представления ресурса, информацией о ЖЦ ИР - дата формирования, изменения, описания ИР; идентификатором ИР и др.
Выбор единицы описания массива, БД (экземпляра) определяется следующими уникальными свойствами:
-
организацией – хранителем массива (базы) данных;
-
уровнем обработанности (агрегации) данных – первичные данные наблюдений, обобщенные данные, диагностические и прогностические данные;
-
типом системы хранения данных (СУБД, система структурированных файлов данных, система объектных файлов данных - документы, графические файлы, изображения, презентации, др.);
-
пространственным разрешением (точка, сетка, профиль, разрез, район, квадрат и т.п.);
-
временным разрешением (случайное, ежемесячное, ежедневное и др.);
-
списком параметров, хранящихся в наборах данных;
Экземпляр массива или БД - это логическая единица хранения, управления и обработки данных, представляющая собой совокупность информации, по отношению к которой осуществляются процессы доступа и манипулирования как к единому целому. Массив или БД может иметь один или несколько экземпляров.
Состав и точность описания свойств объектов метаданных зависит от уровня управления экономикой, масштаба системы, этапа обработки данных. Метаданные циркулируют в системе переработки данных каждого учреждения, находящегося в системе сбора, хранения, обмена и обработки данных на международном, национальном, корпоративном уровнях и уровне принятия решений. На каждом из этих уровней нужны свои объекты метаданных с необходимым уровнем обобщения.
На международном уровне необходимы сведения о международных соглашениях, массивах данных, предназначенных или переданных в международный обмен, включая сведения о рейсах и станциях, форматах обмена данными, программных средствах их обработки и др. Здесь как правило хранятся глобальные метаданные (сайты мировых центров данных, международных организаций, например, система МЕДИ на портале МОК ЮНЕСКО).
На национальном уровне используются сведения об организациях одной страны, массивах данных, которые они хранят, программных средствах обработки, форматах сбора и обмена на уровне страны, наблюдательных платформах, наблюдательных сетях и др. Эти метаданные хранятся на сайтах соответствующих выделенных национальных организаций, например. Национального центра океанографических данных.
На корпоративном уровне необходима детальная информация по массивам (БД) в виде сведений об источниках данных и их состоянии (в обработке, на каком носителе и т.п.), о состоянии изученности того или иного географического района по различным параметрам. Эти метаданные хранятся на сайтах отдельных организаций.
Для лиц, принимающих решения, в первую очередь, необходимы сведения об информационной продукции и регламенте ее выпуска, в т.ч. исходные данные и прогнозы, а также возможных типах запросов и решаемых системой задач.
То есть на различных уровнях системы обработки данных должны быть как объекты метаданных одного класса (сведения о массивах данных, источниках данных, форматах и т.п.), которые можно хранить в одной глобальной базе метаданных, так и специфические объекты для каждого уровня управления данными (сведения о международных соглашениях, конвенциях, законах, наставлениях, руководствах и т.п.).