- •Необходимость создания метаданных
- •Существующие системы метаданных
- •Цели, задачи создания метаданных и требования к ним
- •Классификация метаданных
- •Обоснование выделения объектов метаданных – место метаданных на различных этапах обработки данных
- •Выделение атрибутов метаданных
- •Организация хранения метаданных
- •Агрегация и аналитика для метаданных
- •Список литературы
- •Перечень вопросов для самопроверки
Обоснование выделения объектов метаданных – место метаданных на различных этапах обработки данных
Пользователи хотят включать в обработку только ту информацию, которая удовлетворяет их критериям, например, данные отдельных ведомств или при наличии достаточного объема, полноты данных. Уверенность в поставщике и происхождении данных, возможность быстро найти необходимые сведения, оценить их пригодность для намеченного использования – вот что должны обеспечить пользователю метаданные.
Чем крупнее проект, чем больше источников данных задействовано в системе, чем шире спектр программного обеспечения, которое планируется использовать для доступа к БД и системе обработки данных, тем насущнее необходимость в применении метаданных. Метаданные дают возможность пользователю увидеть всю историю происхождения данных и понять, как это влияет на процесс анализа и откуда поступает интересуемая информация. Чтобы найти данные, пользователю нужно в метаданных найти ответы на вопросы где, кто, что, как, когда, чем, какие (табл.2).
Таблица 2 – Необходимые объекты метаданных
Вопросы |
Объекты метаданных |
Что ищет пользователь? |
Параметры – сведения об измеренных и вычисленных свойствах объектов, определяемых и проконтролированных каким-то методом (название, точность, ограничения, частота, единица измерений, др.). Поиск по дисциплинам или рубрикатору, ключевым словам. |
Каков формат данных и их структура? |
Система хранения данных (БД, структурированный файл, каталог), структура данных (точка, профиль, сетка, каталог), форматы представления (ASCII, XML, NetCdf, ЯОД). |
Где находятся источники данных? |
Географический район – океан, море, страна, субъект РФ, город. Координаты – широта, долгота, глубина. Поиск по географической карте. |
Где получить необходимые данные? |
Организация – хранитель или источник данных, местоположение серверов, рабочих станций, др. |
Как произведены необходимые данные? |
Тип наблюдательной платформы (суда, спутники, прибрежные станции, буи), с которых получены данные, название или идентификатор платформы. Организация - владелец наблюдательной платформы. Приборы, с помощью которых велись наблюдения (производитель, измеряемые параметры, точность), сведения о калибровке инструмента (где, кто, когда). Проекты, в рамках которых собраны наблюдения. Рейсы, в рамках которых выполнены наблюдения. Описание массивов и БД, проектов, рейсов НИС, платформ размещение инструмента на наблюдательной платформе - высота инструмента или глубина относительно поверхности земли (фотографии расположения приборов, чертежи, др.) |
Кто выполнил измерения или хранит данные |
Страна, организация, персона |
Кто и как представляет данные? |
Имена и адреса организаций, ученых и специалистов - экспертов по данным – сотрудников, поддерживающих в актуальном состоянии массив данных или создавших этот массив; проект, в рамках которого получены данные; программа (проект), в которой участвует наблюдательная платформа; разработчик формата, программных средств. Описание пользователей – категории, права доступа к данным, сведения о пользователях, выполнявших различные операции над данными (ввод, редактирование, загрузка, извлечение, др.). Информация о телекоммуникационной системе передачи данных. |
Когда были измерены (получены) данные? |
Жизненный цикл данных (дата начала и окончания наблюдений, дата создания БД, дата описания БД в метаданных, др.) |
Как рассчитывается тот или иной параметр и т.д.? |
Описание действий, выполняемых над данными (методы и алгоритмы вычисления параметров, исправление ошибок, расщепление полей, др.) |
Какие существуют методы и формы представления информационной продукции? |
Сведения о БД, интерфейсах, программных средствах, методах их представления |
Какие существуют методы обработки данных? |
Сведения о программных средствах создания, контроля, поиска и обработки данных. |
Каким образом можно быстро разобраться в составе и структуре файлов и БД? |
Сведения о форматах хранения, сбора и обмена данными |
Какой существует объем данных для различных пространственно-временных масштабов? |
Изученность района - количество наблюдений по квадратам, районам, периодом наблюдений, наличие пропусков в измерениях, др. |
Для создания базы метаданных необходимо установить совокупность объектов метаданных с целью охвата всего объема сведений о данных. Состав и точность описания объектов метаданных зависит от масштаба системы, технологического этапа обработки данных (жизненного цикла – ЖЦ данных). Объекты метаданных, места их возникновения и использования показаны в табл.3.
Таблица 3 - Состав метаданных, место их возникновения и использования
Технологический этап - ЖЦ |
Объекты ЖЦ |
Объекты метаданных |
Производство измерений |
Системы и методы наблюдений |
Сведения о сетях и методах наблюдений, химических определений |
Методы определения параметров |
Сведения о химических лабораториях, методах измерений, определений параметров |
|
Средства производства наблюдений |
Описания наблюдательных платформ - НИС, прибрежных станций, спутников, самолетов, буев |
|
Средства измерений (приборы и оборудование) |
Сведения об измерительных средствах, их размещении и калибровке (способах и местах поверки приборов) |
|
Сбор данных |
Технологии |
Сведения о технологиях сбора данных по видам наблюдений, форматах передачи данных, описание передаваемых комплектов данных, наличие, поступление данных, программах (проектах), в рамках которых собираются данные, их оперативности |
Каталогизация источников данных |
Логическое содержание данных и физическое их хранение |
Описание массивов данных, организаций поставщиков, владельцев данных, пользователей, форматов сбора, наблюдательных проектов, параметров, методов сбора, первичной обработки, контроля данных, др. Сведения о единицах учета данных – рейсы НИС, полеты самолетов, спутников |
Накопление данных (структурные преобразования, упорядочение) |
Технологии |
Сведения о технологиях, массивах и базах данных. Характеристики телекоммуникационной системы, стандарты представления и передачи метаданных (коды стран, городов, морских районов и т.п.) |
Методы контроля данных |
Сведения о методах контроля данных |
|
Обмен данными |
Технологии, проекты |
Сведения о технологиях и форматах данных, описание комплектов данных, сведения о проектах и программах |
Процедуры контроля данных |
Сведения о методах контроля данных |
|
Хранение и защита данных |
Технологии |
Сведения о технологиях хранения, защиты данных, носителях |
Использование данных |
Методы анализа и определения параметров |
Сведения о методах использования данных, объектах, использующих данные, пространственно – временные координаты наблюдений (измерений), типовых запросах |
Анализ и ассимиляция данных |
Методы анализа, качество данных |
Сведения о платформах, инструментах, качестве данных, методах наблюдений (высота или глубина установки), методы первичной обработки данных |
Прогнозы состояния среды |
Методы прогнозирования и обобщения, качество данных |
Сведения о качестве данных, методах прогнозирования, обобщения, определения качества данных |
Климатическая обработка |
Методы статистической обработки, анализа данных |
Сведения о методах обработки, анализа данных, алгоритмы обработки |
Процедуры контроля данных |
Сведения о методах контроля данных |
|
Программные инструменты |
Сведения о программных средствах (библиотеках программ, процедурах, ошибках программных средств, документации на программные средства) |
|
Технические средства (ЭВМ, телекоммуникации и т.п.) |
Сведения о комплексе технических средств ЭВМ (характеристика вычислительного процесса, загрузки, выполняемой работы на ЭВМ, обработки информации) |
|
Моделирование |
Модели процессов, прогноза, восстановления данных и др. |
Сведения о моделях, методах, форматах выходных данных |
Распространение данных |
Формы представления |
Сведения об экранных формах (интерфейсах) выдачи (таблицы, графики) данных, формах представления информации (таблицы, графика, текст, звук, карты, издания), статистических характеристиках, применяемых классификаторах (страны, города, морские районы, др.) |
Форматы передачи |
Сведения о форматах данных, параметрах |
|
Издания |
Сведения об изданиях, международных соглашениях, конвенциях, законах, наставлениях и руководствах |
|
Представление в Интернет |
Сведения о БД |
Дополнительной информацией к метаданным могут быть наиболее часто задаваемые вопросы по массивам данных; политики в области сбора и распространения данных; наличие средств сервисного обслуживания, возможности оплаты; сведения о сообществе пользователей (экспертов, организаций, использующих массив данных), форумы, чаты, подписка на новости в области метаданных; термины и сокращения, используемые в данных и метаданных; публикации, сделанные на основе массивов данных.
Процессы обработки данных в любой организации можно характеризовать наличием технологий сбора, обработки, хранения, обмена и доведения информации. Результатом работы этих технологий являются один или несколько массивов и БД, которые в свою очередь характеризуются описаниями:
-
сетей наблюдательных платформ, на основе которых собрана эта информация;
-
форматов хранения этих данных;
-
методов измерений, сбора или переработки;
-
нормативно- методических документов, где представлены методы обработки данных, использования приборов, данных и др.;
-
программных средств, с помощью которых они созданы;
-
приборов, которыми произведены измерения.
Схема формирования метаданных представлена на рис.3.
Метаданные возникают уже на этапе измерений (кто, чем, как измерил, обработал). Безусловно, если бы в существующих технологиях сбора данных были отражены все атрибуты метаданных, то такие описания могли бы получаться автоматизированным способом. К сожалению, некоторые из этих объектов метаданных, только начинают формироваться. Поэтому часть метаданных восстанавливается уже на более высоких этапах переработки данных - стадии архивации данных. Использование спецификаций TML, SensorML позволяет для каждого измерения сделать отметку каким прибором, методом, произведено измерение того или иного параметра.
На основе созданных массивов и БД создаются различные представления в виде отчетов, информационных ресурсов в Интернет и т.п. Эти ресурсы являются производными от созданных массивов, поэтому они наследуют большинство значений атрибутов описания массивов и БД, т.е. могут получаться автоматизированным способом с уточнением некоторых значений атрибутов (в зависимости от условий выборки ресурса), например, по географической области, периоду наблюдений, составу параметров, др. Сведения о производных массивах данных можно хранить как в виде отдельного нового описания с указанием «родительского» описания, так и в виде описания этапа жизненного цикла основного массива данных (когда, кем и что было сделано с массивом данных, изменившиеся атрибуты описания).
Рисунок 3 - Схема организации объектов метаданных
В крупных центрах все массивы данных сопровождаются соответствующей документацией, включающей описание массива данных (полное и формализованное); описание формата данных, методов контроля, программных средств, применяемых для создания и обработки БД. Часто эта информация включается на Web-сайт, к ней возможен доступ и ознакомление до начала работ с данными. Еще в восьмидесятых годах Межправительственная океанографическая комиссия ЮНЕСКО в своем руководстве рекомендовала сопровождать каждый массив данных описанием набора данных, сведениями о рейсах НИС, приборах, наблюдаемых параметрах с указанием единиц и методов измерений. Для передачи данных в Государственный фонд по гидрометеорологии и мониторингу окружающей среды на любой массив данных должна представляться следующая документация:
-
описание массива (базы) данных с указанием полноты и логических единиц хранения (станций, рейсов, географических областей и т.п.) с количеством наблюдений;
-
перечень источников информации (организации, наблюдательных платформ, проектов);
-
описание физической организации данных (форматов хранения массивов данных);
-
перечень параметров с указанием полного и краткого наименований, единиц и методов измерений, пределов изменений параметров;
-
описание методов контроля данных (логических, синтаксических);
-
описания наблюдательных программ (проектов), в рамках которых получены данные;
-
описания методов измерений и применяемых приборов (измерительных систем);
-
описания программных средств, с помощью которых создан массив и (или) проведена обработка этого массива;
-
сведения о публикациях, полученных на основе этого массива;
-
описание используемых в массиве классификаторов;
-
каталог данных, содержащий агрегированную информацию о массивах данных, например, порейсовые данные сопровождаются каталогом рейсов, а прибрежные данные – каталогом станций.
От полноты приводимых сведений зависит понимание других разделов и количество вопросов потенциальных пользователей. Описание данных должно быть достаточно подробным и доступным как программисту, так и ЛПР.
Таким образом, в крупной корпоративной системе (например, в Федеральной службе по гидрометеорологии и мониторингу окружающей среды) должны создаваться целая серия различных объектов метаданных. Базовый набор объектов метаданных представлен в табл.4.
Таблица 4 - Базовый набор объектов метаданных
Объект |
Описание объекта метаданных |
|
Описание технологий, в которых могут быть задействованы приборы, платформы, датчики, другие объекты |
|
Сведения о состоянии наблюдательных платформ в организации, ведомстве, стране |
|
Сведения о массивах, базах данных, информационных ресурсах |
|
Форматы сбора, хранения и обмена данными, описание типов данных, описание логической структуры данных |
|
Характеристики платформ |
- Судно |
Сведения о судах |
- Попутные суда |
Суда, производящие гидрометеорологические наблюдения |
- Прибрежные станции |
Сведения о гидрометеорологических станциях |
- Буи |
Сведения о буях |
- Спутники |
Сведения о спутниках |
|
Национальные и международные проекты и программы, в рамках которых получены данные |
|
Сведения о моделях, программных средствах Обрабатывающий процесс, модель обработки данных, цепочка обработки данных, программное средство |
|
Приборы, ИИС, датчик-измеритель, датчик-фильтр, сенсор |
|
Характеристики методов наблюдений, определений, измерений, обработки |
|
Характеристики документов |
|
Сведения об организациях – источниках, поставщиках данных, разработчиках приборов, программных средств, владельцах наблюдательных платформ, пользователях |
|
Сведения о результатах экспедиционных работ |
|
Сведения о результатах контактных лицах, экспертах, ученых. Лицо, отвечающее за состояние объекта и к которому можно обратиться за консультацией по "смысловым" вопросам, связанным с объектом, разработчик формата, программного средства |
|
Характеристика должности |
|
Сведения об использовании таблиц БД (имя, объем, число обращений, др.) |
|
Характеристики интерфейсов, список интерфейсов (например, реестр web-сервисов WSDL) |
|
Сведения о картах |
|
Сведения о выпускаемой информационной продукции, включая прогнозы |
|
Сведения об Интернет-ресурсах |
|
Описание концептуального элемента (название, единицы измерения, диапазон значений параметра, тип статистической характеристики и др.) |
|
Характеристики измеренного или вычисленного параметра (показателя) |
|
Сведения о классификаторах |
|
Описание терминов |
|
Cведения о форматах данных |
|
Сведения о прогнозах |
|
Сведения о рейсах НИС |
|
Сведения о библиографических источниках (НПД, НМД, НТИ) |
|
Сведения о массивах пространственных данных |
|
Описание наборов данных для сетки |
|
Каталоги изученности того или иного района |
|
Сведения о временных рядах океанографических наблюдений |
|
Сведения о выполненных океанографических станций |
Для создания такого комплекса объектов метаданных необходимо иметь единую схему ввода метаданных. Такая схема позволяет осуществлять поиск, начиная его с любого объекта метаданных и отображать атрибуты метаданных из различных объектов, получать агрегированные отчеты по различным атрибутам и отслеживать все изменения в базе метаданных.
Средства формирования базы метаданных основаны на обобщенной модели метаданных (рис.4). В основе логики управления метаданными лежит группировка метаданных по информационным проектам. Информационный проект это программа действий, направленная на сбор, обработку, накопление, хранение и распространение данных в определенной предметной области, реализованная или планируемая к реализации организацией-участником программы. Проекты структурируются по следующим разделам:
-
производство измерений;
-
сбор данных;
-
обработка, накопление и хранение данных;
-
обслуживание (распространение данных и информационной продукции).
Рисунок 4 – Обобщенная модель метаданных
К аждый проект связан с несколькими объектами метаданных. Такими объектами могут быть наблюдательные платформы, измерительные приборы, массивы данных, программные средства. Набор объектов метаданных исследовательского проекта определяется спецификой соответствующего мероприятия. Связи между различными объектами метаданных - проектами и их экземплярами реализуются средствами администрирования системы метаданных по схеме, представленной на рис.5.
Рисунок 5 - Схема связей объектов метаданных
Минимальный состав описываемых объектов метаданных включает описание массива (одного или нескольких – в зависимости от специфики технологии), описание формата (одного или нескольких), описание программного комплекса (одного или нескольких), описание эксплуатационной документации.
Для междисциплинарного общения и обработки данных необходимо единообразное понимание различных терминов, поэтому в базе метаданных должны широко применяться различные классификаторы, словари терминов и определений. Набор кодов и классификаторов позволяет с единых позиций описывать все объекты метаданных. В различных объектах метаданных используется более 30 классификаторов различного назначения. Эти классификаторы оформлены в виде БД. Если для какого-либо атрибута имеется несколько классификаторов, то за основу принимается более высокий уровень стандартизации: международный - ISO; международный по тематической области - МОК, ВМО, ИМО; национальный (общероссийский); национальный в тематической области; корпоративный (ведомственный); стандарт предприятия (организации).