Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции / Лекция 8_метад.doc
Скачиваний:
41
Добавлен:
11.06.2015
Размер:
1.38 Mб
Скачать

Обоснование выделения объектов метаданных – место метаданных на различных этапах обработки данных

Пользователи хотят включать в обработку только ту информацию, которая удовлетворяет их критериям, например, данные отдельных ведомств или при наличии достаточного объема, полноты данных. Уверенность в поставщике и происхождении данных, возможность быстро найти необходимые сведения, оценить их пригодность для намеченного использования – вот что должны обеспечить пользователю метаданные.

Чем крупнее проект, чем больше источников данных задействовано в системе, чем шире спектр программного обеспечения, которое планируется использовать для доступа к БД и системе обработки данных, тем насущнее необходимость в применении метаданных. Метаданные дают возможность пользователю увидеть всю историю происхождения данных и понять, как это влияет на процесс анализа и откуда поступает интересуемая информация. Чтобы найти данные, пользователю нужно в метаданных найти ответы на вопросы где, кто, что, как, когда, чем, какие (табл.2).

Таблица 2 – Необходимые объекты метаданных

Вопросы

Объекты метаданных

Что ищет пользователь?

Параметры – сведения об измеренных и вычисленных свойствах объектов, определяемых и проконтролированных каким-то методом (название, точность, ограничения, частота, единица измерений, др.).

Поиск по дисциплинам или рубрикатору, ключевым словам.

Каков формат данных и их структура?

Система хранения данных (БД, структурированный файл, каталог), структура данных (точка, профиль, сетка, каталог), форматы представления (ASCII, XML, NetCdf, ЯОД).

Где находятся источники данных?

Географический район – океан, море, страна, субъект РФ, город. Координаты – широта, долгота, глубина.

Поиск по географической карте.

Где получить необходимые данные?

Организация – хранитель или источник данных, местоположение серверов, рабочих станций, др.

Как произведены необходимые данные?

Тип наблюдательной платформы (суда, спутники, прибрежные станции, буи), с которых получены данные, название или идентификатор платформы.

Организация - владелец наблюдательной платформы.

Приборы, с помощью которых велись наблюдения (производитель, измеряемые параметры, точность), сведения о калибровке инструмента (где, кто, когда).

Проекты, в рамках которых собраны наблюдения.

Рейсы, в рамках которых выполнены наблюдения.

Описание массивов и БД, проектов, рейсов НИС, платформ размещение инструмента на наблюдательной платформе - высота инструмента или глубина относительно поверхности земли (фотографии расположения приборов, чертежи, др.)

Кто выполнил измерения или хранит данные

Страна, организация, персона

Кто и как представляет данные?

Имена и адреса организаций, ученых и специалистов - экспертов по данным – сотрудников, поддерживающих в актуальном состоянии массив данных или создавших этот массив; проект, в рамках которого получены данные; программа (проект), в которой участвует наблюдательная платформа; разработчик формата, программных средств.

Описание пользователей – категории, права доступа к данным, сведения о пользователях, выполнявших различные операции над данными (ввод, редактирование, загрузка, извлечение, др.).

Информация о телекоммуникационной системе передачи данных.

Когда были измерены (получены) данные?

Жизненный цикл данных (дата начала и окончания наблюдений, дата создания БД, дата описания БД в метаданных, др.)

Как рассчитывается тот или иной параметр и т.д.?

Описание действий, выполняемых над данными (методы и алгоритмы вычисления параметров, исправление ошибок, расщепление полей, др.)

Какие существуют методы и формы представления информационной продукции?

Сведения о БД, интерфейсах, программных средствах, методах их представления

Какие существуют методы обработки данных?

Сведения о программных средствах создания, контроля, поиска и обработки данных.

Каким образом можно быстро разобраться в составе и структуре файлов и БД?

Сведения о форматах хранения, сбора и обмена данными

Какой существует объем данных для различных пространственно-временных масштабов?

Изученность района - количество наблюдений по квадратам, районам, периодом наблюдений, наличие пропусков в измерениях, др.

Для создания базы метаданных необходимо установить совокупность объектов метаданных с целью охвата всего объема сведений о данных. Состав и точность описания объектов метаданных зависит от масштаба системы, технологического этапа обработки данных (жизненного цикла – ЖЦ данных). Объекты метаданных, места их возникновения и использования показаны в табл.3.

Таблица 3 - Состав метаданных, место их возникновения и использования

Технологический этап - ЖЦ

Объекты ЖЦ

Объекты метаданных

Производство измерений

Системы и методы наблюдений

Сведения о сетях и методах наблюдений, химических определений

Методы определения параметров

Сведения о химических лабораториях, методах измерений, определений параметров

Средства производства наблюдений

Описания наблюдательных платформ - НИС, прибрежных станций, спутников, самолетов, буев

Средства измерений (приборы и оборудование)

Сведения об измерительных средствах, их размещении и калибровке (способах и местах поверки приборов)

Сбор данных

Технологии

Сведения о технологиях сбора данных по видам наблюдений, форматах передачи данных, описание передаваемых комплектов данных, наличие, поступление данных, программах (проектах), в рамках которых собираются данные, их оперативности

Каталогизация источников данных

Логическое содержание данных и физическое их хранение

Описание массивов данных, организаций поставщиков, владельцев данных, пользователей, форматов сбора, наблюдательных проектов, параметров, методов сбора, первичной обработки, контроля данных, др. Сведения о единицах учета данных – рейсы НИС, полеты самолетов, спутников

Накопление данных (структурные преобразования, упорядочение)

Технологии

Сведения о технологиях, массивах и базах данных. Характеристики телекоммуникационной системы, стандарты представления и передачи метаданных (коды стран, городов, морских районов и т.п.)

Методы контроля данных

Сведения о методах контроля данных

Обмен данными

Технологии, проекты

Сведения о технологиях и форматах данных, описание комплектов данных, сведения о проектах и программах

Процедуры контроля данных

Сведения о методах контроля данных

Хранение и защита данных

Технологии

Сведения о технологиях хранения, защиты данных, носителях

Использование данных

Методы анализа и определения параметров

Сведения о методах использования данных, объектах, использующих данные, пространственно – временные координаты наблюдений (измерений), типовых запросах

Анализ и ассимиляция данных

Методы анализа, качество данных

Сведения о платформах, инструментах, качестве данных, методах наблюдений (высота или глубина установки), методы первичной обработки данных

Прогнозы состояния среды

Методы прогнозирования и обобщения, качество данных

Сведения о качестве данных, методах прогнозирования, обобщения, определения качества данных

Климатическая обработка

Методы статистической обработки, анализа данных

Сведения о методах обработки, анализа данных, алгоритмы обработки

Процедуры контроля данных

Сведения о методах контроля данных

Программные инструменты

Сведения о программных средствах (библиотеках программ, процедурах, ошибках программных средств, документации на программные средства)

Технические средства (ЭВМ, телекоммуникации и т.п.)

Сведения о комплексе технических средств ЭВМ (характеристика вычислительного процесса, загрузки, выполняемой работы на ЭВМ, обработки информации)

Моделирование

Модели процессов, прогноза, восстановления данных и др.

Сведения о моделях, методах, форматах выходных данных

Распространение данных

Формы представления

Сведения об экранных формах (интерфейсах) выдачи (таблицы, графики) данных, формах представления информации (таблицы, графика, текст, звук, карты, издания), статистических характеристиках, применяемых классификаторах (страны, города, морские районы, др.)

Форматы передачи

Сведения о форматах данных, параметрах

Издания

Сведения об изданиях, международных соглашениях, конвенциях, законах, наставлениях и руководствах

Представление в Интернет

Сведения о БД

Дополнительной информацией к метаданным могут быть наиболее часто задаваемые вопросы по массивам данных; политики в области сбора и распространения данных; наличие средств сервисного обслуживания, возможности оплаты; сведения о сообществе пользователей (экспертов, организаций, использующих массив данных), форумы, чаты, подписка на новости в области метаданных; термины и сокращения, используемые в данных и метаданных; публикации, сделанные на основе массивов данных.

Процессы обработки данных в любой организации можно характеризовать наличием технологий сбора, обработки, хранения, обмена и доведения информации. Результатом работы этих технологий являются один или несколько массивов и БД, которые в свою очередь характеризуются описаниями:

  • сетей наблюдательных платформ, на основе которых собрана эта информация;

  • форматов хранения этих данных;

  • методов измерений, сбора или переработки;

  • нормативно- методических документов, где представлены методы обработки данных, использования приборов, данных и др.;

  • программных средств, с помощью которых они созданы;

  • приборов, которыми произведены измерения.

Схема формирования метаданных представлена на рис.3.

Метаданные возникают уже на этапе измерений (кто, чем, как измерил, обработал). Безусловно, если бы в существующих технологиях сбора данных были отражены все атрибуты метаданных, то такие описания могли бы получаться автоматизированным способом. К сожалению, некоторые из этих объектов метаданных, только начинают формироваться. Поэтому часть метаданных восстанавливается уже на более высоких этапах переработки данных - стадии архивации данных. Использование спецификаций TML, SensorML позволяет для каждого измерения сделать отметку каким прибором, методом, произведено измерение того или иного параметра.

На основе созданных массивов и БД создаются различные представления в виде отчетов, информационных ресурсов в Интернет и т.п. Эти ресурсы являются производными от созданных массивов, поэтому они наследуют большинство значений атрибутов описания массивов и БД, т.е. могут получаться автоматизированным способом с уточнением некоторых значений атрибутов (в зависимости от условий выборки ресурса), например, по географической области, периоду наблюдений, составу параметров, др. Сведения о производных массивах данных можно хранить как в виде отдельного нового описания с указанием «родительского» описания, так и в виде описания этапа жизненного цикла основного массива данных (когда, кем и что было сделано с массивом данных, изменившиеся атрибуты описания).

Рисунок 3 - Схема организации объектов метаданных

В крупных центрах все массивы данных сопровождаются соответствующей документацией, включающей описание массива данных (полное и формализованное); описание формата данных, методов контроля, программных средств, применяемых для создания и обработки БД. Часто эта информация включается на Web-сайт, к ней возможен доступ и ознакомление до начала работ с данными. Еще в восьмидесятых годах Межправительственная океанографическая комиссия ЮНЕСКО в своем руководстве рекомендовала сопровождать каждый массив данных описанием набора данных, сведениями о рейсах НИС, приборах, наблюдаемых параметрах с указанием единиц и методов измерений. Для передачи данных в Государственный фонд по гидрометеорологии и мониторингу окружающей среды на любой массив данных должна представляться следующая документация:

  • описание массива (базы) данных с указанием полноты и логических единиц хранения (станций, рейсов, географических областей и т.п.) с количеством наблюдений;

  • перечень источников информации (организации, наблюдательных платформ, проектов);

  • описание физической организации данных (форматов хранения массивов данных);

  • перечень параметров с указанием полного и краткого наименований, единиц и методов измерений, пределов изменений параметров;

  • описание методов контроля данных (логических, синтаксических);

  • описания наблюдательных программ (проектов), в рамках которых получены данные;

  • описания методов измерений и применяемых приборов (измерительных систем);

  • описания программных средств, с помощью которых создан массив и (или) проведена обработка этого массива;

  • сведения о публикациях, полученных на основе этого массива;

  • описание используемых в массиве классификаторов;

  • каталог данных, содержащий агрегированную информацию о массивах данных, например, порейсовые данные сопровождаются каталогом рейсов, а прибрежные данные – каталогом станций.

От полноты приводимых сведений зависит понимание других разделов и количество вопросов потенциальных пользователей. Описание данных должно быть достаточно подробным и доступным как программисту, так и ЛПР.

Таким образом, в крупной корпоративной системе (например, в Федеральной службе по гидрометеорологии и мониторингу окружающей среды) должны создаваться целая серия различных объектов метаданных. Базовый набор объектов метаданных представлен в табл.4.

Таблица 4 - Базовый набор объектов метаданных

Объект

Описание объекта метаданных

  1. Технологии переработки данных

Описание технологий, в которых могут быть задействованы приборы, платформы, датчики, другие объекты

  1. Наблюдательные сети

Сведения о состоянии наблюдательных платформ в организации, ведомстве, стране

  1. Наборы данных

Сведения о массивах, базах данных, информационных ресурсах

  1. Форматы данных

Форматы сбора, хранения и обмена данными, описание типов данных, описание логической структуры данных

  1. Платформы наблюдений

Характеристики платформ

- Судно

Сведения о судах

- Попутные суда

Суда, производящие гидрометеорологические наблюдения

- Прибрежные станции

Сведения о гидрометеорологических станциях

- Буи

Сведения о буях

- Спутники

Сведения о спутниках

  1. Проекты

Национальные и международные проекты и программы, в рамках которых получены данные

  1. Модели, программные средства

Сведения о моделях, программных средствах Обрабатывающий процесс, модель обработки данных, цепочка обработки данных, программное средство

  1. Инструменты

Приборы, ИИС, датчик-измеритель, датчик-фильтр, сенсор

  1. Методы

Характеристики методов наблюдений, определений, измерений, обработки

  1. Библиография

Характеристики документов

  1. Организация

Сведения об организациях – источниках, поставщиках данных, разработчиках приборов, программных средств, владельцах наблюдательных платформ, пользователях

  1. Рейсы НИС

Сведения о результатах экспедиционных работ

  1. Контактная информация (персона)

Сведения о результатах контактных лицах, экспертах, ученых. Лицо, отвечающее за состояние объекта и к которому можно обратиться за консультацией по "смысловым" вопросам, связанным с объектом, разработчик формата, программного средства

  1. Должность

Характеристика должности

  1. Объекты

Сведения об использовании таблиц БД (имя, объем, число обращений, др.)

  1. Интерфейсы

Характеристики интерфейсов, список интерфейсов (например, реестр web-сервисов WSDL)

  1. Карты

Сведения о картах

  1. Продукция

Сведения о выпускаемой информационной продукции, включая прогнозы

  1. Интернет-ресурсы

Сведения об Интернет-ресурсах

  1. Словарь параметров

Описание концептуального элемента (название, единицы измерения, диапазон значений параметра, тип статистической характеристики и др.)

  1. Параметры (показатели)

Характеристики измеренного или вычисленного параметра (показателя)

  1. Классификаторы

Сведения о классификаторах

  1. Термины

Описание терминов

  1. Формат

Cведения о форматах данных

  1. Прогнозы

Сведения о прогнозах

  1. Рейсы НИС

Сведения о рейсах НИС

  1. Библиография

Сведения о библиографических источниках (НПД, НМД, НТИ)

  1. Пространственные данные

Сведения о массивах пространственных данных

  1. Сетка

Описание наборов данных для сетки

  1. Изученность

Каталоги изученности того или иного района

  1. Временной ряд

Сведения о временных рядах океанографических наблюдений

  1. Профили

Сведения о выполненных океанографических станций

Для создания такого комплекса объектов метаданных необходимо иметь единую схему ввода метаданных. Такая схема позволяет осуществлять поиск, начиная его с любого объекта метаданных и отображать атрибуты метаданных из различных объектов, получать агрегированные отчеты по различным атрибутам и отслеживать все изменения в базе метаданных.

Средства формирования базы метаданных основаны на обобщенной модели метаданных (рис.4). В основе логики управления метаданными лежит группировка метаданных по информационным проектам. Информационный проект это программа действий, направленная на сбор, обработку, накопление, хранение и распространение данных в определенной предметной области, реализованная или планируемая к реализации организацией-участником программы. Проекты структурируются по следующим разделам:

  • производство измерений;

  • сбор данных;

  • обработка, накопление и хранение данных;

  • обслуживание (распространение данных и информационной продукции).

Рисунок 4 – Обобщенная модель метаданных

К аждый проект связан с несколькими объектами метаданных. Такими объектами могут быть наблюдательные платформы, измерительные приборы, массивы данных, программные средства. Набор объектов метаданных исследовательского проекта определяется спецификой соответствующего мероприятия. Связи между различными объектами метаданных - проектами и их экземплярами реализуются средствами администрирования системы метаданных по схеме, представленной на рис.5.

Рисунок 5 - Схема связей объектов метаданных

Минимальный состав описываемых объектов метаданных включает описание массива (одного или нескольких – в зависимости от специфики технологии), описание формата (одного или нескольких), описание программного комплекса (одного или нескольких), описание эксплуатационной документации.

Для междисциплинарного общения и обработки данных необходимо единообразное понимание различных терминов, поэтому в базе метаданных должны широко применяться различные классификаторы, словари терминов и определений. Набор кодов и классификаторов позволяет с единых позиций описывать все объекты метаданных. В различных объектах метаданных используется более 30 классификаторов различного назначения. Эти классификаторы оформлены в виде БД. Если для какого-либо атрибута имеется несколько классификаторов, то за основу принимается более высокий уровень стандартизации: международный - ISO; международный по тематической области - МОК, ВМО, ИМО; национальный (общероссийский); национальный в тематической области; корпоративный (ведомственный); стандарт предприятия (организации).

Соседние файлы в папке Лекции