Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции / Лекция 8_метад.doc
Скачиваний:
41
Добавлен:
11.06.2015
Размер:
1.38 Mб
Скачать

Агрегация и аналитика для метаданных

Кроме получения справочных сведений в том виде, как они были введены в компьютер, на основе метаданных можно выполнять аналитические запросы и получать агрегированные характеристики, т.е. проводить анализ поступления данных и метаданных от различных организаций [13]. Для эффективного управления данными необходимо знать состояние информационных ресурсов, которое можно отразить:

  • состоянием сетей наблюдений, с которых получаются данные (количество платформ по владельцам, географическим районам, видам выполняемых наблюдений, др.);

  • количеством организаций, платформ по ведомствам, регионам, др.;

  • числом БД, параметров по центрам и рубрикатору;

  • обобщенными характеристиками пополняемых БД;

  • количеством массивов и БД по организациям, регионам;

  • характеристиками потоков информации (количество источников данных, буев, станций, объем - число наблюдений, прирост объемов данных за квартал).

Агрегированные характеристики, получаемые по таким объектам метаданных как сведения о массивах данных, проектах, могут характеризовать научный потенциал страны в рассматриваемой области [7]. На основе объектов метаданных можно получать агрегированные характеристики на этапе:

  • производства измерений – число станций с наблюдениями определенных видов, параметров, наличие приборов на различных платформах;

  • сбора данных - количество источников информации (НИС, прибрежных станций, буев и др.), объемы получаемой информации от одного источника;

  • объединения информации в пространстве - количество станций, рейсов по территории, бассейну, региону;

  • обработки, накопления и хранения данных - объем обрабатываемой информации, время обработки информации;

  • обслуживания - объем выходной информации, периодичность представления (срок, сутки, неделя, декада, месяц, квартал, год); пространственное объединение данных (регион, бассейн, акватория).

Агрегированные характеристики можно получать по таким атрибутам поиска как (даты, параметры, география и др.) для объектов метаданных, отображаемых через:

  • количество экземпляров для центров, проектов, направлений деятельности проекта, периода, тематики (рубрики, параметры);

  • содержание элементов поиска (географический район);

  • категорию информации - содержание и уровень ее обработанности (производство наблюдений; обобщение - аналитика за длительный период измерений или деятельности; диагноз - аналитика за текущий период; прогноз процесса и др.).

Агрегированные характеристики разделяются в зависимости от уровня их представления (использования):

  • общие сведения о работе системы (отчеты в министерства);

  • сведения для управления системой «Характеристики деятельности»;

  • детальные сведения - характеристика ресурсов системы;

  • общие сведения о ресурсах системы - агрегированные характеристики для научных исследований.

Общие сведения о работе системы включают:

  • состояние внедрения технологий и ресурсов системы (процент);

  • количество действующих поставщиков информации;

  • количество параметров состояния, включенных в систему;

  • количество единиц информационных ресурсов, предоставляемых пользователям (по организациям, категориям, времени обновления, др.);

  • количество единиц программных комплексов по обслуживанию пользователей, количество пользователей всех категорий (количество обращений в систему).

Сведения для управления системой включают:

  • сведения о системе измерений;

  • количество пользователей (всего, постоянных, случайных) – получается по числу регулярных посещений;

  • показатели работы системы (количество, технологий массивов и БД по ведомствам, за весь период или за определенный интервал времени - квартал, год);

  • общее количество массивов информации (всего), общий объем с годовым приростом.

Сведения для управления системой на примере ЕСИМО (http://www.esimo.ru) включают состояние метаданных, табл.12; количество БД по рубрикатору, рис.9; справку о состоянии ресурсов, табл.13.

Таблица 12 - Состояние метаданных ЕСИМО

Объекты метаданных

Количество записей

Рейсы НИС

33940

Морские прибрежные станции и посты

753

Информационные ресурсы

563

Сведения об организациях

1940

Сведения о судах

10073

Сети наблюдений

33

Приборы и измерительные комплексы

12

Проекты и программы исследований Мирового океана

203

Массивы и БД

563

Эксперты

365

Интернет- ссылки

325

Программные средства

74

Виды наблюдений и параметры

1170

Кодификаторы

292

Таблица 13 - Справка о серийных информационных ресурсах ЕСИМО (количество экземпляров)

Название ИР

Организация

Дата первой записи

Дата последней записи

Всего

Карты волнения

ВНИИГМИ-МЦД

2003-08-06

2010-01-31

6262

Карты температуры поверхности Тихого океана

ВНИИГМИ-МЦД

2003-08-06

2010-01-26

237

Кольцевая синоптическая карта

ВНИИГМИ-МЦД

2003-08-06

2010-01-31

10105

Рисунок 9 - Количество БД по рубрикатору

Получение агрегированных характеристик для научных исследований опирается на возможности расчета количества экземпляров для всех объектов метаданных по различным атрибутам. Выбор атрибутов обосновывается выбранной (поставленной) целью (гипотезой) анализа результатов, поэтому список поисковых атрибутов генерируется для каждого запроса, а не фиксируется заранее. Возможными вариантами агрегации могут быть:

  • распределение количества массивов по видам наблюдений (рис.10), наблюдательным платформам в % (рис.11), географическим районам;

  • количество национальных и международных проектов, таб.14;

  • количество международных проектов и экспедиций с участием России за период с 1991 по 2005 г., табл.15;

  • распределение международных проектов по географическим районам, рис.12;

  • распределение международных проектов по направлениям исследований, источникам финансирования, рис.13;

  • участие российских организаций в международных проектах;

  • организации – лидеры международных проектов, табл.13;

  • распределение национальных российских проектов по географическим районам исследований;

  • участие ведомств в российских проектах;

  • лидерство ведомств в российских проектах.

Таблица 14 - Количество национальных и международных проектов

Международные, закончившиеся к 1991 г. с участием России

Национальные, закончившиеся к 1991г.

Международные с 1991 г. без участия России

Национальные зарубежных стран с 1990 г.

35

46

5

6

Таблица 15 - Международные проекты и экспедиции с участием России за период 1991 – 2005 гг.

Начавшиеся до 1991

1991- 1995

1996-1999

2000 – 2005

7

13

10

16

Рисунок 10 - Распределение количества массивов по видам наблюдений (в %)

Рисунок 11 - Распределение количества массивов по платформам наблюдений (в %)

Рисунок 12 - Распределение международных проектов по географическим районам

Рисунок 13 - Распределение международных проектов по источникам финансирования

Выводы

Метаданные являются эффективным средством управления данными. Это мощное средство, которое может существенно улучшить качество анализа данных и информационное обслуживание.

Ясно, что сведения о массивах данных нужны, не тем, кто занимается созданием и использованием БД. Об их существовании и характеристиках знает большинство разработчиков. Метаданные нужны тем, кто работает в других смежных сферах наук и не знает, что имеется в интересующих их областях знаний. Заинтересованными сторонами являются также те, кто занимаются моделированием данных, разработкой приложений. Помимо этого, метаданные нужны для работы с данными и подготовки отчетов. Например, для консолидации метаданных требуется информация о том, кто и какие именно данные использует.

Каждое приложение, СУБД или другой инструмент должны вступать в контакт с метаданными с помощью XML схемы. Совместное использование метаданных из нескольких источников в распределенной архитектуре – это стратегическое направление развития метаданных.

Система ведения метаданных включает комплекс средств ввода, поиска, хранения, обработки и распространения метаданных, методы их ведения, поддержания в актуальном состоянии, а также совокупность организационно-распорядительных документов и регламентов, регулирующих использование и ведение метаданных.

Ведение метаданных характеризуется следующими признаками: предпочтительно централизованно распределенным хранением метаданных; применением международных стандартов, наличием широкого комплекса метаданных; обеспечением доступа к метаданным всем конечным пользователям; постоянной актуализацией метаданных; автоматизацией процесса ведения метаданных, обслуживанием запросов пользователей и мониторингом состояния метаданных.

Базы метаданных позволяют пользователям и разработчикам говорить на одном языке. Пользователи получают инструмент поиска и навигации, а эксперты – средства управления метаданными. Чем полнее базы метаданных, тем они эффективнее могут быть использованы для поиска сведений о данных.

Управление метаданными устраняет рассогласование данных, повышает эффективность интеграции бизнес – процессов и устраняет препятствия для разработки корпоративного хранилища данных. Поэтому одновременно с интеграцией данных необходимо интегрировать метаданные и НСИ. К сожалению, в большинстве проектов производится только интеграция данных.

Соседние файлы в папке Лекции