Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
БД_1 / Лекции / Лекция 14_ПУД.doc
Скачиваний:
36
Добавлен:
11.06.2015
Размер:
336.38 Кб
Скачать

43

XIV. Управление данными

Управление данными – необходимый процесс

Основная концепция управления данными

Управление данными в экспедициях и экспериментах, пунктах измерений

Управление данными в центрах обработки данных

Управление данными в отдельных проектах

Управление данными и знаниями на уровне корпорации

Состав и структура Плана управления данными

Управление данными с помощью Интернет

Администрирование БД

Повышение надежности работы БД

В чем нуждается администратор БД?

Рекомендации по защите БД

Управление данными – необходимый процесс

БД окажутся невостребованными, если конечным пользователям не объяснить, какие данные теперь им доступны, и не убедить их, что эти данные полны, точны и полноценны. Многие организации считают, что достаточно обучить конечных пользователей общим приемам работы с приложениями по доступу к БД, и все вопросы решены. Гораздо важнее обучить пользователей анализу данных. Пользователь, обученный работе с приложениями, но не знающий, как их использовать, не сможет получить желаемые аналитические результаты. Соответственно, такой пользователь либо обратится в IT-отдел, либо вообще откажется от использования БД. Для того чтобы улучшить работу с БД пользователям, вводятся должности администраторов БД (АБД).

В соответствии с [4] термин «управление данными (data management) – общее понятие, описывающее функции системы, которые обеспечивают создание и доступ к хранимым данным, соблюдение соглашений о хранении данных, регулирование использования устройств ввода – вывода». Этот термин долгое время использовался только для данных, находящихся в памяти ЭВМ. Основным инструментом управления данными здесь является СУБД.

Термин «организационное управление данными» появился в начале семидесятых годов. Управление данными в рамках экспедиций, центров сбора или проектов включает в себя процессы переработки данных, начиная от сбора данных и заканчивая их архивацией и доведением до пользователей. При этом рассматриваются как технологические, так и организационные вопросы. Основным инструментом организационного управления является «План управления данными».

Первый план управления данными (ПУД) был разработан в 1974 г. в период подготовки к Атлантическому эксперименту Программы исследований глобальных атмосферных процессов (АТЭП). Главной целью этого плана было использование универсального формата всеми участниками эксперимента. Так в первой записи всех дисциплинарных массивов в формате АТЭП было описание сведений об этом массиве данных и его структуры (создание метаданных). С этого момента для большинства международных и национальных проектов и программ начали составляться ПУД. Эволюция управления данными дана в табл.1.

Таблица 1 - Эволюция управления данными

Этап развития

Форма участия

Осознание необходимости управления объектом с помощью БД

Разработка концепция

Выдвижение идеи по использованию БД

Оценка эффективности предлагаемых решений

Постановка цели создания БД

Повышение эффективности использования данных

Осознание необходимости создания БД

Подготовка приказа, составление проекта плана работ

Неприятие в использовании БД

Убеждение пользователей в необходимости создания БД

Понимание необходимости создания БД

Участие пользователей в выработке технических требований к БД

Принятие концепции БД

Составление технической спецификации на БД

Выработка требований к БД

Разработка технического задания

Разработка БД

Разработка приложений по вводу и использованию БД

Ввод в эксплуатацию БД

Акт сдачи

Эксплуатация БД

Выявление ошибок, оптимизация технологии эксплуатации

Первые попытки унифицировать требования по представлению данных предпринимались еще в конце шестидесятых годов. Межправительственная океанографическая комиссия (МОК) ЮНЕСКО разработала форму РОСКОП, которая стандартизировала представление сведений о рейсах научно-исследовательских судов, предназначенных для международного обмена. Эта форма действует по настоящее время. В России в восьмидесятых годах было разработано руководство по оформлению научно-технических отчетов о рейсах НИС, в котором стандартизированы как формы таблиц для представления данных различных дисциплинарных массивов, так и форматы сбора данных с используемыми классификаторами.

В девяностых годах под эгидой комиссии Европейского сообщества (ЕС) было разработано несколько документов для лучшей практики документирования данных, управления данными в отдельных проектах и классификаторы данных (A Guideline for better Practice in Data Documentation. - MAST Data Committee. - March 1997. - 3 pp.; A Guideline for Project Data Management. - MAST Data Committee. - March 1997. - 3pp.; Data Management in MAST Projects: Code on Data Management in MAST Projects. 4th revision. 1996. - 3 pp.).

Управлением данными занимается много рабочих групп в различных международных организациях (Международный совет научных союзов, Всемирная Метеорологическая Организация, МОК), которые разработали ряд рабочих документов по управлению данными, как для отдельных проектов, так и для отдельных дисциплин. С девяностых годов стали регулярно проводиться курсы по управлению данными. В 2007-2009 годах проводился Международный полярный год, за два года до его начала было начато обсуждение политики и плана управления данными. В 2009 г. утвержден стандарт ISO/TR 15801:2009 [6].

Главной целью создания плана управления данными является увеличение эффективности доступа к данным.

Основная концепция управления данными

Создание плана управления данными должно учитывать долгопериодные решения по:

  • развитию и стандартизации технологий сбора и обмена данными, позволяющих уменьшить временной лаг между сбором и распределением (публикацией) данных;

  • увеличению кооперации при сборе, архивации, обработке и представлению данных;

  • созданию распределенных БД для доступа различных пользователей;

  • объединению новых и исторических данных для получения временных рядов наблюдений;

  • улучшению сбора, доступа и использования существующей и новой информации;

  • развитию БД для вычисления статистических характеристик, использования данных в моделях, оперативного доступа к данным и т.п.;

  • совместимости БД за счет использования общих протоколов передачи (форматирования) и контроля качества данных для отдельных дисциплин;

  • доступу к данным в режиме он-лайн.

Методология управления данными должна быть основана на применении наиболее эффективных средств, разработанных в рамках международного сотрудничества или отдельных странах за счет:

  • создания метаданных, многоуровневых каталогов данных;

  • использования метаданных, каталогов для поиска и оценки дубликатов;

  • поиска и обмена данными;

  • конвертирования данных в общие форматы;

  • контроля данных на различных этапах переработки данных;

  • создания новых методов обработки данных;

  • электронных публикаций данных на компактных дисках, в Интернет и др.

План управления данными способствует лучшему пониманию проблем обмена данными всеми участниками проекта, объединению научных интересов, общественных потребностей и правовых вопросов. Управление данными есть процесс, который начинается с проектирования измерительной программы экспедиции (проекта), или создания БД и заканчивается доступом к качественно проконтролированным и хорошо документированным данным. План управления данными должен быть ключевым элементом всех крупных проектов и программ. План управления данными есть добавочная активность, которая помогает максимизировать возврат инвестиций, сделанных в проект с помощью финансирования для целей всестороннего использования получаемых данных. План управления данными есть механизм распространения и использования БД, полученных в проекте.

План управления данными есть специальная активность, выполняемая в рамках национальной и международной политики, основанной на лучшей международной практике обмена данными. Он должен описывать работу, технологические требования и соответствующие результаты в проектировании измерительной активности, отчетности по сбору данных, документировании, контроле качества и создании БД, электронной публикации данных.

Одной из главных задач любого проекта, а особенно центра данных, является создание баз метаданных. Основными метаданными, которые необходимы для использования при управлении данными, являются сведения о:

  • базах (массивах) данных, в т.ч. в Интернет;

  • источниках данных (наблюдательных и измерительных платформах);

  • организациях, собирающих или хранящих данные;

  • экспертах в том или ином направлении исследований;

  • ранее выполненных проектах (программах);

  • форматах, структурах хранения данных;

  • программных средствах (ПС);

  • приборах, методах наблюдений;

  • параметрах данных.

Этапы разработки Плана управления данными включают:

  • идентификацию релевантных пользователей данных;

  • определение требований пользователей к информационному обеспечению;

  • описание проблем управления данными;

  • сбор информации о соответствующих данных, средствах и технологиях ввода данных в ЭВМ, имеющихся моделях получения расчетных характеристик;

  • способы использования моделей и других программных средств (СУБД, ГИС, технологий сбора данных);

  • составление текста ПУД;

  • согласование ПУД с заинтересованными организациями, участниками проекта.

Общие подходы в управлении данными позволяют получить пользу как ученым, работающим в этих проектах, так и научному сообществу в целом (более быстрое использование данных); сделать эффективнее использование большинства источников данных; хорошо документировать и проконтролировать данные, предназначенные для общего использования по окончанию проекта экспедиции.

Адекватное управление данными определяется возможностями национальных организаций политическими аспектами, техническими проблемами, условиями финансирования проектов, хорошей координацией всех участников проекта, наличием соответствующего квалифицированного штата, социальными льготами (для проведения экспедиционных работ).

Управление данными можно рассматривать на уровне отдельной экспедиции, центра сбора данных, проекта (программы), рис.1. Каждый уровень управления данными включает предыдущие уровни. Например, управление данными на уровне центра обязательно включает сбор данных от источников данных, т.е. управление данными на уровне источников данных. Крупная научная программа может включать несколько наблюдательных проектов, каждый из которых может иметь свой план управления данными.

Рисунок 1 – Схема управления данными

Управление данными в экспедициях и экспериментах, пунктах измерений

Для управления данными на этом уровне организуются группы (отряды) управления данными. Отряды располагаются, как правило, на флагманских судах экспедиции. Основной задачей этих отрядов является организация занесения данных на технические носители непосредственно в экспедиции. Критериями работы отрядов управления данными могут быть скорость доведения данных до архивного хранения и пользователей

Управление данными в центрах обработки данных

Одновременно с организацией управления данными на уровне источников данных развивалось управление данными в центрах сбора (мировых и национальных центрах данных). После создания в 1957 г. системы мировых центров данных началась работа по занесению данных на технические носители по различным дисциплинам. По мере увеличения числа дисциплин, по которым собирались данные, накопления данных в различных форматах, перехода обработки данных с одного на другое поколение ЭВМ, существенно усложнилась проблема управления данными в центрах сбора. Необходимо не только отслеживать форматы сбора данных, но и правила конвертирования, чтобы не потерять информацию. Появилась проблема дублирования данных, полученных из разных источников (от разных стран и Мировых центров данных). На первое место выдвинулась проблема качества данных. Одной из важных проблем стало создание упорядоченных БД с эффективным доступом к ним. Для решения этих задач создаются:

  • система ведения метаданных;

  • инвертированные массивы данных;

  • массивы расчетных характеристик.

Так как большого опыта в управлении огромными массивами данных (сотни Гигабайт) не было ни в России, ни в других странах, то каждый центр разрабатывал свои технологии управления данными. Только в девяностых годах, когда основные дисциплинарные массивы с большей или меньшей полнотой были переведены на современные технические носители, а возможности персональных ЭВМ позволили обрабатывать эти данные, наилучшим способом управления данными в центре стало применение мощной коммерческой СУБД. При этом стало возможным создать интегрированную БД (т.е. объединить в рамках одной БД несколько дисциплинарных массивов). Главной проблемой управления данными в центрах обработки данных становится качество, сохранность и восстановление данных после сбоев.

Безусловно, проблема управления сбором данных остается, но она смещается на уровень управления данными в экспедициях, проектах и в Интернет. Критерием управления данными в центрах является полнота сбора данных и последующее длительное использование данных на основе современных средств Интернет и на компактных дисках.

Соседние файлы в папке Лекции