Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции / Лекция 8_метад.doc
Скачиваний:
40
Добавлен:
11.06.2015
Размер:
1.38 Mб
Скачать

168

VIII МЕТАДАННЫЕ

Необходимость создания метаданных

Существующие системы метаданных

Цели, задачи создания метаданных и требования к ним

Классификация метаданных

Обоснование выделения объектов метаданных - место метаданных на различных этапах обработки данных

Выделение атрибутов метаданных

Стандартизация в области представления и обмена метаданных

Организация хранения метаданных

Агрегация и аналитика для метаданных

Необходимость создания метаданных

Метаданные — это данные о данных, которые описывают характеристики объектов-носителей данных, способствуют обнаружению, идентификации, оценке и управлению этими данными, включают определения объектов, относящихся к данным, разработчикам, пользователям и средствам взаимодействия.

Определение понятия "метаданные" данное в стандартах:

ГОСТ Р ИСО 15489-1-2007 [8] п.3.10. Метаданные - это данные, описывающие контекст, содержание, структуру документов и управление ими;

ГОСТ Р ИСО 23081-1-2008 [9] п.4. Метаданные об управлении документами. В контексте управления документами метаданные определяются как данные, описывающие контекст, содержание и структуру документов, а также процессы управления ими на протяжении всего жизненного цикла документа (ИСО 15489-1, подраздел 3.12). Сами по себе метаданные являются структурированной или полуструктурированной информацией, позволяющей создавать, регистрировать, классифицировать, обеспечивать доступ, хранение и размещение документов, в рамках и за пределами одной либо нескольких областей деятельности.

Первоначально метаданные определяют документ в момент его ввода, фиксируя его связь с контекстом деятельности предприятия и устанавливая контроль над ним. В течение жизненного цикла документов или их совокупностей новые слои метаданных будут добавляться в процессе использования документов во вновь проводимых деловых операциях. Это означает, что метаданные продолжают накапливать информацию, касающуюся контекста управления документами и деловых процессов, в которых используются документы, и соотносятся с содержательными и структурными изменениями документа. Метаданные могут быть источником информации о многократном использовании документа многими системами и для множества целей. Метаданные, применяемые к документам в течение всего их жизненного цикла, можно продолжать использовать после того, как сами документы перестанут быть востребованы в деловых целях и будут переданы на хранение.

Метаданные обеспечивают аутентичность, надежность, применимость и целостность документов, обеспечивают управление ими и понимание информационных объектов как физических, так и аналоговых, и цифровых.

Каталог – это поименованный список однородных объектов, составленный в порядке, облегчающем их нахождение с указанием для каждого объекта значений характеристик (свойств) уникально идентифицирующий объект. Каталог идентифицирует различные объекты, представленные в виде списков. Например, каталог запчастей, компьютеров, книг, ресторанов, гостиниц и т.п. Сведения о данных также являются каталогом. Просто этот каталог, также как каталог web-ресурсов, представляет обобщенный каталог данных, которому нужно привлечение других каталогов. Когда говорим о каталоге, то здесь важно знать, где находятся данные, в каком формате они хранятся, кто ответственный за поддержку данных и др. Каталог товаров без указания, где товар можно купить, не имеет смысла. Поэтому, кроме каталога товаров, нужны каталоги магазинов и таблицы связей, в каком магазине, какие товары можно купить.

В последние десятилетия интенсивно идет процесс создания массивов и БД, созданы десятки тысяч исходных, инвертированных и расчетных массивов. Для обработки этих данных разработаны сотни различных программных средств, на основе которых можно получить тысячи различных расчетных характеристик. Обмен данными (международный, межведомственный и межкорпоративный) всегда сопровождается оценкой их свойств, потребительских характеристик качества данных. Во всем этом потоке информации необходимо очень быстро ориентироваться. И здесь имеющиеся бумажные каталоги, списки, справки, полученные с технических носителей, уже не помогают.

БД и массивы данных очень быстро изменяются, пополняются, корректируются и т.п. Объем такой информации также относительно большой, так базы сведений об изученности того или иного района Мирового океана оцениваются в сотни Мбайт. Справочная информация - это основа для перехода на безбумажную технологию обработки информации. Кроме того, пользователей уже не удовлетворяет полное или выборочное копирование файлов данных, им требуется тонкая выборка по определенным критериям, атрибутов которых иногда нет в исходных массивах данных и об этом пользователю неизвестно.

Проблемы стратегического управления данными и контроля над ними связаны с метаданными. К сожалению, большинство организаций еще не решили проблему создания и эффективного управления метаданными. Одна из главных задач, связанных с метаданными, заключается в координировании и синхронизации информации из разрозненных источников, что ведет к лучшему пониманию того, где находится информация и как она используется. Метаданные требуются в БД, хранилищах данных, для управления данными и приложениями. Метаданные добавляют к информации контекст, что позволяет лучше понимать ее, использовать и отслеживать по всей организации. БД и приложения можно делать богаче при помощи таких метаданных, как сведения о БД, организациях, персонах, источниках данных, правилах перемещения данных и путь прохождения информации по влияющим на нее приложениям [5].

Метаданные необходимы для анализа, проектирования, построения, внедрения и применения практически любой компьютерной системы. Так как все, с чем работает компьютер, по сути, является данными, а метаданные сопровождают любые данные, то это понятие имеет место в любой предметной области.

Таким образом, метаданные в любой предметной области, представленные в виде каталогов, справочников, реестров, содержат сведения о составе данных, содержании, статусе, происхождении, местонахождении, качестве, форматах, формах визуализации, условиях доступа, приобретения и использования. Метаданные могут определять авторские, имущественные и смежные с ними права на данные.

Метаданные обладают рядом специфических особенностей, характерных для всех видов справочной информации:

  • одноразовый ввод информации при первоначальной загрузке метаданных с последующим внесением изменений и многократное ее использование в течение достаточно длительного промежутка времени;

  • относительно малая активность обновления метаданных, как по частоте, так и по объему корректировки;

  • отделение во времени по источникам и исполнителям процессов обновления от процесса использования и как следствие – необходимость обеспечения совместимости информации, подлежащей редактированию;

  • наличие четких признаков классификации и группировки метаданных;

  • необходимость централизации глобальных и национальных сведений о данных и децентрализации локальных, детальных сведений о данных.

Стандарт на метаданные Федерального комитета по географическим данным США (FGDC- STD-001) выделяет четыре функции метаданных:

    • поддержка поиска – выделение необходимых пользователю источников баз или массивов данных, представление информации, необходимой для определения некоторых критериев поиска данных (временной период, географическая область, др.);

    • получение сведений о данных (назначение и пригодность) — информация, необходимая для оценки пригодности данных для выполнения той или иной прикладной задачи (полнота и качество данных, наличие и точность измерений отдельных параметров);

    • доступ к данным — информация, необходимая для приобретения (получения) выбранного набора данных (условия и методы доступа);

    • применение данных — информация, необходимая для прикладной обработки и использования данных, т.е. пользователь с помощью метаданных должен иметь возможность оценить их происхождение, семантику, структуру данных.

Наличие метаданных считается ключевым фактором успеха эксплуатации БД. Они содержат информацию, необходимую для извлечения, преобразования и загрузки данных из исходных систем, а также для последующего использования и интерпретации содержимого БД.

Соседние файлы в папке Лекции