- •Необходимость создания метаданных
- •Существующие системы метаданных
- •Цели, задачи создания метаданных и требования к ним
- •Классификация метаданных
- •Обоснование выделения объектов метаданных – место метаданных на различных этапах обработки данных
- •Выделение атрибутов метаданных
- •Организация хранения метаданных
- •Агрегация и аналитика для метаданных
- •Список литературы
- •Перечень вопросов для самопроверки
Существующие системы метаданных
В каждой организации есть справочные сведения, которые представляют информацию, необходимую для идентификации и конкретного определения ключевых объектов данных. Это сведения о наблюдательных платформах, проектах, организациях поставщиках и потребителях информации, разработчиках приборов, БД, форматах, картах, пособиях и т.д. Они является вспомогательными, справочными при обработке данных.
Первые попытки создания массивов справочной информации (тогда еще не было термина «метаданные») относятся к концу шестидесятых годов [1, 4]. К сожалению, технические возможности того времени не позволили создать полноценные массивы справочной информации. Была только предложена идея накопления, в первую очередь, справочных сведений о массивах данных находящихся на различных носителях, в различных странах и организациях, имеющих различные пространственно – временные масштабы представления данных. В конце семидесятых начале восьмидесятых годов в России и в мире вновь вернулись к идее создания массивов справочных сведений. Так во ВНИИГМИ-МЦД было разработано программное средство общего назначения КАТАЛОГ для описания коллекций данных, которое позволяло настраиваться на различные объекты метаданных. На основе этой программной системы было разработано две автоматизированные информационно – справочных системы (АИСС); КАТАЛОГ - общие сведения о массивах гидрометеорологических данных и автоматизированный каталог океанографических данных (АКОД), в которых отражались как сведения об источниках данных (рейсах НИС и прибрежных станциях), так и детальные сведения о данных на носителях. Эти системы отражали далеко не весь объем метаданных. Была представлена только «верхушка айсберга метаданных»
Более широкий подход к созданию метаданных был предпринят в начале восьмидесятых годов в Институте кибернетики АН Украины при совместной с ВНИИГМИ-МЦД разработке системы управления океанографическими данными [1]. В состав этой системы, кроме сведений о данных, была включена информация о пользователях, запросах, учреждениях, программных средствах и др. Эта разработка называлась Словарь–справочник. В настоящее время во ВНИИГМИ-МЦД разработано более 15 объектов для хранения и поиска метаданных (сведения о массивах и базах данных, организациях, проектах, форматах, наблюдательных платформах, приборах, рейсах НИС, др.).
За рубежом интенсивно ведутся исследования в области создания метаданных, особо следует отметить сайт http://www.marinemetadata.org [14, 16]. В России создано несколько достаточно крупных ресурсов по метаданным [www.metadata.ru, http://www.elbib.ru/index.phtml?page=elbib/rus/methodology/md_rev/md_intro/md_example]. К сожалению, они представляют только стандарты в этой области. Одной из первых разработок в области создания метаданных относится разработка ИСИР [3] Перечень и краткие сведения о существующих и используемых в Интернет-системах метаданных, разработанных в различных странах и по различным программам, проектам, представлен в табл.1.
Таблица 1 - Сведения об информационно- справочных системах с метаданными
Разработчик |
Система |
Содержание и назначение |
Источник |
США НАСА |
GCMD |
Общие сведения о данных по природной среде |
http://gcmd.nasa.gov |
США НАСА |
EOSDIS |
Сведения о массивах данных |
http://harp.gsfc.nasa.gov/~imswww/pub/imswelcome/plain.html |
Норвегия, Grid-Arenda |
ADD |
Организации и БД |
http://www.grida.no/add/ |
AMAP Норвегия |
APD |
Сведения о проектах |
http://www.amap.no/ |
МОК |
GLODIR |
Эксперты в области морских исследований |
http://www.unesco.org/ioc/infserv/glodir.htm |
США |
RVs |
Сведения о НИС и расписание их работы по странам |
http://oceanic.cms.udel.edu/ships |
МСИМ НЦОД Германии |
CSR |
Сведения о рейсах НИС в формате ROSCOP, переданные в международный обмен |
http://www.ices.dk/ocean/roscop http://www.sea-search.net/roscop/welcome.html |
ВНИИГМИ-МЦД |
ЦБМД ЕСИМО |
Сведения о массивах и БД, форматах данных, проектах, организациях, наблюдательных платформах, программных средствах, др. |
http://www.esimo.ru/meta/ |
ВНИИГМИ-МЦД |
ЕСИМО |
Сведения об информационных ресурсах |
http://www.esimo.ru/srbd_data/index.jsp |
ВНИИГМИ-МЦД |
CODES |
Кодификаторы ЕСИМО |
http://www.esimo.ru/meta/codes/ |
ВНИИГМИ-МЦД |
ЕСП |
Единый словарь параметров ЕСИМО |
http://data.oceaninfo.ru/udopweb/index.jsp |
ВНИИГМИ-МЦД |
Термины |
Термины и определения ЕСИМО |
http://data.oceaninfo.ru/resource/dictionaries/index.jsp |
США |
DADDI |
Поисковая машина для метаданных по Арктике |
http://mercdev.ornl.gov/daddi/ |
Комитет по данным МПГ |
МПГ |
Сведения о проектируемых массивах данных в период МПГ |
http://nsidc.org/forms/ipy_data_registration.html |
Германия |
Pangea |
Сведения о массивах, проектах, программных средствах |
http://www.pangaea.de/ |
EC, проект SeaDataNet |
CDI |
Общий индекс данных, который идентифицирует каждую единицу хранения (станция, срок наблюдений, др.). |
http://www.seadatanet.org |
Кроме того существует общие программные средства, позволяющие организовать работу с метаданными. Практически все крупные корпорации включают в список своих инструментов программные средства работы с метаданными.
Средство для работы с метаданными InfoSphere корпорации IBM собирает метаданные из разных источников, обеспечивает связь метаданных между разными системами и непрерывно записывает метаданные, чтобы точно знать, что происходит с информацией по мере ее интеграции. Пакет позволяет также связывать глоссарии с элементами данных. В результате информация становится более понятной и надежной, и ее легче интегрировать как внутри систем-источников, так и при перемещении по предприятию.
Кроме того, корпорация IBM имеет инструмент управления метаданными Metadata Workbench, который позволяет визуализировать взаимосвязи между источниками и пользователями данных, предоставлять подтверждение «родословной» данных. Metadata Workbench обеспечивает понимание происхождения информации, связывая поля в инструментах формирования аналитических отчетов с источниками, из которых эти данные были извлечены и, показывая, каким образом эти данные были получены. Инструмент IBM для управления метаданными позволяет создавать новые объекты метаданных.
Анализ представленных систем метаданных позволяет сделать следующие выводы:
-
большинство программных систем ориентировано на работу с одним объектом метаданных;
-
для успешного поиска высококачественных данных, кроме сведений о массивах и базах данных необходимы и другие объекты метаданных - сведения о форматах хранения данных, организациях, хранящих данные, программных средствах их обработки, проектах, в рамках которых получены данные и другие, которые нужно объединить в единую модель метаданных;
-
в созданных системах хранения метаданных, информация об организациях, экспертах, параметрах дублируется в нескольких объектах метаданных (например, сведения об организациях нужны в описаниях массивов и БД, проектов, рейсов НИС и др.);
-
основная часть систем работает в режиме онлайн;
-
системы метаданных создаются на международном (MEDI, EDMED), национальном (EOSDIS, ЕСИМО) и ведомственном уровнях;
-
атрибуты метаданных в различных системах для одних и тех же объектов метаданных не унифицированы по принятым именам, используемым классификаторам;
-
нет четкого понимания единицы описания метаданных (в одной и той же системе, для одного и того же объекта метаданных даются значения атрибутов с различными уровнями обобщения, например, в одном случае это данные одной экспедиции, выполненной в Черном море, а в другом – много экспедиций для Мирового океана);
-
наибольшее число систем создано для таких объектов, как сведения о массивах и БД, рейсах НИС, проектах, организациях;
-
для создания и поиска метаданных имеются как общее программное обеспечение ИБМ Metadata Workbench, так программные средства для отдельных объектов метаданных (ЕДМЕД, ЕДМЕРП, CSR, другие) или группы объектов, например, в ЦБМД ЕСИМО [6].
Недостатками процессов ведения метаданных являются:
-
низкая оперативность обновления информации (некоторые объекты после их создания не обновляются);
-
несогласованный ввод новых экземпляров и изменений в различные объекты метаданных, т.е. требуется учет жизненного цикла описаний объектов метаданных;
-
недостаточная функциональность и степень автоматизации системы ведения метаданных;
-
неэффективная и разрозненная служба ведения метаданных – одни и те же объекты метаданных и их экземпляры поддерживаются в различных странах, ведомствах, организациях), т.е. требуется организация обмена метаданными между различными системами;
-
слабая стандартизация методов представления (структур, используемых классификаторов) различных объектов метаданных;
-
недостаточная интероперабельность в этой области (использование международных стандартов и спецификаций, общих интерфейсов);
-
не всегда реализован автоматизированный выход на данные;
-
недостаточное развитие пространственных метаданных [2, 15];
-
отсутствие глобальной схемы создания, обработки и использования метаданных.
Пользователей не устраивает, что метаданные разрознены, не достаточно структурированы (имеется много полей свободного заполнения), противоречивы, содержат дублирующие и устаревшие записи. Объекты метаданных далеко не всегда автоматически связаны между собой. В этом случае даже при хорошо организованной базе метаданных добиться актуальности и достоверности метаданных очень трудно.
В существующие системы метаданных необходимо встраивать дополнительные объекты метаданных (описания сетей наблюдений, технологий, методов сбора и обработки и др.). Разработчики приложений используют внутренние структуры метаданных с собственной кодировкой, не используя существующие типовые блоки систем метаданных (геообласти, период измерений, другие) со стандартизованными классификаторами.
Различные организации используют разные программные средства для поддержки своих метаданных. Для каждого средства создаются свои структуры метаданных, в результате появляются "острова метаданных", которые трудно связать друг с другом. Распространение корпоративных приложений с преобладанием изолированных структур данных привело к тому, что метаданные оказались рассеянными и сохраняются в разобщенных БД.
Информация о различных объектах метаданных содержится в БД в виде отдельных схем, таблиц и в виде ссылок на другие документы.
Существующие (“независимые”) глобальные системы метаданных типа GCMD, EDMED и другие не отвечают роли метаданных в интегрированных БД и требуются создание дополнительных объектов метаданных. Независимые системы метаданных также нужны и их необходимо развивать, как минимум, для ответов на совершенно конкретные вопросы, например, сколько массивов данных по тому или иному виду данных существует в мире и их характеристики, а также обеспечивать их заказчиков детальной информацией. Это необходимо знать при планировании новой программы или международного проекта. Но, очевидно, что продолжение независимого развития систем метаданных приводит к тому, что при разработке прикладных систем разрабатываются собственные ресурсы метаданных и схемы их управления, параллельно существующим системам метаданных. Поэтому наиболее актуальным вопросом сейчас является создание в каждой крупной предметной области единой централизованной системы метаданных включающей несколько уровней описания метаданных.
Для построения единой системы метаданных необходимо провести классификацию метаданных, обосновать выделение объектов метаданных, определить атрибуты объектов метаданных, шире использовать международные и национальные стандарты в этой области.