Назначение информации
Тип информации
Способ доступа, распространения
Способ сбора и представления
Вид носителя
Регулярность
измерений Направление
деятельности
Единица поступления
Степень
подготовленности к обработке
Направление движения
Способ измерения
Периодичность
обработки
Использование
информации
Уровень
формализации
Система хранения
Шкала измерений
Средство
распространения
Уровень обобщения
Структурирован-ность данных
Метод (способ)
распространения
Режим распространения
Способ представления
в ЭВМ
Степень статичности
Регламент доведения
Область и широта
применения
Технологии
обработки
Способ и сроки
передачи
Степень использования
Документированность
Место
использования
Научные исследования
Принятие решений
Широта использования
Упорядоченность
Исходные
Инвертированные
Расчетные
Рисунок 1 - Классификация данных
Таблица 1 - Описание классификаций данных
|
Основания классификации |
Объекты |
|
Способ представления данных в ЭВМ |
Числовая – фактографическая (данные измерений, результаты обобщений и моделирования); текстовая (электронные документы, сообщения электронной почты); графическая (рисунки, фотографии и др.); звуковая; пространственная информация – электронные топографические карты, а также тематические слои; мультимединая |
|
Сферы, науки и научные направления |
Техно, социо, гидро, атмо, лито, космо сферы; Демография, биология, геология, гравиметрия, метеорология, гидрология рек, экономика, др. |
|
Технологии сбора данных |
Дисциплинарные массивы: наблюдения за течениями, волнением, прибрежные наблюдения, спутниковые |
|
Направление деятельности |
Технологическая, нормативная, финансовая, кадровая, информация о состоянии природной среды |
|
Документальная информация |
Нормативная правовая информация – законы РФ, постановления Правительства РФ, другие законодательные акты по предметной области; Нормативная методическая информация – порядки, регламенты и другие нормы в области деятельности; Нормативная управляющая информация - приказы, распоряжения и другие директивы по функционированию; Научно-техническая информация – публикации по профилю деятельности |
|
Вид носителя |
Бумажный, магнитный, оптический носитель, жесткий диск |
|
Назначение |
Функциональная, обеспечивающая |
|
Направление движения |
Исходящая, входящая (внешняя, внутренняя) |
|
Упорядоченность данных |
Исходные (наблюденные), инвертированные, расчетные данные, метаданные |
|
Единица поступления |
Комплект данных за сутки, месяц, квартал, год |
|
Структурированность данных |
Структурированная (БД), слабоструктурированная (файлы данных) и неструктурированная (электронные документы) |
|
Степень постоянства данных |
Статическая, динамическая и условно – постоянная |
|
Инвертирование |
Полностью инвертированные; выборочно – инвертированные (временные ряды); объединено - инвертированные |
|
Расчеты |
Вычисленные характеристики первого рода (интерполяция), второго рода (вычисленные и интерполированные значения) и третьего рода (фоновые характеристики района) |
|
Прогнозы |
Краткосрочные, долгосрочные, сверхдолгосрочные |
|
Структура представления данных |
Точка, профиль, сетка, объект |
|
Степень подготовленности данных к обработке |
Данные на бумажных носителях (книгах, бюллетенях, ежемесячниках, ежегодниках и т.п.); данные на технических носителях (магнитных лентах, дискетах и др.) в различных форматах хранения; данные в БД |
|
Тип информации |
Метаданные – справочные сведений о данных, организациях, системах наблюдений, распоряжениях, публикациях, классификаторы, коды параметров и т.п. Данные – факты |
|
Использование информации |
Управляющая, осведомляющая, справочная, информационно- справочная, рекомендации |
|
Область применения |
Жизнеобеспечение, управление, научные исследования, сферы экономической деятельности - транспорт, сельское хозяйство, вооруженные силы, энергетика, медицина, общее и специальное профессиональное обучение; страховые, финансовые и банковские системы; средства массовой информации; средства социальной реабилитации; игровые и развлекательные системы; применение в быту |
|
Широта применения |
Общего пользования (во всех сферах деятельности человека), специализированная (для научных исследований) |
|
Уровень обобщения данных |
Первичная информация (данные наблюдений и измерений, описание событий, фактов и других аспектов деятельности) Диагностическая информация (результаты интерпретации первичных данных о состоянии среды и ее загрязнении, деятельности и т.п.), получаемая посредством различных способов и моделей, экспертного анализа Прогностическая информация, созданная с применением методов и моделей прогноза естественных и антропогенных процессов, экспертного анализа Обобщенная информация (количественное и качественное описание), получаемая посредством обработки первичной информации, аналитического и экспертного анализа |
|
Документированность данных |
Документированная информация – зафиксированная на материальном носителе с реквизитами, позволяющими ее идентифицировать, и готовая для обмена с применением телекоммуникационных технологий. Недокументированная |
|
Способ и сроки передачи |
Данные реального времени - оперативные данные, собранные через глобальную сеть телесвязи (ГСТ) в пределах времени отсечения (1-24 часа), раскодированные, проконтролированные по усеченным алгоритмам и используемые для краткосрочного прогнозирования. Отложенная информация - данные, отличающиеся от категории А более продолжительным временем отсечения (от нескольких суток до двух месяцев), необходимые для среднесрочного прогнозирования. Исторические данные - необходимы для статистические исследований, собираются с большими задержками во времени. |
|
Способ измерения |
Дистанционный, автоматический, визуальный, ручной |
|
Регулярность измерений |
Регулярные, регулярные синхронные, асинхронные, нерегулярные, эпизодические |
|
Шкала измерений |
Порядковая, количественная, номинальная, балльная |
|
Периодичность обработки |
Регламентированная (ежедневная, ежедекадная, ежемесячная, ежегодная и др.), нерегламентированная |
|
Регламент доведения до пользователя |
Экстренная (сразу после обнаружения); периодическая (ежечасно, ежесуточно, ежедекадно, ежемесячно); по запросу |
|
Система хранения |
БД, системы файлов ГИС проектов, системы форматированных файлов данных, системы объектных файлов данных или массивы электронных документов, программные приложения, генерирующие информацию при обращении к ним |
|
Метод распространения |
По запросу, рассылка по списку - циркулярное распространение данных, обмен |
|
Способ распространения |
Автоматизированная система передачи данных, Интернет-средства, почта |
|
Средства распространения |
Сменные носители (оптические и магнитные носители и т.п.), электронные средства (web-сайты, электронная почта, ftp, Web-ориентированные программные приложения) |
|
Режим распространения |
В режиме реального времени (on-line), с задержкой (с учетом времени подготовки информации и ее доставки) – off-line |
|
Степень использования для поддержки решений |
Частная (из одной предметной области), комплексная (из нескольких предметных областей) |
|
Способ доступа |
Локальный доступ, удаленный (сетевой) доступом |
Пространственные данные это информация, характеризующаяся местоположением, то есть имеющая географические координаты. Представляется в ГИС.
Фактографические данные определяются не только местом, но и временем, т.е. отражают сведения о фактах. Эти данные могут быть представлены в виде временных рядов, комплектов данных, организованных в зависимости от системы сбора данных и/или платформы, методов обработки и т.п. Представляются в БД и структурированных массивах данных. Фактографические данные в виде значений в узлах регулярной сетки различного пространсвенно -временного масштаба после их представления в виде изолиний кратных значений параметров среды (00 ,50, 150, 250 для температуры воды) становятся пространственными.
Текстовые данные – это документы, характеризующиеся библиографической информацией, представляются в текстовых редакторах. Текстовые БД подразделяются на библиографические, БД патентной информации, справочники, словари и пр. К ним относятся: телефонные справочники, газетные БД, реестры компаний и т.д.
Графические данные – это пространственная или фактографическая информация, представленная с помощью графических средств на экране (карты, графики, диаграммы, изображения). Фактически это результаты обработки исходных и модельных данных, представленные в виде графиков, диаграмм, сканированных документов и др. К этому типу данных относятся также фотографии, рисунки, спутниковые изображения и т.п.
Звуковые данные – это звук, передаваемый в цифровом виде, например, музыкальные записи, шумы моря или результаты записи исходных данных, введенных в ЭВМ с голоса.
Мультимединые данные – информация, содержащая несколько типов данных (html - страницы, ppt - презентации). Мультимедийная информация – это исходные или расчетные характеристики, представленные в виде пространственной информации, сопровождаемой, текстовой, табличной, графической типами данных, загруженными в одну программную среду.
Некоторые виды данных могут переходить в другие виды. Например, фактографические - в пространственные, пространственные и фактографические в графические или текстовые или мультимедийные.
Тип данных – описывает свойства набора данных, которые определяют диапазон возможных значений данных из набора; допустимые операции, которые можно выполнять над этими значениями; способ хранения этих значений в памяти. Различают простые типы данных: целые, действительные числа; составные типы данных: массивы, файлы и др.
По назначению информационная база разделяется на справочные сведения (метаданные) и данные, отражающие состояние объекта. Данные по степени готовности данных к автоматизированной обработке делятся на данные: на носителях, не считываемых в ЭВМ (таблицы, отчеты, книжки, микрофильмы); на носителях в различных кодах и форматах; в едином языке описания данных (в виде БД в одной из промышленных СУБД).
Данные могут разделяться в зависимости от их сортировки, степени обработки, метода организации измерений и т.п. Так данные в зависимости от их сортировки разделяются на исходные и инвертированные, представленные в другом порядке по отношению к исходным данным. Комплекты данных в исходном виде организованны в зависимости от системы сбора данных и/или платформы и др., например, порейсовые, поквадратные, срочные данные и т.п. Инвертированные данные предназначены для ускорения обработки данных на ЭВМ (стоимость их создания и хранения значительно дешевле, чем поиск и сортировка при каждом обращении к исходной БД). Например, инвертированные массивы содержат данные, предназначенные для последующих расчетов. Они являются входными для многих задач прикладной обработки данных (расчет статистических характеристик, получение трендов изменчивости параметров во времени, интерполяция данных в пространстве и во времени и др.). По способу упорядочения инвертированные массивы данных делятся на временные ряды, данные, представленный в один момент для какой-то площади, данные, собранные по одному из регионов или для одного из проектов и т.п. В области гидрометеорологии инвертированные данные представляются в поквадратном виде для случайных наблюдений в открытом море, в виде временных рядов для отдельных параметров или комплекса параметров в фиксированных точках наблюдений. Это обусловлено влиянием экспертов, которые внесли свои изменения и улучшили качество созданных временных рядов.
По содержанию данные делятся на дисциплинарные массивы. Создание дисциплинарных массивов данных обусловлено технологическими причинами, связанными с организацией систем измерений и сбора данных.
По регулярности (периодичности или частоте) наблюдений данные бывают регулярные (например, каждый час, один или несколько раз в сутки), регулярные синхронные, асинхронные и нерегулярные (измерения в разное время и в различных точках пространства). Регулярность определяется соответствующими наставлениями и руководствами или специальными программами измерений при экспериментальных исследованиях. Нерегулярные измерения требуют более сложных методов обработки. Космическая система измерений является асинхронной, но зато может обеспечить огромный поток информации с высоким разрешением по большим пространствам за короткий период времени.
Данные с точки зрения способа регистрации и кодирования делятся на три типа. Сведения и признаки, которые можно фиксировать с помощью порядковой системы кодирования, например, сплоченность льдов и количество облаков в баллах. Сведения, которые можно регистрировать с помощью определенных правил, например, номера квадратов, квадрантов, регионов и т.п. Количественная шкала, которая регистрирует сведения непосредственно в “натуральном” виде, как характеристики объекта измерений, применяется для записи значений температуры, солености воды, содержания кислорода, фосфора и других химических элементов, при этом используются как цифровые обозначения, так и буквенно-цифровые, например, для регистрации и кодирования облачности применяются латинские буквы (Ci, Cu, Cb), а для регистрации страны - буквы и цифры.
Данные хранятся на различных носителях информации: бумажных (таблицы, графики), микрокопиях (микрофильмы, микрофиши), магнитных (дискеты, ленты, диски), оптических (компактные диски CD-ROM, DVD, др.).
В зависимости от состава документов, отражающих информацию, их можно занести в БД документального, фактографического или документально-фактографического типа. Это определяется объемом неформализованной информации в документах, количеством атрибутов. Например, справочная информация о массивах данных относится к документальному типу представления. Данные измерений на метеостанциях относится к фактографическому типу, сведения о жизненном цикле документов – документально – фактографическому типу.
Степень статичности информации характеризуется временем, в течение которого она остается неизменной. По указанному признаку информация подразделяется на постоянную (неизменную), условно-постоянную (изменяющуюся редко). К постоянной информации относятся классификаторы стран, учреждений поставщиков и потребителей данных, судов, параметров наблюдений и т.п. Условно-постоянная информация сохраняет свое значение определенный период времени и делится на начальную и скорректированную.
К начальной информации можно отнести сведения, первый раз зарегистрированные в системе. Скорректированная информация является результатом редактирования условно – постоянной информации. Соотношение объемов постоянной, условно-постоянной информации имеет большое значение при выборе структуры организации информационной базы.
Важнейшим свойством фактографических данных является их исторический характер. После того, как информация о каком-то факте наблюдений получена, верифицирована и заведена в БД, она может считываться много раз, но уже не может быть изменена. Историчность данных предполагает высокий уровень статичности (неизменности) как собственно данных, так и их метаданных (с какой платформы наблюдалось, кто наблюдал, чем, каким прибором и т.д.).
Когда говорится о неизменности и статичности данных, имеется в виду неизменность исключительно исторических данных (данных, описывающих уже произошедшие события). Статичность информации не распространяется на прогнозируемые данные (данные о событии, которое еще не происходило). Например, если строится прогноз какого – либо параметра на предстоящий год, то прогнозирование и моделирование затрагивает не только будущие (еще не произошедшие), но и прошлые (уже свершившиеся факты), на основе которых строится прогноз.
Таблица 2 - Классификация данных по категории (способу, срокам передачи) и уровню – степени обработки данных
|
Категория и уровень обработки |
Описание |
|
0 |
Данные, полученные непосредственно датчика с полным разрешением |
|
А |
Данные реального времени собранные через глобальную сеть телесвязи (ГСТ) в пределах оперативного времени отсечения (1-24 часа) раскодированные, проконтролированные по усеченным алгоритмам и используемые для краткосрочного прогнозирования гидрометеорологических условий |
|
1 |
Данные приборов, наличием вспомогательной информации, включающей коэффициенты калибровки, поправки, географическую привязку |
|
1А |
Первичные данные - отсчеты приборов, выраженные в физических единицах датчика и привязанные к пространственно-временным координатам. |
|
2А |
Наблюденные значения параметров в физических величинах, вычисленные по данным уровня 1 микроосреднением или по эмпирической или теоретической формуле с полным разрешением |
|
3A |
Произведена коррекция данных, унифицированы единицы измерений. Поставляется с возможной агрегацией данных. Комплект поставки данных включает файл с метаданными, пример распечатки данных, признаки оценки качества данных. |
|
В |
Данные, отличающиеся от категории А более продолжительным временем отсечения (от нескольких суток до двух месяцев) - квазиоперативные данные, необходимые в основном для среднесрочного прогнозирования. |
|
1В |
Произведена коррекция данных (например, для спутниковых наблюдений радиометрическая и геометрическая, по орбитальным параметрам). Поставляется с исходным разрешением. Сопровождаются дополнительными атрибутами метаданных (для спутниковых наблюдений даются параметры камеры - геометрия камеры и температурные измерения). Комплект поставки данных включает отдельные атрибуты метаданных, например, названия спутников, признаки оценки качества данных. |
|
2B |
Наблюденные значения параметров в физических величинах, вычисленные по данным уровня 1 |
|
3B |
Произведена коррекция данных, полученные по данным уровня 1В и (или) 2В унифицированы единицы измерений, возможна агрегация данных, данные сопровождаются метаданными, могут быть нанесены на координатную сетку |
|
С |
Текущие и исторические данные, собираемые с большими задержками во времени в режиме оффлайн, данные необходимы для статистические исследований |
|
1C |
Произведена коррекция данных, сопровождается полными метаданными, |
|
2C |
Наблюденные значения параметров в физических величинах, вычисленные по данным уровня 1С |
|
3C |
Упорядоченные, рассчитанные или интерполированные значения параметров, полученные по данным уровня 1С и (или) 2С, сопровождаются полными метаданными |
|
4 |
Данные, представляющие собой композит многократных измерений с отметками облачности, либо результаты моделирования и анализа данных более низкого уровня |
Оперативные данные отражают состояние некоторой предметной области в текущий момент времени, адекватное детализированное отображение текущих событий (изменений), происходящих в реальном мире.
Способы распространения информации бывают следующие: данные высылаются по запросу, рассылаются по списку, передаются и получаются в обмен с зарубежными странами и организациями с помощью обычной почты, факса, электронной почты, Интернет.
По функциям использования выходная продукция может быть справочной (метаданные), информационной и управляющей. К метаданным относятся сведения о массивах данных, источниках данных. Информационная продукция – это выборки и обобщения данных по любому району или/и на любой момент времени. Управляющая информация предназначена для поддержки решений.
По характеру использования информация бывает общего пользования (полезной во многих организациях) – наблюдения за загрязнением океанов и морей, специализированной (охватывающей лишь определенный круг проблем), например, характеристики взаимодействия океана и атмосферы.
Географическая область использования определяет локальность или глобальность информации, например, используется только в пределах какого-либо географического района, например, наблюдения за уровнем в период навигации в районе бара устья реки являются локальной информацией. В то же время среднемесячные и среднегодовые значения уровня на прибрежных гидрометеорологических станциях, где наблюдения ведутся более 50 лет, необходимы для глобального использования, т.е. для изучения изменений климата.
Методами образования потоков информации являются: измерения, т.е. получение исходных данных; преобразование их - сортировка (инвертирование); вычисление расчетных характеристик и прогнозных данных, которые в свою очередь также могут подвергаться дальнейшей обработке.
Пользователя, занимающегося анализом, редко интересуют детализированные данные. Более того, чем выше уровень управления (руководителя), тем выше уровень агрегации данных, используемых им для принятия решения. Например, для планирования спроса на зонтики важна и необходима вероятность дождей на уровне декады, месяца или даже осеннее-летнего сезона.
В соответствии с ГОСТ 7.73.-96 «Поиск и распространение информации: термины и определения» БД бывают:
-
отсылочные - отсылающие пользователя к другим источникам информации для получения полной или дополнительной информации;
-
адресно-справочные - отсылочные БД, в которых указаны адреса хранения искомых данных;
-
документальные, в которой каждая запись отражает конкретный документ, содержит его библиографическое описание и иную информацию о нем;
-
библиографические - отсылочная документальная БД, содержащая библиографические записи;
-
реферативные - библиографические БД, содержащие записи, включающие сведения о содержании документа, включая аннотацию или реферат;
-
первичные данные - фактографические данные, содержащие информацию, относящуюся к предметной области;
-
объектографические, которой содержат первичные данные об отдельном объекте предметной области;
-
полнотекстовые, содержащие полные тексты документов;
-
информации по значениям сбалансированных показателей, содержащие данные о наиболее важных для принятия решений параметрах, отражающих различные свойства процессов и явлений;
-
лексикографические, записи в которых содержат данные об одной лексической единице, и соответствует статье словаря;
-
числовые;
-
численно-текстовые;
-
текстовые, которые содержат (главным образом) текст на естественном языке;
-
гипертекстовые, которые содержат связи с другими записями, позволяющими компоновать ансамбли записей на основе их логической связанности.
Данные можно разделить на процессо - ориентированные и ориентированные на принятие решений. К процессо - ориентированным данным, используемым в системах обработки неструктурированных или слабоструктурированных данных с гипертекстовой организацией, относятся и системы офисного документооборота, архивы медицинских данных и т.п. Их данные обычно отличает отсутствие четкой общепринятой классификации прикладной информации. При использовании такой информации навигационный доступ используется очень ограниченно. Отсюда многократное увеличение нагрузки на хранилище, необходимость держать большой объем невостребованных данных в хранилище, часто превышающий объем полезных данных. Время активной жизни данных в таких системах обычно определяется временем жизни какого-либо процесса (например, выполнение проекта) или отчетным периодом (например, закрытие квартала). Именно на системы с такими свойствами ориентированы традиционные модели хранилищ, в которых миграция данных, резервное копирование и репликация обычно управляются по расписанию.
По степени готовности к использованию для принятия решений выходная информация может быть частной, комплексной или используемой только в совокупности с другой информацией. Например, сведения о критических значениях гидрометеорологических явлениях напрямую используются на объектах экономики, а текущая информация о гидрометеорологических условиях, как правило, используется совместно с экономической информацией о состоянии объектов.
Большинство данных можно хранить в виде точки, профиля, сетки или каталога объектных файлов. Каждый тип данных может иметь один или несколько вариантов структур хранения.
Точки бывают:
1) случайными в пространстве с регулярными измерениями во времени, требуют идентификации места и времени каждого измерения.
2) случайными на траектории с регулярными измерениями во времени, требуют идентификации места и времени каждого измерения.
3) в виде классического временного ряда – точка, фиксированная в пространстве, с регулярными измерениями во времени, требуют идентификации места и периода измерений.
4) в виде псевдовременного ряда – точка, фиксированная в пространстве или относящаяся к определенной площади (квадрату, региону, области), случайные точки с регулярными измерениями во времени или с предварительным осреднением по какому-либо временному масштабу и с пропусками отсчетов, требующие предварительной интерполяции или аппроксимации и идентификации места.
5) в виде псевдо временного ряда, приведенного к классическому виду путем интерполяции во времени.
6) в виде результатов агрегации (климатической обработки временных рядов) с масштабом обобщения сутки, месяц, год.
Профили могут быть:
1) случайными в виде исходных или вычисленных значений, требуют идентификации места, времени каждой серии измерения в одной точке, дополнительно дается идентификация уровня наблюдений.
2) случайные на траектории с регулярными измерениями во времени, требуют идентификации места и времени.
3) случайными на стандартных горизонтах – вычисленные и интерполированные данные, требуют идентификации места, времени и уровня
4) в виде псевдо временных рядов, полученных на основе случайных наблюдений, агрегированных для квадрата (области) и различных временных масштабов на одном уровне с интерполяцией во времени.
5) в виде псевдо временных рядов, приведенного к классическому временному ряду.
6) случайными агрегированными по времени, уровням, требуют идентификации места (фиксированная точка или квадрат, район) и времени в зависимости от масштаба осреднения.
7) отнесенными к центру района в виде типового профиля.
Сетки бывают:
1) нерегулярные в виде исходных данных представленных за определенный период времени на одном уровне для площади.
2) нерегулярными в виде исходных данных, представленных в один момент времени, на одном уровне для площади.
3) регулярными на одном уровне - нерегулярные данные, интерполированные в пространстве для одного момента, на одном уровне.
4) в виде временного ряда на основе сеточных данных – выборка для одной точки за весь период времени на одном уровне.
5) регулярными для одной изолинии, например глубина залегания звукового канала.
6) в виде профиля, полученного на основе сеточных данных – выборка для одной точки для всех уровней в один момент времени.
Каталоги объектных файлов предполагают идентификацию на логическом и физическом уровнях данных представленных в файловых системах. Каталоги создавались всегда. Каждый каталог, как правило, имеет свою структуру, и типизировать их достаточно сложная задача.
