
- •20 Как можно обеспечить надежность хранения данных?
- •21 Опишите роль администратора бд в установке стандартов и создании технологических процедур
- •22 Организация пилотного проекта для проверки типовых проектных решений
- •23 Концепции и возможности case-средств
- •А) b)
- •24 Методы использования case средств
- •А) б)
- •А) без использования б) с использованием case
- •25 Характеристики баз данных и потоков данных
- •26 Основания для классификации данных
- •28 Основания классификации программных средств
- •29 Нормативно – методические документы по созданию базы данных
- •30 План управления данными: основные разделы
- •32 Методы оптимизации построения бд
- •36 Принципы создания сппр
25 Характеристики баз данных и потоков данных
Характеристиками БД и потоков данных являются:
объем данных в логических и физических единицах;
объем потока данных в единицу времени;
доступность данных 24*7*365;
оперативность поступления данных;
полнота БД в % — относительное число объектов или документов, имеющихся в БД, к общему числу объектов по данной тематике или по отношению к числу объектов в аналогичных БД;
актуальность - устаревание во времени — относительное число устаревших данных об объектах в БД к общему числу накопленных и обрабатываемых данных, определяется скоростью ввода в БД;
оперативность доведения - время в течение которого данные становятся доступны пользователям.
качество (достоверность) данных - вероятность ошибки (управление 10-4 10-5; планирование - 10-5 , статистика -10-5 , бухучет - 10-6 -10-7). Обеспечение вероятности ошибок выше, чем 10-4 требует увеличения капитальных и эксплуатационных затрат до 50%, времени программирования до 50%, времени работы программ, персонала;
идентичность — относительное число описаний объектов, не содержащих дефекты и ошибки, к общему числу документов об объектах в БД;
ценность полученной информации определяется потребностью человека в этой информации и его подготовленностью к ее восприятию и использованию;
точность определения атрибутов;
формы представления (таблицы, графики, карты, тексты, мультимедиа).
26 Основания для классификации данных
Наиболее полное и эффективное использование информации для научной и производственной деятельности возможно при правильной и четкой организации данных и наличии хорошо проработанных и умело используемых средств поиска информации. Одним из самых полезных методов организации БД и поиска в них является классификация – традиционный метод познания, в результате применения которого знания представляются в виде некоторой схемы.
Классификация дает возможность получить представление о необходимых информационных ресурсах, программных средствах создания БД и установить связи между ними и таблицами внутри БД. Минимизация числа связей между таблицами данных, скорость поиска данных служат критериями такой классификации.
Наиболее общими характеристиками любого атрибута являются место и время их регистрации. Местом регистрации может быть точка, заданная своими координатами, географическая область, например, населенный пункт, сведения о котором могут быть представлены с разной точностью. Допустимо представление данных в любом пространственном масштабе (точка, полигон, район и т.п.). Регистрация данных отличается своей продолжительностью и рядом других временных характеристик, время их выполнения фиксируется практически всегда (год, дата, часы, минуты, секунды в зависимости от масштаба процесса).
Используя такую модель представления данных, можно выбирать данные по критериям, формулируемым по местоположению, времени, имени и значению атрибута. Например, выбрать данные для всех атрибутов по географическому району за конкретный период времени; выбрать значение атрибута за период времени по всему географическому пространству, присутствующему в БД.
Данные в зависимости от их способа представления в ЭВМ разделяются на пространственные, фактографические, графические и звуковые. Пространственные данные представляются на карте в виде значений атрибутов, отнесенных к определенным координатам или изолиниям значений атрибутов. Пространственные данные всегда имеют географические координаты (географическая привязка).Фактографические данные определяются местом и временем, отражают факты различных ситуаций для одной или нескольких точек, в исходном или агрегированном (осредненном для точки или района). Эти данные могут быть представлены в виде временных рядов, комплектов данных, организованных в зависимости от системы сбора данных и/или платформы, методов обработки и т.п. Фактографические данные в виде значений в узлах регулярной сетки различного пространственно – временного масштаба после их представления в виде изолиний кратных значений атрибутов среды (например, для температуры воды 00 ,50, 150, 250) становятся пространственными.Текстовые данные – это документы, характеризующиеся библиографической информацией, представляются в текстовых редакторах.Графические данные – это пространственная или фактографическая информация, представленная с помощью графических средств на экране (карты, графики, диаграммы, изображения). Фактически это результаты обработки исходных и модельных данных, представленные в виде графиков, диаграмм, сканированных документов. К этому типу данных относятся также фотографии, рисунки и т.п. Звуковые данные – это звук, записанный в цифровом виде, например, записи песен или данных, введенных в ЭВМ с голоса.Мультимедийные данные – содержат несколько типов данных. типичным примером таких данных являются html – страницы. Некоторые типы данных могут переходить в другие типы. Например, фактографические – в пространственные, пространственные и фактографические в графические или текстовые, мультимедийные. Основания классфикации данных более детально рассмотрены в табл.14.БД могут хранить как метаданные, так и данные, отражающие состояние объекта. Данные могут разделяться в зависимости от их сортировки, степени обработки, метода организации регистрации и т.п. Данные в зависимости от их организации (сортировки) разделяются на исходные и инвертированные (представленные в другом порядке по отношению к исходным данным). Методика создания временных рядов обуславливает создание и хранение их в виде инвертированных данных. Это обусловлено влиянием экспертов, которые внесли свои изменения и улучшили качество созданных временных рядов.Исходные данные хранятся в виде дисциплинарных массивов или БД, их упорядоченность определяется регламентом работы используемых систем сбора данных. Создание дисциплинарных БД для различных сфер, в различных науках (предметных областях) обусловлено технологическими причинами, связанными с системами измерений.
Таблица 14 Основания для классификации данных
Основание |
Объекты |
Степень подготовленности к обработке |
Данные на бумажных носителях (книги, бюллетени, ежемесячники, и т.п.); магнитных лентах, дискетах и др.; в массивах данных; БД |
Способ и сроки передачи |
Категория А. Оперативные данные, собранные через глобальную сеть телесвязи в пределах времени отсечения (1-24 ч) Категория В. Данные, отличающиеся от категории А более продолжительным временем отсечения (от нескольких суток до двух месяцев) Категория С. Исторические данные, собираемые с большими задержками во времени. |
Способ измерения |
Дистанционный, автоматический, визуальный, ручной |
Регулярность наблюдений |
Регулярные, регулярные синхронные, асинхронные, нерегулярные, эпизодические |
Шкала измерений |
Порядковая, количественная, номинальная, балльная |
Инвертирование |
Полностью инвертированные; выборочно – инвертированные (временные ряды); объединенно инвертированные |
Агрегированные (расчетные) |
Вычисленные характеристики первого рода –интерполированные, второго – вычисленные и интерполированные значения и третьего – фоновые характеристики района |
Прогнозные |
Краткосрочные, долгосрочные, сверхдолгосрочные |
Статичность |
Изменяющиеся, статические, условно–постоянные |
Периодичность обработки |
Регламентированные (ежедневные, ежедекадные, ежемесячные и др.), нерегламентированные |
Регламент доведения до пользователя |
Экстренные (сразу после обнаружения); периодические (ежечасно, ежесуточно, ежедекадно, ежемесячно); в установленные сроки |
Распространение |
По запросу, рассылка по списку, обмен |
Использование |
Информационные, справочные, информационно– справочные, рекомендации |
Результаты расчетов по моделям (вычисленные значения атрибутов, интерполированные значения по пространству и времени и т.п.) также хранятся в соответствующих БД (подсхемах). Так, например, большинство данных для представления в ГИС обрабатывается путем предварительного инвертирования и дальнейшей интерполяции (расчетов) в узлы регулярной сетки различного масштаба. На этом этапе фактографические данные превращаются в пространственные.
Необходимость хранения агрегированных данных определяется также последующей возможностью сравнения результатов, полученных различными методами статистической обработки, например, в зависимости от разной длины временных рядов наблюдений, методов осреднения, интерполяции и т.п. Последний тезис показывает, что и при наличии мощных средств обработки данных в среде СУБД, когда скорость расчетов достаточна велика, необходимость хранения определенной части БД агрегированных характеристик не вызывает сомнений. Их создание позволит увеличить скорость обеспечения пользователей этими данными, исключить дублирование расчетов, уменьшить затраты машинного времени, улучшить качество расчетных характеристик, дать возможность проводить дальнейшую обработку созданных БД для агрегированных атрибутов.
По регулярности (периодичности и частоте) измерений данные бывают регулярные, регулярные синхронные, асинхронные, результаты экспериментов (данные разной регулярности измерений), нерегулярные. Регулярность определяется соответствующими наставлениями и руководствами или специальными программами измерений при экспериментальных исследованиях. Нерегулярные измерения требуют более сложных методов обработки. Космическая система наблюдений является асинхронной, но зато может обеспечить огромный поток информации с высоким разрешением по большим пространствам за короткий период времени.
Данные с точки зрения способа регистрации и кодирования делятся на три типа значения атрибутов, которые можно:
фиксировать с помощью систем кодирования;
регистрировать с помощью определенных правил, например, номера квадратов, регионов и т.п.;
измерять в количественной шкале, которая регистрирует значения атрибутов непосредственно в “натуральном” виде, как характеристики объекта.
Информация хранится на различных носителях: бумажных (таблицы, графики), первичных машинных носителях (дискеты, магнитные ленты), микрокопиях (микрофильмы, микрофиши), компактных дисках и др.
В зависимости от состава документов, отражающих информацию, их можно занести в БД документального, фактографического или документально–фактографического типа. Это определяется объемом неформализованной информации в документах, количеством атрибутов. Например, большинство метаданных относится к документальному типу представления.
Степень постоянства информации характеризуется временем, в течение которого она остается неизменной. По указанному признаку информация подразделяется на постоянную – статическую, условно–постоянную (хранимую и изменяемую редко). К постоянной информации относятся различные словари и кодификаторы, например, названия стран, учреждений – поставщиков и потребителей данных, атрибутов и т.п. Условно–постоянная информация сохраняет свое значение определенный период времени и делится на начальную и скорректированную. К начальной информации можно отнести сведения, первый раз зарегистрированные в БД. Соотношение объемов постоянной, условно–постоянной информации имеет большое значение при выборе организации БД.
Способы распространения информации бывают следующие: высылается по запросу, рассылается по списку, передается и получается в обмен с зарубежными странами и организациями с помощью обычной почты, факса, электронной почты, Интернета.
По функциям использования выходная продукция может быть справочной (метаданные), информационной. К метаданным относятся сведения о БД, источниках данных (измерительных системах, приборах, датчиках, платформах, организациях), сведения о средствах управления данными (программных средствах, форматах хранения данных, кодификаторах, словарях). Информационная продукция – это выборки данных по любому объекту или/и на любой момент времени.
По степени готовности к использованию для принятия решений выходная информация может быть частной, комплексной или используемой только в совокупности с другой информацией. Например, сведения о критических значениях природных явлений напрямую применяя на объектах экономики, а текущая информация о состоянии среды, как правило, используется совместно с экономической информацией о состоянии объектов.
Географическая область использования определяет локальность (используется только в пределах какого-либо географического района) или глобальность информации. Например, результаты регистрации температуры воздуха в конкретных пунктах являются локальными. В то же время среднемесячные и среднегодовые значения уровня на гидрометеорологических станциях, где наблюдения ведутся более 50 лет, необходимы для глобального использования, т.е. для изучения изменений климата.
Методами образования потоков информации являются: регистрация, т.е. получение исходных данных; преобразование их (инвертирование); получение агрегированных характеристик и прогнозных данных, которые также могут подвергаться дальнейшей обработке.
о результатам обработки данных можно получить огромное число расчетных атрибутов, поэтому стоит задача оптимизации их состава. Первым шагом решения этой задачи является создание таких БД в зависимости от стадии обработки (агрегации) данных. По этому основанию можно выделить вычисление характеристики первого, второго и третьего рода. Расчетные данные первого рода – это вычисленные характеристики на основе исходных атрибутов и известных эмпирических и теоретических формул. К расчетным данным второго рода можно отнести интерполированные значения во времени и пространстве. Расчетные данные третьего рода представляют различные уровни агрегации данных в пространстве и времени (обобщение результатов переписи населения, климатические характеристики среды, др.).
27 Жизненный цикл БД, каскадная и спиральная модели проектирования
На рис.1 приводится простейшая модель цикла создания БД (рис.1а)
Анализ
Проектирование
Кодирование
Тестирование
Сопровождение
а)
При проектировании БД на основе case технологии используется спиральный цикл создания системы, рис.2. При неполном завершении работ на каждом этапе разработки переходим на следующий этап, не дожидаясь полного завершения работы на текущем этапе. При итеративном способе разработки недостающую работу выполняем на следующей итерации. Главная же задача ставится так - как можно быстрее показать пользователям системы работоспособный продукт, тем самым активизируя процесс уточнения и дополнения требований. Основная проблема спирального цикла - определение момента перехода на следующий этап. Для ее решения необходимо ввести временные ограничения на каждый из этапов жизненного цикла [4].