
- •Пользователя редко интересуют все потенциально возможные комбинации значений измерений. Для этого используются срезы, отображения страниц, вращение, нарезка на кубики, агрегация, детализация.
- •6. Языки описания баз данных
- •Операторы sql для управления соединениями. В эту группу входят операторы connect, set connection и disconnect. Оператор connect определяется следующими синтаксическими правилами:
- •Команда select – выборка, самая часто используемая команда, с помощью её идет выбор данных из таблицы. Запроса с применением select выглядит с.О.:
- •Структура команды select следующая:
- •Insert into users_base (user_name, city, birth_day) values (‘Александр’, ‘Ростов’, ’20.06.1991’);
- •Такой запрос выведет только те строки, которые будут соответствовать условию where.
- •Оператор exists может быть полезен для вовлечения внешних ключей (foreign keys). В следующем примере идет проверка, имеет ли значение атрибута 'fred the 45' какое-либо задание. Первый вариант:
- •Стратегиями могут быть:
- •Тактики по существу представляют собой задачи, которые необходимо решить, чтобы действовать в соответствии с выбранной стратегией, например:
- •15 Определение необходимой информации для различных видов деятельности
- •24 Методы использования case средств
- •А) без использования б) с использованием case
- •Создание план управления данными должно учитывать долгопериодные решения по:
- •Процесс управления качеством данных можно разделить на следующие этапы: определение качества исходных данных:
- •Вопрос 21.
- •Дальше пример из л.Р. 4.
- •Место субд в системе информационного обслуживания управленческой деятельности - сппр же!
- •5. Управление данными в отдельных проектах
- •Оптимизация структур данных
- •Оптимизация структур данных
- •Оптимизация структур данных
- •Пользователя редко интересуют все потенциально возможные комбинации значений измерений. Для этого используются срезы, отображения страниц, вращение, нарезка на кубики, агрегация, детализация.
- •78 Назовите перспективные технологии хранения данных
- •79. Кто отвечает за сохранность данных и как это делается?
- •80. Как в случае катастрофы можно восстановить работоспособную систему (аппаратное обеспечение, данные, операционную систему)?
- •81. Как часто следует сохранять данные? Важность регулярного резервного копирования
- •82. Когда происходит полное копирование?
- •83. Жизненный цикл бд
- •84. Документальные, фактографические, пространственные бд.
- •85. Объектно-ориентированные бд. Распределенные бд. Коммерческие бд.
- •86. Процессы обработки данных в бд. Ограничения целостности.
- •87. Технология оперативной обработки транзакций (oltp).
- •88. Информационные хранилища. (olap)
- •Принципы организации хранилища
- •89. Объекты, атрибуты, связи, первичный и вторичные ключи. Основные типы абстракции.
- •90. Нормализованные отношения. Первичные и вторичные ключи отношений. Моделирование связей в реляционной модели данных. Внешние ключи.
- •91 Язык sql. Назначения языка. Типы данных sql. Операторы создания базы данных.
- •Объекты это структуры бд, которым даны имена и которые сохраняются в памяти. Сюда относятся базовые таблицы, представления и индексы.
- •Select * from users_base where city in (‘Владивосток’, ‘Ростов’);
15 Определение необходимой информации для различных видов деятельности
Основными обобщенными задачами пользователей, решаемыми, например, с помощью информации о состоянии природной среды, могут быть:
выбор оптимальных решений при перспективном планировании и рациональном размещении объектов экономики;
оптимальное хозяйственное планирование с учетом сверхдолгосрочных прогнозов и прогнозов развития экономики;
выработка оптимальных долгосрочных решений на основе сезонных и месячных прогнозов и уточнений к ним;
принятие оперативных решений по оптимизации технологических процессов;
принятие оперативных решений по корректировке технологических процессов;
принятие решений о корректировке планов.
Таблица 11 – Виды управления данными и основные цели этой деятельности
Виды управления данными |
Данные и информация |
Основные цели |
Управление записями |
Данные предметной области |
Обеспечение полноты сведений, возможность предоставления сведений контролирующим органам, уничтожение при необходимости устаревших данных |
Управление документами |
Документы в цифровой форме |
Обеспечение доступности и сохранности документов |
Управление знаниями |
Правила |
Обеспечение сохранности и доступа к знаниям |
Управление контентом |
Совокупность данных, технологий, средств и методов |
Повышение эффективности функционирования предприятия |
Управление информационной безопасностью |
Конфиденциальные данные |
Обеспечение готовности, доступности и безопасности хранения конфиденциальных данных |
Обеспечение прав на конфиденциальность данных |
Значимая информация о клиентах, поставщиках |
Обеспечение контроля за распространением данных, конфиденциальностью владельца таких данных |
Восстановление после катастроф |
Все данные |
Обеспечение сохранности данных в условиях чрезвычайных обстоятельств |
Управление отношениями с клиентом |
Данные о внешних связях организации |
Обеспечение эффективного использования данных |
Управление системами хранения |
Все виды хранимых данных на носителях |
Обеспечение безопасного и рационального по стоимости хранения данных |
Добыча данных |
Структурированная информация |
Обеспечение средствами анализа данных |
В ходе выявления информационных потребностей используйте следующие мероприятия и приемы:
определите целевые аудитории и проанализируйте, в чем состоят их главные информационные потребности;
выберите ключевые темы, которые затрагивают аспекты выгод, получаемых от реализации БД;
создавайте систему показателей, привычных для восприятия руководителями бизнес - подразделений;
изучайте годовые отчеты ИТ-подразделений предприятия.
Методы и средства документирования массивов и баз данных
БД возникает в результате деятельности организаций. Исполнители проектируют БД, разрабатывают необходимые программные и технологические средства и загружают базу данных. Описание является основным источником информации о БД для ее будущих пользователей. В этом описании дается:
формализованное описание БД;
источники информации (организации, платформы, проекты);
физическая организация данных – формат хранения данных и инфологическая схема для БД;
перечень атрибутов с указанием полного и краткого наименований, единиц и методов измерений, пределов изменений;
описание методов логического, синтаксического контроля данных;
полнота по отношению к исходному носителю или проведенной программе измерений;
описания программ (проектов), в рамках которых получены данные;
описание методов измерений и применяемых приборов (измерительных систем);
список логических единиц хранения с указанием их количества;
описание программных средств создания и обработки БД;
перечень публикаций, полученных на основе БД;
методы тестирования БД;
используемые классификаторы и кодификаторы.
От полноты приводимых сведений зависит понимание других разделов и количество вопросов потенциальных пользователей. Описание данных должно быть достаточно подробным и доступным как программисту, так и ЛПР. Все БД передаются только с соответствующей документацией, включающей описание (полное и формализованное); описание структуры данных; описание метаданных.
Каждая БД сопровождается следующим комплектом метаданных: описанием БД, форматов данных, кодификаторами, используемыми в процессе создания БД, каталогами данных
Преимущества централизованных и распределенных БД
Централизованный сбор данных позволил сократить трудозатраты на сбор, поиск и систематизацию данных, уменьшить сроки обработки больших массивов данных, увеличить полноту обрабатываемых данных, в т.ч. за счет международного и межведомственного обмена, обеспечить одноразовое занесение данных на носитель. Последнее позволило в восьмидесятых годах обеспечить многие учреждения копиями основных массивов данных на магнитных лентах без чего переход к следующему этапу был бы невозможен, так как не был бы накоплен опыт обработки данных в региональных организациях. Распределенные БД имеют следующие основные преимущества по сравнению с централизованной БД: обеспечивается большая надежность работы, хранения копий или частей БД, данные становятся ближе к точкам их использования, что ускоряет обращение к данным и сокращает затраты на их передачу. Кроме того, преимуществами распределенных БД являются неявность адресации и тиражирования, независимость от конфигурации, использование неоднородных СУБД, тиражирование данных, расчленение БД, фрагментация данных. Неявность адресации позволяет пользователю обращаться к данным, не зная и не интересуясь, в каком центре они расположены. Неявность тиражирования связана с тем, что если существуют копии данных, то при извлечении данных необходимо извлекать одну копию данных, а при внесении изменений в данные необходимо обновлять все копии. Выбор одной копии при извлечении данных и обеспечение обновления всех копий должна автоматически выполнять система, позволяя пользователю сосредоточиться на информационных запросах. Независимость от конфигурации позволяет:
организации добавлять или заменять оборудование, не изменяя существующих компонентов программного обеспечения распределенных БД;
расширить систему в случае, если существующее оборудование перестает удовлетворять пользователя.
Использование неоднородных СУБД на разных компьютерах требует создания общего пользовательского интерфейса, за которым находятся разные модели данных. Тиражирование данных означает поддержку нескольких одинаковых копий реляционных таблиц. Тиражирование применяется с целью повышения доступности данных и надежности их хранения. Кроме того, несколько пользователей могут параллельно обращаться к одним и тем же данным. Например, это могут быть копии статистических данных для отдельных регионов, во-вторых, метаданные. Издержками этого подхода является необходимость дополнительного объема памяти и поддержания согласованности данных разных копий. Для этого нужно поддерживать централизованную базу, а копии выделять для локального использования. Потери данных на одном центре могут восстанавливаться при помощи централизованной БД. Недостатком такого подхода является слишком долгое время загрузки центральной БД. Поэтому загрузка новых данных, касающихся локальной БД, в региональном и главном центрах происходит одновременно. Можно применить тиражирование данных по времени отсечения. Например, в региональном центре данные хранятся только за последний год.
Сравните понятия расчлененная и тиражируемая БД. Когда одна из них предпочтительнее, чем другая?
Тиражирование данных означает поддержку нескольких одинаковых копий реляционных таблиц. Тиражирование применяется с целью повышения доступности данных и надежности их хранения. Кроме того, несколько пользователей могут параллельно обращаться к одним и тем же данным. Например, это будут, во-первых, копии данных для отдельных регионов, во-вторых, метаданные. Издержками этого подхода является необходимость дополнительного объема памяти и поддержания согласованности данных разных копий. Для согласованности данных в первую очередь поддерживается централизованная база данных, а копии выделяются для локального использования. Тогда потери данных на одном центре восстанавливаются при помощи централизованной базы данных. Недостатком такого подходя является слишком долгое время загрузки центральной базы данных. Поэтому загрузка новых данных, касающихся локальной базы данных, в региональном центре и главного центра системы происходит одновременно. Применяется тиражирование данных по времени отсечения. Например, в региональном центре данные хранятся только за последние годы наблюдений. Расчленение базы данных. Здесь улучшается защита данных, особенно если разделенные сегменты нуждаются в разных видах защиты. При этом варианте реализации один пользовательский запрос может требовать обращения к нескольким базам данных, реализованных в разных ведомствах на разных подходах. Хотя сложности реализации скрыты от пользователя, действительные операции, например, соединения нескольких таблиц являются сложными.
Опишите, чем отличаются распределенные и централизованные системы БД
У централизованных все в одном месте. Недостаток централизации – информация попадает в систему с большим запаздыванием. Распределенные системы ближе к пользователю, быстрее осуществляется доступ и обновление данных. +17.1 Распределенные БД имеют следующие преимущества по сравнению с централизованной системой: обеспечивается большая надежность работы, хранения копий или частей БД, данные становятся ближе к точкам их использования, что ускоряет обращение к данным и сокращает затраты на их передачу. Кроме того, преимуществами распределенной БД являются [1] неявность адресации и тиражирования, независимость от конфигурации, использование неоднородных СУБД, тиражирование данных, расчленение БД, фрагментация данных.
Как можно обеспечить надежность хранения данных?
Надежность БД может основываться на применении теории методов надежности, которая позволяет получить ряд четких, хорошо измеряемых интегральных показателей. Надежная БД должна, прежде всего, обеспечивать низкую вероятность потери работоспособности. Быстрое реагирование на потерю или искажение данных и восстановление их достоверности и работоспособности за время меньшее, чем порог между сбоем и отказом, обеспечивает высокую надежность. Это трехуровневая схема хранения:
Копирование винчестера за счет RAID-массивов, дублирование записываемой информации.
Сменные носители в той же комнате, где эксплуатируется сервер.
Сменные носители, которые находятся в другом здании.
Таким образом, обеспечивается надежность хранения 99,9%. Скорее всего информация сохранится, например, при пожаре, сбое машины. Естественно какую-то часть можно потерять: последние сутки, последнюю неделю, последний месяц. Запоминающие устройства можно представить как трехзвенную систему: устройства и системы для активно используемых данных (дисковые системы), периодически используемых данных (CD/MO/DVD устройства) и данных долговременного хранения (ленточные библиотеки). Быстрые или оперативные устройства с произвольным доступом хранения служат для работы с данными, в которых пользователи для выполнения своей работы нуждаются постоянно. Это - жесткие диски, дисковые системы и RAID системы. Они имеют небольшое время доступа и самую высокую частоту обращения. Принципиальное отличие систем 1-го и 2-го уровня от систем 3-го уровня заключается в том, что первые две - это системы произвольного доступа, а последние - последовательного доступа. Такое разделение четко определяет области их использования. При этом основные отличия систем 1-го и 2-го состоит в емкости и скорости доступа.
Опишите роль администратора БД в установке стандартов и создании технологических процедур
Анализ данных – АБД часто просят провести анализ данных, чтобы получить рекомендации относительно улучшения производительности или эффективности хранения данных. Это может быть связано с индексацией либо с функцией параллельных запросов.
Разработка БД (предварительная) – АБД часто привлекается к предварительной стадии разработки структуры БД. При включении АБД в процесс дизайна БД многие проблемы могут быть предупреждены. АБД знает СУБД и систему, может указать на потенциальные проблемы и помочь команде разработчиков в увеличении производительности программ.
Моделирование и оптимизация данных – При моделировании данных можно учесть особенности системы ввода/вывода и значительно увеличить производительность СУБД.
Предоставление помощи разработчикам по SQL и хранимым процедурам – АБД должен быть готов стать консультантом для разработчиков и пользователей. АБД довольно часто привлекается к разрешению проблем SQL-кода и к разработке (написанию) хранимых процедур.
Разработка производственных стандартов и соглашений по именам – Поскольку в разработке и развертывании приложений могут принимать участие несколько различных групп, то АБД часто призывается на роль разработчика производственных стандартов и соглашений по именам, чтобы приложения соответствовали этим стандартам.
Документирование среды – АБД должен документировать каждый аспект среды СУБД, включая конфигурацию оборудования, обновления и изменения программного обеспечения и СУБД, а также все вопросы, связанные с изменением системы и ее параметров. АБД должен уметь полностью восстановить систему по документации в случае необходимости.
Консультирование разработчиков и конечных пользователей – АБД часто выполняет функции консультанта для группы разработчиков и сообщества пользователей. Это может включать персональную помощь отдельным пользователям и даже разработку специальных курсов для разработчиков и пользователей системы.
Проверка и тестирование новых программ – АБД может участвовать в проверке новых программ, для того, чтобы дать рекомендации, основанные на этой проверке. Это может быть связано с приобретением нового программного обеспечения или с плановым обновлением и переходом на новые версии. Эта проверка должна быть в первую очередь нацелена на оценку стабильности системы. Ваша цель заключается в том, чтобы программы работали надежно и стабильно.
Оценка приобретений нового программного и аппаратного обеспечения – приобретая новый софт и аппаратуру, есть много о чем поразмыслить. В основном это касается функциональности и совместимости, а также, конечно, стоимости. Хоть цены и не касаются АБД, но насчет функциональности и совместимости рекомендации часто необходимы.
Планирование нагрузки системы и необходимого объема памяти – определение необходимости в приобретении дополнительных серверов, дополнительной дисковой и оперативной памяти, чтобы удовлетворить возросшие потребности пользователей, является частью работы АБД. Заранее предсказывая будущие нужды пользователей, Вы можете предоставить великолепный уровень обслуживания безо всяких сбоев.
Организация пилотного проекта для проверки типовых проектных решений
В связи с тем, что стоимость проектирования велика, и на него тратится очень много времени (должно быть 80:20 – проектирование:кодирование). Для того чтобы некоторые решения проверить – вводится пилотный проект. Из общего проекта выделяется небольшая задача по проверке какого-то нового средства, технологии, приложения. Проводятся тесты. Если реализация успешна, задача начинает расширяться и превращается в типовое решение для других приложений.
Концепции и возможности CASE-средств
CASE-технологии предлагают новый, основанный на автоматизации подход к концепции жизненного цикла БД. При использовании CASE изменяются все фазы жизненного цикла, при этом наибольшие изменения касаются фаз анализа и проектирования. На рис.1 приводится простейшая модель цикла создания БД (рис.1а) и соответствующая CASE-модель (рис.1б), в которой фаза прототипирования заменяет традиционную фазу системного анализа. Необходимо отметить, что наиболее автоматизируемыми фазами являются фазы контроля проекта и кодогенерации (хотя все остальные фазы также поддерживаются CASE-средствами). В табл.1 дана оценка трудозатрат по фазам жизненного цикла при различных способах разработки БД, а в табл.2 – преимущества традиционной разработки и с помощью case средств.
Таблица 1 - Оценка трудозатрат при различных способах разработки БД
Способ разработки |
Анализ |
Проектирование |
Кодирование |
Тестирование |
Традиционная разработка |
20% |
15% |
20% |
45% |
Использование CASE-технологий |
40% |
40% |
5% |
15% |
Анализ
Прототипирование
Проектирование
Проектирование спецификаций
Кодирование
Контроль проекта
Тестирование
Кодогенерация
Сопровождение
Системное тестирование
Сопровождение
А) B)
Рисунок 1 - Модели жизненного цикла создания БД А)Без использования В) с использованием CASE
Таблица 2 - Преимущества традиционной разработки и с помощью case средств
Традиционная разработка |
CASE |
Основные усилия на кодирование и тестирование |
Основные усилия на анализ и проектирование |
“Бумажные” спецификации |
Быстрое итеративное прототипирование |
Ручное кодирование |
Автоматическая кодогенерация |
Ручное документирование |
Автоматическая генерация документации |
Тестирование кодов |
Автоматический контроль проекта |
Сопровождение кодов |
Сопровождение спецификаций проектирования |
Можно выделить следующие задачи, которые решаются с помощью case-средств:
проектирование (для уровня представления или реализации);
моделирование для конкретной реализации СУБД;
реинжиниринг БД;
документирование БД.
Помимо основополагающих принципов - графической ориентации, интеграции и локализации всей проектной информации в репозитарии - в основе концептуального построения CASE-средств лежат следующие положения:
человеческий фактор, определяющий разработку БД как легкий, удобный и экономичный процесс;
широкое использование базовых программных средств, получивших массовое распространение в других приложениях (БД и СУБД, компиляторы с различных языков программирования, отладчики, документаторы, издательские системы, оболочки экспертных систем и др.);
автоматизированная или автоматическая кодогенерация, выполняющая несколько видов генерации кодов: преобразования для получения документации, формирования БД, ввода/модификации данных, получения выполняемых машинных кодов из спецификаций ПО, автоматической сборки модулей из словарей и моделей данных и повторно используемых программ, автоматической конверсии ранее используемых файлов в форматы новых требований;
ограничение сложности, позволяющее получать компоненты, поддающиеся управлению, обозримые и доступные для понимания, а также обладающие простой и ясной структурой;
доступность для разных категорий пользователей;
рентабельность;
сопровождаемость, обеспечивающая способность адаптации при изменении требований и целей проекта.
CASE-средства служат инструментарием для поддержки и усиления методов структурного анализа и проектирования. Эти инструменты поддерживают работу пользователей при создании и редактировании графического проекта в интерактивном режиме, они способствуют организации проекта в виде иерархии уровней абстракции, выполняют проверки соответствия компонентов. CASE-средства представляют собой новый тип графически-ориентированных инструментов поддержки выполнения ЖЦ БД. Обычно к ним относят любое программное средство, обеспечивающее автоматическую помощь при разработке БД, его сопровождении или деятельности по управлению проектом, и проявляющее следующие дополнительные черты:
мощная графика для описания и документирования систем БД, а также для улучшения интерфейса с пользователем, развивающая творческие возможности специалистов и не отвлекающая их от процесса проектирования на решение второстепенных вопросов;
интеграция, обеспечивающая легкость передачи данных между средствами и позволяющая управлять всем процессом проектирования и разработки БД непосредственно через процесс планирования проекта;
использование компьютерного хранилища (репозитария) для всей информации о проекте, которая может разделяться между разработчиками и исполнителями как основа для автоматического продуцирования кода и повторного его использования в будущих системах.