Трудности:
Транзакции в локальных БД, могут затрагивать субъекты межбазовых зависимостей.
Как поддерживать межбазовые зависимости
Нерешенные проблемы
Нерешенные проблемы:
Автономность узлов и администрирование базами данных
Глобальная обработка запросов и управление параллельным доступом.
Безопасность
Хранилище данных
Основные понятия
Архитектура хранилища данных
Принципы организации хранилища данных
Проектирование хранилища данных
Виды хранилищ данных.
Основные понятия
Хранилище данных (ХД) – предметно-ориентированный, интегрированный, некорректируемый, поддерживающий хронологию набор данных, организованный для целей поддержки принятия решений
Хранилище данных должно предложить такую среду накопления данных, которая оптимизирована для выполнения сложных аналитических запросов.
Источник данных – различные приложения, которые могут выполняться на разных платформах.
Архитектура хранилища данных (Data Warehouse)
Источник данных 1 (операционная БД)
Хранилище Данных (data Warehouse) Обработанные выходные данные(data mart n)Извлечение данных
Принципы организации
П ринцип организации хранилища данных предполагает разделение структур хранения данных для
Хранилище данных
О перативной обработки выполнения аналитических запросов
Это позволяет в рамках одной системы поддержки и принятия решений объединить две подсистемы, удовлетворяющие противоречивым требованиям.
Существует 4 основополагающих принципа:
Предметная ориентация
Интеграция
Постоянство данных
Изменение во времени
Предметная ориентация означает, что данные объединены в категории и хранятся в соответствии с теми областями, которые они описывают, а не с приложениями, в которых они используются.
Позволяет хранить в хранилище данных только те данные, которые нужны для анализа. Это существенно сокращает затраты на носители информации и повышает безопасность доступа к данным.
Интегрирует информацию в хранилище данных, отражающую разные точки зрения на одну предметную область.
Интеграция
Данные, отражающие один и тот же объект реального мира в разных системах, описывают его по-разному.
Приложение 1
Информационная система руководителя
Операция чтения/записи над БД
Операционная БД
Хранилище данных
Информационный запрос
Операционная БД
Приложение 2
Периодическое пополнение ХД
Постоянство данных заключается в том, что
Данные в хранилище данных
Поступают от операционных или внешних источников
Требуются для анализа за максимально большой период времени
При этом:
Не создаются
Не корректируются
Не удаляются
Только читаются
Постоянство данных позволяет существенно повысить скорость доступа к данным.
Изменение во времени
В хранилище данных данные должны соответствовать последовательным интервалам времени и быть согласованы во времени. С другой стороны для анализа данных важно знать не только значение данных, но и время их появления, а также изменения показателей предметной области.
Проектирование хранилища данных
При проектировании хранилищ данных особое значение приобретают следующие процессы работы с данными
Извлечение данных и знаний
Преобразование
Представление
Анализ
Извлечение данных
Операция извлечения данных
Извлечение – перемещение информации от источника данных в базу хранилища данных
Источник данных 1
Источник данных 2
База хранилища данных
Хранилище данных
Специальные компоненты хранилища данных должны обеспечить своевременное извлечение данных и преобразование к единому формату на основе информации из словаря метаданных.
Словарь метаданных включает в себя:
Объекты предметной области
Места хранения данных
Действия над данными
Словари извлечения данных
Согласованность данных во времени
Форматы данных для согласования
Преобразование данных
Процесс преобразования данных должен обеспечивать подготовку информации к хранению в том виде, который оптимизирован для быстрого исполнения запросов, необходимых для принятия решений
Преобразование данных заключается в анализе необработанных данных и решений, как они будут представлены конечному пользователю
Д ля разработки эффективного процесса преобразования необходимо
Хорошо проработанная модель данных модель технологии принятия решений
Извлечение знаний
Помимо извлечения данных для принятия решений весьма актуален процесс извлечения знания (Data Mining) в соответствии с информационными потребностями пользователя.
В процессе извлечения знаний должны решаться следующие задачи:
Преобразование данных в информацию
Преобразование знаний в решения
Преобразование информации в знания
Значения данных не учитываются. Фрагменты распределяются между разными дисками и процессами, и каждый очередной кортеж направляется в следующий по порядку фрагмент
Карусельная фрагментация в меньшей степени подвержена «перекосам»
Номер фрагмента для кадого кортежа определяется применением хеш-функции к какому-либо его атрибуту.
Фрагментация хешированием в меньшей степени подвержена «Перекосам»
Активные базы данных
Традиционные БД – пассивные
Не являются активными «игроками» в ИС, а играют организационную роль, направленную на обеспечение, хранения данных.
Вся процедурная логика | Сфера управления данными.
Активные БД
Процедурные элементы общей среды встраиваются в СУБД.
Технология АБД:
Данные + операции и процедуры.
Хранятся вместе.
Абд – система следующая правилам Событие-Условие-Действие
Принципы АБД:
Логика обработки
Средства мониторинга для активизации триггеров
Триггеры для логики
Эти возможности выносятся из программ приложений в саму БД, обеспечивая более тесную связь системных данных и операции над данными, чем это было принято в традиционных пассивных управляемых СУБД системах.
Логика обработки
АБД предусматривают возможности, позволяющие содержать логику обработки (до некоторой степени) в самой БД так, чтобы она управлялась СУБД, а не прикладным программным обеспечением приложений.
Средства мониторинга для активизации триггеров.
АБД предусматривают возможности, позволяющие обеспечивать некоторую форму мониторинга событий и условий, которые воздействуют на данные и могут инициировать обработку, управляемую БД.
Триггеры
АБД предусматривают возможности использования некоторых средств с помощью которых события и условия допускают некоторую логику внутри базы данных.
Конструкции АБД
В создании активных сред помогают следующие основные конструкции БД.
Ограничения
Утверждения
Хранимые процедуры
Триггеры
Ограничения – простые конструкции, имеющие вид от спецификации связей первичного и внешнего ключей, используемых в ограничениях целостности в реляционных БД.
Ограничения могли бы рассматриваться как первое средство для встраивания нужных правил в БД вместо использования для этой цели логики приложений.
Ограничения обычно ассоциируются с конкретными объектами БД, как таблицы и определенные столбцы.
Утверждение представляет собой самостоятельную декларацию в схеме, используемую для спецификации ограничения, которое может затрагивать больше одной таблицы.
Преимущество перед основными ограничениями.
Утверждения – самостоятельные сущности, которые не обязательно должны содержаться в определении какой-либо таблицы.
Так как дано бизнес-правило охватывает несколько таблицы БД, более естественно представить его в отдельном виде.
Хранимые процедуры.
-Программируемая логика
Хранимая процедура представляет собой просто модуль прикладной программы с той лишь разницей, что он относится к БД, а не к внешней программной системе, использующей эту БД. Хранимые процедуры могут определяться относительно одной или более таблиц БД, точно так же как ограничения и утверждения.
Триггеры
Ключевые компоненты, обеспечиюващие превращение БД в активную среду.
Средства для:
Вычисления(оценки) бизнес правил, выраженных с помощью конструкции БД.
Вызов выполнения специфицированных действий.
После операции встауки, обновления и/или удаления может быть запущен триггер, который приведет в результате к вычислению бизнес-правил или к выполнению определенных действий.
Ограничения БД
По существующей в настоящее время технологии в моделях АБД существуют следующие ограничения.
Ограничение только операциям над БД
Единственный триггер для каждого события
Методы реализации.
Объектно-ориентированные системы управления базами данных (ОО СУБД)
Расширенные реляционные СУБД
«чисто» объектно-ориентированные СУБД.
Мотивация: необходимость поддержки сложных приложений, адекватно представляющих объекты реального мира.
Достоинства и недостатки ОО СУБД
Достоинства
Управление данными в сложных приложениях;
Программирование средствами языков управления данными;
Использование структур данных, эквивалентных хранимому представлению в ОП.
Недостатки
Утрачивается независимость данных;
Понижается гибкость
Предъявляются высокие требования к оборудованию
Мотивация
Цель: обеспечение тесных связей между ИС и системами реального мира.
Проблема: потеря семантика.
Потеря семантики
Объектры реального мира обладают свойствами и функциями, применимыми к ним, которые обеспечивают определение и классификацию этих объектов.
Объекты связываются друг с другом:
В соответствии с бизнес-процессами (связь между объектами);
С помощью наследования свойств.
При моделировании объектов реального мира и отображении их в структуры данных, большая часть информация о них теряется. Системы БД не поддерживают семантику объектов и процессов внутренними модельными средствами.
Мотивация ООБД и ОО СУБД
Шаг 1:
Создание структур, учитывающих специфику приложений и способных удерживать семантику, реализовывается с помощью семантически богатой модели данных, отображающейся в поддерживающие таблицы реляционной БД
Недостатки:
Ограниченность множества типов данных;
Невозможность выполнения операций (бизнес-правил) специфических для объектов (без прикладных программ)
Шаг 2:
Попытка встроить семантику в сам механизм управления базой данных и исключить промежуточные уровни отображения.
ОО СУБД
ODMG представляет ООСУБД как «СУБД, которая соединяет в себе возможности БД с возможностями объектного языка программирования».
ООСУБД используется для того, чтобы расширить этот язык (ЯП) средствами долговременного хранения данных, управления параллелизмом, спецификациями ассоциативных запросов, а также другими возможностями БД.
Характерные черты среды ОО СУБД
Включающий язык программировании является языком манипулирования данными (ЯМД);
Модели, связанные с представлениями объектов в оперативной и во внешней памяти, одинаковы;
Не требуется преобразования кода между моделями и языками.
Характеристики ООБД
Эффективное представление объектов;
Использование инкапсуляции.
Непротиворечивость
Полиморфизм
Наследование.
Особенности разработки
Совместное использование информации всеми участниками разработки ООБД (в отличие от традиционных методологий)
Объектно-ориентированная методология.
Разработчики приложений
Проектирование
Библиотека классов
Программисты на ОО-языках
Приложения ООБД
База данных
Реляционные СУБД
Реляционный внешний интерфейс
Реляционные механизмы управления данными
Гибридные СУБД
Объектно-ориентированный внешний интерфейс
Реляционные механизмы
Управления данными
Объектно-ориентированные СУБД
Объектно-ориентированный внешний интерфейс.
Объектно-ориентированные механизмы управления данными
Расширенные реляционные СУБД
Как внешний интерфейс, так и механизмы управления данными являются по своей природе реляционными, но с объектно-ориентированными возможностями.