Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Тема 4. БД и ХД.docx
Скачиваний:
23
Добавлен:
13.03.2015
Размер:
78.94 Кб
Скачать

Тема 4. Базы и хранилища данных

1. Основные этапы проектирования базы данных (БД), логическая и физическая модели данных, трехуровневая архитектура ANSI/SPARC.

2. Модели баз данных (иерархическая, сетевая реляционная и др.).

3. Формализованное описание отношений, ER-диаграмма.

4. Манипулирование данными в реляционной модели, операции реляционной алгебры.

5. Оптимизация схем отношений, нормальные формы, построение рациональной схемы отношений путем нормализации.

6. Язык SQL, типы данных и основные категории команд языка SQL.

7. Проектирование реляционных баз данных с использованием семантических моделей.

8. Основы технологии хранилищ данных (ХД). Транзакционные (OLTP) и аналитические (DSS) системы.

Предисловие: Для того чтобы обеспечить возможность анализа накопленных данных, организации стали создавать хранилища данных, которые представляют собой интегрированные коллекции данных, которые собраны из различных систем оперативного доступа к данным.

Концепция хранилища данных была задумана как технология, способная удовлетворить требования систем поддержки принятия решений и базирующаяся информации, поступающей из нескольких различных источников оперативных данных.

Определение: Хранилище данных - Предметно-ориентированный, интегрированный, привязанный ко времени и неизменяемый набор данных, предназначенный для поддержки принятия решений.

Хранилища данных становятся основой для построения систем принятия решений. Несмотря на различия в подходах и реализациях, всем хранилищам данных свойственны следующие общие черты:

  • Предметная ориентированность. Информация в хранилище данных организована в соответствии с основными аспектами деятельности предприятия (заказчики, продажи, склад и т.п.); это отличает хранилище данных от оперативной БД, где данные организованы в соответствии с процессами (выписка счетов, отгрузка товара и т.п.). Предметная организация данных в хранилище способствует как значительному упрощению анализа, так и повышению скорости выполнения аналитических запросов. Выражается она в использовании иных, чем в оперативных системах, схемах организации данных. В случае хранения данных в реляционной СУБД применяется схема "звезды" (star) или "снежинки" (snowflake). Кроме того, данные могут храниться в специальной многомерной СУБД в n-мерных кубах.

  • Интегрированность. Исходные данные извлекаются из оперативных БД, проверяются, очищаются, приводятся к единому виду, в нужной степени агрегируются (то есть вычисляются суммарные показатели) и загружаются в хранилище. Такие интегрированные данные намного проще анализировать.

  • Привязка ко времени. Данные в хранилище всегда напрямую связаны с определенным периодом времени. Данные, выбранные из оперативных БД, накапливаются в хранилище в виде "исторических слоев", каждый из которых относится к конкретному периоду времени. Это позволяет анализировать тенденции в развитии бизнеса.

  • Неизменяемость. Попав в определенный "исторический слой" хранилища данные уже никогда не будут изменены. Это также отличает хранилище от оперативной БД, в которой данные все время меняются, "дышат", и один и тот же запрос, выполненный дважды с интервалом в 10 минут, может дать разные результаты. Стабильность данных также облегчает их анализ.

ХД - базовая технология современных СППР.

Перечисленные технологии не являются взаимонезависимыми и используются совместно, дополняя друг друга специфическими функциями.

Предпосылки создания ХД: При обработке информации (финансовой, бухгалтерской, банковской, маркетинговой и др.) традиционным является разделение существующих задач на два широких класса:

  1. №1 операционная обработка данных

  2. №2 анализ данных или задача принятия решений (ППР).

  • Они принципиально различны, требуют разных подходов к своему решению, но при этом взаимно дополняют друг друга.

  • Разные виды обработки данных требуют разного подхода к хранению и представлению данных

1. Операционная обработка данных и транзакционные системы

Определение: Транзакционные Системы (ТС) - системы или части информационных систем, ориентированные на операционную (системы операционной обработки данных), или транзакционную обработку данных; (ПРОИЗВОДЯТ КУЧУ МУСОРА-ДАННЫХ)

Определение: Транзакция – логически целостная операция по обработке данных, обеспечивающаяся последовательностью взаимно обусловленных (логически связанных) простых операций с данными. В базе данных транзакция предполагает цепочку логически связанных изменений данных (обработка информации или происходит, т.е. вся последовательность операций выполнена), или не происходит (любая из последовательности операции выполнена быть не может). Во втором случае состояние базы данных возвращается к исходному состоянию). Примеры: Учетные системы часто выполняют подобные цепочки операций, поэтому их часто называют транзакционными.

К этому классу относятся любые автоматизированные бухгалтерские или банковские системы, которые осуществляют учет и хранение первичной информации по работе предприятия или банка: операция перевода денежных средств с одного счета на другой предполагает согласованное изменение данных одного счета и второго. Операция состоит из двух элементарных – уменьшить значение одного счета и увеличить значение другого.

OLTP: Системы обработки транзакций в реальном времени называются On-line Transaction Processing Systems (OLTP).

Для чего нужны: Системы OLTP предназначены для автоматизации повседневных задач, решаемых персоналом «нижнего» звена финансовых органов, банков или других учреждений (учет платежей в бюджет, учет расходов бюджета, клиентов, договоров, заказов, взаиморасчетов, запасов и пр.). Типичным примером OLTP – систем является «1С-Бухгалтерия».

Что делают: OLTP системы производят "горы" информации и соответственно оптимизированы на обработку больших объемов данных, выполнение сложных транзакций и интенсивных операций чтения/записи небольших порций данных.

2. Задача анализа данных или задача принятия решений

Решением задач этого вида занимаются Аналитические системы.

Определение: Аналитические Системы (АС) - системы или составляющие части информационных систем, ориентированные на анализ данных. Их часто называют системами поддержки принятия решений (СППР).

Определение: Это совокупность интеллектуальных информационных приложений и инструментальных средств, которые используются для манипулирования данными, их анализа и предоставления результатов такого анализа конечному пользователю.

ХД – большая «куча мусора», в которой ищутся модели закономерностей инструментами BI (Business intelligence).

Для чего нужны: Основная цель - помочь управляющему персоналу организации принять правильное и своевременное решение (в зарубежной литературе им соответствует термин DSS - Decision Support System).

Требования к информации для AС:

  • Информация, на основе которой принимается решение, должна быть достоверной, полной, непротиворечивой и адекватной.

  • Поэтому при проектировании СППР возникает вопрос о том, на основе каких данных эта система будет работать и в каком виде данные необходимо представить лицу принимающему решение (ЛПР).