Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Proektirovanie_informatsionnykh_i_expertnykh_si...doc
Скачиваний:
0
Добавлен:
29.12.2019
Размер:
308.22 Кб
Скачать

Модели данных, которые используются для хранения данных (Эдгар Кодд)

FASMI (БАРМИ) — 5 требований :

  1. Fast. Анализ должен быть быстрым. Время отклика не более 5 с.

  2. Analysis. Предполагает возможность основных типов статистического и числового анализа, который задается в приложении или пользователем.

  3. Shared. Контроль доступа пользователей к информации.

  4. Multidimensional. Многомерная.

  5. Information. Возможность обращаться к любой информации независимо от места хранения.

Средства OLAP делятся на два класса:

  1. Серверный OLAP;

  2. OLAP-приложения.

В настоящее время существуют три подхода к построению хранилищ данных:

  1. Многомерная модель хранилища (MOLAP).

  2. Реляционная (ROLAP).

  3. Гибридная (HOLAP).

Правила Кодда

  1. Многомерность представления данных. М-СУБД должна поддерживать многомерность, по крайней мере, на концептуальном уровне.

  2. Прозрачность. Пользователь не должен знать, какие средства применяются для хранилища.

  3. Доступность. М-СУБД должно автоматически отображать ответ на запрос наилучшим образом.

  4. Производительность не должна зависеть от количества измерений.

  5. Поддержка архитектуры клиент-сервер.

  6. Равноправность всех измерений — не должно быть базовых измерений.

  7. Динамическая обработка разряженных матриц.

  8. Поддержка многопользовательского режима работы.

  9. Поддержка операций должна быть для любых измерений.

  10. Максимально удобный интерфейс.

  11. Различные способы визуализации данных.

  12. Неограниченное число измерений.

MOLAP

— структура хранения данных. При добавлении измерения гиперкуб перестраивается. Такая структура позволяет реализовать быстрое чтение и поиск данных (от 10 до 100).

Измерение — это множество, образующее одну из граней гиперкуба.

Значение — данные, которые подвергаются анализу в ячейках куба. Основные операции над гиперкубом:

  1. Сечение — одно или больше значений фиксируется.

  1. Вращение — изменение порядка представления измерения (применяется к двухмерным таблицам).

  2. Свертка и детализация.

При свертке устанавливается иерархия измерений.

При свертке одно или более измерений замыкается значением более высокого уровня иерархии с агрегацией данных.

Недостатки MOLAP: Нерациональное использование памяти — все измерения и все аргументы функции хранятся в многомерном виде, много пустых ячеек.

MOLAP используют при небольшой базе данных и стабильном наборе измерений.

ROLAP

— гиперкуб эмулируется на логическом уровне.

Преимущество — база данных может быть большой. Недостаток — медленное выполнение аналитических запросов.

Базу данных представляют обычно в ненормализованном виде специальным образом. Используется два вида таблиц (структура — звезда):

  • Фактологическая таблица;

  • Таблица измерений или справочников.

В справочниках перечисляется множество значений одного измерения гиперкуба.

При большом числе измерений применяют схему, которая называется «снежинка» (атрибуты помещаются в отдельные таблицы).

HOLAP

В этом случае, при реализации запросов к хранилищу большое значение играют оптимизаторы СУБД. Основные данные хранятся в реляционной базе, а агрегированные — в многомерной структуре (кубе), так как ситуация, когда для анализа нужны все данные, возникает достаточно редко. Обычно каждый аналитик использует свое направление. В этом случае многомерные данные представляются в виде киосков данных.

Хранилища данных делятся на 4 группы в зависимости от размера:

  • Малые (до 106 ячеек данных)

  • Средние (до 108)

  • Крупные (~ 108)

  • Сверхбольшие (~ 109)

Большинство СУБД имеют специальные средства для создания хранилища данных.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]