
- •1. Olap-системы 4
- •2. Концептуальное многомерное представление 7
- •3. Архитектура olap-систем 12
- •Введение
- •1. Olap-системы
- •1.1. Многомерная модель данных
- •1.2 Определение olap-систем
- •2. Концептуальное многомерное представление
- •2.1. Двенадцать правил Кодда
- •2.2. Дополнительные правила Кодда
- •2.3. Тест fasmi
- •3. Архитектура olap-систем
- •Заключение
- •Список литературы
2.2. Дополнительные правила Кодда
Набор этих требований, послуживших де-факто определением OLAP, достаточно часто вызывает различные нарекания, например, правила 1, 2, 3, 6 являются требованиями, а правила 10, 11 — неформализованными пожеланиями. Таким образом, перечисленные 12 требований Кодда не позволяют точно определить OLAP. В 1995 г. Кодд добавил еще шесть правил:
13. Пакетное извлечение против интерпретации — OLAP-система должна в равной степени эффективно обеспечивать доступ как к собственным, так и к внешним данным.
14. Поддержка всех моделей OLAP-анализа — OLAP-система должна поддерживать все четыре модели анализа данных, определенные Коддом: толковательную, стереотипную, категориальную и умозрительную.
15. Обработка ненормализованных данных — OLAP-система должна быть интегрирована с ненормализованными источниками данных. Модификации данных, выполненные в среде OLAP, не должны приводить к изменениям данных, хранимых в исходных внешних системах.
16. Сохранение результатов OLAP: хранение их отдельно от исходных данных — OLAP-система, работающая в режиме чтения-записи, после модификации исходных данных должна сохранять результаты отдельно друг от друга, т.е. обеспечивать безопасность всех исходных данных.
17. Исключение отсутствующих значений — OLAP-система, представляя данные пользователю, должна отбрасывать все отсутствующие значения, т.е. они должны отличаться от нулевых значений.
18. Обработка отсутствующих значений — OLAP-система должна игнорировать все отсутствующие значения без учета их источника. Эта особенность связана с 17-м правилом.
Кроме того, Кодд разбил все восемнадцать правил на четыре группы, и назвал их особенностями. Группы получили названия: В, S, R и D.
Основные особенности (В) включают следующие правила:
многомерное концептуальное представление данных (правило 1);
интуитивное манипулирование данными (правило 10);
доступность (правило 3);
пакетное извлечение против интерпретации (правило 13);
поддержка всех моделей OLAP-анализа (правило 14);
архитектура "клиент-сервер" (правило 5);
прозрачность (правило 2);
многопользовательская поддержка (правило 8).
Специальные особенности (S):
обработка ненормализованных данных (правило 15);
сохранение результатов OLAP: хранение их отдельно от исходных данных (правило 16);
исключение отсутствующих значений (правило 17);
обработка отсутствующих значений (правило 18).
Особенности представления отчетов (R):
гибкость формирования отчетов (правило 11);
стандартная производительность отчетов (правило 4);
автоматическая настройка физического уровня (измененное оригинальное правило 7).
Управление измерениями (D):
универсальность измерений (правило 6);
неограниченное число измерений и уровней агрегации (правило 12);
неограниченные операции между размерностями (правило 9).
2.3. Тест fasmi
Определенные ранее особенности распространены. Более известен тест FASMI (Fast of Shared Multidimensional Information), созданный в 1995 г. Ричардом Критом и Найджелом Пендсом на основе анализа правил Кодда. В данном контексте акцент сделан на скорость обработки, наличие средств статистического анализа, многопользовательский доступ, многомерность и релевантность информации, т. е. представление анализируемых фактов как функций от большого числа их характеризующих параметров. Они определили OLAP следующими пятью ключевыми словами: Fast (Быстрый), Analysis (Анализ), Shared (Разделяемой), Multidimensional (Многомерной), Information (Информации).
Fast (Быстрый) — OLAP-система должна обеспечивать выдачу большинства ответов пользователям в пределах приблизительно пяти секунд. При этом самые простые запросы обрабатываются в течение одной секунды, и очень немногие более двадцати секунд. Конечные пользователи воспринимают процесс неудачным, если результаты не получены на протяжении тридцати секунд. Они способны нажать комбинацию клавиш <Ctrl>+<Alt>+<Del>, если система не предупредит их, что обработка данных требует большего времени. Даже если система предупредит, что процесс будет длиться существенно дольше, пользователи могут отвлечься и потерять мысль, после чего качество анализа сильно страдает. Такой скорости трудно достигнуть с большим количеством данных, в особенности при специальных очень быстрых вычислениях. Для достижения такой цели используются разные методы, включая применение аппаратных платформ с большей производительностью.
Analysis (Анализ) — OLAP-система должна справляться с любым логическим и статистическим анализом, характерным для данного приложения, и обеспечивать его сохранение в виде, доступном для конечного пользователя. Система должна позволять пользователю определять новые специальные вычисления как часть анализа и формировать отчеты любым желаемым способом без необходимости программирования. Все требуемые функциональные возможности анализа должны обеспечиваться понятным для конечных пользователей способом.
Shared (Разделяемой) — OLAP-система должна выполнять все требования защиты конфиденциальности. Если множественный доступ для записи необходим, обеспечивается блокировка модификаций на соответствующем уровне. Обработка множественных модификаций должна выполняться своевременно и безопасным способом.
Multidimensional (Многомерной) — OLAP-система должна обеспечить многомерное концептуальное представление данных, включая полную поддержку для иерархий и множественных иерархий, обеспечивающих наиболее логичный способ анализа. Это требование не устанавливает минимальное число измерений, которые должны быть обработаны, поскольку этот показатель зависит от приложения. Оно также не определяет используемую технологию БД, если пользователь действительно получает многомерное концептуальное представление информации.
Information (Информации) — OLAP-система должна обеспечивать получение необходимой информации в условиях реального приложения. Мощность различных систем измеряется не объемом хранимой информации, а количеством входных данных, которые они могут обработать. В этом смысле мощность продуктов сильно различается. Большие OLAP-системы могут оперировать в тысячу раз большим количеством данных по сравнению с простыми версиями OLAP-систем. При этом следует учитывать множество факторов, включая дублирование данных, использование дискового пространства, эксплуатационные показатели, требуемую оперативную память, интеграцию с информационными хранилищами и т. п.