Разновидности многомерного хранения данных

Обсуждая тему OLAP, следует упомянуть и о разновидностях многомерного хранения данных. Дело в том, что информационные массивы, логически упорядоченные по аналитическим направлениям и, таким образом, являющиеся многомерными с точки зрения конечных пользователей, не обязательно являются многомерными с точки зрения технологической реализации. Как правило, выделяют три разновидности хранения данных:

- многомерный OLAP (multidimensional OLAP, MOLAP) представляет собой «OLAP в чистом виде», т.е. технологию, основанную на хранении данных под управлением специализированных многомерных СУБД;

- реляционный OLAP (relational OLAP, ROLAP) – технология, основанная на хранении многомерной информации в реляционных базах данных, на основе одной или нескольких схем типа «звезда» или «снежинка»;

- гибридный OLAP (hybrid OLAP, HOLAP) – технология, при которой одна часть данных хранится в многомерной базе, а другая часть – в реляционной. При этом инструментальные средства, поддерживающие эту технологию, обеспечивают прозрачность данных для пользователя, который на логическом уровне всегда работает с многомерными данными.

Одной из причин, объясняющих необходимость различных подходов к хранению данных, является то, что в многомерных структурах хранятся довольно большие объемы агрегированных данных (например, данные продаж могут агрегироваться по временным интервалам, категориям товаров или регионам продаж). Эти данные очень важны, поскольку в большинстве случаев аналитика интересуют именно агрегированные, а не детальные цифры.

Любые данные (как исходные, так и агрегированные) могут храниться либо в реляционных, либо в многомерных структурах, в зависимости от применяемой технологии. Например, MOLAP подразумевает хранение всей информации в многомерной базе данных. Это позволяет манипулировать данными как многомерным массивом, но в этом случае многомерная база данных оказывается избыточной, поскольку и агрегированные показатели, и лежащие в их основе исходные данные хранятся вместе. При технологии ROLAP исходные данные остаются в той же реляционной базе, где они находились изначально, а агрегированные данные помещаются в специальные служебные таблицы в той же базе данных. Наконец, при гибридной технологии (HOLAP) исходные данные остаются в реляционной базе данных, а агрегированные показатели хранятся в многомерной базе данных.

Выбор способа хранения зависит от нескольких факторов, таких как объем и структура данных, скорость выполнения запросов, частота обновления OLAP-кубов.

5.7. Интеллектуальный анализ данных

Интеллектуальный анализ данных (Data Mining) – это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей. При этом накопленные сведения автоматически обобщаются до информации, которая может быть охарактеризована как знания.

В общем случае процесс интеллектуального анализа данных состоит из трёх стадий (рис. 5.4):

Рис. 5.4. Процесс интеллектуального анализа данных

Компьютерными технологиями, образующими Data Mining являются:

Статистические пакеты. Полезны главным образом для проверки заранее сформулированных гипотез и для "грубого" разведочного анализа, составляющего основу оперативной аналитической обработки данных. Хорошо известны пакеты SPSS, STATGRAPHICS, STATISTICA, STADIA.

Нейронные сети и их вариации. Представляют собой сеть взаимосвязанных элементов, которые являются математической моделью нейронов головного мозга. Используются для определения априорно неизвестных сложных функциональных зависимостей на основании статистических данных. Наиболее известные примеры - BrainMaker, NeuroShell, OWL, NeuroScalp, Эврика+.

Экспертные системы. Позволяют на основании опыта экспертов моделировать процесс принятия решений и выдавать эффективный результат. Наиболее известные примеры: Acquire, Active AgentX, ReThink.

Байесовы (вероятностные) сети. Моделируют вероятностные причинно-следственные связи. Позволяют рассчитывать вероятность наступления того или иного события при известной априорной вероятности причин, строить модели в режиме реального времени с учетом неполноты данных и возможностью корректировки результата при появлении новой информации.

Методы эвристической самоорганизации. Методы данной группы позволяют моделировать сложные нелинейные процессы и системы при отсутствии априорных знаний о структуре системы.

Теория игр. Позволяет формализовать описание процессов принятия сознательных целенаправленных решений при участии одной или нескольких сторон в условиях неопределенностей, риска и конфликта, которые возникают при столкновении интересов. Задача теории игр заключается в предложении рекомендаций рационального образа действий участников процесса принятия решений, т.е. в определении оптимальной стратегии для каждого из них.

Теория хаоса. Предлагает новые методы анализа данных, позволяющие выявлять скрытые зависимости там, где раньше систему считали случайной, и не имеющей каких-либо закономерностей. Применение аппарата теории хаоса позволяет качественно изучать нестабильное апериодическое поведение в нелинейных динамических системах, например, в экономических процессах.

Многозначные логики. Нечеткая логика. Логика антонимов. Расширяет возможности “обычной” двоичной логики, оперирующей только понятиями “1-да” и “0-нет”. Позволяет оперировать с нечеткой, неточной, "размытой" информацией. Дает возможность использования качественных, а не количественных характеристик, что позволяет манипулировать лингвистическими понятиями и знаниями, выражаемыми на обычном языке (например, для описания процессов: “плохо”-“средне”-“хорошо” и т.д.).

Эволюционные алгоритмы. Адаптивные методы поиска, используемые для решения задач функциональной оптимизации. Основаны на эволюционном принципе "выживает сильнейший". Моделируя этот процесс, эволюционные алгоритмы, в частности генетические, способны "развивать" решения реальных задач. Такой подход является динамическим и позволяет довольно быстро находить оптимальные, с определенной точки зрения, решения. Примером такой системы является PolyAnalyst.

Деревья решений и Алгоритмы классификации (decision trees). Создается иерархическая структура классифицирующих правил типа "ЕСЛИ..., ТО...", имеющая вид дерева. Недостаток: деревья решений принципиально не способны находить "лучшие" (наиболее полные и точные) правила в данных. (IDIS, KnowledgeSEEKER, See5/C5.0).

Системы рассуждений на основе аналогичных случаев. Вывод путем сопоставления (Memory-based Reasoning, MBR) или вывод, основанный на прецедентах (Case-based Reasoning, CBR). Эти алгоритмы основаны на обнаружении некоторых аналогий в прошлом, наиболее близких к текущей ситуации, с тем, чтобы оценить неизвестное значение или предсказать возможные результаты (последствия). Эти методы называют еще методом "ближайшего соседа". В выборе решения они основываются на всем массиве доступных исторических данных, поэтому невозможно сказать, на основе каких конкретно факторов строятся ответы. Примеры: KATE tools (Франция), Pattern Recognition Workbench (США), КОРА (Россия).

Ассоциативные правила. Алгоритмы ограниченного перебора. Выявляют причинно-следственные связи и определяют вероятности или коэффициенты достоверности, позволяя делать соответствующие выводы. (Пример, WizWhy).

Методы экспертных оценок. Применяются при отсутствии возможности или трудо-ресурсной нецелесообразности получения данных в количественном выражении. В таких случаях обращаются к использованию знаний и опыта экспертов - методам экспертных оценок, которые включают в себя методы получения, формализации и интеграции экспертных знаний.

Существуют и другие технологии, применяемые в Data Mining, например, генетические алгоритмы, роевой интеллект и т.д.

Среди западных систем класса Data Mining наиболее известно решение Microsoft Data Mining. Наиболее известная российская система класса Data Mining - PolyAnalyst.

<<< < Предыдущая 11 12 13 14 15 16 17 18 19 20 21 2223 / 6823 24 25 26 27 28 29 30 31 32 33 34 35 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]