- •Модульний конспект лекцій з курсу «Системний аналіз та проектування комп’ютерних інформаційних систем»
- •Часть 4. Прикладной Системный анализ (модуль 4)
- •Лекция 13
- •Информационно-аналитические системы и системы поддержки решений
- •1 Виды систем поддержки принятия решений
- •2 Хранилища данных
- •Лекция 14
- •Информационные технологии в системном анализе: oltp, olap, Data Mining
- •1 Оперативная обработка данных (olap)
- •3.4 Интеллектуальный анализ данных (Data Mining)
- •В рукописи
Лекция 13
Інформаційно-аналітичні системи та системи підтримки рішень
Класифікація систем, структурні схеми систем, задачі, що вирішуються
Информационно-аналитические системы и системы поддержки решений
1 Виды систем поддержки принятия решений
Основное требование к СППР - возможность не только оперативной (онлайновой) обработки накопленных данных, но и проведение аналитической обработки этих данных. То есть они должны обеспечить оперативное проведение системных исследований, работая с большими объёмами данных. Появление таких систем обусловлено достижениями в области технологий получения, хранения и распределенной обработки больших массивов информации.
СППР можно разделить на две группы:
- оперативные, предназначенные для немедленного реагирования на текущую ситуацию;
- стратегические, предназначенные для анализа большого количества информации из разных источников с привлечением знаний (методик расчётов, многокритериального и статистического анализа…), экспертных систем, аккумулирующих опыт решения проблем.
СППР первого типа по сути представляют собой генераторы отчетов, построенные на основании данных из специализированной базы данных (БД), в идеале адекватно отражающей в режиме реального времени все аспекты производственного цикла предприятия или работы организации. Для такой информационно-аналитической системы характерны следующие основные черты:
отчеты, как правило, базируются на стандартных для организации запросах;
система представляет отчеты в максимально удобном виде, включающем, наряду с таблицами, деловую графику, мультимедийные возможности и т. п.;
как правило, эти системы ориентированы на конкретную сферу, например финансы, маркетинг, управление ресурсами, документооборот.
Чаще всего результаты работы этой ИАС доступны лишь тем подразделениям, в которых первичная информация собирается. Схема использования данных в таких системах следующая:
"Специализированная БД -> Средство Анализа -> Отчёт" (3.1)
Развитие СППР второго типа, работающих с большими массивам информации, связано с появлением ряда новых концепций хранения и анализа корпоративных данных:
хранилища данных (ХД, Data Warehouse) [Архипенков и др.];
оперативная аналитическая обработка (On-Line Analytical Processing, OLAP) [Дюк и Самойленко, Барсегян и др.];
интеллектуальный анализ данных -(Data Mining) [Дюк и Самойленко, Барсегян и др.].
В схеме (3.1) добавилось новое звено:
«БД-> Хранилище Данных <-> Средство Анализа ->Аналитик-> Отчёт» . (3.2)
2 Хранилища данных
Хранилища данных (Data Warehouse, информационные хранилища, склады данных) определяют как предметно ориентированные, интегрированные, неизменчивые, поддерживающие хронологию наборы данных, организованные для целей поддержки управления, обеспечивающего аналитиков достоверной информацией, необходимой для оперативного анализа и принятия решений.
Наличие ХД в схеме (3.2) вызвано появлением нерегламентированных запросов аналитиков, ориентированных на обработку не только количественных данных, а и важной информации, хранящейся в виде текстов (обзоры, статьи, нормативные акты, стандарты, приказы и т.п.).
Основные требования к ХД сводятся к следующему:
- поддержка высокой скорости получения данных из хранилища;
- поддержка внутренней непротиворечивости данных;
- возможность получения и сравнения так называемых срезов данных;
- наличие удобных утилит просмотра данных в хранилище;
- полнота и достоверность хранимых данных;
- поддержка качественного процесса пополнения данных.
Хранилищам данных присущи следующие свойства.
1 Предметная ориентация. В традиционной схеме реализации информационной системы источником данных для средств анализа являются общие БД, а сами данные ориентированы на обработку и функциональность систем сбора информации. В хранилищах данных данные ориентированы на решение задач системного анализа проблем. Как правило – в конкретной предметной области. Предметная ориентация является фундаментальным отличием БД от ХД. Именно это свойство позволяет конечному пользователю работать с данными, охватывающими предмет исследования в целом. Разные приложения в ХД могут описывать одну и ту же предметную область с разных точек зрения, поскольку решение, принятое на основе данных, отражающих только одну сторону вопроса, могут быть неэффективными, а то и неверными.
Предметная ориентация позволяет существенно ускорить доступ к данным за счет предварительной структуризации данных. Предметная ориентация позволяет также хранить в ХД только те данные, которые необходимы для средств анализа.
2 Интеграция. Различные БД разрабатываются различными коллективами разработчиков, зачастую в разное время и различными средствами разработки. Это приводит к тому, что объекты, отражающие одну сущность, имеют различные наименования и единицы измерения. Обязательная интеграция данных в ХД позволяет решить эту проблему.
Это ключевое свойство ХД реализуется на таких принципах:
- единые правила наименования объектов;
- единые единицы измерения для однотипных объектов;
- единое физическое представление однотипных объектов;
- единые атрибуты представления однотипных объектов.
3 Поддержка хронологии. Требования к эффективности обычной базы данных диктуют достаточно жесткие рамки для временного периода хранения непосредственно доступных данных. Некоторые данные в БД вообще не имеют временной привязки, а хронология данных в различных БД может осуществляться разными способами.
Строгая и однотипная хронология в ХД позволяет решить все эти проблемы за весь временной период существования данных. В результате конечный пользователь всегда имеет точное и единообразное представление о временной привязке всех данных и документов. Образное сравнение: база данных – это супермаркет, где просроченные и старые товары заменяются свежими и новыми, а хранилище данных – это архив, где документы хранятся "вечно".
4 Неизменяемость. Данные в БД могут добавляться, удаляться и модифицироваться, данные в ХД могут только загружаться и читаться. Это свойство ХД позволяет решить две проблемы:
- однажды полученные результаты на основе исходных данных всегда сохраняются;
- скорость доступа к данным повышается.
На рис. 3.1 изображена структура данных в хранилище данных.
Рисунок 3.1 - Структура данных в хранилище данных
Все данные в хранилище данных делятся на три основных категории:
метаданные (данные о данных);
детальные данные;
агрегированные данные.
В отличие от БД хранилище данных имеет хорошо развитую иерархическую структуру метаданных (данных о данных). Наличие метаданных позволяет осуществлять быструю и удобную навигацию по различным уровням данных, а также сильно упрощает реализацию и использование средств анализа. Наличие метаданных позволяет наглядно представлять реализованную структуру ХД, а для всех данных иметь информацию об их источнике и произведенных над исходными данными операциях.
Данные в ХД являются денормализованными, по сравнению с нормализованными данными в большинстве БД, которые обычно реализованы в реляционной модели БД. Это свойство ХД требует значительно большей емкости носителей информации и быстродействия компьютерной системы.
Проведенные исследования показали, что большинство конечных пользователей не работают с детальными данными, а обращаются в основном с агрегированными показателями. Структура ХД отражает эту ситуацию и позволяет конечному пользователю быстро и удобно получать интересующую его агрегированную информацию с последующей навигацией по всем уровням агрегирования. Наличие хорошо развитой иерархии агрегированных данных по уровням агрегации является второй отличительной чертой хранилища данных.
Таблица 3.1 - Сравнение характеристик данных в информационных системах ориентированных на операционную и аналитическую обработку данных
Характеристика |
Операционные |
Аналитические |
Частота обновления |
Высокая частота, маленькими порциями |
Малая частота, большими порциями |
Источники данных |
В основном - внутренние |
В основном - внешние |
Объемы хранимых данных |
Сотни мегабайт, гигабайты |
Гигабайты и терабайты |
Возраст данных |
Текущие (за период от нескольких месяцев до одного года) |
Текущие и исторические (за период в несколько лет, десятки лет) |
Назначение |
Фиксация, оперативный поиск и преобразование данных |
Хранение детализированных и агрегированных исторических данных, аналитическая обработка, прогнозирование и моделирование |
Таким образом, хранилище данных функционирует по следующему сценарию. По заданному регламенту в него собираются данные из различных источников – баз данных систем оперативной обработки и необходимые данные из внешних источников. Самым распространенным форматом последних является текстовый файл (документ), а средством доступа - файловая операционная система. Эти источники данных называются "внешними данными" (ВД на рис. 3.2). В хранилище поддерживается хронология: наравне с текущими данными хранятся исторические данные с указанием времени, к которому они относятся. В результате необходимые доступные данные об объекте управления собираются в одном месте, приводятся к единому формату, согласовываются и, в ряде случаев, агрегируются до минимально требуемого уровня обобщения.
На рис. 3.2 изображена общая структура данных в информационно-аналитической системе большой организации, построенной по технологии ХД, включающей источники данных, хранилище данных и витрины данных.
Рисунок 3.2 - Общая структура данных в АИС
Под витриной данных (Data Mart) понимается сравнительно небольшое хранилище данных, сконструированное для использования отдельным подразделением с одним существенным отличием от "обычного" хранилища данных: в витрине данных конечный пользователь может создавать свои собственные структуры данных. Есть еще одна особенность у витрины данных - источником для большинства хранящихся там данных является ХД. Это приводит к тому, что при создании витрины данных редко используется инструменты по очистке, денормализации и унификации данных.
Введение промежуточного звена "витрина данных" имеет ряд несомненных достоинств:
- конечный пользователь работает только с теми данными, которые ему нужны;
- повышается информационная безопасность системы;
- структура данных отражает требования конечного пользователя;
- упрощается проектирование данных;
- снижается нагрузка на основное хранилище данных.
Часто хранилище данных используют в качестве единого интегрированного источника для многочисленных витрин данных. В таком варианте корпоративная информационно-аналитическая система имеет трехуровневую структуру:
- общекорпоративное централизованное хранилище данных;
- тематические витрины данных на уровне подразделений;
- рабочие места конечных пользователей, снабженные аналитическим инструментарием.
Структура развитой корпоративной ИАС представлена на рис. 3.3.
Рисунок 3.3 - Структура развитой корпоративной ИАС
Создание и развитие хранилища данных требует следующих компонент программного обеспечения (ПО):
СУБД хранилища данных. СУБД хранилища данных должна быть ориентирована на особенности технологии ХД - работать с большими объемами данных, обеспечивать необходимую безопасность данных, позволять создавать очень сложные структуры данных (такие как многомерные базы данных), осуществлять быстрый многопользовательский доступ к данным;
средства управления структурой данных ХД. Для быстрой реализации логической структуры данных необходимо иметь удобное интерактивное средство управления структурой ХД. Качество этого средства определяет скорость разработки и развития ХД, поэтому является очень важным фактором. Средство используется не только разработчиками, но и конечными пользователями (аналитиками) для построения своих структур данных в Витринах данных и должно иметь удобный и понятный интерфейс;
средства задания источников данных. Они служат для задания источников данных, загружаемых в хранилище, определения связи между структурами ХД и источников, создания процедур трансформации, очистки, автоматического анализа, задания регламента загрузки;
средства построения витрин данных. Витрины данных - важная часть технологии ХД. С развитием ХД часто бывает необходимо переносить витрины данных на другое техническое оборудование, поэтому средство должно иметь гибкий интерфейс работы с витринами данных.
