
- •Федеральное агентство по образованию
- •1.2. Базы данных - основа сппр
- •1.3. Неэффективность использования oltp-систем для анализа данных
- •Лекция 2. Архитектура современной информационно- аналитической системы
- •2.1. Концепция хранилища данных
- •2.2. Организация хд
- •2.3. Очистка данных
- •2.4. Концепция хранилища данных и анализ
- •3.1. Многомерная модель данных
- •3.4.2. Rolap
- •Многомерное проектирование
- •Выбор архитектуры olap-приложения
- •Заключение
- •Общая структура мер и измерений
- •Лекция 5. Интеллектуальный анализ данных
- •1. Добыча данных – Data Mining
- •2. Задачи Data Mining
- •2.1. Классификация задач Data Mining
- •2.2. Задача классификации и регрессии
- •2.3. Задача поиска ассоциативных правил
- •2.4. Задача кластеризации
- •1.1. Предсказательные (predictive) модели
- •1.2. Описательные (descriptive) модели
- •2. Методы Data Mining
- •2.1. Базовые методы
- •2.2. Нечеткая логика
- •2.3. Генетические алгоритмы
- •2.4. Нейронные сети
- •3. Процесс обнаружения знаний
- •3.1. Основные этапы анализа
- •3.2. Подготовка исходных данных
Лекция 2. Архитектура современной информационно- аналитической системы
В современномделовоммире в любыхобластяхдеятельностиобъемыинформации, с которыми приходится сталкиваться организациям, просто колоссальны. Иот того, в какой степени организация способна извлечь максимум из имеющейся в ее распоряжении информации, зависит успех. Залог успеха - в построении эффективнойинформационно-аналитической системы(ИАС).
Использование в инфраструктуре предприятия информационно-аналитическойсистемы объясняется рядом причин: стремлением к общей реорганизации бизнес-процессов,желаниемповыситькачестводеловойинформации,необходимостьюподдержки стратегического планирования и достижения высокоэффективных решений.
Состав архитектуры современной ИАС
Задачами любой информационно-аналитической системы являютсяэффективноехранение, обработка и анализ данных. В настоящее время накоплен значительный опыт в
этой области.
Эффективноехранениеинформациидостигаетсяналичием всоставеинформационно-аналитической системы целого ряда источников данных. Обработка иобъединениеинформациидостигаетсяприменениеминструментовизвлечения,преобразования и загрузки данных. Анализ данных осуществляется при помощисовременных инструментовделового анализа данных.
Архитектура современной информационно-аналитической системы организации вобобщенном виде представлена на рис. 1.
Рисунок 5. Архитектура современной информационно-аналитической системы. Разнообразие источников данных и необходимость их использования в каждом конкретном случае объясняется потребностью по-разному хранить информацию в зависимости от стоящих перед организац
Приведенная архитектура демонстрирует длинный путь, который проходят данные,прежде чем попасть на стол аналитику.
Разнообразие источников данных и необходимость их использования в каждом
конкретном случае объясняется потребностью по-разному хранить информацию взависимости от стоящих перед организацией задач. Если попытаться классифицироватьисточники данных по типам и назначению, то каждый из них можно условно отнести кодной из трех групп: транзакционные источники данных, хранилища данных, витриныданных.
Данные в систему могут заноситься как вручную, так и автоматически. На этапе
первоначальнойфиксацииданныепоступаютчерезсистемысбора иобработкиинформации в так называемые транзакционные базы данных. Транзакционных баз данных ворганизации может быть несколько.
Поскольку транзакционные источники данных, как правило, не согласованы друг с
Поэтому на следующем этапе решается задача консолидации данных, их преобразования и очистки, в результате чего данные поступают в так называемые аналитические базыданных. Аналитические базы данных, будь то хранилища данных или витрины данных, иесть те основные источники, из которых аналитик черпает информацию, используясоответствующие инструменты делового анализа.
При этоминформационно-аналитическаясистемасреднего икрупногопредприятияилиорганизациидолжнаобеспечиватьпользователямдоступ каналитической информации, защищенной от несанкционированного использования иоткрытой как через внутреннюю сеть организации, так и пользователям сети интранет и Интернет. Таким образом, архитектура современной информационно-аналитическойсистемы насчитывает следующие уровни:
1) сбор и первичная обработка данных;
2) извлечение,преобразование и загрузка данных;
3) складирование данных;
4) представление данных в витринах данных;
5) анализ данных;
6) Web-портал.
Рассмотрим перечисленные уровни архитектуры и остановимся на примерахтиповых инструментов, которые могут служить основой для построения каждого из них.
Сбор и первичная обработка данных
К первому уровню архитектуры ИАС относятсяупоминавшиеся уже источникиданных, как правило именуемые транзакционными или операционными источниками
(базами) данных, являющимися частью так называемых OLTP-систем (online transactional processing).Транзакционныебазыданныхвключают всебяисточникиданных,
ориентированные на фиксацию результатов повседневной деятельности организации.Требования, предъявляемые к транзакционным базам данных, обусловили их следующие
отличительные особенности: способность быстро обрабатывать данные и поддерживатьвысокую частоту их изменения,ориентированность, как правило, на обслуживание одного
процесса, а не всей деятельности организации вцелом.
Примерамиздесьмогутслужитьбазыданных,которыеиспользуются в
биллинговыхсистемахоператорами сотовой связи, в автоматизированныхбанковскихсистемахкоммерческих игосударственныхбанков, вИнтернет-магазинах.
Информация в таких базах данных ориентирована на конкретное приложение иуправляетсятранзакциями,онасильнодетализирована ичастокорректируется.
Транзакционные базы данных отлично справляются с валом повседневнойинформации, котораядолжна рутиннообрабатыватьсякаждый день, но не позволяют
получить общую картину положения дел в организации в целом и редко могут служитьисточниками для проведения комплексного анализа.
Итак, совокупность транзакционных источников данных образует нижнее звеноархитектуры информационно-аналитической системы любой организации. В дальнейшем
будем исходить из того, что ИАС предприятия строится на основе уже имеющихся навооружении систем сбора и первичной обработки данных, включающих транзакционные
источники данных.
Извлечение, преобразование и загрузка данных
Процесс извлечения, преобразования и загрузки данных поддерживается так
называемыми ETL-инструментами (extraction, transformation, loading), предназначеннымидля извлечения данных из различных транзакционных источников нижнего уровня, ихпреобразования и консолидации, а также загрузки в целевые аналитические базы данных -
хранилищаданных ивитриныданных. Наэтапепреобразованияустраняетсяизбыточностьданных,проводятсянеобходимыевычисления иагрегирования.Трехступенчатый процесс извлечения, преобразования и загрузки должен осуществлятьсяна основе установленного регламента.
Складирование данных
К третьему уровню архитектуры ИАС относятся источники данных, которые
называют хранилищами данных (от англ. Data Warehouse). Хранилища данных включают в себя источники данных, ориентированные на хранение и анализ информации. Такиеисточники могут объединять информацию из нескольких транзакционных систем ипозволяют анализировать ее в комплексе с применением современных программныхинструментовделового анализа данных.
Согласно определению родоначальника идеи складирования данных Б. Инмона,
хранилищеданных являетсяпредметно-ориентированной,интегрированной,некорректируемой, зависимой от времени коллекцией данных, предназначенной дляподдержки принятия управленческих решений.
Характерными особенностями хранилищ данных являются: относительно редкая
корректируемость большинства данных, обновляемость данных на периодической основе,единый подход к поименованию и хранению данных вне зависимости от их организации висходных источниках.
Хранилище данных, являясь одним из главных звеньев архитектуры ИАС любой
средней или крупной организации, выступает в качестве основного источника данных длявсестороннего анализа всей имеющейся в организации информации.
Представление данных в витринах данных
К четвертому уровню архитектуры ИАС относятся источники данных, называемыевитринами данных (data marts), предназначенные для проведения целевого делового
анализа. Витрины данных строятся, как правило, на основе информации из хранилищаданных,номогуттакжеформироваться изданных, взятых непосредственноиз
транзакционных систем, когда хранилище данных в организации по каким-либо причинамне реализовано.
По типу хранения информации витрины подразделяются на реляционные имногомерные. Витрины первого типа организуются в виде реляционной базы данных со
схемой "звезда", где центральная таблица, таблица фактов, предназначенная в основномдля хранения количественной информации, связана с таблицами-справочниками.
Многомерные витрины организуются в виде многомерных баз данных OLAP(Online Analytical Processing), где справочная информация представляется в виде
измерений, а количественная - в виде показателей. Информация в многомерной витринеданных представляется в терминах бизнеса в виде, максимальнодоступном конечным
пользователям, что позволяет существенно снизить время на получение требуемой дляпринятия решений информации.
С точки зрения пользователя, отличие витрин данных от хранилища данныхзаключается в том, что хранилище данных соответствует уровню всей организации, а
каждая витрина обычно обслуживает уровень не выше отдельного подразделения ииногда может создаваться для индивидуального использования, отличаясь достаточно
узкой целевой специализацией.
Отличие витрин данных от транзакционных баз данных заключается в том, что
первыеслужатдляудовлетворенияпотребностейконечныхпользователей,не являющихся профессиональными программистами: аналитиков, менеджеров разныхуровней, решающих различные задачи бизнеса. Транзакционные же базы данныхиспользуются в основном операторами, отвечающими за ввод и обработку первичнойинформации, а не за ее анализ, нацеленный на поддержку принятия решений.
Применение витрин данных, многомерных и реляционных, в сочетании с современнымиинструментами делового анализа данных позволяет превратить просто данные в полезнуюинформацию,на основе которой можно принимать эффективные решения.
Анализ данных
К следующему уровню архитектуры ИАС организации относятся современныепрограммные средства, именуемые инструментами интеллектуального или делового
анализа данных (BusinessIntelligence Tools), или BI-инструменты.
BI-инструментыпозволяютуправленческомузвенуорганизациипроводить
всесторонний анализ информации,помогают успешно ориентироваться вбольшихобъемах данных, анализировать информацию, делать на основе анализа объективныевыводы и принимать обоснованные решения, строить прогнозы, сводя риски принятияневерных решений к допустимому минимуму.
Инструментыинтеллектуальногоанализаданныхиспользуютсяконечнымипользователями для доступа к информации, ее визуализации, многомерногоанализа иформирования как предопределенных по форме и составу, так и произвольных отчетов,создаваемых управленцем или аналитиком (без программиста). Как уже было сказано, вкачестве входной информации для делового анализа выступают не столько "сырые"данные из транзакционных систем, сколько заранее обработанные данные из хранилищаили представленные ввитринах данных.
Web-портал
В настоящее время российские компании, вслед за западными коллегами, все
активнее начинают внедрять у себя различные Интернет-технологии. Уже сегодня всебольше специалистов, работающих не только в сфере информационных технологий,начинают понимать выгоду от использования этих решений в целях повышенияэффективностисвоегобизнеса. Проведениеинтеллектуальногоанализаданных сприменением программных решений не только в локальной среде, но и в среде интранет и Интернет,открывает аналитикам новые возможности работы с данными.
Современные тенденции развития архитектуры информационно-аналитическойсистемыбазируютсянапримененииИнтернет-технологий.ТрадиционныйвидархитектурыИАС внедавнемпрошломдополнилсяWeb-порталом,постепенноприобретающим все более весомую роль в архитектуре ИАС.Возможность доступа кинформации через привычный Web-браузер позволяет экономить на затратах, связанных сзакупкой и поддержкой настольных аналитических приложений для большого числаклиентскихмест.РеализацияWeb-порталапозволяетснабжатьаналитическойинформацией как пользователей внутри офиса, так и мобильных пользователей-аналитиков в любой точке мира,подключенных к порталу через Интернет.
Реализация архитектуры ИАС
Сегодня на рынке информационных технологий представлен широкий спектр
инструментальных средств, предназначенных для быстрой реализации компонентовархитектуры ИАС. Использование таких инструментов позволяет не разрабатыватьаналитическиеприложениязаново, авоспользоватьсяготовымисовременнымитехнологиямии,следовательно,сократитьвремя изатратынаихсоздание.Решение задачи обеспечения пользователей информацией в ИАС определяется восновном правильным подбором инструментов делового анализа. Но немаловажным является и выбор инструментов поддержки процессов извлечения, преобразования,загрузки и хранения данных.
При реализации ИАС предприятия могут быть использованы программные решения как разных фирм-производителей - смешанные решения, так и одногопроизводителя - платформенно-базированные решения. И в первом и во втором случае
имеются свои преимущества и недостатки. Поэтому выбор инструментов для архитектуры
ИАС, несмотря на их многообразие,задача не из простых.
На рынке не существует одного производителя, предлагающего лучшие решения
всех требуемых для построения ИАС программных компонентов. Поэтому совместноеиспользование наиболее подходящих решений от различных производителей позволяетповысить функциональную мощность ИАС.Критериями оценки инструментов могутвыступать как их технические и стоимостные характеристики, так и скорость внедрения, атакже уместность использования в каждом конкретном случае.
Однакоиспользованиепродуктовот разныхпроизводителейприводит к
значительному усложнению архитектуры системы из-за разнородности инструментальных решений. Это усложнение объясняетсянеобходимостью интегрированияне связанныхдруг с другом инструментальных решений. Кроме того, администрирование системыоказывается непростой задачей, учитывая несогласованность данных и метаданных,управляемых отдельными, не связанными друг с другом модулями платформ от разныхпроизводителей.
Рассмотримдваподхода к реализацииархитектурыИАС:основанныйнаплатформенно-базированном решении,представленномоднимпроизводителем, иоснованный на смешанном решении, представленном несколькими производителями.
Реализация архитектуры ИАС на основе платформенно-базированного решения
Для начала рассмотрим вариант реализации архитектуры ИАС, когда используются
компонентыодногопроизводителя -поставщикаплатформы.Еслипользоватьсятерминологией исследовательского центра Gartner, платформенно-базированное решениенеобходимо искать среди фирм - производителей так называемых BI-платформ (BusinessIntelligence Platforms). Данный сегмент рынка информационных технологий представлен
16 компаниями, приводимыми здесь в алфавитном порядке: AlphaBlox, Arcplan, CA,Comshare, Crystal, Hyperion, Info Builders, Microsoft, Microstrategy, Oracle, PeopleSoft,ProClarity, Sagent, SAP, SAS, Whitelight. Среди них выделяются следующие семь лидеров и претендентов на лидерство в данной области: Microsoft, SAS, Oracle, SAP, PeopleSoft,Info Builders, Hyperion (по материалу Gartner Research, "BI Magic Quadrants: A 'Recession-Proof' Market Challenged", 17.07.2001). Двое из перечисленных производителей,Microsoft и Oracle, в состоянии реализовать все уровни ИАС своими силами,не прибегая кинструментам третьих фирм. Решающий критерий, выделяющий этих производителей, -наличие собственной СУБД.
Рассмотримпример реализации ИАСорганизацииинструментами Oracle.
Соответствующий перечень продуктов представлен втабл. 1.
Таблица 1
Компоненты ИАС |
Назначение продукта |
Название продукта | ||
Анализ данных |
в сетях Интранет и Интернет |
Web-портал |
Jracle Portal | |
Регламентированная отчетность вWeb |
Oracle Reports Services | |||
Произвольные запросы в Web |
Oracle Discoverer | |||
Многомерный анализ (OLAP) в Web |
Oracle JDeveloper с компонентом Oracle Business Inteligence Beans | |||
в локальной сети (LAN) |
Регламентированн ая отчетность |
Oracle Reports | ||
Произвольные запросы |
Oracle Discoverer | |||
Многомерный анализ (OLAP), инстремет разработкиклиентских мест |
Oracle JDeveloper с компонентом Oracle Business Inteligence Beans | |||
Извлечение знаний (data mining) |
Oracle Data Mining Suite | |||
Извлечение,преобразование,загрузка ихраниениеданных |
Витриныданных |
многомерны е |
Система управления многомерными витринами данных (OLAP) |
Oracle OLAP |
Проектирование и создание многомерных витрин данных (OLAP) | ||||
реляционны е |
СУБД для реляционных витрин данных |
Oracle Database | ||
Проектирование и создание реляционных витрин данных |
Oracle Warehouse Builder | |||
Хранилищаданных |
ETL - компонент для хранилища данных |
Oracle Warehouse Builder | ||
СУБД для хранилища данных |
Oracle Database | |||
Проектирование и создание хранилищаданных |
Oracle Warehouse Builder |
Вкратце поясним назначение упомянутых в таблице программных продуктов с
точки зрения их использования для реализации ИАС.
Инструменты для извлечения, преобразования, загрузки и хранения данных (ETL)
Oracle Warehouse Builder - это среда для разработки и реализации хранилищ и витринданных. Построенный на базе открытой архитектуры Common Warehouse Model,WarehouseBuilderобеспечивает решениецелого рядазадач. Книмотносятсяпроектирование, создание и администрирование хранилища данных, разработка игенерация процедур извлечения,преобразования и загрузки данных из различныхисточников, управление метаданными и интеграция инструментальных средств доступа.
Oracle Database, система управления базами данных, - основа платформенного решения компании Oracle. Oracle Database используется в качестве СУБД для хранилищ и реляционных витрин данных.
Для многомерныхвитринданныхиспользуется OracleOLAP,неразрывносвязанный с СУБД Oracle Database. Развиваемая до недавнего времени линейка OLAP-продуктов под названием Express в настоящее время переписывается на программномуровне под новую платформу Oracie9i и станет частью Oracle OLAP. Впервые об этомбыло объявлено на конференции Оracle OpenWorld 2000.
Инструменты делового анализа
Платформа фирмы Oracle в части инструментов для делового анализа данных
отличаетсянестолькоготовыминастольнымиинструментальнымисредствами спредопределенным интерфейсом и набором функциональных возможностей, скольконаличиеммощногоинструментариядля разработкиклиентскихместконечныхпользователей. Это позволяет создавать тонко настроенные аналитические приложениядля каждого конечного пользователя в отдельности.
Произвольные запросы и регламентированные формы отчетов
За регламентированную отчетность в платформе Oracle отвечает продукт Oracle
Reports - визуальное средство разработки и публикации стандартных форм отчетов. Наличие визуального интерфейса и встроенных мастеров (wizards) позволяет сократитьвремя разработки сложных форм отчетов. Формы отчетов на базе Oracle Reports готовятсяквалифицированными специалистами, а уже сформированные отчеты могут запускатьсяконечными пользователями-непрограммистами.
За нерегламентированную отчетность отвечает продукт OracleDiscoverer -
инструментдляформированияпроизвольныхформотчетов,построениянерегламентированныхзапросов ианализаданных. Онобеспечиваетдоступ кинформации, содержащейся в реляционных хранилищах и витринах данных, а также втранзакционныхсистемах, в том числе не обязательно работающихпод управлениемСУБД Oracle. Длятогочтобыконечныйпользователь-непрограммистсмогсамостоятельно просматривать интересующие его срезы информации, в программномпродукте используется слой метаданных, описываемый разработчиком, позволяющийскрыть от пользователей сложность работы с данными на программном уровне,представив информацию на деловом языке.
Многомерный анализ данных
Oracle OLAP предназначен для построения аналитических систем, основанных на
принципах многомерной технологии. Этот компонент позволяет хранить и обрабатывать водной и той же базе данных реляционную и многомерную информацию. Средства Oracle9iJava OLAP API позволяют поддерживать многомерную модель, предоставляя наборматематических,статистических ифинансовыхфункцийдля решениязадачпрогнозирования, планирования, оценки ситуации и выявления тенденций. По существу, OLAP API является созданным на Java объектно-ориентированным программныминтерфейсом для OLAP-запросов. Разработчикам OLAP-приложений для Web компания Oracleпредлагаетвоспользоватьсяпрограммныммодулем OracleJDeveloper скомпонентом Oracle BusinessIntelligence Beans.
Разведка данных
Инструментальнаясреда Oracle DataMining(прежнееназвание Darwin)
предназначена для анализа данных методами, относящимися к технологии разведкиданных. Oracle Data Mining поддерживает такие этапы технологии извлечения знаний, какпостановка задачи, подготовка данных, автоматическое построение моделей, анализ и
тестирование результатов,использованиемоделей в реальныхприложениях.
Web-портал
Программный продукт Oracle Portal позволяет представить отдельные компонентыделового анализа данных в Web-среде как одно целое. Oracle Portal предназначен для
быстрого развертывания информационного портала организации и используется вкачестве готового решения. Основная цель его использования - снизить объем ручного
программирования за счет использования готовых компонентов информационногопортала, а также визуальных интерактивных средств разработки (wizards). В рамках Oracle
Portal имеется возможность самостоятельно создавать и поддерживать порталы безпривлечения Web-дизайнеров.
Несмотря на, казалось бы, очевидные преимущества реализации ИАС на основеплатформенно-базированного решения,нужно вспомнить о ряде ограничений, когда такой
подход к созданию ИАС не совсем применим.
Очень редко организацияначинает строить ИАС с нуля. В реальныхусловиях
желание использовать комплексное решение одной фирмы-производителя наталкиваетсяна стремление сохранить уже имеющиеся наработки, представленные в виде отдельныхсистем, выполненных в разное время и в различных средах. При этом отказ отдействующих систем зачастую невозможен, а их перевод на платформу выбранногопроизводителя ведет к значительным затратам.
Кроме того, комплексное решение одного производителя на сегодняшний день
СУБД-зависимое. Это объясняется тем, что основные производители программногообеспечения для ИАС стремятся к максимальной интеграции предлагаемых ими решений. Поэтомужеланиеиспользоватьодинилинесколькоинструментовзаставляеторганизацию использовать остальные продукты этого поставщика, что не всегдасоответствует желанию заказчика. К примеру, инструменты делового анализа данныхмогут быть неразрывно интегрированы с СУБД.
Не стоит также забывать о рисках: комплексное решение от одного производителяувеличивает риск, связанный с долгосрочными перспективами развития ИАС. Какизвестно,ставка на одну лошадь может быть слишком рискованной.
Реализация архитектуры ИАС на основе смешанного решения
Учитывая упомянутые нами задачи корпоративной информационно-аналитической
системы - объединение, хранение и анализ информации, чтобы избежать процессатрудоемкой интеграции отдельных продуктов для смешанного решения, попытаемсявыделить группы программных продуктов, способные реализовать архитектуру ИАСкрупными блоками.
В качестве таких групп для смешанного решения могут выступать инструментыделового анализа и СУБД. В терминологии Gartner интегрированные инструментыделового анализа данных относятся к так называемым BI-пакетам (Enterprise BI Suites),образующим отдельный сегмент рынка ИТ. Этот сегмент представлен 14 компаниями-производителями: Actuate, AlphaBlox, Business Objects, Brio, CA, Cognos, Crystal, Hummingbird, Information Builders, Microsoft, MicroStrategy, Oracle, Sagent, Viador. Две компании - Cognos и Business Objects - лидируют в течение ряда лет (материалы Gartner Research, BI Magic Quadrants: A 'Recession-Proof' Market Challenged, 17.07.2001).
Для примера реализации смешанного решения используем инструменты деловогоанализа данных фирмы Cognos и СУБД фирмы Oracle. Соответствующий переченьпродуктов для примера реализации ИАС на основе смешанного решения представлен втабл. 2.
Табл.2
Компоненты ИАС Назначение Название
|
продукта |
продукта |
| ||
Анализ данных |
в сетях Интранет и Интернет |
Web-портал |
Upfront |
Cog | |
Регламентированная отчетность вWeb |
Impromptu Web Reports | ||||
Произвольные запросы вWeb |
Congos Query | ||||
Многомерный анализ (OLAP) в Web |
PowerPlay Enterprise Server | ||||
Визуализация и выявлениеприоритетов вWeb |
VisualizerWeb | ||||
в локальной сети (LAN) |
Регламентированная отчетность и произвольныезапросы |
Impromptu |
Cog | ||
Многомерный анализ (OLAP) |
PowerPlay | ||||
Извлечение значений (data mining) |
4Thought,Soenario | ||||
Визуализация и выявлениеприоритетов |
Visualizer | ||||
Единый модуль описания мегаданных |
Architect | ||||
Извлечение, преобразование, загрузка ихраниениеданных |
Витриныданных |
многомерные |
Система управления многомерными витринами данных (OLAP) |
PowerPlayTransformation Server |
Cog |
Проектирование и создание многомерныхвитрин данных(OLAP) |
PowerPlayTransformer | ||||
ET-компонент длямногомерныхвитрин данных |
DecisionStream | ||||
реляционные |
ET-компонент для реляционных витрин данных |
DecisionStream | |||
СУБД для реляционныхвитрин данных |
Oracle Database |
Orac | |||
Проектирование и создание реляционных базданных |
Oracle Warehouse Builder | ||||
Хранилища данных |
ETL - компонент |
Oracle Warehouse |
Orac |
для хранилища
Builder
|
|
данных |
|
|
СУБД для хранилища данных |
Oracle DataBase | |||
Проектирование и создание хранилища данных |
Oracle Warehouse Builder |
Следует отметить, что BI-пакет Cognos включает в себя набор интегрированных
друг с другом BI-инструментов. Тесная интеграция программных компонентов в единуюпакетную платформу достигается за счет того, что BI-инструменты объединены общимимодулями описания метаданных, разграничения прав доступа, а также за счет Web-портала -единойточкивхода Интернет-пользователей всредудля работы скорпоративной информацией. Полнота решения, позволяющая претендовать на болеезначительныйпосравнению сзанимаемымрынокBI-платформ,достигаетсяиспользованиемETL-инструментадлясозданиявитринданных(реляционных имногомерных).
Витриныданных,многомерные и реляционные,создаютсяинструментами DecisionStream иPowerPlayTransformer. Дляинтеллектуальногоанализаданныхиспользуются инструмент генерации отчетов Impromptu, инструмент многомерногоанализа - PowerPlay, инструменты разведки данных - Scenario и 4Thought, инструментвизуализации данных Visualizer. В качестве программногомодулядля описанияметаданных выступает модуль Architect - единый для всех инструментов анализа данных. Интернет-портал, помогающий мобильным пользователям подключиться к анализукорпоративнойинформации,организуетсяприпомощиинструмента Upfront.
Рассмотрим подробнее инструменты Cognos, отвечающие за поддержку процессов
извлечения,преобразования,загрузки, хранения и делового анализа данных (рис. 2).
Рисунок 6. Пакет делового анализа Cognos
Инструменты для извлечения, преобразования, загрузки и хранения данных (ETL)Аналитики редко работают с "сырыми" данными из транзакционных баз данных,предпочитая черпать информацию из витрин и хранилищ данных. Исходя из этогопакетная платформа Cognos включает также инструмент предварительной обработки
информации для последующего использования, что обеспечивает законченность иполноту предлагаемого решения.
При помощи инструмента DecisionStream происходит предварительная подготовка
данных, то есть извлечение, преобразование и загрузка данных в аналитическиеисточники данных (многомерные и реляционные) для эффективной работы инструментов OLAP-анализа, генераторов отчетов, инструментов разведки данных, визуализации ивыявления приоритетов.
DecisionStream способен подключаться к нескольким источникам информации реляционного и нереляционного формата, объединять и преобразовывать данные и на ихоснове создавать витрины данных в виде реляционной схемы "звезда" (например, в базеданных Oracle), а в дополнение представлять данные в виде многомерной модели, гдеинформация представляется в виде измерений и показателей. Возможность автоматизациисоздания, наряду с реляционной базой данных, ее многомерной модели выгодно отличаетпрограммный продукт Cognos DecisionStream от обычных инструментов извлечения,преобразования и загрузки данных.
Способность объединения разрозненных данных в единый источник храненияинформации, их обработка и связанное со всем этим увеличение скорости доступа кданнымделают DecisionStreamнезаменимымсредствомдляинформационно-аналитических систем, где требуется быстрый отклик системы на запросы пользователя вполучении данных для изучения и анализа.
Описание метаданных
ИнструментописанияметаданныхCognosArchitectотвечаеттребованиям
централизованного управления метаданными,что обеспечивает интеграцию инструментовCognos. Architect является центральным ядром создания и управления всеми метаданными и бизнес-правилами организации. Таким образом,описанные водной модели инструментаArchitectметаданныестановятсядоступны в любомBI-инструментеCognos. Инструментальный модуль Architect позволяет описать доступ к источникам информации, логические бизнес-представления,масштабы каждого аналитического приложения.
Результатом унифицированного описания метаданных становится правильное инепротиворечивое представление данных во всей организации.
Инструменты делового анализа
Инструменты делового анализа данныхкомпании Cognos позволяют проводитьвесь спектр делового анализа: строить запросы и формировать формы отчетов на
реляционных данных, проводить OLAP-анализ на многомерных данных, осуществлять разведку данных (data mining), а также визуализировать информацию и выявлять
приоритеты.
Произвольные запросы и регламентированные формы отчетов
Решения Cognos в области построения запросов и работы с отчетами позволяют
обеспечить пользователей отчетами в необходимом формате и на требуемой платформе(Windows, Excel, Web). Для руководителей, принимающих решения, средства Cognosобеспечивают доступ к информации в удобной дляних форме (таблицы, диаграммы,гистограммы,трехмерныеграфики ит.д.), адляаналитиковпредоставляетсявозможностьпросматриватьинформацию практически любогоуровнясложности,включая создание запросов, исследование данных и навигацию в Web. Таким образом, взависимостиотзадач,стоящихпередконечнымпользователем,подбираютсясоответствующиеинструментальныесредства.Ключевымпродуктомдля регламентированной отчетности выступает Cognos Impromptu, для нерегламентированныхзапросов - Cognos Query.
Многомерный анализ данных
Компания Cognos имеет в своем распоряжении фактически одно из самых лучших
OLAP-решений,существующихнасегодняшнийденьнарынкеинструментованалитической обработки данных. Согласно результатам исследования рынка OLAP-инструментов(www.olapreport.com),компанияCognos синструментомPowerPlayуверенно занимает вторую по величине долю мирового рынка OLAP-систем послеHyperion.
Основнаяособенность OLAP-инструментакомпанииCognosзаключается в
эффективнойавтоматизациипроцессасоздания OLAP-приложений,чтопозволяетзначительно сократить срок разработки для систем практически любой сложности,используя лишь внутренние людские ресурсы организации.
Сложность задачи и выбранная конфигурация инструмента PowerPlay определяет
масштабсоздаваемых OLAP-систем. СпомощьюинструментаPowerPlayмогут разрабатываться системы для одного пользователя, группы пользователей внутридепартамента,несколькихотделов, атакжесистемымасштабаорганизации,пользователямикоторыхмогутбытьдажесторонние лицаилиорганизации,авторизованные для работы с информацией.
РешенияCognos на базе OLAP-технологии открывает Windows-, Excel- и Web-
пользователям удобный доступ к представленной на их деловом языке многомернойинформации, предназначенной для просмотра, формирования отчетов и проведения OLAP-анализа. Инструмент CognosPowerPlay позволяет исследовать данные под разнымиуглами зрения,обеспечивая многомерный анализ данных.
Благодаря интеграции BI-инструметов компании Cognos многомерные данныемогут быть использованы для дальнейшего изучения инструментами разведки данных,визуализации и выявления приоритетов.
Разведка данных
Решения Cognos в области разведки данных (data mining) помогают исследовать
важные корреляции в данных, обнаруживать скрытые тенденции и строить прогнозы. Инструменты разведки данных Scenario и 4Thought помогают легко определить, какиефакторы влияют на ключевые показатели бизнеса, например на прибыль, объемы продаж, лояльность целевой группы покупателей и др.
Инструмент разведки данных Scenario позволяет оценить влияние различныхфакторов на выбранный в процессе анализа целевой показатель. Результаты анализапредставляются в виде классификационных и регрессионных деревьев, именуемых такжедеревьями решений. При этом осуществляется поиск исключений, направленный навыявление элементов, статистически не удовлетворяющих обнаруженным характернымвзаимосвязям в данных.
Инструмент разведки данных 4Thought, использующий нейросетевую технологию,позволяет строить сложные нелинейные модели, устойчивые по отношению к неточным,"зашумленным" и неполным данным. 4Thought доступен даже тем менеджерам, которыедетально не знакомы со статистическими методами оценки данных, и позволяет импроводить на имеющихся выборках данных анализ "что - если",строить прогнозы.
Одно из достоинств инструментов Scenario и 4Thought состоит в том, что в
качестве входной информации для разведки данных эти инструменты способны братьданные практически из любой аналитической многомерной базы данных: CognosPowerCubes, Oracle Express, SAP BW, Hyperion Essbase, IBM DB2 OLAP Server, MicrosoftSQLServer OLAP Services, NCR TeraCube.
Обнаруженные благодаря использованию инструментов разведки данных скрытыетенденции могут служить основой для принятия квалифицированных управленческих
решенийи,следовательно, являтьсяпредпосылкой куспешномупроведениюстратегического планирования.
Визуализация информации
Известно, что графическая информация в отличие от текстовой гораздо быстрее
воспринимаетсячеловеком. Представлениеданных винтуитивнопонятномдляруководителя виде позволяет ориентироваться в больших объемах информации, отсеиваяненужную. Решения Cognos в области визуализации данных и выявления приоритетовпозволяют в процессе просмотра и анализа выделить из большого объема данных лишьключевую информацию и сделать на ней акцент. Основным инструментом Cognos длявизуализации данных и выявления приоритетов в среде Windows и Web являетсяVisualizer. Расширенный набор визуальныхшаблонов представленияинформации - отдвухмерных и трехмерных диаграмм и графиков для количественныхпоказателей догеографических карт для отображения региональных зависимостей, а также специальныесемафоры ивизуальныеэлементы,использующиесядлявыявленияприоритетов,позволяют сократить время на поиск требуемой информации.
Результаты,полученные впроцессевизуализацииданных ивыявления
приоритетов, являются основой для принятия эффективных решений.
Web-портал
Инструментальные средства Cognos для Интернета позволяют пользователям
подготавливать отчеты и формировать запросы к базам данных, строить прогнозы, работать с информацией по уже готовым формам отчетов,проводить полноценный OLAP-анализ многомерных данных, визуализировать информацию и выявлять приоритеты(scorecarding).
Причем все перечисленные возможности по работе с информацией доступныпользователям без услуг программистов.
Инструментом создания и настройки Интернет-портала для платформы Cognos являетсямодуль Upfront.Создаваемый спомощью Upfrontпорталможетбыть
интегрирован в существующий у организации портал, в интранет и/или экстранет-
решения (B2B), а также использован отдельно. Создание Web-портала осуществляется
настройкой среды публикации и не требует программирования. Таким образом, модуль Upfrontпредоставляетадминистраторамцентрализованноеуправлениечерезнастраиваемый интерфейс, а конечным пользователям, находящимся в пределах или внесетевого экрана (firewall), - единую точку входа, через которую осуществляется доступ кинформации,имеющей различныеформатыпредставления. Приэтом любойпользователь, имеющий установленный Интернет-браузер и доступ к корпоративнойинформации, получает возможность работать с заранее подготовленными формамиотчетов по реляционным или многомерным данным, а также самостоятельно формировать и публиковать отчеты для личного или совместного использования. Помимо возможностиманипулирования реляционными данными и OLAP-анализа, пользователям доступенинструмент визуализации данных и выявления приоритетов. Upfront интегрирован с OLAP-инструментомPowerPlay,генераторомотчетовImpromptuWebReports,генератором Cognos Query и инструментом визуализации и выявления приоритетовVisualizer Web.Кроме того, в портале без дополнительных настроек сохраняетсявозможность работать с документами в привычных дляпользователяформатах Excel,Word, PDF.
Итак,при реализации ИАСнаосновесмешанного решения,чащевсегоиспользуемого на практике, водоразделом по поставщикам может служить делениепродуктов по принципу принадлежности к уровням архитектуры ИАС. При этом группаинструментов анализа данных может быть независимой от группы инструментов
бытьпредставленаотдельнымпроизводителем. Инструментывторойгруппыцелесообразновыбирать от поставщиков СУБД, а инструменты деловогоанализа - отпоставщиков, специализирующихся на спектре инструментовделового анализа данных.
Очевидно, что при выборе программных средств для реализации ИАС в каждомконкретном случае нужно искать некое сбалансированное решение-компромисс. При этомокончательное решение,какойиздвухподходовиспользовать,платформенно-базированный или смешанный, остается за директором информационной службы иобычно осуществляется с привлечением консультантов на основе оценки технико-экономических показателей.
Лекция 3. Хранилище данных