
- •Федеральное агентство по образованию
- •1.2. Базы данных - основа сппр
- •1.3. Неэффективность использования oltp-систем для анализа данных
- •Лекция 2. Архитектура современной информационно- аналитической системы
- •2.1. Концепция хранилища данных
- •2.2. Организация хд
- •2.3. Очистка данных
- •2.4. Концепция хранилища данных и анализ
- •3.1. Многомерная модель данных
- •3.4.2. Rolap
- •Многомерное проектирование
- •Выбор архитектуры olap-приложения
- •Заключение
- •Общая структура мер и измерений
- •Лекция 5. Интеллектуальный анализ данных
- •1. Добыча данных – Data Mining
- •2. Задачи Data Mining
- •2.1. Классификация задач Data Mining
- •2.2. Задача классификации и регрессии
- •2.3. Задача поиска ассоциативных правил
- •2.4. Задача кластеризации
- •1.1. Предсказательные (predictive) модели
- •1.2. Описательные (descriptive) модели
- •2. Методы Data Mining
- •2.1. Базовые методы
- •2.2. Нечеткая логика
- •2.3. Генетические алгоритмы
- •2.4. Нейронные сети
- •3. Процесс обнаружения знаний
- •3.1. Основные этапы анализа
- •3.2. Подготовка исходных данных
Заключение
Решениестратегическихзадачбизнеса являетсяцельюкорпоративнойинформационно-аналитической системы, поэтому ИТ-специалисты и дальше будутвынужденывсебольшезадаватьсявопросамитипа:"Зачемсуществуетнашепредприятие? Какова его миссия? Есть ли у негостратегия?". В противном случаесоздание BI-приложений будет лишь бессмысленной тратой ресурсов.
Общая структура мер и измерений
Общую структуру мер и измерений представляют в виде таблицы. Структураизмеренийописываетсястолбцами восновнойтаблице. Заголовкистолбцовопределяют названия измерений. По строкам в каждом столбце перечисляются уровнииерархии для каждого измерения. Эти уровни определяют количество "ступенек",которые пользователь может пройти для каждого измерения при выполнении операции drill-down - спуска по данным, т. е. на какую степень детализации данных он может рассчитывать. В приведенном примере в скобках для каждого уровня дано количествокатегорий - наименований групп товаров, товаров, названий заказчиков, регионовсбыта и т.д. Строка снизу содержит перечисление мер - количественныхвеличин,значения которых привязаны к координатной сетке, образуемой измерениями.
Таблицамер иизмеренийпозволяетзаранеепредставитьданные вструктурированном виде для проведения аналитических исследований. Такая модель легко воспринимается пользователями и позволит ему перемещаться в многомерномпространстве данных. Пользователь, анализируя имеющуюся у него информацию,сможет делать воображаемые срезы вдоль любого измерения, создавать произвольныеотчеты,детализировать данные до нужной степени,наглядно видеть динамику различных показателей,одновременно просматривая любые их сочетания.
Подобно тому, как при создании сложных транзакционных систем уровня
предприятия возникает потребность в реинжиниринге бизнес-процессов, так присоздании корпоративных информационно-аналитических систем будет востребованбизнес-инжиниринг -созданиеорганизации,ориентированнойнавыполнениестратегии.
В стратегическомпланесозданиеинформационно-аналитическихсистем
преследует цели достижения конкурентного преимущества на рынке, а не избежания расходов на автоматизацию.
Cпроектироватьготовуюсредудлямногомерногоанализаможноинструментами и от Cognos, и от BusinessObjects, которых аналитики Gartner и META
Group относят к лидерам рынка OLAP. Интересные решения предлагают такжекомпании Actuate, Arcplan, Brio, Computer Associates, Crystal, Hummingbird, Hyperion,
Informatica, Information Builders, Microsoft, MicroStrategy, Oracle, Peoplesoft, ProClarity,SAP, SAS, Siebel.
Лекция 5. Интеллектуальный анализ данных
1. Добыча данных – Data Mining
OLAP-системы предоставляют аналитику средства проверки гипотез прианализе данных. При этом основной задачей аналитика является генерация
гипотез. Он генерирует ее, основываясь на своих знаниях и опыте. Однако знания естьне только у человека, но и в накопленных данных, которые подвергаются анализу.
Такие знания часто называют «скрытыми», т. к. они содержатся в гигабайтах итерабайтах информации, которые человек не в состоянии исследовать самостоятельно.
В связи с этим существует высокая вероятность пропустить гипотезы, которыемогут принести значительную выгоду.
Очевидно, что для обнаружения скрытых знаний необходимо применятьспециальные методы автоматического анализа, при помощи которых приходится
практически добывать знания из больших объемов информации. За этим направлениемпрочно закрепился термин добыча данных или Data Mining. Классическое определение
этого термина дал в 1996 г. один из основателей этого направления Пятецкий-Шапиро.
Data Mining –исследование иобнаружение«машиной»(алгоритмами,
средствами искусственного интеллекта) в сырыхданныхскрытыхзнаний, которые ранеенебылиизвестны,нетривиальны,практическиполезны,доступныдляинтерпретации человеком.
Рассмотрим свойства обнаруживаемыхзнаний, данные в определении, более
подробно.
Знания должны быть новые, ранее неизвестные. Затраченные усилия на
открытие знаний, которые уже известны пользователю, не окупаются. Поэтомуценность представляют именно новые, ранее неизвестные знания.
Знания должны быть нетривиальны. Результаты анализа должны отражатьнеочевидные, неожиданные закономерности в данных, составляющие так называемые
скрытые знания. Результаты, которые могли бы быть получены более простымиспособами (например, визуальным просмотром), не оправдывают привлечение мощных
методов Data Mining.
Знания должны быть практически полезны. Найденные знания должны быть
применимы, в том числе и на новых данных, с достаточно высокой степеньюдостоверности. Полезность заключается в том, чтобы эти знания могли принестиопределенную выгоду при их применении.
Знания должны быть доступны для понимания человеку. Найденные за-
кономерности должны быть логически объяснимы, в противном случае существует
вероятность, что они являются случайными. Кроме того,обнаруженные знания должныбыть представлены впонятном для человека виде.
В Data Mining для представления полученныхзнаний служат модели. Видымоделей зависят от методов их создания. Наиболее распространенными являются:
правила,деревья решений,кластеры и математические функции.