
- •1. Методы анализа структурированных данных с использованием
- •1.1. Анализ временных рядов
- •1.2. Граничные методы
- •Метод опорных векторов
- •1.3. Деревья решений
- •1.4. Иерархические методы кластерного анализа
- •1.5. Неиерархические методы кластерного анализа
- •Алгоритм k-средних
- •1.6. Методы рассуждений на основе аналогичных случаев
- •1.7. Линейная регрессия
- •1.9. Наивная байесовская классификация
- •1.10. Нейронные сети
- •1.11. Поиск ассоциативных правил
- •2. Алгоритмы нахождения деревьев решений
- •2.1. Описание дерева решений
- •Подход к построению дерева решений
- •2.2. Анализ возможностей и ограничений метода деревьев решений
- •Области эффективного применения метода деревьев решений
- •3. Алгоритмы нахождения ассоциативных правил
- •3.1. Понятие ассоциативного правила.
- •Список литературы
Лекция № __ «Поиск скрытых зависимостей в хранилищах данных»
Введение ……………………………………………………………………….….….. 1. Методы анализа структурированных данных с использованием технологии Data Mining ……………………………………….. 1.1. Анализ временных рядов………………………………………………..…….….. 1.2. Граничные методы …………………………………………………………….… 1.3. Деревья решений…………………………………………………………………... 1.4. Иерархические методы кластерного анализа…………………………….… 1.5. Неиерархические методы кластерного анализа………………………….… 1.6. Методы рассуждений на основе аналогичных случаев …………............. 1.7. Линейная регрессия ……………………………………………………………… 1.8. Логистическая регрессия ……………………………………………….. ……. 1.9. Наивная байесовская классификация ……………………………………….. 1.10. Нейронные сети ………………………………………………………………… 1.11. Поиск ассоциативных правил ………………………………………… ……. 2. Алгоритмы нахождения деревьев решений …………………………….. ….. 3. Алгоритмы нахождения ассоциативных правил ………………………… …
|
Введение
Сегодня для многих специалистов по обработке информации стало очевидным, что в сверхбольших массивах (десятки и сотни миллионов записей) хронологически накопленных данных, хранимых в электронных хранилищах (data warehouse) крупных государственных организаций и промышленных компаний содержится значительный скрытый потенциал знаний, способных повысить эффективность их коммерческой и производственной деятельности [9, 14]. Поэтому задача извлечения этих знаний из ранее накопленных данных является достаточно актуальной.
Традиционная математическая статистика, долгое время претендовавшая на роль главного инструмента анализа данных, сегодня пасует перед возникшими проблемами добычи новых знаний из больших объемов структурированных оперативных данных [5, 6]. Методы математической статистики оказались полезными главным образом для проверки заранее сформулированных гипотез и для "грубого" разведочного анализа новых закономерностей, составляющего основу оперативной аналитической обработки данных OLAP (online analytical processing) [9]. На передний план выдвинулись иные методы и технологии анализа данных, получившие название Data Mining (добыча новых данных) направленные на выявление скрытых закономерностей различного типа.
1. Методы анализа структурированных данных с использованием
технологии Data Mining
Главной задачей Data Mining является построение гипотез (аналитических выражений, логических конструкций) по хранимым данным, описанным в пространстве координат (полей). Например, «определить как объединить ОУ ВПО или СОШ в Москве при реализации реформы» или «из данных CRM сформировать классы лояльности партнеров/конкурентов» и т.д..
Данный раздел посвящен анализу популярных методов Data Mining и их соответствия критерию получения информации о скрытых знаниях в пригодном для усвоения человеком виде, т.е. в виде правил «если-то».
1.1. Анализ временных рядов
В отличие от анализа случайных выборок, анализ временных рядов [9] основывается на предположении, что последовательные значения в файле данных наблюдаются через равные промежутки времени (тогда как в других методах нам не важна и часто не интересна привязка наблюдений ко времени).
Большинство регулярных составляющих временных рядов принадлежит к двум классам: они являются либо трендом, либо сезонной составляющей. Тренд представляет собой общую систематическую линейную или нелинейную компоненту, которая может изменяться во времени. Сезонная составляющая - это периодически повторяющаяся компонента. Оба эти вида регулярных компонент часто присутствуют в ряде одновременно.
Не существует «автоматического» способа обнаружения тренда во временном ряду. Однако если тренд является монотонным (устойчиво возрастает или устойчиво убывает), то анализировать такой ряд обычно нетрудно. Если временные ряды содержат значительную ошибку, то первым шагом выделения тренда является сглаживание. Сглаживание всегда включает некоторый способ локального усреднения данных, при котором несистематические компоненты взаимно погашают друг друга. Многие монотонные временные ряды можно хорошо приблизить линейной функцией. Если же имеется явная монотонная нелинейная компонента, то данные вначале следует преобразовать, чтобы устранить нелинейность. Обычно для этого используют логарифмическое, экспоненциальное или (реже) полиномиальное преобразование данных.
Периодическая и сезонная зависимость (сезонность) представляет собой другой общий тип компонент временного ряда. В общем, периодическая зависимость может быть формально определена как корреляционная зависимость порядка k между каждым i-м элементом ряда и (i-k)-м элементом. Ее можно измерить с помощью автокорреляции (т.е. корреляции между самими членами ряда); k обычно называют лагом (иногда используют эквивалентные термины: сдвиг, запаздывание).
Сезонные составляющие временного ряда могут быть найдены с помощью коррелограммы. Коррелограмма (автокоррелограмма) показывает численно и графически автокорреляционную функцию (AКФ), иными словами коэффициенты автокорреляции (и их стандартные ошибки) для последовательности лагов из определенного диапазона (например, от 1 до 30).
Существуют две основные цели анализа временных рядов: определение природы ряда и прогнозирование (предсказание будущих значений временного ряда по настоящим и прошлым значениям). Все методы анализа временных рядов не выдают на выходе правил «если-то», следовательно, эти методы не удовлетворяют критерию получения информации о скрытых знаниях в пригодном для усвоения человеком виде.