- •Раздел 1. Накопление и обработка данных .…………………………… 5
- •Раздел 2. Оперативный анализ данных ….…………………………… 43
- •Раздел 3. Интеллектуальный анализ данных ………………………… 82
- •Раздел 4 Загрузка данных и программирование запросов ...………… 110
- •Раздел 5. Подготовка отчетов по результатам анализа …….……… 136
- •Раздел 1. Накопление и обработка данных Лекция 1. Информационно-аналитические системы
- •Операционная обработка данных
- •Оперативный анализ данных
- •Интеллектуальный анализ данных
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 2. Концепции хранения данных
- •Реляционные базы данных
- •Организация хранилищ данных
- •Концепция многомерной модели данных
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 3. Интеграция и трансформации данных
- •Платформа sql Server 2008
- •Система Management Studio
- •Служба sql Server Integration Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Раздел 3. Интеллектуальный анализ данных Лекция 8. Кластерный анализ данных
- •Формальная постановка задачи кластеризации
- •Меры близости в кластерном анализе
- •Иерархические алгоритмы кластеризации
- •Неиерархические алгоритмы кластеризации
- •Представление результатов кластеризации
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 9. Классификация и регрессия
- •Математические функции
- •Правила классификации
- •Деревья решений
- •Методы построения деревьев решений
- •Алгоритмы построения деревьев решений
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 10. Поиск ассоциативных правил
- •Цель лекции – изучение формализованной постановки и алгоритма решения задачи поиска ассоциативных правил.
- •Формальная постановка задачи
- •Обнаружение закономерностей в последовательностях данных
- •Алгоритм поиска ассоциативных правил Apriori
- •Представление результатов
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 8. Службы sql Server Analysis Services
- •Конструктор интеллектуального анализа данных
- •Мастер интеллектуального анализа данных
- •Создание структуры интеллектуального анализа
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Создание и представление источника данных
- •Загрузка с применением Integration Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 12. Основы языка Multidimensional Expressions
- •Оператор select
- •Алгебра множеств и операции с множествами
- •Функции языка mdx
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 13. Язык операций Data Mining
- •Ключевые концепции и объекты dmx
- •Синтаксис запросов dmx
- •Создание моделей интеллектуального анализа
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Раздел 5. Подготовка отчёта по итогам анализа Лекция 14. Служба отчетов Reporting Services
- •Архитектура службы отчётов
- •Средства проектирования запросов
- •Развёртывание Reporting Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 15. Источники данных для отчётов
- •Общие источники данных
- •Источники поддерживаемые Reporting Services
- •Создание, изменение и удаление источников
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 16. Конструирование и создание отчётов
- •Основы конструирования отчётов
- •Создание нерегламентированных отчётов
- •Создание отчётов с применением конструктора
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Глоссарий
Неиерархические алгоритмы кластеризации
Неиерархические алгоритмы обеспечивают разделение объектов при заданной целевой функции. Таким образом, при разделении объектов стремятся достичь максимума или минимума целевой функции.
В алгоритме k-means
на первом шаге задаётся
произвольных центров и точность
кластеризации
.
В качестве центров могут быть выбраны
объекты множества
.
На втором шаге все объекты разделяют
по критерию близости к одному из центров
на
кластеров. Третий шаг алгоритма связан
с вычислением новых центров кластеров.
Координаты центров в пространстве
вычисляются как средние значения
атрибутов объектов, входящих в состав
сформированных кластеров. При этом
новые центры могут отличаться от центров,
использованных для разделения объектов
на предшествующем шаге. Далее производится
разбиение на кластеры с использование
новых центров.
Процедуры разделения на кластеры повторяются. Разделение завершается, если координаты центров и границы кластеров перестают меняться.
Алгоритм Fuzzy C-Means является обобщением алгоритма k-means. Основное отличие алгоритма – кластеры представляются нечёткими множествами. Каждый объект принадлежит кластеру с различной степенью принадлежности.
Представление результатов кластеризации
Кластерная модель представляет описание кластеров и принадлежность к одному из них каждого объекта из исходного множества. В случае небольшого числа объектов, характеризующихся двумя переменными, результаты можно изобразить посредством элементарных фигур (треугольников, четырехугольников), соответствующих объектам, и множества прямых линий [3]. На рисунке 8.1 представлена диаграмма, характеризующая разделение объектов с двумя атрибутами (параметрами).
Рисунок 8.1 – Разделение на кластеры
Если кластеры нельзя разделить прямыми линиями, то границы кластеров изображаются с применением ломаных линий. Принадлежность объекта к нескольким кластерам можно изобразить с применением Венских диаграмм.
В случае нечёткой кластеризации принадлежность объекта к кластеру оценивают вероятностью принадлежности или степенью принадлежности. В этом случае результат можно представить в виде таблицы, в которой строки соответствуют объектам, столбцы – кластерам. В ячейках таблицы указывается вероятность или степень.
Некоторые алгоритмы кластеризации строят структуры кластеров. Самый верхний уровень в структуре соответствует всему множеству объектов в виде единственного кластера. На следующем уровне множество делится на несколько кластеров, каждый из которых также делится на несколько кластеров. В принципе, построение иерархии может продолжаться до представления каждого объекта отдельным кластером. Визуализация таких структур выполняется в виде дендограмм (dendrograms). Существует различные способы построения дендограмм [1].
Краткие итоги
Задача кластеризации предполагает разделение множества объектов на кластеры (cluster) или классы, таксоны, сгущения, группы. В кластерном анализе различие объектов по атрибутам (переменным) не учитывается.
В задачах кластеризации мера близости объектов определяется из представления объектов в виде точек - мерного пространства. Наибольшее применение находят меры: евклидово расстояние, расстояние по Хеммингу, расстояние Чебышева и расстояние Махаланобиса.
В иерархических агломеративных алгоритмах кластеризации исходное множество объектов представляется как множество кластеров . Кластеры с наименьшим удалением сливаются в общий кластер. Процедуру повторяют до выполнения условия остановки алгоритма.
В иерархических дивизимных алгоритмах кластеризации исходное множество объектов представляется как единственный кластер. Разделение кластера выполняют по критерию наибольшей удалённости объектов. Алгоритмы различаются способом выбора кластера для разделения.
В неиерархических алгоритмах на первом шаге кластеризации задаются произвольные центры кластеров и точность кластеризации. Последующие шаги связаны с разделением объектов по критерию близости к центрам кластеров и вычислению новых центров кластеров.
