Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Количественные методы анализа данных в СИ.docx
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
80.73 Кб
Скачать

Кластерный анализ

Цель кластерного анализа - исследование структуры выборочной совокупности объектов или/и переменных.

Данные для кластерного анализа представляют собой матрицу расстояний (для объектов) или матрицу корреляций (для переменных).

Расстояние между двумя объектами является мерой их различия: чем больше два объекта отличаются друг от друга (по значениям переменных), тем больше расстяоние между ними.

Свойства расстояния между двумя объектами А и В:

  1. dAB ~ 0;

  2. расстояние dлв =О, если объекты А и В тождественны друг другу (значения переменных для

них совпадают);

3. dАв может быть не ограничено «сверху»;

  1. расстояние между объектами А и В симметрично: dлв = dвл

  2. для любых трех объектов А, В и С выполняется «неравенство треугольника»: d Ан ::;; d .«: + d вс:

Расстояния могут вычисляться для количественных (в том числе сгруппированных в интервалы), дихотомических и некоторых порядковых шкал. Наиболее часто используется многомерное расстояние Евклида:

11

dлв = JL(Xл; -хвJ2

i=I

Для дихотомических переменных вычисляется расстояние "city Ыосk" или "манхеттенское" k

расстояние: dлв = Ilxл; -хшl

i=I

Матрица расстояний имеет размерность п х п, где п - объем выборки; на главной диагонали находятся нули. Она симметрична относительно главной диагонали (su = sfi для \fi,j = 1,п ).

Матрица расстояний:

1

2

3

...

J

. ..

n

1

о

~2

~3

...

~j

. ..

~п

2

~]

о

~

".

~j

. ..

~п

3

S31

~

о

...

~

. ..

~

...

. ..

. ..

. ..

. ..

. ..

".

. ..

1

~

~2

~3

...

~

. ..

~

. "

...

. ..

. ..

".

. ..

. ..

".

n

snl

sn2

Sn3

...

~

. ..

о

Терещенко О. В. Кластерный анализ

1

Количественные методы анализа данных в СИ

Основные группы методов кластерного анализа (КА):

  • иерархический агломеративный КА;

  • иерархический дивизимный КА;

  • иерархический центроидный КА;

  • КА с обучением.

Иерархические агломеративные методы - пошаговое объединение объектов, начиная с наиюолее близких, до тех пор, пока все объекты не объединятся в один класс:

  • метод «ближнего соседа» (nearest neighbor);

  • метод «среднего соседа» (between-groups average; within-groups average );

  • метод «дальнего соседа» (furthest neighbor);

  • метод Уорда (Ward's method).

Иерархические дивизимные методы - пошаговое «расслоение» выборки на все более мелкие классы, до тех пор пока каждый объект не будет составлять отдельный класс.

Центроидные методы - поиск «сгущений» объектов в пространстве признаков ( centroid clustering).

Методы КА с обучением - объединение объектов по степени «похожести» на некотороые специально заданные «Эталонные» объекты (k-means cluster).

Результаты иерархической кластеризации представляются в виде специальных графиков - дендрограмм. На дендрограмме показывается последовательность объединения (или

разделения) кластеров.

ИЕРАРХИЧЕСКИЙ КЛАСТЕРНЬIЙ АНАЛИЗ

Analyze \ Classify \ Hierarchical Cluster •.. \ в окно VariaЫes переписать имена используемых переменных \ в окно Label Cases Ьу поместить имя текстовой переменной для обозначения объектов на дендрогорамме \ в разделе Cluster выбрать Cases или VariaЫes \ в разделе Display указать Plots \ в разделе Plots указать Dendrogram (Icicle попе) \ в разделе Methods выбрать метод кластерного анализа (по умолчанию Within-Groups Linkage) и меру расстояния (для объектов Squared Euclidian Distance, для переменных Pearson Correlation) \ для сохранения номеров классов в качестве новой переменной в разделе указать, сколько кластеров

интерпретировать (Single Solution) \ ОК

НЕИЕРАРХИЧЕСКИЙ КЛАСТЕРНЫЙ АНАЛИЗ / КЛАСТЕРНЬIЙ АНАЛИЗ С ОБУЧЕНИЕМ

Analyze \ Classify \ K-Means Cluster ... \ в окно VariaЫes переписать имена используемых переменных \ в окно Label Cases Ьу поместить имя текстовой переменной для обозначения объектов \ в окне Number of Clusters указать желаемое количество кластеров \ выбрать метод Iterate and classify или Classify only \ в разделе Options указать Initial cluster centers и Cluster information for each case \ при необходимости задать центры будущих кластеров в разделе Centers указать Read initial from \ кликнуть по кнопке File и в открывшемся окне задать имя

заранее подготовленного файла \ ОК

Файл, содержащий центры будуп:(их кластеров, состоит из переменных, используемых для

кластеризации. Число случаев в нем должно быть равно числу выделяемых кластеров. Каждый случай (строка) представляет собой вектор координат центра будущего кластера.

2

Терещенко О. В. Кластерный анализ

Количественные методы анализа данных в СИ

Пример 1: ЮIАСТЕРНЫЙ АНАЛИЗ ПЕРЕМЕННЫХ

* * * * * * Н I Е R А R С Н I С А L С L U S Т Е R

А N А L У S I S * * * *

Dendrogram using Average Linkage (B~tween Groups)

Rescaled Distance Cluster Combine

С А S Е

Label

Num

CLASSICL

6

OPERA

9

BIGBAND

1

MUSICALS

5

FOLK

7

BLUES

4

JAZZ

8

BLUGRASS

2

COUNTRY

3

RAP

10

HVYMETAL

11


о

5

10

15

20

25

+---------+---------+---------+---------+---------+

Пример 2: КЛАСТЕРНЫЙ АНАЛИЗ СЛУЧАЕВ:

Бюджет времени различных: социальных групп. Каждая группа маркируется тремя показателями, характеризующими ее социально-демографические характеристики. Переменные - усредненные для каждой группы отдельные статьи бюджета времени, в часах за 100 суток (см. на следующей странице)

J

1

_J

1

1


ЗАДАНИЕ:

  1. Подберите исходные данные для кластерного анализа

  2. Выполните кластерный анализ

  3. Про интерпретируйте полученную кластерную структуру

Терещенко О. В. Кластерный анализ

3