Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЛР_3.doc
Скачиваний:
3
Добавлен:
13.11.2019
Размер:
2.03 Mб
Скачать

1.2 Кластерный анализ

В модуле «Кластерный анализ» пакета STATISTICA реализуются следующие методы кластеризации (рис.1.5):

  • соединения (древовидная кластеризация);

  • метод К-средних;

  • двухвходовое объединение.

Рис.1.5. Внешний вид меню «Методы кластеризации»

Метод кластеризации: соединение (древовидные алгоритмы)

Первая опция представляет группу так называемых иерархических алгоритмов кластеризации. В основе этих алгоритмов лежит идея последовательной кластеризации. Пусть исходное множество содержит п объектов X1, Х2, Х3, ..., Xп.

В качестве расстояния между объектами Xі и Xj выбирается некоторая матрица ρ. Выбор матрицы необходимо сделать в меню «Кластерный анализ: иерархическая классификация» (рис.1.6).

На начальном шаге каждый объект рассматривается как отдельный кластер. На следующем шаге некоторые из ближайших друг к другу кластеров будут объединяться в один новый кластер. В зависимости от выбора меры, по которой определяется расстояние между кластерами, реализуются следующие методы объединения объектов в кластеры (выбор осуществляется в зависимости от меры расстояния между кластерами в опции: «Правило объединения».

Рис.1.6. Внешний вид меню «Кластерный анализ: иерархическая классификация»

1. Метод одиночной связи. Кластеры объединяются исходя из расстояния, измеряемого по методу «ближайшего соседа». Группы, между которыми расстояния самые маленькие, объединяются. Каждое объединение уменьшает число групп на единицу. Расстояние между группами определяется как расстояние между ближайшими членами групп. Метод приводит к «цепным» кластерам (рис.1.7).

2. Метод полной связи. Расстояние между группами определяется как расстояние измеряемое по принципу «дальнего соседа». Расстояние между объединяемыми кластерами равно диаметру наименьшей сферы, содержащей оба кластера. Метод создает компактные кластеры в виде гиперсфер, которые плохо объединяются с другими кластерами (здесь и далее рис.1.8). Если кластеры имеют удлиненную форму, то метод не работает.

Рис.1.7. Выбор файла данных и правила объединения данных

Рис.1.8. Выбор правила объединения данных

3. Метод невзвешенного попарного среднего. Расстояние между кластерами определяется по принципу «средней связи».

4. Метод взвешенного попарного среднего. Расстояние между кластерами определяется по принципу «средней связи», но с учетом в качестве весов числа объектов, содержащихся в кластерах.

5. Невзвешенный центроидный метод. Расстояния между кластерами определяется как расстояние между их «центрами тяжести»

ρ(Sl, Sm) = ρ( , ). (1)

6. Взвешенный центроидный метод. Расстояние между классами определяется как расстояние между их центрами тяжести», но с учетом весов, определяемых по количеству объектов в каждом кластере (т.е. с учетом размеров кластеров).

7. Метод Уорда. В этом методе в качестве целевой функции используется сумма квадратов расстояний между каждым элементом и «центром тяжести» класса, содержащего этот элемент. Кластеризация представляет последовательную процедуру, на каждом шаге которой объединяются два таких класса, при объединении которых происходит минимизация статистического расстояния между классами ρs вычисляемого по формуле

(2)

Для реализации любого метода кластеризации из группы иерархических процедур «Матрица расстояний» необходимо сделать следующие установки:

1) выбрать переменные для анализа;

Рис.1.9. Выбор переменных для анализа

2) определить вид входных данных, можно вводить таблицу с ко-ординтами объектов либо сразу матрицу расстояний между объектами (рис.1.10);

Рис.1.10. Определение вида входных данных

3) определить объекты кластеризации: это могут быть переменные (столбцы), либо наблюдения (строки). В последнем случае каждая строка таблицы исходных данных есть объект (рис.1.11);

Рис.1.11. Определение объектов кластеризации

4) выбрать правило объединения, определяющее расстояние между кластерами (методы объединения объектов в кластеры):

5) выбрать меру близости, определяющую расстояние между объектами.

Результаты кластеризации имеют следующий вид:

1) строится горизонтальная или вертикальная дендрограмма – график, на котором определены расстояния между объектами и кластерами при их последовательном объединении. Древовидная структура графика позволяет определить кластеры в зависимости or выбранного порога – заданного расстояния между кластерами:

2) выводится матрица расстояний между исходными объектами;

3) выводятся средние и среднеквадратичные отклонения для каждого исходного объекта.

Рассмотрим решение примера в пакете STATISTICA.

Пример 1. Провести кластеризацию четырех объектов методами одиночной и полной связи. Каждый объект определяется двумя признаками (табл.1.2).

Таблица 1.2

Данные объектов для кластеризации

Признак

Объект

1

2

3

4

xi

0

-1

1

4

yi

-2

0

2

0

Нажмите кнопку «Анализ» на панели инструментов, в выпадающем меню выберете модуль «Многомерный разведочный анализ», а затем «Кластерный анализ», где в методах кластеризации выберите опцию: «Иерархическая» (рис.1.5). В новом окне выполните следующие настройки:

а)  введите значения двух переменных х и у (табл.2);

б) окно «Файл данных» оставьте по умолчанию (исходные данные);

в) в разделе «Дополнительно» выберите «Объекты»«Переменные (столбцы)»;

г) в разделе «Правило объединения» выберите «Метод одиночной связи»;

л) в разделе «Мера близости» выберите «Евклидово расстояние» и нажмите ОК.

В появившемся окне нажмите на кнопку «Вертикальная дендрограмма». На экране появится дендрограмма (рис.1.12), показывающая объединение объектов, расстояние между которыми является наименьшим, в кластеры.

Рис.1.12. Дендрограмма (метод одиночной связи)

На вертикальной оси дендрограммы откладываются расстояния между объектами и между объектами и кластерами. Кластеризация методом одиночной связи приводит к образованию одного кластера.

Далее закройте дендрограмму, возобновите анализ, отмените результаты иерархической классификации и в разделе «Правило объединения» выберите «Метод полной связи». После выполнения процедуры появится следующая дендрограмма (рис.1.13).

Вторая дендрогамма показывает, что кластеризация методом полной связи при таком же пороговом расстоянии, приводит к образованию двух кластеров.

Рис.1.13. Дендрограмма (метод полной связи)