Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги2 / 196

.pdf
Скачиваний:
0
Добавлен:
24.02.2024
Размер:
3.51 Mб
Скачать

1.7.Пример применения кластерного анализа

Casewise deleted (Построчное удаление) – обработки некомплектные наблюдения полностью исключаются из дальнейшего анализа. Однако подобный метод приводит к смещенности и несостоятельности полученных статистических оценок, а также к искажению эмпирического распределения.

Substituted by means (Замена средними значениями) – пропущенные данные заменяются средними значениями показателя, полученным по комплектным (полным) данным, что также имеет свои недостатки.

Вданном примере пропуски отсутствуют, поэтому выбор того или иного метода не актуален.

После установки всех необходимых параметров для проведения кластеризации щелкнем на Ok. Метод древовидной кластеризации является итеративной процедурой. После того как все объекты будут объединены, откроется диалоговое окно Результаты объединения – Joining Results

(рис. 1.9).

Рис. 1.9. Результаты выбранного метода кластерного анализа

31

Глава 1. Кластерный анализ в пакете STATISTICA

Древовидная диаграмма (дендрограмма). Наиболее важным ре-

зультатом, получаемым в результате древовидной кластеризации, является

иерархическое дерево. Модуль Кластерного анализа предлагает два типа древовидной диаграммы с двумя типами ветвей. Для получения древовидной диаграммы стандартного вида выберем опцию Прямоугольные ветви и

нажмем на кнопку Горизонтальная древовидная диаграмма – Horizontal hierarchical tree plot. Хотя можно выбрать и вертикальную дендрограмму.

Ветви обоих типов древовидной диаграммы могут быть прямоугольными (рис. 1.10) или диагональными (рис. 1.11).

Tree Diagram for 1E3 Cases

Single Linkage

Euclidean distances

C_359

C_956

C_742

C_779

C_268

C_549

C_1026

C_645

C_714

C_518

C_796

C_421

C_117

C_1098

C_12

0

1

2

3

4

5

Linkage Distance

Рис. 1.10. Прямоугольный вид горизонтальной дендрограммы

32

1.7. Пример применения кластерного анализа

Tree Diagram for 1E3 Cases

Single Linkage

Euclidean distances

C_359

 

 

 

 

 

C_956

 

 

 

 

 

C_742

 

 

 

 

 

C_779

 

 

 

 

 

C_268

 

 

 

 

 

C_549

 

 

 

 

 

C_1026

 

 

 

 

 

C_645

 

 

 

 

 

C_714

 

 

 

 

 

C_518

 

 

 

 

 

C_796

 

 

 

 

 

C_421

 

 

 

 

 

C_117

 

 

 

 

 

C_1098

 

 

 

 

 

C_12

 

 

 

 

 

0

1

2

3

4

5

Linkage Distance

Рис. 1.11. Диагональный вид горизонтальной дендрограммы

Для получения древовидной диаграммы с диагональными ветвями отменим опцию Прямоугольные ветви – Rectangular branches (на рис.

1.9). Диагональный формат может улучшить читаемость диаграммы для решений со «сбалансированными» структурами объединений.

Мы можем выбрать для масштабирования древовидной диаграммы стандартизированную шкалу, которой соответствует опция Масштаб расстояний*100. Если мы выберем эту опцию, горизонтальная ось (или вертикальная ось для вертикальной диаграммы) будет масштабирована в про-

центах: расстояние связи/максимальное расстояние*100. Поэтому на оси будет представлен размах в процентах от максимального до минимального расстояний в данных. Если эту опцию выбрать снова, то шкала будет основываться на типе расстоянии, используемом ранее.

33

Глава 1. Кластерный анализ в пакете STATISTICA

Рис. 1.12. Прямоугольный вид горизонтальной дендрограммы с использованием стандартизованной шкалы

Древовидная диаграмма (рис. 1.12) иллюстрирует использование стандартизованной шкалы (сравним с рис. 1.10).

Вначале древовидные диаграммы могут показаться немного запутанными, однако после некоторого изучения они становятся более понятными. Диаграмма начинается слева для горизонтальной древовидной диаграммы (или сверху для вертикальной древовидной диаграммы) с каждого автомобиля в своем собственном кластере. Как только вы начнете двигаться вправо (или вниз для вертикальной древовидной диаграммы), автомобили, которые «теснее соприкасаются друг с другом» объединяются и формируют кластеры. Каждый узел диаграммы, приведенной выше, представляет объединение двух или более кластеров, положение узлов на горизон-

34

1.7. Пример применения кластерного анализа

тальной (или вертикальной) оси определяет расстояние, на котором были объединены соответствующие кластеры.

Наглядно видно, что часть поставок выделяются из общей массы и образует отдельный кластер. В дальнейшем мы исследуем поставки, вошедшие в данный кластер, более подробно.

Рис. 1.13. Дополнительные опции кластерного анализа

Открыв вкладку Дополнительно – Advanced, мы можем получить дополнительную информацию (рис. 1.13).

Схема объединения – Amalgamation schedule. Неграфическим представлением результатов кластеризации является схема объединения. Откройте его, нажав на кнопку Схема объединения – Amalgamation schedule (рис. 1.14).

35

Глава 1. Кластерный анализ в пакете STATISTICA

Рис. 1.14. Схема объединения результатов кластерного анализа

График схемы объединения. Нажав на кнопку График схемы объ-

единения – Graph of amalgamation schedule, мы построим диаграмму рас-

стояний объединения на последовательных шагах кластеризации (рис.

1.15).

Этот график может быть очень полезен при обрыве древовидной диаграммы. Вспомним, что, когда мы двигаемся вправо по диаграмме (с увеличением расстояния связей), все больше и больше сформированных кластеров приобретают все большую внутрикластерную изменчивость (иными словами, кластеры размываются). Если этот график имеет ясно выраженное плато, то это обозначает, что многие кластеры были сформированы на существенно одинаковом расстоянии связи. Это расстояние может оказаться оптимальным моментом остановки при решении вопроса о том, сколько имеется кластеров (и как их интерпретировать).

36

1.7. Пример применения кластерного анализа

Linkage Distance

Plot of Linkage Distances across Steps Euclidean distances

6

5

4

3

2

1

0

-1

 

 

 

 

 

 

 

 

 

 

 

 

 

Linkage

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

101

202

303

404

505

606

707

808

909

1010

 

 

Distance

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Step

Рис. 1.15. Диаграмма расстояний объединения на последовательных шагах кластеризации

Просмотр матрицы расстояний осуществляется через кнопку Distance matrix (Матрица расстояний) (рис. 1.16), которая затем сохраня-

ется с помощью опции Save distance matrix (Сохранить матрицу расстояний).

Строка Descriptive statistics (Описательные характеристики) откры-

вает таблицу результатов со средними значениями и стандартными отклонениями для каждого объекта, включенного в кластерный анализ, т.е. для каждого наблюдения и переменной, в зависимости от установки, выбранной в списке Cluster (Кластер) стартовой панели (рис. 1.17).

37

Глава 1. Кластерный анализ в пакете STATISTICA

Рис. 1.16. Матрица расстояний

Рис. 1.17. Описательные статистики

38

1.8.Кластеризация методом k-средних – k-means clustering

1.8.Кластеризация методом k-средних – k-means clustering

Этот метод кластеризации существенно отличается от иерархических агломеративных методов. Он применяется, если пользователь уже имеет представление относительно числа кластеров, на которые необходимо разбить наблюдения. Тогда метод k-средних строит ровно k различных кластеров, расположенных на возможно больших расстояниях друг от друга.

Рассмотрим работу метода k-средних на данных нашего примера. Щелкнем по строке – K-means clustering (Кластеризация методом k-

средних) стартовой панели модуля Cluster analysis (Кластерный анализ) (рис. 1.8). На экране появится окно настройки параметров кластеризации

(рис. 1.18).

Рис. 1.18. Описательные статистики

С помощью кнопки Variables (Переменные) выберем показатели, по которым будет происходить кластеризация. В строке Cluster (Кластер) укажем объекты для классификации Cases [rows] (Наблюдения [строки]).

Поле Number of clusters (Число кластеров) позволяет ввести желаемое число кластеров, которое должно быть больше 1 и меньше чем количество объектов.

39

Глава 1. Кластерный анализ в пакете STATISTICA

Метод k-средних является итерационной процедурой, в результате которой на каждой итерации объекты перемещаются в различные кластеры. Поле Number of iterations (Число итераций) предназначено для указания их максимального числа.

Важным моментом при настройке параметров является выбор Initial cluster centers (Начальных центров кластеров), так как конечные результаты зависят от начальной конфигурации.

Опция Choose observations to maximize initial between-cluster distances (Выбрать набл. максимиз. начальные расстояния между кластерами) выбирает первые k в соответствии с количеством кластеров, наблюдений, которые служат центрами кластеров. Последующие наблюдения заменяют ранее выбранные центры в том случае, если наименьшее расстояние до любого из них больше, чем наименьшее расстояние между кластерами. В результате этой процедуры начальные расстояния между кластерами максимизируются.

Если выбрана опция Sort distances and take observations at constant intervals (Сортировать расстояния и выбрать наблюдения на постоянных интервалах), то сначала сортируются расстояния между всеми объектами, а затем в качестве начальных центров кластеров выбираются наблюдения на постоянных интервалах.

Choose the first N (Number of cluster) (Выбрать первые N [количе-

ство кластеров] наблюдений). Эта опция берет первые N (количество кластеров) наблюдений в качестве начальных центров кластеров.

Для нашего примера сделаем установку – Sort distances and take observations at constant intervals (Сортировать расстояния и выбрать наблюдения на постоянных интервалах).

Опция MD deletion (Пропущенные данные) устанавливает режим работы с теми наблюдениями (или переменными, если установлен режим Variables (columns)) в строке Cluster, в которых пропущены данные. По умолчанию установлен режим Casewise (Случай удаления). Тогда наблю-

40

Соседние файлы в папке книги2