Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги2 / 196

.pdf
Скачиваний:
0
Добавлен:
24.02.2024
Размер:
3.51 Mб
Скачать

1.5. Расстояния между кластерами

ров. Для начала из n точек исследуемой совокупности отбираются случайным образом или задаются исследователем исходя из каких-либо априорных соображений k точек (объектов). Эти точки принимаются за эталоны. Каждому эталону присваивается порядковый номер, который одновременно является и номером кластера. На первом шаге из оставшихся (n k) объектов извлекается точка Xi с координатами (xi1, xi2, …, xim) и проверяется, к какому из эталонов (центров) она находится ближе всего. Для этого используется одна из метрик, например евклидово расстояние. Проверяемый объект присоединяется к тому центру (эталону), которому соответствует минимальное из расстояний. Эталон заменяется новым, пересчитанным с учетом присоединенной точки, и вес его (количество объектов, входящих в данный кластер) увеличивается на единицу. Если встречаются два или более минимальных расстояния, то i-й объект присоединяют к центру с наименьшим порядковым номером. На следующем шаге выбираем точку Xi+1, и для нее повторяются все процедуры. Таким образом, через (n k) шагов все точки (объекты) совокупности окажутся отнесенными к одному из k кластеров, но на этом процесс разбиения не заканчивается. Для того чтобы добиться устойчивости разбиения по тому же правилу, все точки X1, X2,..., Xn опять подсоединяются к полученным кластером, при этом веса продолжают накапливаться. Новое разбиение сравнивается с предыдущим. Если они совпадают, то работа алгоритма завершается. В противном случае цикл повторяется. Окончательное разбиение имеет центры тяжести, которые не совпадают с эталонами, их можно обозначить С1, C2,..., Ск. При этом каждая точка Xi (i = 1,2, …,n ) будет относиться к такому кластеру (классу) l, для которого расстояние минимально.

Возможны две модификации метода k-средних. Первая предполагает пересчет центра тяжести кластера после каждого изменения его состава, а вторая – лишь после того, как будет завершен просмотр всех данных. В обоих случаях итеративный алгоритм этого метода минимизирует дис-

21

Глава 1. Кластерный анализ в пакете STATISTICA

персию внутри каждого кластера, хотя в явном виде такой критерий оптимизации не используется.

Например, в рамках осуществления таможенных операций должностное лицо таможенных органов может на основании опыта предположить, что все импортные автомобили, идущие через данный таможенный пост, в основном попадают в три различные категории. Для проверки данной гипотезы необходимо определить, в самом ли деле кластерный анализ k-средних даст три кластера автомобилей, как ожидалось? Если это так, то средние различных мер физических параметров для каждого кластера будут давать количественный способ представления гипотез исследователя.

С вычислительной точки зрения можно рассматривать этот метод как дисперсионный анализ (ANOVA) «наоборот». Программа начинает с k случайно выбранных кластеров, а затем изменяет принадлежность объектов к ним, чтобы:

1)минимизировать изменчивость внутри кластеров и

2)максимизировать изменчивость между кластерами.

Данный способ аналогичен методу «ANOVA наоборот» в том смысле, что критерий значимости в методе ANOVA сравнивает межгрупповую изменчивость с внутригрупповой при проверке гипотезы о том, что средние в группах отличаются друг от друга. В кластеризации методом k- средних программа перемещает объекты (т.е. наблюдения) из одних групп (кластеров) в другие для того, чтобы получить наиболее значимый результат в соответствии с критерием ANOVA. Результаты ANOVA являются частью стандартного вывода кластерного анализа k-средними.

Модуль кластерного анализа в программе STATISTICA включает ре-

ализацию трех методов: кластеризацию методом k-средних, иерархиче-

скую кластеризацию (объединение, древовидная кластеризация) и двухвходовую кластеризацию. Программа может использовать как обычный файл исходных данных, так и матрицу расстояний.

22

1.5. Расстояния между кластерами

Пользователь может кластеризовать наблюдения, переменные или и те, и другие вместе с помощью следующего набора мер расстояния: евкли-

дово, квадрат евклидова, манхэттенское, Чебышева, степенных расстояний, процента несовпадений, коэффициентов корреляции.

Правила объединения или связи, применяемые для иерархической древовидной кластеризации, это: простое связывание, полное связывание, правила взвешенного и невзвешенного группового среднего, взвешенного

иневзвешенного центроида и метод Варда.

Вдополнение к стандартным результатам кластерного анализа в модуле доступен также разнообразный набор описательных статистик и расширенных диагностических методов (т.е. полный каталог объединений с пороговыми уровнями при иерархической кластеризации и таблицы при кластеризации k-средними). Графические опции модуля Кластерный анализ включают древовидные диаграммы или дендрограммы (горизонталь-

ные древовидные диаграммы и вертикальные древовидные диаграммы),

двухвходовые диаграммы объединения (контурные диаграммы), диаграммы средних при кластеризации методом k-средних, таблицы объединения, а также большой набор описательных графиков (которые могут помочь в интерпретации результатов).

1.6. Альтернативные процедуры кластерному анализу

Альтернативным кластерному анализу методом определения структуры и анализа данных является факторный анализ, моделирование структурных уравнений и подтверждающий факторный анализ (SEPATH), многомерное шкалирование и анализ дискриминантных функций.

Кластерный анализ в сравнении с факторным анализом. В фак-

торном анализе предполагается, что данные измерены в интервальной шкале и распределены в соответствии с (многомерным) нормальным распределением. Факторный анализ использует зависимости между перемен-

23

Глава 1. Кластерный анализ в пакете STATISTICA

ными (т.е. сходство по изменению переменных в пределах объектов) для идентификации скрытых размерностей. Эти размерности могут рассматриваться как «скрытые» (латентные) переменные, коррелированные с наблюденными измерениями. Методы кластерного анализа, такие как метод объединения (древовидной кластеризации), могут быть применены независимо от того, какие меры расстояния используются. Нет строгих требований, относящихся к скрытым распределениям или масштабу измерений. Таким образом, кластеры являются по своей природе чисто описательными объектами. Метод не дает статистических выводов относительно скрытых переменных (тем не менее, отметим, что можно поспорить о том, что анализ главных компонент, в отличие от факторного анализа, является только описательным методом сокращения данных).

Кластерный анализ в сравнении с многомерным шкалировани-

ем (MDS).

Многомерное шкалирование сходно с факторным анализом интерпретацией результатов. Целью многомерного шкалирования является нахождение пространства меньшей размерности, чем имеют объекты, представленные для анализа, на основе расстояний между объектами или сходства между ними. Однако, подобно методам кластерного анализа, многомерное шкалирование является также алгоритмом классификации в том смысле, что этот метод передвигает итеративно объекты для того, чтобы дать их лучшее представление (т.е. их расстояния) в k-мерном пространстве. Также как и в факторном анализе, окончательные размерности могут считаться скрытыми (латентными) переменными, в которые заключена общая «существенная часть» всех переменных.

Кластерный анализ в сравнении с дискриминантным анализом.

На первый взгляд кажется, что дискриминантный анализ имеет некоторое сходство с методом k-средних, в действительности эти методы чрезвычайно различны по своей природе и интерпретации. В дискриминантном анализе вы знаете заранее, к какой совокупности (кластеру) принадлежит

24

1.6. Альтернативные процедуры кластерному анализу

каждое наблюдение. Целью анализа является определение, какая переменная или комбинация переменных лучше разделяет эти совокупности. В кластерном анализе k-средними вы не знаете априори, к какому классу принадлежит объект, и даже не имеете уверенности в происхождении кластеров (и даже в их числе), на которые могут быть разбиты данные. Поэтому цель кластеризации методом k-средних – установить, попадают ли объекты в кластеры, в то время как анализ дискриминантных функций предполагает априорное знание числа совокупностей и принадлежности каждого наблюдения к определенной совокупности (однако это частное различие становится туманным, когда анализ дискриминантных функций используется строго для классификации неклассифицированных образцов с использованием ранее оцененной дискриминантной функции).

1.7. Пример применения кластерного анализа

Рассмотрим выборку поставок столовой посуды (код ТН ВЭД 6911100000), прошедшей через таможенный пост. Для каждой поставки были записаны следующие данные:

вес нетто (кг);

вес брутто (кг);

таможенная стоимость товара (доллары США);

получатель товара (ИНН).

Возникает вопрос: формируют ли эти поставки «естественные» кла-

стеры, которые могут быть осмыслены? Сначала выполним для этих данных процедуры объединения (древовидная кластеризация).

Исходные данные представлены на рис. 1.4, стандартизированные – на рис. 1.5.

25

Глава 1. Кластерный анализ в пакете STATISTICA

Рис. 1.4. Исходные данные по поставкам столовой посуды

После стандартизации данных выбираем метод анализа – кластерный анализ (рис. 1.6).

В появившемся окне выбираем команду Объединение (древовидная кластеризация) – Joining (Tree clustering) и нажимаем на кнопку ОК в

окне диалога Методы кластеризации (рис. 1.7).

Затем нажмем на кнопку Переменные в стартовой панели Кластер-

ный анализ: объединение (древовидная кластеризация) и выберем все пе-

ременные.

26

1.7. Пример применения кластерного анализа

Рис. 1.5. Стандартизированные данные по поставкам столовой посуды

Рис. 1.6. Выбор кластерного анализа

27

Глава 1. Кластерный анализ в пакете STATISTICA

Рис. 1.7. Выбор метода кластерного анализа

В поле Cluster (Кластер) (рис. 1.8) задается направление классификации. При кластеризации самих переменных помечаются Variables [Columns] (Переменные [столбцы]), в данной задаче Cases [rows] (Наблюдения [строки]).

Строка Amalgamation [linkage] rule (Правило объединения [связи]) содержит установки для выбора следующих мер сходства:

Single Linkage (Метод одиночной связи «принцип ближайшего соседа»).

Complete Linkage (Метод полной связи «принцип дальнего соседа»).

Unweighted pair-group average (Невзвешенное попарное среднее).

Weighted pair-group average (Взвешенное попарное среднее).

Unweighted pair-group centroid (Невзвешенный центроидный ме-

тод).

Weighted pair-group centroid (Взвешенный центроидный метод).

Ward's method (Метод Варда).

Выберем кластеризацию автомобилей (наблюдений) на основе различных переменных. По умолчанию в поле Кластер (Cluster) выбрана установка Переменные (столбцы). Нам необходимо изменить эту установку. В зависимости от имеющегося у исследователя вопроса, можно класте-

28

1.7. Пример применения кластерного анализа

ризовать наблюдения в одну систему, а переменные – в другую. Например, мы можем интересоваться, формируют или нет измерения (переменные) характеристик автомобиля естественные кластеры. Однако в данный момент мы хотели бы знать, формируют ли автомобили (наблюдения) кластеры, и поэтому необходимо установить поле таким образом, чтобы оно содержало Наблюдения (строки) – Cases (rows). Установим также поле

Правило объединения (связи) – Amalgamation (linkage) rule на Метод пол-

ной связи – Complete Linkage (рис. 1.8).

Рис. 1.8. Выбор параметров кластерного анализа

Почему мы так выбрали? Вспомним, что метод древовидной кластеризации последовательно свяжет вместе объекты с возрастающими различиями или расстояниями. Имеются различные способы вычисления расстояний. Наиболее прямой путь вычисления расстояния – рассматривать k переменных как размерности, образующие k-мерное пространство. Если имеется три переменных, тогда они сформируют трехмерное пространство. Евклидово расстояние в этом случае было бы тем же самым, как если бы мы измеряли расстояние с помощью рулетки. Возьмем меру Евклидово расстояние.

29

Глава 1. Кластерный анализ в пакете STATISTICA

Другой вопрос древовидной кластеризации состоит в том, как определить расстояния между кластерами. Будем ли мы использовать метод ближайших соседей в различных кластерах, наиболее удаленных или некоторую более сложную меру? Методом по умолчанию – одиночная связь – является правило «ближайшего соседа». Поэтому, когда выполняется процедура формирования все больших и больших кластеров из все менее и менее сходных объектов (автомобилей), то расстояние между этими кластерами определяется ближайшими объектами из них. Иными словами, в каждом кластере имеется по одному представителю, расстояние между которыми принимается за расстояние между кластерами. Интуитивно ясно, что может случиться так, что ваш результат будет состоять из «волокнистых» кластеров, так как будет соединять вместе кластеры, основываясь только на положении отдельных элементов. В качестве альтернативы мы можем выбрать правило полной связи. В этом случае расстояние между двумя кластерами определяется расстоянием между двумя наиболее удаленными соседями. В результате будут получены более «бугорчатые» кластеры. Простое правило связи приводит фактически скорее к волокнистым

инеразличимым кластерам (рис. 1.3).

Вокошке Distance measure (Мера расстояния) (рис. 1.8) предлагаются различные виды расстояний:

Squared Euclidean distances (квадрат Евклидова расстояния)

Euclidean distances (Евклидово расстояние)

City-block (Manhattan) distance (Расстояние городских квар-

талов (Манхэттенское расстояние))

Chebychev distance metric (Расстояние Чебышева)

Power: SUM(ABS(x-y)**p)**1/r (Степенное расстояние)

Percent disagreement (Процент несогласия)

Вмодуле Cluster Analysis (Кластерный анализ) предусмотрено два способа обработки некомплектных наблюдений, содержащих пропуски хотя бы одной переменной:

30

Соседние файлы в папке книги2