Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Истомин А.В. Анализ_данных.doc
Скачиваний:
3
Добавлен:
08.12.2018
Размер:
307.71 Кб
Скачать

6. Кластер-анализ

Существует большое количество методов и алгоритмов кластер анализа. Среди них выделяются две крупные группы, к которым относится большинство опубликованных алгоритмов. Это иерархические алгоритмы, порождающие древовидные классификации объектов, и алгоритмы, порождающие разбиения (группировки).

6.1. Иерархические алгоритмы

Среди иерархических алгоритмов можно выделить два основных класса – агломеративные и дивизимные. Это – пошаговые алгоритмы. Агломеративные алгоритмы начинают с того, что каждый объект является отдельным кластером, а заканчивают тем, что все кластеры объединяются в один объект. На каждом шаге производится объединение двух наиболее «близких» в некотором смысле кластеров. Близость между кластерами задаётся «расстоянием» либо мерой близости. Под «расстоянием» в данном случае понимается неотрицательная симметричная функция. Примеры таких функций будут рассмотрены ниже. В дивизимных же методах, наоборот, на первом шаге все объекты образуют один кластер, на последнем – каждый объект представляет отдельный кластер.

6.1.1. Агломеративные алгоритмы

Рассмотрим агломеративные методы, представленные в пакете Statistica for Windows. Для этого сначала определим функции, с помощью которых оцениваются расстояния между конечными подмножествами метрического пространства M.

Пусть множество описаний объектов S={S1,…,Sm} признаками X1(S),…,Xn(S) содержится в евклидовом пространстве En, так что для любой пары объектов Si, Sj из S определена метрика (расстояние) ρij= ρ(Si,Sj) и можно составить симметричную матрицу расстояний R=(ρij)mm. Приведём примеры функций двух переменных, значения которых играют в кластер-анализе роль расстояний между непересекающимися подмножествами, хотя, формально, эти функции не являются метриками. Пусть Al, AqS не имеют общих элементов, AlAq = . Тогда:

а) ρlq равно расстоянию между двумя ближайшими объектами множеств Al, Aq;.

б) ρlq равно расстоянию между самыми далекими объектами множеств Al, Aq;

в) ρlq равно расстоянию между центрами тяжести множеств Al, Aq (точек со средними

значениями всех показателей);

г) ρlq равно среднему арифметическому расстояний между объектами множеств Al, Aq;

д) ρlq равно расстоянию между точками с медианными значениями признаков для мно-

жеств Al, Aq;

е) ρlq равно сумме расстояний между элементами множеств Al, Aq.

ж) ρlq равно так называемому «статистическому расстоянию» (Дюран, Оделл, 1977) между

множествами Al, Aq:

.

Здесь – векторы средних значений признаков для подмножеств Al, Aq, T – знак транспонирования. Таким образом, «статистическое расстояние» между подмножествами Al, Aq представляет собой квадрат расстояния между векторами средних значений признаков (центрами тяжести) с коэффициентом mlmq/(ml+mq).

В иерархических агломеративных алгоритмах, основанных на вычислении «расстояний» между подмножествами Al, Aq вида (а-ж) и им подобных, на первом шаге каждый объект считается отдельным кластером. На следующем шаге объединяются два ближайших объекта, которые образуют новый класс, определяются «расстояния» от этого класса до всех остальных объектов. Матрица расстояний, соответственно, изменяется с учётом результатов кластеризации, включая уменьшение её размерности. На р-м шаге для кластеров и матрицы расстояний предыдущего шага Rp-1 повторяется та же процедура, пока все объекты не объединятся в один кластер. В отличие от R1=R, при p>1 элементами Rp являются не расстояния между объектами, а «расстояния» между кластерами.

Если сразу несколько объектов (либо кластеров) имеют минимальное «расстояние», то возможны две стратегии: выбрать одну случайную пару или объединить сразу все пары. Первый способ является классическим; иногда в литературе его называют восходящей иерархической классификацией. Второй способ используется гораздо реже.

Метод, основанный на вычислении «статистического расстояния» (см. п. (ж) выше) называется методом Уорда (Мандель, 1988) по имени предложившего его специалиста. Названия остальных методов определяются используемым в них расстоянием.

Результаты работы всех иерархических агломеративных процедур обычно оформляются в виде так называемой дендрограммы (см. рис. 1), в которой по горизонтали показаны номера объектов, а по вертикали – значения межкластерных расстояний ρlq, при которых произошло объединение двух кластеров.