
- •IV. Многомерные статистические методы
- •Тема 11. Кластерный анализ
- •11.1. Постановка задачи кластерного анализа и общая схема процедуры его применения в психологическом исследовании
- •11.2. Классификация методов кластерного анализа по измерительным шкалам, направлению кластеризации и используемой метрике
- •Примеры мер различия и сходства, используемых в кластерном анализе эмпирических данных
- •11.3. Классификация методов кластерного анализа по глобальным стратегиям кластеризации
- •11.4. Классификация иерархических агломеративных методов кластерного анализа по способам определения межкластерных расстояний
- •11.5. Применение методов кластерного анализа в психологических исследованиях
- •Определить: на какие группы можно разделить претендентов по признаку сходства показанных ими результатов.
- •Определить: Изменятся ли результаты решения задачи 11.5-4, если вместо меры Жаккара использовать обычную евклидову метрику (и, соответственно, не выполнять дихотомизацию исходных признаков)?
- •Вопросы для самопроверки по теме 11
- •Рекомендуемая литература по теме 11
11.3. Классификация методов кластерного анализа по глобальным стратегиям кластеризации
После того, как построено метрическое пространство, последующая часть процедуры кластерного анализа достаточно автономна: здесь уже неважно, как именно задавалась метрика и что именно (объекты или признаки) представлялось в виде точек пространства; главное, что к этому этапу построена матрица попарных расстояний (или попарных мер сходства) между представленными в виде точек многомерного пространства эмпирическими данными, с которой предстоит работать на последующих этапах кластерного анализа.
Однако здесь исследователю предстоит решить не менее принципиальный вопрос о выборе глобальной стратегии кластеризации, то есть основного принципа ее осуществления.
Вопрос о классификации методов кластерного анализа является весьма непростым: различные классификации предложены А.А.Дорофеюком, С.А.Айвазяном и др., Н.Г.Загоруйко, Б.Г.Миркиным, Дж.Гудом (I.J.Good), Р.Кормаком (R.M.Cormak), Дж.Хартиганом (J.A.Hartigan) (ссылки на источники имеются в [4. С.39]) и другими авторами. Так, Болл (G.H.Ball) разделяет все методы поиска кластеров на семь классов (цит. по [2. С.101]), а И.Д.Мандель приводит подробную «фасетную» классификацию [4. С.36-166]. Тем не менее, учитывая ориентированность нашего пособия на практическое применение статистических методов в психологии, приведем классификацию методов кластерного анализа (взяв за основу классификацию, предложенную И.Гайдышевым [17. C.363]), пусть несколько упрощенную и не вполне исчерпывающую, но достаточную для того, чтобы сориентировать читателя в необъятном море разработанных на сегодняшний день методов и алгоритмов кластеризации.
Итак, по глобальным стратегиям кластеризации могут быть выделены следующие наиболее часто применяемые в психологических исследованиях классы методов:
иерархические методы,
итеративные методы группировки,
методы, использующие алгоритмы типа разрезания графа.
В рамках пособия при решении задач мы будем применять только методы из первых двух классов (иерархические и итеративные), и поэтому сосредоточим на них основное внимание при дальнейшем изложении теоретического материала. Однако в психологических исследованиях иногда применяются и специфические методы третьего класса: метод корреляционных плеяд, разработанный русским гидробиологом П.В.Терентьевым; «вроцлавская таксономия» и др. Подробнее с подобными методами можно ознакомиться в [4; 9. С.415-417; 17. C.381-386].
В иерархических методах выстраивается «дерево» кластеров, то есть для полученных окончательных кластеров можно проследить «историю» их постепенного формирования путем объединения или разъединения первоначально существовавших кластеров (например, отдельных точек метрического пространства данных).
В итеративных методах разбиение на кластеры получается из некоторого начального разбиения способом последовательных перерасчетов (приближений, итераций).
Как иерархические, так и итеративные методы кластеризации, в свою очередь, часто подразделяют на дивизивные (разделительные) и агломеративные (объединительные). Для исследователя-психолога именно это деление является, по-видимому, основным, так как отражает желаемый результат применения кластерного анализа, а не его технологию (итеративное или «прямое» построение кластеров).
В дивизивных иерархических методах множество исходных данных первоначально представляется как один кластер, который затем разделяется на некоторое (часто заранее заданное) количество кластеров. Процесс кластеризации заканчивается, когда получено разделение исходного множества данных на заданное число кластеров при определенном удовлетворяющем исследователя качестве разделения.
На практике среди дивизивных чаще применяют не иерархические, а итеративные методы. В дивизивных итеративных методах также ведется разделение исходной совокупности точек на кластеры, но при этом иногда заранее выделяют некоторое количество так называемых «эталонных» кластеров, к которым постепенно присоединяются все оставшиеся эмпирические точки пространства данных. Процесс кластеризации также заканчивается, когда получено удовлетворительное качество разбиения. Популярным примером подобных методов является метод k-средних, который будет рассмотрен нами подробнее при решении соответствующих задач. При этом необходимо отметить, что вопрос о выборе критериев качества разбиения на кластеры является весьма сложным, объемным и рассматривается во многих работах: см., например, [2; 4; 5; 9].
Среди агломеративных методов, напротив, на практике чаще используют не итеративные, а иерархические (хотя существует множество и тех, и других). В агломеративных иерархических методах, каждый элемент (результат измерения) эмпирической выборки первоначально представляется отдельным кластером. Затем эти кластеры начинают объединять; при этом на каждом шаге кластеризации объединяются наиболее близкие друг к другу кластеры. Новые полученные образования представляют собой кластеры более высокого уровня в иерархии кластеров, именно поэтому такие методы часто называют методами иерархической кластеризации. Процесс кластеризации обязательно заканчивается за конечное число шагов, так как в итоге все данные оказываются объединенными в один-единственный кластер, совпадающий со всей исходной эмпирической выборкой.
Таким образом, в агломеративных методах кластеризация начинается с множества одноэлементных кластеров, соответствующих отдельным эмпирическим данным, а заканчивается получением одного глобального общего кластера. В дивизивных методах все происходит в обратном порядке: один общий глобальный кластер, соответствующий всей эмпирической выборке, постепенно разделяется на все большее число более мелких кластеров. Предельные ограничения этого процесса задает количество элементов в исходной выборке: действительно, максимальное количество отдельных кластеров не может превосходить количества элементов в этой выборке. Однако чаще исследователь сам задает количество кластеров, на которые надо разделить выборку, исходя из каких-либо дополнительных соображений, диктуемых особенностями постановки исследования.