![](/user_photo/2706_HbeT2.jpg)
- •10. Кластерный анализ
- •10.1 Процедура кластерного анализа
- •10.1.1 Основные понятия.
- •10.1.2 Характеристики кластера
- •10.1.3 Оценка качества кластеризации
- •10.1.4 Области применения кластерного анализа
- •10.2 Исходные данные для процедуры кластерного анализа
- •10.3 Меры расстояния и сходства между объектами
- •3. Квадрат евклидова расстояния.
- •10.4 Меры расстояния и сходства между кластерами. Методы объединения кластеров
- •10.5 Методы кластерного анализа
- •10.5.1 Иерархические методы кластерного анализа
- •10.5.2 Неиерархические методы кластерного анализа. Итеративные методы
- •10.5.3 Алгоритм k-средних (k-means)
- •Кластеризация осуществляется по следующему алгоритму:
- •10.5.3 Определение количества кластеров
- •10.6 Этапы процесса кластеризации
- •10.7 Сравнительный анализ иерархических и неиерархических методов кластеризации
- •10.8 Иерархический кластерный анализ в spss
10.1.3 Оценка качества кластеризации
Оценка качества кластеризации может быть проведена на основе следующих процедур:
установление контрольных точек и проверка на полученных кластерах;
определение стабильности кластеризации путем добавления в модель новых переменных;
создание и сравнение кластеров с использованием различных методов. Разные методы кластеризации могут создавать разные кластеры, и это является нормальным явлением. Однако создание схожих кластеров различными методами указывает на правильность кластеризации;
создание и сравнение кластеров на основании выборок из совокупности (при большом количестве объектов).
10.1.4 Области применения кластерного анализа
Кластерный анализ применяется в различных областях, если нужно классифицировать большое количество информации, при этом априорная информация о существовании групп отсутствует. Так, в медицине используется кластеризация заболеваний, лечения заболеваний или их симптомов, а также таксономия пациентов, препаратов и т.д. В археологии устанавливаются таксономии каменных сооружений и древних объектов и т.д.
В маркетинге это может быть задача сегментации конкурентов и потребителей, поставщиков, товаров. Одной из наиболее важных задач при применении кластерного анализа в маркетинговых исследованиях является анализ поведения потребителя, а именно: группировка потребителей в однородные классы для получения максимально полного представления о поведении клиента из каждой группы и о факторах, влияющих на его поведение. Важной задачей, которую может решить кластерный анализ, является позиционирование, т.е. определение ниши, в которой следует позиционировать новый продукт, предлагаемый на рынке. В результате применения кластерного анализа строится карта, по которой можно определить уровень конкуренции в различных сегментах рынка и соответствующие характеристики товара для возможности попадания в этот сегмент. С помощью анализа такой карты возможно определение новых, незанятых ниш на рынке, в которых можно предлагать существующие товары или разрабатывать новые.
Кластерный анализ также может быть удобен, например, для анализа клиентов компании. Для этого все клиенты группируются в кластеры, и для каждого кластера вырабатывается индивидуальная политика. Такой подход позволяет существенно сократить объекты анализа, и, в то же время, индивидуально подойти к каждой группе клиентов.
В менеджменте примером задачи кластеризации будет разбиение персонала на различные группы, классификация потребителей и поставщиков, выявление схожих производственных ситуаций, при которых возникает брак. В социологии задача кластеризации - разбиение респондентов на однородные группы.
10.2 Исходные данные для процедуры кластерного анализа
Допустим,
имеется набор данных
,
включающий несколько наблюдений, каждое
из которых характеризуется двумя
признаками
и
.
Данные по ним могут быть представлены
в виде диаграммы рассеивания (рис.
10.2.) Каждое наблюдение представляет
собой точку на плоскости.
Рис.
10.2 Диаграмма рассеивания переменных
и
.
Наблюдения
(объекты), которые по значениям
и
"похожи"
друг на друга, принадлежат к одной группе
(кластеру); объекты из разных кластеров
не похожи друг на друга.
Критерием для определения схожести и различия кластеров является расстояние между точками на диаграмме рассеивания. Существует несколько способов определения меры расстояния (или меры близости) между кластерами. Наиболее распространенный способ - вычисление евклидова расстояния между двумя точками. В двумерном признаковом пространстве оно определяется по формуле:
В пространстве трех измерений (такая ситуация представлена на рис. 10.3, формула приобретает вид:
Рис. 10.3. Расстояние между двумя точками в пространстве трех измерений
В общем случае переменные, характеризующие признаки, измеряются по разным шкалам и их численные значения могут существенно отличаться друг от друга. При расчете величины расстояния между точками, отражающими положение объектов в пространстве их свойств, переменная, имеющая большие значения, будет практически полностью доминировать над переменной с малыми значениями. Таким образом, из-за неоднородности единиц измерения признаков становится невозможно корректно рассчитать расстояния между точками.
Эта проблема решается при помощи предварительной стандартизации переменных. Стандартизация (standardization) или нормирование (normalization) приводит значения всех преобразованных переменных к единому диапазону значений путем выражения через отношение этих значений к некой величине, отражающей определенные свойства конкретного признака. Существуют различные способы нормирования исходных данных.
Наиболее распространенные способы:
центрирование и нормирование переменных
;
вычисление вклада или отношения переменных к среднему или максимальному значению
;
;
вычисление вклада или отношения разности между переменной и средним значением к размаху
.
Однако эта операция может привести к нежелательным последствиям. Если кластеры хорошо разделимы по одному признаку и не разделимы по другому, то после нормирования дискриминирующие возможности первого признака будут уменьшены в связи с усилением «шумового» эффекта второго.
Наряду со стандартизацией переменных, существует вариант придания каждой из них определенного коэффициента важности, или веса, который бы отражал значимость соответствующей переменной. В качестве весов могут выступать экспертные оценки, полученные в ходе опроса экспертов - специалистов предметной области. Полученные произведения нормированных переменных на соответствующие веса позволяют получать расстояния между точками в многомерном пространстве с учетом неодинакового веса переменных.
В ходе экспериментов возможно сравнение результатов, полученных с учетом экспертных оценок и без них, и выбор лучшего из них.