- •10. Кластерный анализ
- •10.1 Процедура кластерного анализа
- •10.1.1 Основные понятия.
- •10.1.2 Характеристики кластера
- •10.1.3 Оценка качества кластеризации
- •10.1.4 Области применения кластерного анализа
- •10.2 Исходные данные для процедуры кластерного анализа
- •10.3 Меры расстояния и сходства между объектами
- •3. Квадрат евклидова расстояния.
- •10.4 Меры расстояния и сходства между кластерами. Методы объединения кластеров
- •10.5 Методы кластерного анализа
- •10.5.1 Иерархические методы кластерного анализа
- •10.5.2 Неиерархические методы кластерного анализа. Итеративные методы
- •10.5.3 Алгоритм k-средних (k-means)
- •Кластеризация осуществляется по следующему алгоритму:
- •10.5.3 Определение количества кластеров
- •10.6 Этапы процесса кластеризации
- •10.7 Сравнительный анализ иерархических и неиерархических методов кластеризации
- •10.8 Иерархический кластерный анализ в spss
10.3 Меры расстояния и сходства между объектами
Обычно исходные данные представляют в виде матрицы измеренных значений признаков для рассматриваемых объектов
.
В то же время большинство алгоритмов кластерного анализа основывается на исследовании матрицы расстояний. Поэтому первым этапом решения задачи кластеризации является выбор способа вычисления расстояний между объектами или признаками.
Наиболее
трудным и наименее формализованным в
задаче классификации является определение
понятия однородности объектов. В общем
случае понятие однородности объектов
задается введением либо правила
вычисления расстояний
между любой парой исследуемых объектов
из совокупности, либо некоторой функцией
,
характеризующей степень близостиi-го
и j-го
объектов.
Выбор
метрики, или меры близости, является
нетривиальным и одним из основных
моментом исследования, от которого в
значительной степени зависит окончательный
вариант разбиения объектов на классы
при данном алгоритме разбиения.
В каждом конкретном случае этот выбор
должен производиться по-своему, в
зависимости от целей исследования,
физической и статистической природы
наблюдений, априорных сведений о
характере вероятностного распределения
.
Для метрических величин наиболее часто используют:
1.
Обычное евклидово расстояние
между
-тым
и
-тым
объектами определяется по формуле
![]()
где
—
значения
-го
признака
-того
и
-того
объектов (
;
).
Оно используется в следующих случаях:
- наблюдения берутся из генеральной совокупности, имеющей многомерное нормальное распределение, т.е. исходные признаки взаимно независимы и имеют близкие значения дисперсий;
- исходные признаки однородны по физическому смыслу и одинаково важны для классификации.
2. «Взвешенное» евклидово расстояние определяется из выражения
![]()
Оно
применяется в тех случаях, когда каждой
-ой
компоненте вектора (
-тому
признаку) наблюдений
удается приписать некоторый «вес»
,
пропорциональный степени важности
признака в задаче классификации.
Определение весов связано с дополнительными
исследованиями, например с организацией
опроса экспертов и обработкой их мнений.
Определение весов только по данным
выборки может привести к ложным выводам.
3. Квадрат евклидова расстояния.
![]()
Для придания больших весов расстояниям между более отдаленными друг от друга объектами можем воспользоваться квадратом евклидова расстояния.
4. Манхэттенское расстояние (расстояние городских кварталов), также называемое "хэмминговым" или "сити-блок" расстоянием. Это расстояние рассчитывается как сумма разностей по координатам (путь, который должен преодолеть Манхэттенский таксист, чтобы проехать от одного дома к другому по улицам, пересекающимся под прямым углом). В большинстве случаев эта мера расстояния приводит к результатам, подобным расчетам расстояния евклидова расстояния. Однако при использовании этой меры влияние отдельных выбросов меньше, чем при использовании евклидова расстояния, поскольку здесь координаты не возводятся в квадрат.
Часто используется как мера различия объектов, задаваемых дихотомическими признаками. Это расстояние определяется по формуле
.
Если
все признаки дихотомические, то оно
равно числу несовпадений значений
соответствующих признаков в рассматриваемых
-том
и
-том
объектах.
3. Расстояние Чебышева. Это расстояние стоит использовать, когда необходимо определить два объекта как "различные", если они отличаются по какому-то одному измерению. Расстоянием между двумя наблюдениями является абсолютное значение максимальной разности последовательных пар переменных, соответствующих этим наблюдениям.
4. Расстояние Минковского равно корню r-ой степени из суммы абсолютных разностей пар значений взятых в r-ой степени:

Показатель
можно выбрать в пределах от 1 до 4. Если
,
то получим евклидово расстояние.
5. Это
обобщенный вариант расстояния Минковского.
Это
расстояние, называемое также степенным
расстоянием, равно корню
-ой
степени из суммы абсолютных разностей
пар значений взятой в
-ой
степени:
,
где
и
могут
принимать значения
от 1 до 4.
Для данных, измеренных по номинальной шкале, используются:
1. Процент несогласия. Это расстояние вычисляется, если все данные являются категориальными.
![]()
Например, первый признак объекта – пол, второй – возрастная группа, третий – должность. Представим значения свойств (признаков) объекта в виде вектора значений. Первый вектор – (муж, 20 лет, учитель), второй вектор – (муж, 28 лет, менеджер). Процент несогласия равен 2/3. Эти вектора различаются на 66.6%.
2. Мера хи-квадрат. Для того чтобы найти расстояние между двумя наблюдениями, сравнивают частоты выпадения переменных, относящихся к этим наблюдениям. Квадратный корень из значения хи-квадрат будет применяться в качестве дистанционной меры (меры сходства).
3. Мера фи-квадрат. Эта мера представляет собой попытку нормализации меры хи-квадрат. Для этого она делится на квадратный корень общей суммы частот.
Бинарные переменные. Здесь, как правило, речь идёт о переменных, которые указывают на факт осуществления некоторого события или выполнения определённого критерия. Это обстоятельство должно быть закодировано при помощи двух численных значений.
Если сопоставить друг с другом две переменные, то все возможные сочетания наблюдений дают четыре различные частоты (таблица сопряженности): На основании этих частот, можно рассчитать множество различных дистанционных мер, например:
квадрат евклидового расстояния - бинарное евклидово расстояние, возведенное в квадрат, представляет собой количество наблюдений, для которых, по крайней мере, один из критериев присутствует и один отсутствует;
эвклидово расстояние - бинарное евклидово расстояние представляет собой корень из числа наблюдений, для которых, по крайней мере, один из критериев присутствует и один отсутствует.
