
- •Часть I. Методы многомерной классификации Пункт 1. Вводный пример
- •Пункт 2. Формы записи исходных статистических данных (исд) Рассмотрим 2 основные формы записи исд:
- •Пункт 3. Задачи классификации
- •Пункт4. Кластер-анализ. Расстояния и меры близости между объектами и кластерами
- •§4.1 Расстояния и меры близости между объектами
- •Обобщенное (взвешенное) расстояние Махаланобиса.
- •Обычное евклидово расстояние
- •Взвешенное евклидово расстояние
- •§4.2 Расстояния между классами объектов
- •3. Расстояние, измеряемое по «центрам тяжести» групп:
- •4. Расстояние, измеряемое по принципу «средней связи»:
- •§4.3 Расстояние между кластерами при вероятно-статистическом подходе
- •Понятие порога
- •Пункт 5. Функционалы качества разбиения на классы и экстремальная постановка задачи кластер-анализа §5.1 Функционалы качества разбиения при заданном числе классов
- •Сумма (взвешенная сумма) внутриклассовых дисперсий
- •Обобщенная внутриклассовая дисперсия
- •§5.2 Функционалы качества разбиения при неизвестном числе классов
- •Пункт 6. Основные типы задач кластер - анализа и основные типы кластер -процедур Типы задач:
- •Три основных типа кластер процедур:
- •Пункт7. Дискриминантный анализ. Классификация при наличии обучающих выборок §7.1 Функция потерь и вероятность неправильной классификации
- •§7.3 Параметрический дискриминантный анализ, в случае нормальных классов
- •Пункт 8. Расщепление смеси вероятностных распределений
Пункт4. Кластер-анализ. Расстояния и меры близости между объектами и кластерами
Наиболее
трудным и наименее формализованным в
задаче кластер-анализа является момент,
связанный с понятием однородности
объектов. В общем случае однородность
объектов определяется задание правила
вычисления величины
,
характеризующее либо «расстояние» dij
= d(Oi,
Oj),
либо степенью «близости» (сходства) sij
= s(Oi,
Oj).
Если задана функция d(Oi, Oj), то «близкие» в этом смысле объекты считаются однородными (т.е. принадлежащие одному классу). При этом возможно сопоставление величин dij с некоторым пороговым значением, определяемым в каждом конкретном случае.
При задании dij и sij следует помнить о соблюдении следующих естественных требований:
Требование симметрии:
Т
ребование максимального сходства объекта с самим собой: sii =
sij
Требование монотонного убывания по, т.е.
Каждый
объект Оi
представлен вектором признаков Xi
= (
(2.5).
В дальнейшем будем писать вместо d(Oi,
Oj)
- d(Xi,
Xj),
вместо s(Oi,
Oj)
пишем s(Xi,
Xj)
Таким образом, задача разбиения множества объектов {О1,…,On} на кластеры сводится к задаче разбиения множества векторов Х = {X1,…, Xn) на кластеры, где Xi задается (2.5)
§4.1 Расстояния и меры близости между объектами
Обобщенное (взвешенное) расстояние Махаланобиса.
(4.1)
при
вероятостно-статистическом подходе
-
ковариация матрицы генеральной
совокупности, из которой извлекаются
наблюдения Xi
(2.5), а
- некоторая симметрическая неотрицательно
определенная матрица весовых коэффициентов.
Следующие три вида расстояний являются частным случаем указанного
Обычное евклидово расстояние
(4.2)
применяется:
наблюдения берутся из нормальной генеральной совокупности
компоненты вектора Х однородны по физическому смыслу и одинаково важны для классификации
признаковое пространство совпадает с геометрическим
Забегая вперед, введем понятие нормировки, чтобы добиться однородности признаков.
,
где
- среднее арифметическое к-го признака
Взвешенное евклидово расстояние
(4.3)
wk – вес, определяется пропорционально степени важности признака. Экспертные оценки.
Обычно
принимают
Хеммингово расстояние:
(4.4)
Используется как мера различия объектов, задаваемых дихдомическими признаками, т.е. когда Хi – p-мерные двоичные векторы. Тогда dH – число несовпадений значений признаков в рассматриваемых i и j объекта.
Менее подробно о способах задания мер близости между объектами
Если заданы расстояния dij = d(Oi, Oj) = d(Xi, Xj) между объектами вида (4.1)-(4.3), то соответствующие меры близости (сходства) можно определить как
,
где a
= const,
a>0
В
качестве а можно принять среднее значение
расстояния dij
Очевидно, что при этом sij
Мера сходства объектов по бинарным признакам можно определить как
,
p –
число
признаков.
§4.2 Расстояния между классами объектов
При создании различных процедур классификации (кластер-процедур), в ряде случаев возникает необходимость введения понятие расстояния между целыми группами объектов (кластерами).
Приведем примеры наиболее часто используемых расстояний, характеризующих взаимное расположение отдельных групп объектов.
Как и ранее мы отождествляем объект Оi и вектор признаков Xi (2.5), ему соответствующий. Тогда разбиение множества {О1,…,On} сводится к разбиению векторов {Х1,…,Хn} = Х.
Пусть мы имеем одно из таких разбиений
,
где
-
вектор средних арифметических компонент
векторов, входящих в Sm
1. Расстояние, измеряемое по принципу «ближнего соседа»:
(4.5)
2. Расстояние, измеряемое по принципу «дальнего соседа»:
(4.6)