- •Часть I. Методы многомерной классификации Пункт 1. Вводный пример
- •Пункт 2. Формы записи исходных статистических данных (исд) Рассмотрим 2 основные формы записи исд:
- •Пункт 3. Задачи классификации
- •Пункт4. Кластер-анализ. Расстояния и меры близости между объектами и кластерами
- •§4.1 Расстояния и меры близости между объектами
- •Обобщенное (взвешенное) расстояние Махаланобиса.
- •Обычное евклидово расстояние
- •Взвешенное евклидово расстояние
- •§4.2 Расстояния между классами объектов
- •3. Расстояние, измеряемое по «центрам тяжести» групп:
- •4. Расстояние, измеряемое по принципу «средней связи»:
- •§4.3 Расстояние между кластерами при вероятно-статистическом подходе
- •Понятие порога
- •Пункт 5. Функционалы качества разбиения на классы и экстремальная постановка задачи кластер-анализа §5.1 Функционалы качества разбиения при заданном числе классов
- •Сумма (взвешенная сумма) внутриклассовых дисперсий
- •Обобщенная внутриклассовая дисперсия
- •§5.2 Функционалы качества разбиения при неизвестном числе классов
- •Пункт 6. Основные типы задач кластер - анализа и основные типы кластер -процедур Типы задач:
- •Три основных типа кластер процедур:
- •Пункт7. Дискриминантный анализ. Классификация при наличии обучающих выборок §7.1 Функция потерь и вероятность неправильной классификации
- •§7.3 Параметрический дискриминантный анализ, в случае нормальных классов
- •Пункт 8. Расщепление смеси вероятностных распределений
Понятие порога
Под порогом обычно подразумевается выбранное заранее число, с которым сравнивают расстояние или меры близости между объектами или кластерами для того, чтобы решить можно ли отнести два объекта (либо объект и класс, или два класса) к одному классу.
Пункт 5. Функционалы качества разбиения на классы и экстремальная постановка задачи кластер-анализа §5.1 Функционалы качества разбиения при заданном числе классов
Пусть задана метрика d в пространстве признаков П (р).Пусть X={X1,..,Xn}- множество наблюдений, а S=(S1,..,Sk), X=S1…Sk и S=(S1,..,Sk), X=S1Sk – два некоторых фиксированных разбиения множества наблюдений X на заданное число классов К.
Естественно попытаться сравнить качество разбиения на заданное число классов.
Для этого вводится некоторый функционал качества - числовая функция Q(S), аргументом которой является разбиение S.
Тогда под наилучшем разбиением S*=(S*,..,S*) естественно понимать разбиение X=S*1S*k на котором достигается экстремум выбранного функционала качества.
Q (S)extr (min или max)
Приведем
примеры некоторых используемых
функционалов качества.
Сумма (взвешенная сумма) внутриклассовых дисперсий
Сумма (взвешенная сумма) квадратов внутриклассовых расстояний между объектами (наблюдениями):
Обобщенная внутриклассовая дисперсия
Другой вариант использования обобщенной дисперсии:
Функционалы Q3 (S) и Q3(S) используются, в частности, в случаях, когда есть основания полагать, что многомерные наблюдения X1, X2,..., Xn сосредоточены в пространстве размерности p.
§5.2 Функционалы качества разбиения при неизвестном числе классов
Пусть исследование заранее не известно на какое число классов подразделяются многомерные наблюдения X1, X2,..., Xn. В этой ситуации функционалы качества разбиения Q (S) выбираются в виде алгебраической комбинации (суммы, произведения и т д.) двух функционалов Y1 (S) и Y2 (S), один из которых Y1 (S) является убывающей (не возрастающей) функцией числа классов К и характеризует, вообще говоря, внутриклассовой разброс наблюдений, а второй Y2 (S) является возрастающей (неубывающей) функцией числа классов К. Интерпретация функционала Y2 (S) может быть различной. Идея рассмотрения двух функционалов реализуется, например, в следующем методе, основанном на методе, предложенный А.Н.Колмогоровым. Эта схема опирается на понятие меры концентрации Zr(S) точек , соответствующую разбиению S=(S1,..,Sk), и на
понятии средней меры внутриклассового расстояния Y (k)r(S).
(5.1)
V (Xi)- число элементов в кластере, содержащем Xi
r – числовой параметр, выбираемый исследователем.
Если XiSj, то V(Xi)=nj. (5.2)
В частности, можно показать, что при r =-1 из (5.1) Z-1(S)=1/k, где k- число кластеров.
Действительно,
Тогда
Далее при r =0, для Z0 (S)=lim Zr (S) при r0, имеем
- информационная мера концентрации.
Это следует из п.4.2, где указано, что
Поэтому в силу (5.2)
Аналогично,
можно показать, что в силу п.4.2 и (5.2)
Отметим, что при объединении двух кластеров, т е. при переходе от разбиения S=S1SmSqSk (к- слогаемых) к разбиению S=S1(SmSq)Sk (к-1 слогаемых), объединение кластеров Sm и Sq дает прирост меры концентрации Z1(S).
Замечание: r мера концентрации Zr(S) задаваемая (5.1) имеет минимальное значение, равное 1/n, при разбиении множества X на n одноэлементных кластеров.
Средняя мера внутриклассного рассеяния также основывается на понятии степенного среднего
(5.3)
– обобщенная мера рассеяния, характеризующая класс Sl , параметр r выбирает исследователь.
Можно показать, что
S (Xi)- кластер, содержащий Xi
Экстремальная задача формулируется следующим образом: требуется найти такое разбиение S*, для которого достигала бы экстремума какая-нибудь алгебраическая комбинация Y1 (S) и Y2 (S).
Например:
,- некоторые константы (например ==1).
-задаётся формулами . (5.3) и (5.1) соответственно.
Подведя итог изложенному выше, отметим, что выбор того или иного функционала качества осуществляется весьма произвольно и опирается на эмпирические и прогрессивно-интуитивные соображения, а не на какую-либо формализованную систему.
