- •Часть I. Методы многомерной классификации Пункт 1. Вводный пример
- •Пункт 2. Формы записи исходных статистических данных (исд) Рассмотрим 2 основные формы записи исд:
- •Пункт 3. Задачи классификации
- •Пункт4. Кластер-анализ. Расстояния и меры близости между объектами и кластерами
- •§4.1 Расстояния и меры близости между объектами
- •Обобщенное (взвешенное) расстояние Махаланобиса.
- •Обычное евклидово расстояние
- •Взвешенное евклидово расстояние
- •§4.2 Расстояния между классами объектов
- •3. Расстояние, измеряемое по «центрам тяжести» групп:
- •4. Расстояние, измеряемое по принципу «средней связи»:
- •§4.3 Расстояние между кластерами при вероятно-статистическом подходе
- •Понятие порога
- •Пункт 5. Функционалы качества разбиения на классы и экстремальная постановка задачи кластер-анализа §5.1 Функционалы качества разбиения при заданном числе классов
- •Сумма (взвешенная сумма) внутриклассовых дисперсий
- •Обобщенная внутриклассовая дисперсия
- •§5.2 Функционалы качества разбиения при неизвестном числе классов
- •Пункт 6. Основные типы задач кластер - анализа и основные типы кластер -процедур Типы задач:
- •Три основных типа кластер процедур:
- •Пункт7. Дискриминантный анализ. Классификация при наличии обучающих выборок §7.1 Функция потерь и вероятность неправильной классификации
- •§7.3 Параметрический дискриминантный анализ, в случае нормальных классов
- •Пункт 8. Расщепление смеси вероятностных распределений
3. Расстояние, измеряемое по «центрам тяжести» групп:
(4.7)
4. Расстояние, измеряемое по принципу «средней связи»:
(4.8)
5. обобщенное по Колмогорову расстояние между классами, включающее в себя в качестве частных случаев все предыдущие:
(4.9)
где r – неизвестный параметр
Исходное обобщение такого рода, предложенное А.Н. Колмогоровым, таково:
Пусть с1,…,сn – некоторые величины. F(U) – некоторая числовая функция, строго монотонная , F-1-обратная функция
Обобщенное среднее компонент с1,…,сn вычисляется по формуле:
MF (с1,…,сn) = F-1
Для F(U)=Ur получаем степенное среднее:
Mr = Mr (с1,…,сn) = (4.10)
Можно показать, что при ci > 0
- геометрическое среднее
- арифметическое среднее
Положив в (4.10) ct = d(Xi, Xj), получаем (4.9). в силу вышеупомянутого из (4.10) имеем:
вид (4.5)
вид (4.6)
вид (4.8)
Расстояния d(Xi, Xj) в формулах (4.5) – (4.9) могут быть заданы любой из формул (4.1) – (4.4)
Для некоторых процедур кластер-анализа, при которых происходит поэтапное объединение кластеров, полезно иметь формулы пересчета расстояний между кластерами.
Пусть в результате кластеризации два кластера Sm и Sq были объединены в один S(m,q) = . Требуется найти расстояние по заданным расстояниям . Используется следующая формула:
(4.11)
где - численные коэффициенты, отражающие специфику процедуры.
Докажем, что при из (4.11) получается формула пересчета расстояний между кластерами, измеряемых по принципу «ближнего соседа» (4.5)
Действительно
поскольку
Аналогично можно показать, что при из (4.11) получаем формулу пересчета расстояния по принципу «дальнего соседа» (4.6)
При и , где nl = |Sl|, nm = |Sm|, nq = |Sq|,
Из (4.11) получаем формулу пересчета расстояния, измеряемого по принципу «средней связи» (4.8)
Для доказательства последнего утверждения получим сначала формулу пересчета обобщенного Колмогоровского расстояния (4.9):
Отсюда при r = 1 получаем доказательство нашего утверждения относительно пересчета расстояния (4.8). Приведенные выше примеры расстояний между кластерами применяются при эвристическом и экстремальном подходах к проблеме кластер-анализа.
§4.3 Расстояние между кластерами при вероятно-статистическом подходе
Расстояние между кластерами при вероятно-статистическом подходе может задаваться следующим образом. В данной схеме анализируемая генеральная совокупность рассматривается как смесь унимодальных генеральных совокупностей, каждая из которых представляет один из V исходных классов.
Дополнительно предположим, что каждый такой класс задается p-мерным нормальным распределением, которое как известно полностью определяется вектором средних значений a(l) и матрицей ковариации (l), l=1,2,..,V.В этом случае для расстояния между классами SL и SM используют так называемое информациативное расстояние Каллбэка:
(4,12)
Если анализируемые классы отличаются только средними a(l),a(m), т е. (l)=(m), то из (4.12) получаем квадрат расстояния Махаланобиса:
(4.13)
В статистической практике формулы (4.13) и(4.12) используются и для случая выборок из произвольных p-мерных распределений, не обязательно нормальных, при этом теоретические характеристики a(j) и (j) заменяются их оценками a(j) и (j), j= l, m, построенных по наблюдениям, составляющим класс j: