Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЧастьI.doc
Скачиваний:
0
Добавлен:
27.09.2019
Размер:
721.41 Кб
Скачать

3. Расстояние, измеряемое по «центрам тяжести» групп:

                                                                                       (4.7)

4. Расстояние, измеряемое по принципу «средней связи»:

                       (4.8)

5. обобщенное по Колмогорову расстояние между классами, включающее в себя в качестве частных случаев все предыдущие:

                                                              (4.9)

где r – неизвестный параметр

Исходное обобщение такого рода, предложенное А.Н. Колмогоровым, таково:

Пусть с1,…,сn – некоторые величины. F(U) – некоторая числовая функция, строго монотонная , F-1-обратная функция

Обобщенное среднее компонент с1,…,сn вычисляется по формуле:

MF 1,…,сn) = F-1

Для F(U)=Ur получаем степенное среднее:

Mr = Mr 1,…,сn) =                                                                                                   (4.10)

Можно показать, что при ci > 0

- геометрическое среднее

- арифметическое среднее

Положив в (4.10) ct = d(Xi, Xj), получаем (4.9). в силу вышеупомянутого из (4.10) имеем:

вид (4.5)

вид (4.6)

вид (4.8)

Расстояния d(Xi, Xj) в формулах (4.5) – (4.9) могут быть заданы любой из формул (4.1) – (4.4)

Для некоторых процедур кластер-анализа, при которых происходит поэтапное объединение кластеров, полезно иметь формулы пересчета расстояний между кластерами.

Пусть в результате кластеризации два кластера Sm и Sq были объединены в один S(m,q) = . Требуется найти расстояние по заданным расстояниям . Используется следующая формула:

                     (4.11)

где - численные коэффициенты, отражающие специфику процедуры.

Докажем, что при из (4.11) получается формула пересчета расстояний между кластерами, измеряемых по принципу «ближнего соседа» (4.5)

Действительно

поскольку

Аналогично можно показать, что при из (4.11) получаем формулу пересчета расстояния по принципу «дальнего соседа» (4.6)

При и , где nl = |Sl|, nm = |Sm|, nq = |Sq|,

Из (4.11) получаем формулу пересчета расстояния, измеряемого по принципу «средней связи» (4.8)

Для доказательства последнего утверждения получим сначала формулу пересчета обобщенного Колмогоровского расстояния (4.9):

Отсюда при r = 1 получаем доказательство нашего утверждения относительно пересчета расстояния (4.8). Приведенные выше примеры расстояний между кластерами применяются при эвристическом и экстремальном подходах к проблеме кластер-анализа.

§4.3 Расстояние между кластерами при вероятно-статистическом подходе

Расстояние между кластерами при вероятно-статистическом подходе может задаваться следующим образом. В данной схеме анализируемая генеральная совокупность рассматривается как смесь унимодальных генеральных совокупностей, каждая из которых представляет один из V исходных классов.

Дополнительно предположим, что каждый такой класс задается p-мерным нормальным распределением, которое как известно полностью определяется вектором средних значений a(l) и матрицей ковариации (l), l=1,2,..,V.В этом случае для расстояния между классами SL и SM используют так называемое информациативное расстояние Каллбэка:

                                                                                                                                                        (4,12)

Если анализируемые классы отличаются только средними a(l),a(m), т е. (l)=(m), то из (4.12) получаем квадрат расстояния Махаланобиса:

             

                                                                                                                                   (4.13)

В статистической практике формулы (4.13) и(4.12) используются и для случая выборок из произвольных p-мерных распределений, не обязательно нормальных, при этом теоретические характеристики a(j) и (j) заменяются их оценками a(j) и (j), j= l, m, построенных по наблюдениям, составляющим класс j: