Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЧастьI.doc
Скачиваний:
0
Добавлен:
27.09.2019
Размер:
721.41 Кб
Скачать

Пункт4. Кластер-анализ. Расстояния и меры близости между объектами и кластерами

Наиболее трудным и наименее формализованным в задаче кластер-анализа является момент, связанный с понятием однородности объектов. В общем случае однородность объектов определяется задание правила вычисления величины , характеризующее либо «расстояние» dij = d(Oi, Oj), либо степенью «близости» (сходства) sij = s(Oi, Oj).

Если задана функция d(Oi, Oj), то «близкие» в этом смысле объекты считаются однородными (т.е. принадлежащие одному классу). При этом возможно сопоставление величин dij с некоторым пороговым значением, определяемым в каждом конкретном случае.

При задании dij и sij следует помнить о соблюдении следующих естественных требований:

  1. Требование симметрии:

  1. Т ребование максимального сходства объекта с самим собой: sii = sij

  2. Требование монотонного убывания по, т.е.

Каждый объект Оi представлен вектором признаков Xi = ( (2.5). В дальнейшем будем писать вместо d(Oi, Oj) - d(Xi, Xj), вместо s(Oi, Oj) пишем s(Xi, Xj)

Таким образом, задача разбиения множества объектов {О1,…,On} на кластеры сводится к задаче разбиения множества векторов Х = {X1,…, Xn) на кластеры, где Xi задается (2.5)

§4.1 Расстояния и меры близости между объектами

  1. Обобщенное (взвешенное) расстояние Махаланобиса.

                                                                      (4.1)

при вероятостно-статистическом подходе - ковариация матрицы генеральной совокупности, из которой извлекаются наблюдения Xi (2.5), а - некоторая симметрическая неотрицательно определенная матрица весовых коэффициентов.

Следующие три вида расстояний являются частным случаем указанного

  1. Обычное евклидово расстояние

                                                                               (4.2)

применяется:

  • наблюдения берутся из нормальной генеральной совокупности

  • компоненты вектора Х однородны по физическому смыслу и одинаково важны для классификации

  • признаковое пространство совпадает с геометрическим

Забегая вперед, введем понятие нормировки, чтобы добиться однородности признаков.

, где - среднее арифметическое к-го признака

  1. Взвешенное евклидово расстояние

                                                                                       (4.3)

wk – вес, определяется пропорционально степени важности признака. Экспертные оценки.

Обычно принимают

  1. Хеммингово расстояние:                                             (4.4)

Используется как мера различия объектов, задаваемых дихдомическими признаками, т.е. когда Хi – p-мерные двоичные векторы. Тогда dH – число несовпадений значений признаков в рассматриваемых i и j объекта.

Менее подробно о способах задания мер близости между объектами

Если заданы расстояния dij = d(Oi, Oj) = d(Xi, Xj) между объектами вида (4.1)-(4.3), то соответствующие меры близости (сходства) можно определить как

, где a = const, a>0

В качестве а можно принять среднее значение расстояния dij Очевидно, что при этом sij

Мера сходства объектов по бинарным признакам можно определить как

, p – число признаков.

§4.2 Расстояния между классами объектов

При создании различных процедур классификации (кластер-процедур), в ряде случаев возникает необходимость введения понятие расстояния между целыми группами объектов (кластерами).

Приведем примеры наиболее часто используемых расстояний, характеризующих взаимное расположение отдельных групп объектов.

Как и ранее мы отождествляем объект Оi и вектор признаков Xi (2.5), ему соответствующий. Тогда разбиение множества {О1,…,On} сводится к разбиению векторов {Х1,…,Хn} = Х.

Пусть мы имеем одно из таких разбиений

, где

- вектор средних арифметических компонент векторов, входящих в Sm

1. Расстояние, измеряемое по принципу «ближнего соседа»:

                                                (4.5)

2. Расстояние, измеряемое по принципу «дальнего соседа»:

                                                 (4.6)

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]