Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
пособиеМС(1окон).doc
Скачиваний:
151
Добавлен:
31.05.2015
Размер:
1.76 Mб
Скачать

3.1.2. Расстояние между объектами и мера близости

Наиболее трудным и наименее формализованным в задаче классификации является определение понятия однородности объектов.

В общем случае понятие однородности объектов задается либо введением правила вычислений расстояния (Xi,Xj) между любой парой исследуемых объектов (X1,X2,..Xn), либо заданием некоторой функции r(Хij), характеризующей степень близости i-го и j-го объектов. Если задана функция (Xi,Xj), то близкие с точки зрения этой метрики объекты считаются однородными, принадлежащими одному классу. При этом необходимо сопоставлять (Xi,Xj) с некоторым пороговым значением, определяемым в каждом конкретном случае по-своему.

Аналогично используется и мера близости r(Xi,Xj), при задании которой надо помнить о необходимости выполнения условий симметрии r(Xi,Xj)=r(Xj,Xi); максимального сходства объекта с самим собой r(Xi,Xj)=maxr(Xi,Xj), при 1 ^ j п, и монотонного убывания r(Xi,Xj) по (Xi,Xj), т. е. j из (Xk,Xl) ij) должно следовать неравенство r(Xk,Xl)< r(Xi,Xj).

Выбор метрики или меры близости является узловым моментом исследования, от которого в основном зависит окончательный вариант разбиения объектов на классы при данном алгоритме разбиения. В каждом конкретном случае этот выбор должен производиться по-своему в зависимости от целей исследования, физической и статистической природы вектора наблюдений X, априорных сведений о характере вероятностного распределения X.

Рассмотрим наиболее часто используемые расстояния и меры близости в задачах кластерного анализа.

Расстояние махаланобиса (общий вид)

В случае зависимых компонент х1,x2,...xk вектора наблюдений Х и их различной значимости в решении вопроса классификации обычно используют обобщенное (взвешенное) расстояние Махаланобиса, задаваемое формулой

(135)

где  — ковариационная матрица генеральной совокупности,

из которой извлекаются наблюдения;

 — некоторая симметрическая неотрицательно-

определенная матрица "весовых" коэффициентов,

которая чаще всего выбирается диагональной.

Следующие три вида расстояний являются частными случаями метрики 0 .

Обычное евклидово расстояние

(136)

где хil, хjl — величина l-й компоненты у i-го (j-го) объекта(l=1,2,..., k; i,j=1,2,...,n).

Использование этого расстояния оправдано в случаях, если:

а) наблюдения берутся из генеральных совокупностей, имеющих многомерное нормальное распределение с ковариационной матрицей вида 2Еk, т.е. компоненты Х взаимно независимы и имеют одну и ту же дисперсию;

б) компоненты вектора наблюдений Х однородны по физическому смыслу и одинаково важны для классификации;

в) признаковое пространство совпадает с геометрическим пространством.

Естественно с геометрической точки зрения и содержательной интерпретации евклидово расстояние может оказаться бессмысленным, если его признаки имеют разные единицы измерения. Для приведения признаков к одинаковым единицам прибегают к нормировке каждого признака путем деления центрированной величины на среднее квадратическое отклонение и переходят от матрицы Х к нормированной матрице с элементами

где xilзначение l-го признака у i-го объекта;

—среднее арифметическое значение l-го признака;

—среднее квадратическое отклонение l-го признака.

Однако эта операция может привести к нежелательным последствиям. Если кластеры хорошо разделены по одному признаку и не разделены по другому, то после нормировки дискриминирующие возможности первого признака будут уменьшены в связи с увеличением "шумового" эффекта второго.