3.1.2. Расстояние между объектами и мера близости

Наиболее трудным и наименее формализованным в задаче классификации является определение понятия однородности объектов.

В общем случае понятие однородности объектов задается либо введением правила вычислений расстояния (X_i,X_j) между любой парой исследуемых объектов (X₁,X₂,..X_n), либо заданием некоторой функции r(Х_i,Х_j), характеризующей степень близости i-го и j-го объектов. Если задана функция (X_i,X_j), то близкие с точки зрения этой метрики объекты считаются однородными, принадлежащими одному классу. При этом необходимо сопоставлять (X_i,X_j) с некоторым пороговым значением, определяемым в каждом конкретном случае по-своему.

Аналогично используется и мера близости r(X_i,X_j), при задании которой надо помнить о необходимости выполнения условий симметрии r(X_i,X_j)=r(X_j,X_i); максимального сходства объекта с самим собой r(X_i,X_j)=maxr(X_i,X_j), при 1 ^ j  п, и монотонного убывания r(X_i,X_j) по (X_i,X_j), т. е. j из (X_k,X_l)  (Х_i,Х_j) должно следовать неравенство r(X_k,X_l)< r(X_i,X_j).

Выбор метрики или меры близости является узловым моментом исследования, от которого в основном зависит окончательный вариант разбиения объектов на классы при данном алгоритме разбиения. В каждом конкретном случае этот выбор должен производиться по-своему в зависимости от целей исследования, физической и статистической природы вектора наблюдений X, априорных сведений о характере вероятностного распределения X.

Рассмотрим наиболее часто используемые расстояния и меры близости в задачах кластерного анализа.

Расстояние махаланобиса (общий вид)

В случае зависимых компонент х₁,x₂,...x_k вектора наблюдений Х и их различной значимости в решении вопроса классификации обычно используют обобщенное (взвешенное) расстояние Махаланобиса, задаваемое формулой

(135)

где  — ковариационная матрица генеральной совокупности,

из которой извлекаются наблюдения;

 — некоторая симметрическая неотрицательно-

определенная матрица "весовых" коэффициентов,

которая чаще всего выбирается диагональной.

Следующие три вида расстояний являются частными случаями метрики ₀ .

Обычное евклидово расстояние

(136)

где х_il, х_jl — величина l-й компоненты у i-го (j-го) объекта(l=1,2,..., k; i,j=1,2,...,n).

Использование этого расстояния оправдано в случаях, если:

а) наблюдения берутся из генеральных совокупностей, имеющих многомерное нормальное распределение с ковариационной матрицей вида ²Е_k, т.е. компоненты Х взаимно независимы и имеют одну и ту же дисперсию;

б) компоненты вектора наблюдений Х однородны по физическому смыслу и одинаково важны для классификации;

в) признаковое пространство совпадает с геометрическим пространством.

Естественно с геометрической точки зрения и содержательной интерпретации евклидово расстояние может оказаться бессмысленным, если его признаки имеют разные единицы измерения. Для приведения признаков к одинаковым единицам прибегают к нормировке каждого признака путем деления центрированной величины на среднее квадратическое отклонение и переходят от матрицы Х к нормированной матрице с элементами

где x_i_l — значение l-го признака у i-го объекта;

—среднее арифметическое значение l-го признака;

—среднее квадратическое отклонение l-го признака.

Однако эта операция может привести к нежелательным последствиям. Если кластеры хорошо разделены по одному признаку и не разделены по другому, то после нормировки дискриминирующие возможности первого признака будут уменьшены в связи с увеличением "шумового" эффекта второго.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1718 / 2218 19 20 21 22 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
31.05.20151.3 Mб112Пособие, Арена.doc
#
31.05.2015417.28 Кб13Пособие.doc
#
31.05.20152.06 Mб82Пособие.doc
#
31.05.20151.45 Mб87Пособие.doc контроллинг.doc
#
31.05.2015553.98 Кб22ПОСОБИЕ1.doc
#
31.05.20151.76 Mб151пособиеМС(1окон).doc
#
31.05.2015785.92 Кб201пособиеОПП.doc
#
31.05.201599.79 Кб8практика -13.docx
#
31.05.20151.46 Mб361Практикум 2007.doc управление качеством.doc
#
31.05.20152.03 Mб22Практикум 2009.pdf
#
31.05.20151.11 Mб69Практикум по ТА.doc