Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Классификация / glava3 / МЕТОДЫ КЛАСТЕР.doc
Скачиваний:
85
Добавлен:
01.05.2014
Размер:
1.46 Mб
Скачать

1. Расстояния между отдельными объектами и меры близости объектов

Наиболее трудным и наименее формализованным в данной задаче является пункт, связанный с определением понятия однородности объектов.

В общем случае понятие однородности объектов задается либо введением правила вычислений расстояния р (Xi, Xj) между любой парой объектов исследуемого множества {Х1, Х2, ..., Хn}, либо заданием некоторой функцииf(ХiXj), характеризующей степень близости (сходства, подобия) объектов с номерами i иj. Если задана функция р (Xi, Xj), то близкие в смысле этой метрики объекты счита­ются однородными, принадлежащими к одному классу. Естественно, при этом необходимо сопоставление р (Xi, Xj) с некоторым пороговым значением, определяемым в каждом конкретном случае по-своему.

Аналогично используется для формирования однородных классов и упомянутая выше мера близости r(Xi, Xj), при задании которой мы должны помнить о необходимости соблюдения следующих естествен­ных требований: требования симметрии (r(Xi, Xj) = r (Xj, Хi)); требования максимального сходства объекта с самим собой

и требования при заданной метрике монотонно­го убывания r(Xi, Xj)по ρ (Xi, Xj), т. е. из ρ(Xk, Xl) ≥ ρ (Xi, Xj) должно с необходимостью следовать выполнение неравенства r (Xk, Xl) ≤r(Xi, Xj).

Конечно, выбор метрики (или меры близости) является узловым моментом исследования, от которого решающим образом зависит окончательный вариант разбиения объектов на классы при заданном алгоритме разбиения. В каждой конкретной задаче этот выбор должен производиться по-своему. При этом решение данного вопроса зависит в основном от главных целей исследования, физической и статисти­ческой природы вектора наблюдений X, полноты априорных сведений о характере вероятностного распределения X. Так, например, если из конечных целей исследования и из природы вектора X следует, что понятие однородной группы естественно интерпретировать как генеральную совокупность с одновершинной плотностью (полигоном частот) распределения и если, к тому же, известен общий вид этой плотности, то естественно воспользоваться общим подходом, описан­ным в главе II настоящей работы. Кстати, если известно, что наблю­дения X извлекаются из нормальных генеральных совокупностей с одной и той же матрицей ковариаций, то естественной мерой отда­ленности двух объектов друг от друга является, как видели в § 4 гла­вы I, так называемое расстояние Махаланобиса.

В качестве примеров расстояний и мер близости, сравнительно широко используемых в задачах кластер-анализа, приведем здесь следующие:

общий вид метрики махаланобисского типа.

В общем случае зависимых компонент x(1), x(2),…,x(p) вектора наб­людений X и их различной значимости в решении вопроса об отнесе­нии объекта (наблюдения) к тому или иному классу обычно пользу­ются обобщенным («взвешенным») расстоянием махаланобисского типа, задаваемым формулой

Здесь Σ — ковариационная матрица генеральной совокупности, из которой извлекаются наблюдения Xi, а Л — некоторая симметрич­ная неотрицательно-определенная матрица «весовых» коэффициентов λmq, которая чаще всего выбирается диагональной [381, [57].

Следующие три вида расстояний хотя и являются частными слу­чаями метрики ρ0 все же заслуживают специального описания:

обычное евклидово расстояние.

К ситуациям, в которых использование этого расстояния можно приз­нать оправданным, прежде всего относят следующие:

— наблюдения X извлекаются из генеральных совокупностей, описываемых многомерным нормальным законом с ковариационной матрицей вида σ2·I, т. е. компоненты X взаимно независимы и имеют одну и ту же дисперсию;

— компоненты x(1), x(2),…,x(p) вектора наблюдений X однородны по своему физическому смыслу, причем установлено, например, с по­мощью опроса экспертов, что все они одинаково важны с точки зрения решения вопроса об отнесении объекта к тому или иному классу;

— факторное пространство совпадает с геометрическим простран­ством нашего бытия, что может быть лишь в случаях р = 1, 2, 3, и по­нятие близости объектов соответственно совпадает с понятием геомет­рической близости в этом пространстве, например классификация попаданий при стрельбе по цели;

«взвешенное» евклидово расстояние

Обычно применяется в ситуациях, в которых нам так или иначе удается приписать каждой из компонент xkвектора наблюдений X некото­рый неотрицательный «вес» ωk, пропорциональный степени его важ­ности с точки зрения решения вопроса об отнесении заданного объекта к тому или иному классу. Удобно полагать при этом 0≤ωk≤1,k= 1, 2, ..., р.

Определение весов ωk связано, как правило, с дополнительным исследованием, например получением и использованием обучающих выборок, организацией опроса экспертов и обработкой их мнений, ис­пользованием моделей факторного анализа. Попытки определения ве­сов ωk только по информации, содержащейся в исходных данных [115, 175], как правило, не дают желаемого эффекта, а иногда могут лишь отдалить нас от истинного решения. Достаточно заметить, что в зави­симости от весьма тонких и незначительных вариаций физической и статистической природы исходных данных, можно привести одина­ково убедительные доводы в пользу двух диаметрально противополож­ных решений этого вопроса: выбирать ωk пропорционально величине среднеквадрэтической ошибки признака х(k) [26], либо — пропорцио­нально обратной [!] величине среднеквадратической ошибки этого же признака [77], [15]. [75];

Хеммингово расстояние. Используется как мера различия объек­тов, задаваемых дихотомическими признаками. Оно задается с помощью формулы:

и, следовательно, равно числу νij несовпадений значений соответст­вующих признаков в рассматриваемых j-м и i-м объектах;

— другие меры близости для дихотомических признаков:

Меры близости объектов, описываемых набором дихотомических признаков, обычно основаны на характеристиках νij(0), νij(1), и νij = νij(0) + νij(1), νij(0)ij(1))— число нулевых (единичных) компонент, совпав­ших в объектах Хi и Xj. Так, например, если из каких-либо профес­сиональных соображений или априорных сведений следует, что все р признаков исследуемых объектов можно считать равноправными, а эффект от совпадения или несовпадения нулей тот же, что и от сов­падения или несовпадения единиц, то в качестве меры близости объек­тов Хi и Xj используют величину

Весьма полный обзор различных мер близости объектов, описывае­мых дихотомическими признаками, читатель найдет в [6], [14], [71];

— меры близости и расстояния, задаваемые с помощью потенциаль­ной функции. Во многих задачах математической статистики, теории вероятностей, физической теории потенциала и, как выяснилось, теории распознавания образов, или классификации многомерных наблюдений, оказываются полезными некоторые специально устроен­ные функции К (X, Y) от двух векторных переменных X и Y, а чаще всего просто от расстояния р (X, Y) между этими переменными, которые мы, следуя [3], будем называть потенциальными1.

Так, например, если пространство X всех мыслимых значений иссле­дуемого вектора X разбито на полную систему непересекающихся од-носвязных компактных множеств или однородных классов S1, ..., Sn, и потенциальная функция К (X, Y) определена для ХєХ и YgX следующим образом:

то с помощью этой функции удобно строить обычные эмпирические гистограммы (оценки плотности распределения ) по имеющимся наблюдениям U1,U2 .... Un. Действительно, легко видеть, что

, (3.1)

где ν (U) — число наблюдений, попавших в класс Sj (U), содержащий точку U, a WSj(U) — объем области Sj(U), (геометрическою интерпре­тацию для одномерного случая см. на рис. 3.1).

Рис.3.1. График гистограмм ,построенный с помощью разбиения на группы выборочной совокупности X1,X2,….Xn.Размерность совокупности p=1.

Если в исследуемом факторном пространстве X задана метрика ρ(U, V), то можно не связывать себя заранее зафиксированным разбиением X на классы, а задавать К(U,V) как монотонно убывающую функцию расстояния ρ(U, V). Например,

(3.2)

Другие способы выбора потенциальной функции по расстоянию ρ можно найти в [3]. Приведем здесь еще лишь одну достаточно общую форму связи между ρ (U,V) и К(U, V), в которой расстояние ρ высту­пает как функция некоторых значений потенциальной функции К.

(3.3)

В частности, выбрав в качестве K(U, V) скалярное произведение векторов U и V, т. е. положив

мы получим по формуле (3.3) обычное евклидово расстояние р£.

Легко понять, что и в случае задания потенциальной функции ) виде соотношений (3.2), формулы (3.1) позволяют нам строить статистические оценки плотности распределения (3.1), хотя график функции будет уже не ступенчатым, а сглаженным.

Легко также понять, что при отсутствии метрики в пространстве X и при ее наличии функции K(U, V) естественно могут быть использованы в качестве меры близости объектов U и V, а также объектов и целых классов и классов между собой. В первом случае эта мера позволяла получить, правда, лишь качественный ответ: объекты близки, если U и V принадлежат одному классу, и объекты далеки — противном случае; во втором случае мера близости является количественной характеристикой. Позже мы еще вернемся к потенциальным функциям и к их использованию в задачах классификации.

а) О физически содержательных мерах близости объектов. В некоторых задачах классификации объектов, не обязательно описываемых количественно, естественнее использовать в качестве меры близости объектов (или расстояния между ними) некоторые физически содержательные числовые параметры, так или иначе характеризующие взаимоотношения между объектами. Примером может служить задача классификации с целью агрегирования отраслей народного хозяйства, решаемая на основе матрицы межотраслевого баланса [18]. Таким образом, классифицируемым объектом в данном примере является отрасль народного хозяйства, а матрица межотраслевого баланса представлена элементами sij, где под sij подразумевается сумма годовых поставок в денежном выражении i-ой отрасли в j-yю. В качестве матрицы близости {rij-} в этом случае естественно взять, например, симметризованную нормированную матрицу межотраслевого баланса. При этом под нормировкой понимается преобразование, при котором денежное выражение поставок из i-й отрасли в j-ю заменялось долей этих поставок по отношению ко всем поставкам i-й области. Симметризацию же нормированной матрицы межотраслевого баланса можно проводить различными способами. Так, например, в [18] близость между i-й и j-й отраслями выражалась либо через среднее значение их взаимных нормированных поставок, либо через комбинацию из их взаимных нормированных поставок.

б) О мерах близости числовых признаков (отдельных факторов). Как упоминалось, решение задач классификации многомерных данных, как правило, предусматривает в качестве предварительного этапа исследования реализацию методов, позволяющих существенно сократить размерность исходного факторного пространства, выбрать из компонент x(1), ..., х(р) наблюдаемых векторов X сравнительно небольшое число наиболее существенных, наиболее информативных. Для этих целей бывает полезно рассмотреть каждую из компонент x(1), ..., х(р) в качестве объекта, подлежащего классификации. Дело в том, что разбиение

признаков x(1), ..., х(р) на небольшое число однородных в некотором смысле групп позволит исследователю сделать вывод, что компоненты, входящие в одну группу, в определенном смысле сильно связаны друг с другом и несут информацию о каком-то одном свойстве исследуемого объекта. Следовательно, можно надеяться,что мы не понесем большого ущерба в информации, если для дальней­шего исследования оставим лишь по одному представителю от каждой такой группы.

Чаще всего в подобных ситуациях в качестве мер близости между отдельными признаками x(i) и x(j), так же как и между наборами таких признаков, используются различные характеристики степени их коррелированности, и в первую очередь коэффициенты корреляции. Подробнее об этом см. главу IV настоящей работы.

Завершая изложение, посвященное введению понятий расстояний и мер близости, характеризующих отдельные объекты, и их краткому обзору, сошлемся на работы [71], [63], [67], [14}, [6], в которых эти вопросы рассмотрены весьма подробно.

Соседние файлы в папке glava3