Скачиваний:
71
Добавлен:
01.05.2014
Размер:
154.62 Кб
Скачать

Меры Расстояния

Метод объединения или кластеризации по дереву использует несходство или расстояния между объектами при формировании кластеров. Эти расстояния могут быть определены для одного или нескольких измерений. Например, если нам нужно классифицировать гамбургеры, мы можем принять во внимание количество калорий, их содержание, цену, субъективные оценки вкуса, и т.д. Наиболее простой путь вычисления расстояний между объектами в многомерном пространстве состоит в нахождении евклидовых расстояний между ними. Если мы имеем двух - или трехмерное пространство, эта мера - это фактически геометрическое расстояние между объектами в пространстве (как если бы мы измеряли его рулеткой). Однако, алгоритму объединения безразлично являются ли расстояния, которые поданы ему на вход евклидовыми расстояниями, или некоторыми другими мерами расстояния, которые являются более значимыми для исследователя, таким образом, выбор подходящей для данного приложения меры является прерогативой исследователя. Модуль кластерного анализа вычисляет различные типы мер расстояния, но пользователь может вычислять свою матрицу расстояний и непосредственно использовать в работе.

Евклидово расстояние.

Это вероятно наиболее часто используемый тип расстояния. Оно является простым геометрическим расстоянием в многомерном пространстве и вычисляется как:

dist (x, y) =

Квадрат евклидова расстояния.

Используется если мы хотим придать прогрессивно возрастающий вес объектам, которые являются более удаленными. Это расстояние вычисляется как:

dist(x, y) =

Покоординатное расстояние.

Это расстояние в некотором смысле усредняет разницу между различными компонентами векторов. В большинстве случаев, эта мера расстояния дает результаты, подобные простому евклидову расстоянию. Однако, отметим, что при данной мере, эффект привносимый отдельными большими компонентами демпфируется (так как они не возводятся в квадрат). Покоординатное расстояние вычисляется так:

dist(x, y) =

Расстояние Чебышева.

Эта мера расстояния может подойти в случае, когда нам потребуется определить два объекта как различные, если они различны хотя бы по одному измерению. Чебышево расстояние вычисляется как:

dist(x,y) =

Степенное расстояние.

Иногда может потребоваться увеличить или уменьшить вес увеличения расстояний по измерениям. Это может быть достигнуто путем использования степенного расстояния. Расстояние это вычисляется как:

dist(x, y) =

Где r и p - определяемые пользователем параметры. Поведение данной меры выглядит следующим образом: Параметр p контролирует вес разностей по отдельным компонентам, параметр r контролирует вес придаваемый расстоянию между объектами в целом. Если r и p равны 2, то это расстояние равно Евклидову расстоянию.

Мера “доли рассогласования”

Эта мера особенно полезна, если данные по измерениям, являются по природе категориальными. Это расстояние вычисляется как:

dist (x, y) =

Объединение или Правила связывания

На первом шаге, когда каждый объект представляет собой кластер, мы определяем расстояния между объектами выбирая соответствующую меру. Однако, когда несколько объектов были связаны вместе, как нам определить расстояние между новыми кластерами? Другими словами, нам требуется правило слияния, определяющее являются ли два кластера достаточно близкими для того, чтобы быть связанными. Имеются различные возможности: например, мы могли бы связывать два кластера вместе, когда любые два их представителя ближе друг к другу чем соответствующий порог связывания. Другими словами, мы используем " ближайших соседей ", чтобы определить расстояние между кластерами; этот метод называется одиночным связыванием. Это правило порождает "размытые" кластеры, то есть кластеры связанные только одиночными объектами, оказавшимися близко друг к другу. Альтернативно, мы можем использовать наиболее удаленных соседей,; Этот метод называется полным связыванием. Имеется множество других правил связывания типа тех, которые были предложены, и модуль кластерного анализа предлагает широкий выбор таких правил.

Одиночное связывание (метод ближайшего соседа).

Как описано выше, в этом методе расстояние между двумя кластерами определяется наименьшим расстоянием между любой парой представителей. Этот метод связывает объекты вереницей, и возникающие в результате кластеры имеют тенденцию, выглядеть как длинные “цепочки" .

Полное связывание (метод дальнего соседа).

В этом методе, расстояние между кластерами определяются самым большим расстоянием между любыми двумя представителями в различных кластерах . Этот метод обычно хорошо действует в случае, когда объекты фактически формируют достаточно четкие группы. Если кластеры имеют тенденцию к вытянутой форме или виду "цепи", то этот метод неприменим.

Невзвешенное попарно-групповое среднее.

В этом методе, расстояние между двумя кластерами вычисляется как среднее расстояние между всеми парами объектов в двух различных кластерах. Этот метод также очень эффективен, когда объекты образуют сгущения, однако он одинаково хорошо работает и с размытыми, "цепочечными" видами кластеров.

Взвешенное попарно-групповое среднее.

Этот метод идентичен предыдущему, за исключением того, что в вычислениях, размер соответствующих кластеров (то есть, число объектов, содержащихся в них) используется как вес. Таким образом, этот метод (в отличие от предыдущего) должен использоваться, когда предполагается, что размеры кластеров будут значительно различными.

Невзвешенное расстояние между центрами масс.

Центром масс кластера называется средняя точка в многомерном пространстве, определяемая по средним арифметическим соответствующих координат. По смыслу, это - центр серьезности для соответствующего кластера. В этом методе, расстояние между двумя кластерами определяется как разница между центрами масс.

Взвешенное расстояние между центрами масс.

Этот метод аналогичен предыдущему, за исключением того, что в вычисления вводятся веса, чтобы учесть различия в размерах кластера (то есть, число объектов, содержащихся в них). Таким образом, когда имеются (или есть подозрение что имеются) значительные различия в размерах кластера, этот метод предпочтительнее предыдущих.

Метод Wardа.

Этот метод отличается от всех других методов, потому что это использует подход дисперсионного анализа, чтобы оценить расстояния между кластерами. Вкратце, этот метод пытается минимизировать результирующую сумму квадратов отклонений для любых двух кластеров, которые являются кандидатами на объединение. Детали метода описаны в книге Ward’а(1963). Этот метод оценивается как очень эффективный, однако, имеет тенденцию, создавать кластеры небольшого размера.

Иерархическая группировка - формальное описание

Определения

Рассмотрим последовательность разделений n выборок на c групп. Первое из них - это разделение на n групп, причем каждая из групп содержит точно по одной выборке. Следующее разделение на n-1 групп, затем на n-2 и т.д. до n-го, в котором все выборки образуют одну группу. Будем говорить, что находимся на k-ом уровне в последовательности, когда c = n - k+1. Таким образом, первый уровень соответствует n-группам, а n-й одной группе. Если даны две любые выборки x и x , на некотором уровне они будут собраны в одну группу. Если последовательность обладает тем свойством, что, когда две выборки попадают в одну группу на уровне k, они остаются вместе на более высоких уровнях, то такая последовательность называется иерархической группировкой.

Соседние файлы в папке lecture6