
- •1. Особенности применения и задачи кластерного анализа. Виды расстояний между объектами и их особенности.
- •2. Принципы определения расстояний между кластерами в кластерном анализе.
- •3. Иерархический алгоритм кластерного анализа и графическое представление его результатов. Метод k-средних.
- •4. Функционалы качества классификации в кластерном анализе, их виды и назначения.
- •5. Условия применения, решаемые задачи и различия кластерного и дискриминантного анализов.
- •6. Алгоритм кластер анализ типа «Форель».
2. Принципы определения расстояний между кластерами в кластерном анализе.
Пусть sl- l-я группа (кластер), состоящая из nl объектов;
– вектор средних арифметических значений
для sl группы,
("центр тяжести" l-й
группы);
d(sl,sm) - расстояние между группами sl и sm.
Расстояние, измеряемое по принципу “ближнего соседа”
Расстояние, измеряемое по принципу «дальнего соседа»
Расстояние, измеряемое по принципу “центра тяжести” групп
Расстояние, измеряемое по принципу “средней связи”
Определяется как среднее арифметическое всевозможных попарных расстояний между представителями групп
Обобщенное расстояние Колмогорова
Где
a, b, d и g - числовые коэффициенты, определяющие специфику процедуры, ее алгоритм
при a = b= -d = ½ и g=0 приходят к расстоянию, определяемому по принципу “ближнего соседа”.
при a = b = d =1/2 и g = 0 - расстояние между классами определяется по принципу “дальнего соседа”.
При
расстояние между классами определяется по принципу “средней связи”.
3. Иерархический алгоритм кластерного анализа и графическое представление его результатов. Метод k-средних.
Иерархические (древообразные) процедуры являются наиболее распространенными алгоритмами кластерного анализа.
Они бывают двух типов:
агломеративные
дивизимные.
Принцип работы агломеративных процедур заключается в последовательном объединении групп элементов сначала самых близких, а затем все более отдаленных друг от друга (т.е. начальным является разбиение, состоящее из n -одноэлементных классов, а конечным - из одного класса)
Принцип работы дивизимных процедур заключается в последовательном разделении групп элементов сначала самых далеких, а затем все более близких друг от друга. Большинство иерархических алгоритмов исходит из матрицы расстояний D
Результаты классификации представляются графически в виде дендрограммы
Преимущества иерархических КП
Дают более полный и тонкий анализ структуры исследуемого множества наблюдений;
Возможность наглядной интерпретации результатов анализа
Недостатки иерархических КП
Громоздкость вычислительной реализации (на каждом шаге необходимо вычислять матрицу расстояний D)
При n>100 дендрограмма теряет наглядность
Если число объектов, подлежащих классификации достаточно велико, то целесообразно использовать итерационные алгоритмы, на каждом шаге которых последовательно обсчитывается лишь небольшая часть исходных наблюдений.
Идея метода к-средних состоит в разбиении
множества объектов
на заранее известное число к-кластеров
так, чтобы минимизировать функционал
качества – сумму внутриклассовых
дисперсий
- вектор средних (центр тяжести) для
sl группы
Пусть наблюдения
требуется разбить на заданное число к
однородных
(в смысле некоторой метрики расстояний)
классов.
Алгоритм состоит в последовательном
уточнении эталонных точек
(
- номер итерации,
=0,1,2...) с соответствующим пересчетом
приписываемых «весов»
Случайно выбирают р - точек (например, первых) исследуемой совокупности, которые принимаются за центры классов. Таким образом:
На первом шаге извлекается наблюдение
и выясняется к какому из центров
оно оказалось ближе всего. Именно этот,
самый близкий к
центр заменяется центром тяжести
кластера из двух объектов, включая
(с увеличением на единицу веса этого
кластера).
Пересчет центров тяжести к – кластеров
и их весов на
-
м шаге после извлечения
наблюдения происходит для i-го
кластера по следующей формуле
При достаточно большом числе итераций или при достижении большой совокупности (n –велико), дальнейший пересчет центров тяжести практически не приводит к изменению, то есть имеет место сходимость к некоторому пределу.