Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
вопросы на госы.docx
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
306.7 Кб
Скачать

Многомерные статистические методы

9. Кластерный анализ. Иерархические агломеративные методы.

Кластерный анализ решает задачу классификации объектов при практически отсутствующей априорной информации о наблюдениях внутри классов.

Кластерный анализ (англ. cluster analysis) — многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы

Методы кластерного анализа позволяют разбить изучаемую совокупность объектов на группы однородных в некотором смысле объектов, называемых кластерами или классами. Наибольшее распространение получили два подхода к задаче классификации: эвристический, реализующий некоторую схему разделения объектов на классы, исходя из интуитивных соображений, и экстремальный, реализующий схему разделения на основе заданного критерия оптимальности. Наиболее трудным в задаче классификации является определение меры однородности объектов.

Расстояния между кластерами

Пусть имеется матрица расстоянии между объектами и некоторое их разбиение на кластеров. Основным понятием кластер-процедур является расстояние между кластерами и . Существуют следующие виды расстояний:

расстояние, измеряемое по принципу «ближнего соседа»,

(21)

Метод, использующий это расстояние, получил в отечественной литературе название метода «ближнего соседа».

Расстояние, измеряемое по принципу «дальнего соседа».

; (22)

Расстояние по принципу «средней связи» ; (23)

где и — числа объектов в кластерах и ;

Расстояние, измеряемое между «центрами тяжести» кластеров («центроидный метод»),

(24)

где среднее арифметическое векторных наблюдений при .

Названные методы относятся к группе иерархических (деревообразующих) алгомеративных (объединительных) методов.

Иерархические агломеративные методы

Это многошаговые методы, работающие в такой последовательности: на нулевом шаге за разбиение принимается исходная совокупность элементарных кластеров, матрица расстояний между которыми ; на каждом следующем шаге происходит объединение (в соответствии с эвристическим или экстремальным подходом) двух кластеров и , сформированных на предыдущем шаге, в один кластер (будем его обозначать ), при этом размерность матрицы расстояний уменьшается, по сравнению с размерностью матрицы предыдущего шага, на единицу. При использовании вышеназванных агломеративных методов рассчитать расстояние между кластерами и можно, используя соответствующую методу формулу расстояния между кластерами, однако менее трудоемки расчеты по формуле:

(25)

в которой значения коэффициентов зависят от используемого метода:

Метод

Ближний сосед (Одиночной связи)

0.5

0.5

0

-0.5

(26)

Дальний сосед (Полных связей)

0.5

0.5

0

0.5

(27)

Средней связи

0

0

(28)

Центроидный

0

(29)

В последнем столбце: слева приведена формула подсчета , вытекающая из (25), а справа — вытекающая из принятого в соответствующем методе определения расстояний между кластерами.