4. Итерационные методы кластеризации. Метод к-средних.

Иерархические методы кластеризации практически реализуемы лишь в задачах классификации не более нескольких десятков наблюдений. К решению задач с большим числом наблюдений применяют последовательные методы кластеризации — итерационные методы, на каждом шаге которых используется одно наблюдение (или небольшая часть исходных наблюдений) и результаты разбиения на предыдущем шаге.

Идею этих процедур поясним на примере метода k-средних (KMeans Clustering) с заранее заданным числом m классов.

Метод k-средних основан на минимизации суммы квадратов расстояний между каждым элементом исходных данных и центром его кластера, т.е. функции:

S= , (8)

где - i-ый элемент данных, -центр кластера, которому на j-ой итерации приписан элемент .

В простейшем случае, при выборе евклидовой меры расстояний, алгоритм k-средних описывается следующим образом:

1. На первой итерации (j=0) cлучайно приписываем каждый элемент исходного множества одному из m кластеров.

2. Определяем центр каждого кластера как элемент, компоненты которого вычисляются как среднее арифметическое входящих в этот кластер элементов.

В центре кластера достигается минимум функции суммы квадратов расстояний от элементов кластера до точки:

3. Для каждого элемента x_i вычисляем расстояние до центра каждого кластера. Расстояние между каждым объектом и центром кластера обычно рассчитывается по евклидовому расстоянию:

= , (9)

p – количество признаков, i - номер объекта х, l– номер кластера.

Объект x_i относят к кластеру, расстояние до которого минимально: . В результате каждый объект переназначается между кластерами, после чего рассчитывают новый центр тяжести каждого кластера (как среднее арифметическое компонент входящих в этот кластер объектов).

4. Критерии остановки процедуры разбивки на кластеры:

1) Если уменьшение суммы расстояния от каждого элемента до центра его кластера меньше порогового значения α ( );

2) кластерные центры стабилизировались, т.е. все наблюдения принадлежат кластеру, которому принадлежали до текущей итерации;

3) число итераций равно максимальному числу итераций.

5. Если критерии остановки кластеризации не выполняются, переходим к следующей итерации j=j+1. Пункт перерасчета центров кластеров и расстояний между объектами и центрами классов повторяется (пункт 2 алгоритма).

Пример работы алгоритма k-средних для k, равного двум.

Выбор числа кластеров является сложным вопросом. Если нет предположений относительно этого числа, рекомендуют создать 2 кластера, затем 3, 4, 5 и т.д., сравнивая полученные результаты. После получений результатов кластерного анализа методом k-средних следует проверить правильность кластеризации (т.е. оценить, насколько кластеры отличаются друг от друга). Для этого рассчитываются средние значения для каждого кластера. При хорошей кластеризации должны быть получены сильно отличающиеся средние для всех измерений или хотя бы большей их части.

Достоинства алгоритма k-средних:

простота использования;
быстрота использования;
понятность и прозрачность алгоритма.

Недостатки алгоритма k-средних:

алгоритм слишком чувствителен к выбросам, которые могут искажать среднее. Возможным решением этой проблемы является использование модификации алгоритма - алгоритм k-медианы;
алгоритм может медленно работать на больших базах данных. Возможным решением данной проблемы является использование выборки данных.

<<< < Предыдущая 1 2 34 / 154 5 6 7 8 9 10 11 12 13 14 15 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
07.06.20152.54 Mб33Компьютерная графика_КОМПАС.pdf
#
10.09.2019280.06 Кб74Конвеер.doc
#
31.08.20194.11 Mб78КОНСП.ОЛЦ М1, М2 .doc
#
26.11.2018581.12 Кб76Конспект (сдан в печать ).doc
#
03.01.20202.69 Mб6Конспект лекцій СПТМ укр.docx
#
26.04.20191.11 Mб68Конспект лекций МиМвИСПР[2].doc
#
07.06.20153.48 Mб94Конспект Макро рус.doc
#
07.06.2015943.62 Кб1038Конспект МЭ кр зо рус.doc
#
07.06.2015464.9 Кб77Конспект ОТ часть 2.doc
#
10.11.2018538.62 Кб61Конспект по ПолитЭкономии.DOC
#
09.09.2019574.46 Кб73Конспект по психологии (рус.).doc