Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
МУ к ЛР по ТИПИС (подробно).doc
Скачиваний:
26
Добавлен:
17.11.2019
Размер:
3.72 Mб
Скачать

Задача 1. Метод k-средних.

Основные понятия:

Кластер. Эталон. Минимальное расстояние внутри кластера относительно среднего. Центр тяжести кластера. Диаграмма рассеяния.

Задание:

Провести классификацию объектов, каждый из которых характеризуется тремя признаками: . Таблица данных имеет вид (заполнить самостоятельно):

X

Y

Z

1

2

3

4

5

6

7

8

9

10

Провести кластерный анализ с помощью метода K-средних (K-means clustering). В отчете представить результаты кластеризации (результаты дисперсионного анализа по каждому признаку, координаты центров и матрицы расстояний между центрами, график распределения центров кластеров, статистики для каждого кластера по координатам : средние центров, стандартные отклонения, дисперсии и т.д.; номера объектов, входящих в каждый кластер и расстояния объектов до центра каждого кластера).

Общая логика

Суть метода K-средних (K-means clustering) состоит в следующем: исследователь заранее определяет количество классов (k) на которые необходимо разбить имеющиеся наблюдения, и первые k наблюдений становятся центрами этих классов. Для каждого следующего наблюдения рассчитываются расстояния до центров кластеров, и данное наблюдение относится к тому кластеру, расстояние до которого было минимальным. После чего для этого кластера (в котором увеличилось количество наблюдений) рассчитывается новый центр тяжести (как среднее по каждому показателю) по всем включенным в кластер наблюдениям.

Предположим, что уже имеются гипотезы относительно числа кластеров (по наблюдениям или по переменным). Поэтому можно указать системе образовать ровно три кластера так, чтобы они были настолько различны, насколько это возможно. Это именно тот тип задач, которые решает алгоритм метода K-средних. В общем случае метод K-средних строит ровно K различных кластеров, расположенных на возможно больших расстояниях друг от друга.

Вычисления

С вычислительной точки зрения можно рассматривать метод K-средних, как дисперсионный анализ «наоборот». Программа начинает с K случайно выбранных кластеров, а затем изменяет принадлежность объектов к ним, чтобы: (1) – минимизировать изменчивость внутри кластеров, и (2) – максимизировать изменчивость между кластерами. Данный способ аналогичен методу «дисперсионный анализ (ANOVA) наоборот» в том смысле, что критерий значимости в дисперсионном анализе сравнивает межгрупповую изменчивость с внутригрупповой при проверке гипотезы о том, что средние в группах отличаются друг от друга. В кластеризации методом K-средних программа перемещает объекты (т. е. наблюдения) из одних групп (кластеров) в другие для того, чтобы получить наиболее значимый результат при проведении дисперсионного анализа (ANOVA).