Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Курсовой проект - Интеллектуальный анализ рынка услуг платного хостинга.doc
Скачиваний:
36
Добавлен:
02.05.2014
Размер:
1.11 Mб
Скачать

2.1.2 Кластерный анализ с применением дендрограмм

Этот анализ предназначен для разбиения множества объектов на заданное или неизвестное число классов на основании некоторого математического критерия качества классификации

Введем исходные данные в электронную таблицу STATGRAPHICS (50x7). Для более детального анализа проделали ряд операций. Получили дендрограмму методом Варда для трех кластеров (классов) (рисунок 2.3).

Рисунок 2.3 – Дендрограмма для трех классов

После преобразований получили сводку кластерного анализа (таблица 2.3).

Таблица 2.3

Сводка кластерного анализа

Cluster

Members

Percent

1

34

66.67

2

6

13.73

3

10

19.61

Centroids:

Cluster

ftp

входов

В.серверов

Объем

Сервисов

Трафик

Цена

в год

Цена

в мес.

1

7,705

3,7352

351,912

3,441

707,203

87,6

7,778

2

159,0

151,143

1275,7

3,741

850,143

329

30,19

3

1000

13,2

770

4

311,0

121

12,32

Качественная характеристика кластеров

Cluster

ftp

входов

В.серверов

Объем

Сервисов

Трафик

Цена

в год

Цена

в мес.

1

низкое

низкое

низкий

средний

средний

низкая

низкая

2

среднее

высокое

высокий

средний

высокий

высокая

высокая

3

высокое

среднее

средний

средний

низкий

средний

средняя

Как видно из таблицы 2.3, в сводке кластерного анализа прежде всего учитываются имена переменных, участвующих в анализе, количество полных образцов, использованный метод кластерного анализа и принятая метрика. Затем, в сводке описывается число кластеров, количество объектов в каждом кластере и соответ­ствующий процент. Кроме того, в нижней части сводки приводится дополнительная информация по координатам центроидов. По этим координатам можно судить о том, какие переменные играют наиболее важную роль в каждом кластере.

Перейдем к рассмотрению диаграммы рассеивания (рисунок 2.4)

Рисунок 2.4 − Двухмерная диаграмма рассеивания

Диаграмма показывает, как группируются исследуемые наблюдения на плоско­сти двух переменных ftpвходов и виртуальных серверов. Каждый кластер представлен на диаграмме собственным символом. Из рисунка следует, что первый кластер включает тарифы с количеством виртуальных серверов до 15 и с количествомftpвходов до 20. Во втором кластере находятся в основном тарифы с количеством виртуальных серверов от 25 и с количествомftpвходов от 25, а также тарифы с неограниченным количеством виртуальных серверов иftpвходов. В третий кластер попадают тарифы с неограниченным количествомftpвходов и количеством виртуальных серверов до 50.

Рассмотрим трехмерную диаграмму рассеивания (рисунок 2.5)

Рисунок 2.5 − Трехмерная диаграмма рассеивания

Таким образом, кластерный анализ помог разбить множество объектов на заданное число классов на основании некоторою математического критерия качества классификации. Диаграмма показывает, как группируются исследуемые тарифы в пространстве трех переменных: количества виртуальных серверов, количество ftpвходов, объем.