- •Введение
- •1 Идентификация проблемной области
- •2.1.2 Кластерный анализ с применением дендрограмм
- •2.1.3 Кластерный анализ с применением самоорганизующихся карт Кохонена.
- •2.1.4 Построение деревьев решений.
- •2.2 Структурирование проблемной области
- •3 Формализация базы знаний
- •3 1 Краткий обзор модели представления знаний
- •3.2 Обоснование выбора модели представления знаний
- •3.3 Таблицы решений
- •3.4 Сеть вывода
- •4 База знаний
- •Заключение
- •Приложение а – Исходная выборка исследуемых тарифов
- •Приложение б – Принадлежность наблюдений к классам
2.1.2 Кластерный анализ с применением дендрограмм
Этот анализ предназначен для разбиения множества объектов на заданное или неизвестное число классов на основании некоторого математического критерия качества классификации
Введем исходные данные в электронную таблицу STATGRAPHICS (50x7). Для более детального анализа проделали ряд операций. Получили дендрограмму методом Варда для трех кластеров (классов) (рисунок 2.3).
Рисунок 2.3 – Дендрограмма для трех классов
После преобразований получили сводку кластерного анализа (таблица 2.3).
Таблица 2.3
Сводка кластерного анализа
Cluster |
Members |
Percent | |||||||
1 |
34 |
66.67 | |||||||
2 |
6 |
13.73 | |||||||
3 |
10 |
19.61 | |||||||
Centroids: | |||||||||
Cluster |
ftp входов |
В.серверов |
Объем |
Сервисов |
Трафик |
Цена в год |
Цена в мес. | ||
1 |
7,705 |
3,7352 |
351,912 |
3,441 |
707,203 |
87,6 |
7,778 | ||
2 |
159,0 |
151,143 |
1275,7 |
3,741 |
850,143 |
329 |
30,19 | ||
3 |
1000 |
13,2 |
770 |
4 |
311,0 |
121 |
12,32 | ||
Качественная характеристика кластеров | |||||||||
Cluster |
ftp входов |
В.серверов |
Объем |
Сервисов |
Трафик |
Цена в год |
Цена в мес. | ||
1 |
низкое |
низкое |
низкий |
средний |
средний |
низкая |
низкая | ||
2 |
среднее |
высокое |
высокий |
средний |
высокий |
высокая |
высокая | ||
3 |
высокое |
среднее |
средний |
средний |
низкий |
средний |
средняя |
Как видно из таблицы 2.3, в сводке кластерного анализа прежде всего учитываются имена переменных, участвующих в анализе, количество полных образцов, использованный метод кластерного анализа и принятая метрика. Затем, в сводке описывается число кластеров, количество объектов в каждом кластере и соответствующий процент. Кроме того, в нижней части сводки приводится дополнительная информация по координатам центроидов. По этим координатам можно судить о том, какие переменные играют наиболее важную роль в каждом кластере.
Перейдем к рассмотрению диаграммы рассеивания (рисунок 2.4)
Рисунок 2.4 − Двухмерная диаграмма рассеивания
Диаграмма показывает, как группируются исследуемые наблюдения на плоскости двух переменных ftpвходов и виртуальных серверов. Каждый кластер представлен на диаграмме собственным символом. Из рисунка следует, что первый кластер включает тарифы с количеством виртуальных серверов до 15 и с количествомftpвходов до 20. Во втором кластере находятся в основном тарифы с количеством виртуальных серверов от 25 и с количествомftpвходов от 25, а также тарифы с неограниченным количеством виртуальных серверов иftpвходов. В третий кластер попадают тарифы с неограниченным количествомftpвходов и количеством виртуальных серверов до 50.
Рассмотрим трехмерную диаграмму рассеивания (рисунок 2.5)
Рисунок 2.5 − Трехмерная диаграмма рассеивания
Таким образом, кластерный анализ помог разбить множество объектов на заданное число классов на основании некоторою математического критерия качества классификации. Диаграмма показывает, как группируются исследуемые тарифы в пространстве трех переменных: количества виртуальных серверов, количество ftpвходов, объем.