- •Введение
- •1 Идентификация проблемной области
- •1.1 Постановка задачи
- •1.2 Назначение эс
- •1.3 Класс эс по решаемой задаче
- •2.1.2 Кластерный анализ с применением дендрограмм
- •2.1.3 Кластерный анализ с применением карт Кахонена
- •2.1.3 Построение деревьев решений
- •2.2 Структурирование проблемной области
- •3 Формализация базы знаний
- •3 1 Краткий обзор модели представления знаний
- •3.2 Обоснование выбора модели представления знаний
- •3.3 Таблицы решений
- •3.4 Сеть вывода
- •4 База знаний
- •Заключение
- •Приложение а – Исходная выборка исследуемых процессоров
- •Приложение б – Принадлежность наблюдений к классам
2.1.2 Кластерный анализ с применением дендрограмм
Этот анализ предназначен для разбиения множества объектов на заданное или неизвестное число классов на основании некоторого математического критерия качества классификации
Введем исходные данные в электронную таблицу STATGRAPHICS (50x10). Для более детального анализа проделали ряд операций. Получили дендрограмму методом Варда для пяти кластеров (классов) (рисунок 2.3).
Рисунок 2.3 – Дендрограмма для пяти классов
После преобразований получили сводку кластерного анализа (таблица 2.5).
Таблица 2.5
Сводка кластерного анализа
Cluster |
Members |
Percent |
1 |
9 |
18,37 |
2 |
10 |
20,41 |
3 |
10 |
20,41 |
4 |
17 |
34,69 |
5 |
3 |
6,12 |
|
Centroids | ||||
Cluster |
1 |
2 |
3 |
4 |
5 |
CPU Frequency |
2500 |
2543,3 |
3020 |
1964,71 |
2155,33 |
Bus Frequency |
607,333 |
533 |
800 |
894,118 |
333 |
L1 Cache |
10,6667 |
16 |
16 |
150,588 |
128 |
L2 Cache |
497,778 |
640 |
1945,6 |
549,647 |
277,333 |
Technology |
0,135556 |
0,09 |
0,0875 |
0,106471 |
0,13 |
Multiplication |
14,5556 |
19,1 |
15,1 |
11,8235 |
10,8333 |
Critical Temperature |
73,3333 |
67,5 |
69,5 |
69,1765 |
86,6667 |
Cost |
4164,78 |
2323,4 |
6667,3 |
5835,35 |
2248,67 |
Как видно из таблицы 2.5, в сводке кластерного анализа прежде всего учитываются имена переменных, участвующих в анализе, количество полных образцов, использованный метод кластерного анализа и принятая метрика. Затем, в сводке описывается число кластеров, количество объектов в каждом кластере и соответствующий процент. Кроме того, в нижней части сводки приводится дополнительная информация по координатам центроидов. По этим координатам можно судить о том, какие переменные играют наиболее важную роль в каждом кластере.
Таблица 2.6
Принадлежность объектов к кластерам
1 |
Celeron/2000MHz/400MHz/ L1:8Kb/L2:128Kb |
1 |
2 |
Celeron D 310 |
2 |
3 |
Celeron D 315 |
2 |
4 |
Celeron D 320 |
2 |
5 |
Celeron D 325 |
2 |
6 |
Celeron D 330 |
2 |
7 |
Duron/1500MHz/400MHz/ L1:8Kb/L2:256Kb |
1 |
8 |
P4/2000MHz/400MHz/ L1:8Kb/L2:512Kb |
1 |
9 |
P4/2400MHz/533MHz/ L1:16Kb/L2:1024Kb |
2 |
10 |
P4/2400MHz/800MHz/ L1:16Kb/L2:512Kb |
1 |
11 |
P4/2800MHz/533MHz/ L1:8Kb/L2:512Kb |
1 |
12 |
P4/2800MHz/533MHz/ L1:8Kb/L2:1024Kb |
1 |
13 |
P4/2800MHz/800MHz/ L1:8Kb/L2:512Kb |
1 |
14 |
P4/2800MHz/800MHz/ L1:16Kb/L2:1024Kb |
3 |
15 |
P4/3000MHz/800MHz/ L1:16Kb/L2:512Kb |
1 |
16 |
P4/3000MHz/800MHz/ L1:16Kb/L2:1024Kb |
3 |
17 |
P4/3200MHz/800MHz/ L1:16Kb/L2:512Kb |
1 |
18 |
P4/2660MHz/533MHz/ L1:16Kb/L2:1024Kb |
2 |
19 |
P4/2660MHz/533MHz/ L1:16Kb/L2:1024Kb |
2 |
20 |
P4/2800MHz/533MHz/ L1:16Kb/L2:1024Kb |
2 |
21 |
P4/2930MHz/533MHz/ L1:16Kb/L2:1024Kb |
2 |
22 |
P4/3000MHz/800MHz/ L1:16Kb/L2:1024Kb |
3 |
23 |
P4/3000MHz/800MHz/ L1:16Kb/L2:2048Kb |
3 |
24 |
P4/3200MHz/800MHz/ L1:16Kb/L2:2048Kb |
3 |
25 |
P4/3400MHz/800MHz/ L1:16Kb/L2:2048Kb |
3 |
26 |
P4/2800MHz/800MHz/ L1:16Kb/L2:2048Kb |
3 |
27 |
P4/3000MHz/800MHz/ L1:16Kb/L2:2048Kb |
3 |
28 |
P4/3200MHz/800MHz/ L1:16Kb/L2:2048Kb |
3 |
29 |
P4/2800MHz/800MHz/ L1:16Kb/L2:4096Kb |
3 |
30 |
Athlon-64/1800MHz/800MHz/ L1:128Kb/L2:512Kb |
4 |
31 |
Athlon-64/2000MHz/800MHz/ L1:128Kb/L2:512Kb |
4 |
32 |
Athlon-64/2000MHz/800MHz/ L1:128Kb/L2:512Kb |
4 |
33 |
Athlon-64/2200MHz/800MHz/ L1:128Kb/L2:512Kb |
4 |
34 |
Athlon/3000MHz/400MHz/ L1:128Kb/L2:512Kb |
5 |
35 |
Athlon-64/1800MHz/1000MHz/ L1:128Kb/L2:512Kb |
4 |
36 |
Athlon-64/2000MHz/1000MHz/ L1:128Kb/L2:512Kb |
4 |
37 |
Athlon-64/2200MHz/1000MHz/ L1:128Kb/L2:512Kb |
4 |
38 |
Athlon-64/2400MHz/1000MHz/ L1:128Kb/L2:512Kb |
4 |
39 |
Athlon-64/2400MHz/1000MHz/ L1:128Kb/L2:1024Kb |
4 |
40 |
Athlon-64/2000MHz/1000MHz/ L1:256Kb/L2:1024Kb |
4 |
41 |
Athlon-64/2200MHz/1000MHz/ L1:256Kb/L2:1024Kb |
4 |
42 |
Athlon-64/2400MHz/1000MHz/ L1:256Kb/L2:1024Kb |
4 |
43 |
Sempron-64/1400MHz/800MHz/ L1:128Kb/L2:256Kb |
4 |
44 |
Sempron-64/1600MHz/800MHz/ L1:128Kb/L2:128Kb |
4 |
45 |
Sempron-64/1600MHz/800MHz/ L1:128Kb/L2:256Kb |
4 |
46 |
Sempron-64/1800MHz/800MHz/ L1:128Kb/L2:256Kb |
4 |
47 |
Sempron/1600MHz/800MHz/ L1:128Kb/L2:256Kb |
4 |
48 |
Sempron/1666MHz/333MHz/ L1:128Kb/L2:256Kb |
5 |
49 |
Duron/1800MHz/266MHz/ L1:128Kb/L2:64Kb |
5 |
Перейдем к рассмотрению диаграммы рассеивания (рисунок 2.4)
Рисунок 2.4 − Двухмерная диаграмма рассеивания
Диаграмма показывает, как группируются исследуемые наблюдения на плоскости двух переменных BUSFrequency− частота шины иCPUFrequency− частота процессора.
Рассмотрим трехмерную диаграмму рассеивания (рисунок 2.5)
Рисунок 2.5 − Трехмерная диаграмма рассеивания
Таким образом, кластерный анализ помог разбить множество объектов на заданное число классов на основании некоторого математического критерия качества классификации. Диаграмма показывает, как группируются исследуемые мобильные телефоны в пространстве трех переменных: CPUFrequency,BusFrequency,L1Cache.