Отчет по лабораторной работе №2 / Отчет 2-1
.doc
Уфимский государственный авиационный технический университет
Кафедра технической кибернетики
Отчет по лабораторной работе №2
по курсу «Системы искусственного интеллекта»
на тему «Изучение интеллектуальных методов анализа данных. Компонентный анализ. Кластерный анализ»
Выполнили: Кривошеев А.С.
Проверила:
Уфа 2005г
Лабораторная работа №2
«Изучение интеллектуальных методов анализа данных
Компонентный анализ. Кластерный анализ»
Цель работы: изучение особенностей применения компонентного и кластерного
анализа с целью изучения структуры данных
Исходные данные:
Выборка по предприятиям представлена в таблице 1.
Таблица 1
Производител. труда |
Удельный вес рабочих в составе персонала |
Коэффициент сменности оборудования |
Удельный вес потерь от брака |
Фондоотдача активной части основных фондов |
||||
9,26 |
0,78 |
1,37 |
0,23 |
1,45 |
||||
9,38 |
0,75 |
1,49 |
0,39 |
1,30 |
||||
12,11 |
0,68 |
1,44 |
0,43 |
1,37 |
||||
10,81 |
0,7 |
1,42 |
0,18 |
1,65 |
||||
9,35 |
0,62 |
1,35 |
0,15 |
1,91 |
||||
9,87 |
0,76 |
1,39 |
0,34 |
1,68 |
||||
8,17 |
0,73 |
1,16 |
0,38 |
1,94 |
||||
9,12 |
0,71 |
1,27 |
0,09 |
1,89 |
||||
5,49 |
0,74 |
1,1 |
0,05 |
1,02 |
||||
6,61 |
0,72 |
1,23 |
0,48 |
0,88 |
||||
4,32 |
0,68 |
1,39 |
0,41 |
0,62 |
||||
7,37 |
0,77 |
1,38 |
0,62 |
1,09 |
||||
6,64 |
0,77 |
1,35 |
0,5 |
1,32 |
||||
9,37 |
0,79 |
1,4 |
0,21 |
2,30 |
||||
5,68 |
0,71 |
1,28 |
0,66 |
1,43 |
||||
5,22 |
0,79 |
1,33 |
0,74 |
1,82 |
||||
10,02 |
0,76 |
1,22 |
0,32 |
2,62 |
||||
7,5 |
0,62 |
1,2 |
0,34 |
1,86 |
||||
7,85 |
0,68 |
1,15 |
0,34 |
1,85 |
||||
8 |
0,75 |
1,1 |
0,39 |
2,10 |
||||
8,5 |
0,71 |
1,08 |
0,42 |
2,60 |
Задание:
-
Выполнить исследование методом главных компонент для выданного варианта задания (Вар_задан_Дубров.xls).
-
Выполнить кластерный анализ для выданного варианта задания. Сделать выводы по структуре данных.
-
Сравнить полученные результаты компонентного и кластерного анализов по двум признакам:
-
по составу объектов в выделенных группах
-
по сформированным правилам.
Ход выполнения работы.
1. Компонентный анализ.
Для выборки по предприятиям (представленной в исходных данных) проведено построение трех главных компонент и выполнен компонентный анализ.
а-б) На рисунке 1 представлено окно с результатами компонентного анализа, где в левой половине дается сводная характеристика для всех компонент с указанием собственных значений, а в правой – график для собственных значений главных компонент.
в) Записаны главные компоненты с характеристикой весов признаков:
F1=0,586038*col_1 – 0,227741*col_2 – 0,138188*col_3 – 0,544806*col_4+
+ 0,537386*col_5
F2=0,464468*col_1 + 0,208818*col_2 + 0,822812*col_3 – 0,0417832*col_4
– 0,248796* col_5
F3= 0,118499* col_1 – 0,769489* col_2 – 0, 0877339* col_3 +
+0,340678* col_4 + 0,519698* col_5
г) Выбор значащих компонент и определение названия для них представлено ниже.
1) Выберем p=3 главных компонент.
2) Определим названия для них по формуле: ,
где [w2 – w3] – подмножество участвующих в названии весовых коэффициентов;
[w] – все весовые коэффициенты.
=> т.к. k1 не принадлежит интервалу [0,75; 0,95], в подмножество [w2 – w3] включаем еще один весовой коэффициент = -0,499293 => k1=0,826, а значит, первая главная компонента определяется следующими коэффициентами: фондоотдачи, производительности труда и удельного веса потерь от брака.
k2=0,93 => вторая главная компонента определяется коэффициентами сменности оборудования и удельным весом рабочих.
k3=0,786 => третья главная компонента также определяется коэффициентами сменности оборудования и удельным весом рабочих.
д) Анализ структуры данных (на примере трехмерной диаграммы рассеивания - 3D Scatterplot). На рисунке 2 представлена трехмерная диаграмма рассеивания. На представленном рисунке видно, что все объекты разделились на три группы, что позволяет заключить следующее:
1) Первая группа объектов характеризуется высокой производительностью и высокой фондоотдачей;
2) Вторая группа объектов характеризуется средней производительностью и средней фондоотдачей;
3) Третья группа объектов характеризуется низкой производительностью и низкой фондоотдачей;
Рисунок 1 – Результаты компонентного анализа
Рисунок 2 – Трехмерная диаграмма рассеивания
Рисунок 3 - Результаты кластерного анализа
2. Кластерный анализ.
Для выборки по предприятиям (представленной в исходных данных) проведен кластерный анализ и построена дендрограмма. Результаты кластерного анализа представлены на рисунке 3.
а) На рисунке 3б представлена дендрограмма для трех кластеров. Первый кластер включает в себя номера предприятий: 16, 11, 15, 10, 13, 12. Второй кластер включает в себя номера предприятий: 7, 9, 20, 19, 18, 21. И третий кластер включает в себя номера предприятий: 8, 17, 5, 4, 14, 3, 1, 2, 6.
б-в) Сводка кластерного анализа с населенностью кластеров и координаты центроидов представлены на рисунке 3а.
г) Анализ кластеров (на примере двухмерной и трехмерной диаграмм рассеивания – 2D и 3D Scatterplot).
На рисунке 3в,г представлены двухмерная и трехмерная диаграммы рассеивания соответственно. Из диаграмм следует, что первый кластер характеризуется высокой производительностью и низким весом потерь. В кластере 2 наблюдается низкая производительность и низкий вес потерь. А кластер 3 характеризуется низкой производительностью и высоким весом потерь.
3. Сравнительная характеристика результатов компонентного и кластерного анализов.
Принадлежности объектов к кластерам №1,№2,№3 по результатам компонентного и кластерного анализов приведены в таблице 2.
Таблица 2
№ объекта |
Анализ |
|
Кластерный |
Компонентный |
|
1 |
3 |
3 |
2 |
3 |
3 |
3 |
3 |
3 |
4 |
3 |
3 |
5 |
3 |
3 |
6 |
3 |
3 |
7 |
2 |
2 |
8 |
3 |
3 |
9 |
2 |
2 |
10 |
1 |
1 |
11 |
1 |
1 |
12 |
1 |
1 |
13 |
1 |
1 |
14 |
3 |
3 |
15 |
1 |
1 |
16 |
1 |
1 |
17 |
3 |
3 |
18 |
2 |
2 |
19 |
2 |
2 |
20 |
2 |
2 |
Вывод: в ходе лабораторной работы были проведены компонентный и кластерный анализ. Результаты разбиения по компонентному анализу и на основании кластерного анализа полностью совпали (по номерам объектов). Характеристики выделенных кластеров сходны.