Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Lab_4_Інтелектуальний аналіз даних.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
2.32 Mб
Скачать

2. Приклади реалізації ієрархічної кластеризації даних.

Приклад №1. Використання ієрархічної кластеризації в соціологічних дослідженнях.

Було проведено дослідження позитивного ставлення студентів інституту ІКНІ спеціальності ”КН“ до студентів інших факультетів та до майбутніх професійних ролей, і нас цікавить об’єднання студентів у групи на основі схожого ставлення. Для цього було створено рольовий перелік факультетів та можливих спеціальностей випускників КН. Потім було запропонували студентам оцінити своє ставлення до всіх ролей за 10-бальною шкалою. В результаті було отримано масив даних абл. 1).

Таблиця 1

Обєкти (студенти-учасники дослідження)

А.О.

О.В.

М.П.

К.П.

Р.А.

К.В.

В.Д.

П.Р.

Д.К.

Е.О.

З.А.

Випадки (результати) оцінювання)

Студент

факультету

Комп’ютерні науки

5

9

9

5

5

10

3

5

1,5

1,5

1,5

Студент

педагогічного факультету

2

0,5

3

1

2

3

4

2

9

9

9

Студент

математичного факультету

3

1

2

4

3

4

6

3,5

10

10

10

Студент

природничого факультету

9

2

1,5

3

4

2

7

7

9,5

9,5

9,5

Студент

історичного факультету

4

3

2,5

3,5

6

5

9

9

7

7

7

Студент

філологічного факультету

10

4

1

2

1

6

1,5

1

8

8

8

Програміст

4,5

9,5

10

10

10

9

2,5

5,5

2

2

2

Соціальний

педагог

5,5

10

8

9,5

9,5

9,5

3,5

4

1

1

1

Вчитель

8

5

5

7

5

7

5

3

6

6

6

Викладач

6

6

7

9

8

5,5

8

8

5

5

5

Керівник

3,5

7

6

8

7

4,5

10

10

3

3

3

Для прикладу (табл. 2) обчислимо відстань між першим та другим об’єктами (досліджувані А.О. та О.В. з вихідного масиву даних табл. 1).

Таблиця 2

Об’єкти

х і у і

2

х і у і

L х у 2

і і

і

А.О.

О.В.

Студент

факультету

”Комп’ютерній науки”

5

9

-4

16

L 175,75 13,26

Студент педагогічного

факультету

2

0,5

1,5

2,25

Студент фізико -

математичного факультету

3

1

2

4

Студент природничого

факультету

9

2

7

49

Студент історичного

факультету

4

3

1

1

Студент філологічного

факультету

10

4

6

36

Психолог

4,5

9,5

-5

25

Соціальний педагог

5,5

10

-4,5

20,25

Вчитель

8

5

3

9

Викладач

6

6

0

0

Керівник

3,5

7

-3,5

12,25

Консультант

7

8

-1

1

2

х і у і

і

175,75

Провівши послідовні обчислення відстаней між усіма об’єктами будують таблицю відстаней (distances matrix) (табл. 3).

Таблиця 3

А.О.

О.В.

М.П.

К.П.

Р.А.

К.В.

В.Д.

П.Р.

Д.К.

Е.О.

З.А.

А.О.

0,00

13,26

14,81

13,41

13,51

11,51

14,37

13,63

12,82

12,82

12,82

О.

13,26

0,00

6,24

7,00

7,26

5,94

16,76

12,94

21,66

21,66

21,66

М.П.

14,81

6,24

0,00

6,82

6,69

8,02

14,94

12,37

20,41

20,41

20,41

К.П.

13,41

7,00

6,82

0,00

4,03

8,82

13,44

10,95

19,62

19,62

19,62

Р.А.

13,51

7,26

6,69

4,03

0,00

8,86

12,35

9,04

18,89

18,89

18,89

К.В.

11,51

5,94

8,02

8,82

8,86

0,00

16,43

13,83

18,69

18,69

18,69

В.Д.

14,37

16,76

14,94

13,44

12,35

16,43

0,00

6,61

12,85

12,85

12,85

П.Р.

13,63

12,94

12,37

10,95

9,04

13,83

6,61

0,00

15,97

15,97

15,97

Д.К.

12,82

21,66

20,41

19,62

18,89

18,69

12,85

15,97

0,00

0,00

0,00

Е.О.

12,82

21,66

20,41

19,62

18,89

18,69

12,85

15,97

0,00

0,00

0,00

З.А.

12,82

21,66

20,41

19,62

18,89

18,69

12,85

15,97

0,00

0,00

0,00

Чим менше значення у комірці таблиці, тим ближче знаходяться між собою відповідні об’єкти.

Так, з табл. 3 видно, що найбільша відстань – між студентами О.В. та Д.К., Е.О., З.А. (L=21,66), а також між М.П. та Д.К., Е.О., З.А. (L=20,41). Очевидно, що вже на цьому етапі аналіз можна зробити висновок про наявність принаймні двох груп студентів, які різняться за свої ставленням до навчання та майбутньої професії – група О.В., М.П., та група Д.К., Е.О., З.А. Подивимося на відстані всередині кожної з груп. Дійсно, виявляється, що дуже близькі між собою студенти О.В. та М.П. (L=6,24), а також ідентичні між собою (знаходяться на нульовій відстані) студенти Д.К., Е.О. та З.А. (L=0).

Деревоподібна кластеризація: стратегії кластеризації.

Можна продовжити цей аналіз, шукаючи близькі та віддалені групи студентів, орієнтуючись виключно на таблицю відстаней, а можна продовжити деревоподібний кластерний аналіз, використавши одну із стратегій кластеризації.

Застосуємо стратегію найближчого сусіда. Найменша відстань у таблиці – між об’єктами Д.К., Е.О., З.А. (L=0). Очевидно, вони утворюють перший кластер. Друга по величині відстань – між об’єктами К.П. і Р.А. (L=4,03). Їх варто об’єднати у другий кластер. Третій кластер утворять об’єкти О.В. і К.В. (L=5,94). До третього кластера також слід приєднати об’єкт М.П., оскільки його відстань від О.В. рівна L=6,25. Таким чином, четвертий кластер буде мати свою структуру – первинний кластер з об’єктів О.В. і К.В., і вторинний кластер, який включає в себе ще об’єкт М.П. Пятий кластер буде утворений об’єктами В.Д. і П.Р. (L=6,61).

На цьому етапі кластеризації майже кожен об’єкт увійшов до якогось кластера, і тепер слід зв’язати між собою вже утворені кластери. Наступна за величиною є відстань L=6,69 – це відстань між об’єктами М.П. (четвертий кластер) і Р.А. (другий кластер). Очевидно, що другий та третій кластери слід об’єднати у кластер вищого порядку – шостий кластер. На наступному кроці варто вже шукати відстані між п’ятим і шостим кластерами. Нею буде L=9,04 між об’єктами П.Р. і Р.А. і утвориться сьомий кластер. Далі аналізуючи відстані можна побачити, що до сьомого кластеру приєднується об’єкт А.О. з мінімальною відстанню L=11,51 від об’єкта К.В. з сьомого кластера. Так утворюється восьмий кластер. І нарешті девятий кластер утворений об’єднанням першого та восьмого з відстанню L=12,81 (об’єкти Д.К., Е.О., З.А та А.О.)

Можна узагальнено представити описаний процес кластеризації у таблиці обєднань (amalgamation schedule)табл. 4.

Таблиця 4

В наведеній таблиці представлено кожен описаний вище крок, біля кожного кроку стоїть відстань між найближчими сусідами, а справа – виділені на кожному з кроків кластери. На цьому процедура кластеризації завершена, і можна побудувати графічне зображення отриманих кластерів – кластерне дерево (hierarchical tree plot) – рис. 15.

Рис 15. Кластерне дерево відстані (дендрограма).

Тепер наочно і чітко видно утворену кластерну структуру – кластери студентів, що мають однакове ставлення до своїх рольових позицій і до студентів інших факультетів. Перша група студентів – Д.К., В.О., З.А., друга група – К.П. та Р.А., третя група – О.В. та К.В., до якої приєднується М.П., четверта група – В.Д. та П.Р. Далі від усіх знаходиться студент А.О., який не входить у жоден з первинних кластерів, а значить, найбільше відрізняється від всіх інших.

Приклад №2. Ієрархічна кластеризація відстаней між містами.

Давайте подивимося простий приклад: ієрархічна кластеризації відстані в кілометрах між деякими містами Італії (рис. 16). Застосований метод «ближнього сусіда».

Вхідна матриця відстаней (L = 0 для всіх кластерів):

BA

FI

MI

NA

RM

TO

BA

0

662

877

255

412

996

FI

662

0

295

468

268

400

MI

877

295

0

754

564

138

NA

255

468

754

0

219

869

RM

412

268

564

219

0

669

TO

996

400

138

869

669

0

Рис. 16. Досліджувані міста Італії

Найближча пара міст МІ і ТО, на відстані 138. Вони об'єднані в єдиний кластер який називається "MI / TO". Рівень нового кластера L (MI / TO) = 138 і новий номер послідовності n = 1. 

Тоді ми обчислюємо відстань від цього нового об'єкта до всіх інших об'єктів. Правило кластеризації говорить, що відстань від складеного об'єкта до іншого об'єкта дорівнює найкоротшій відстані від будь-якого члена кластера із зовнішнім об'єктом. Таким чином, відстань від "MI / ТО" RM обрана 564, яка є відстанню MI до RM, і так далі.

Після об’єднання з МІ отримуємо наступну матрицю:

 

BA

FI

MI/TO

NA

RM

BA

0

662

877

255

412

FI

662

0

295

468

268

MI/TO

877

295

0

754

564

NA

255

468

754

0

219

RM

412

268

564

219

0

Рис. 17. Перше об’єднання

min d(i,j) = d(NA,RM) = 219 => злиття NA і RM в новий кластер під назвою NA/RM. L(NA/RM) = 219.

Розшифрую даний запис: мінімальна відстань знаходиться між містами NA, RM і вона дорівнює 219. Ці два міста утворюють новий кластер з рівнем L=219. m = 2

 

BA

FI

MI/TO

NA/RM

BA

0

662

877

255

FI

662

0

295

268

MI/TO

877

295

0

564

NA/RM

255

268

564

0

Рис. 18. Друге об’єднання

min d(i,j) = d(BA,NA/RM) = 255 =>злиття BA і NA/RM в новий кластер під назвою BA/NA/RM. L(BA/NA/RM) = 255. m = 3.

 

BA/NA/RM

FI

MI/TO

BA/NA/RM

0

268

564

FI

268

0

295

MI/TO

564

295

0

Рис. 19. Третє об’єднання

min d(i,j) = d(BA/NA/RM,FI) = 268 => злиття BA/NA/RM і FI в новий кластер під назвою BA/FI/NA/RM. L(BA/FI/NA/RM) = 268. m = 4.

 

BA/FI/NA/RM

MI/TO

BA/FI/NA/RM

0

295

MI/TO

295

0

Рис. 20. Четверте об’єднання

Нарешті, ми об'єднуємо два останніх кластера на рівні 295.

Процес узагальнений наступним ієрархічним деревом:

Рис. 21. Дендрограма отриманого розв’язку.

Приклад №3 Ієрархічної кластеризації даних виконаний в пакеті прикладних програм Statsoft STATISTICA.

Розглянемо процедуру вирішення практичної задачі методом кластерного аналізу в системі STATISTICA.

Завданням кластерного аналізу є організація спостережуваних даних в наочні структури. Для вирішення даної задачі в кластерному аналізі використовуються наступний метод: Joining (tree clustering) (ієрархічні агломеративні методи або деревоподібна кластеризація).

Розберемо принцип проведення кластерного аналізу на основі даних представлених в таблиці. У ній містяться дані за показником рівня життя населення та показники-аргументи, які беруть участь у класифікації.

Розглянемо процес формування вибірок в системі STATISTICA.

1. З перемикача модулів STATISTICA відкрийте модуль Cluster Analysis (Кластерний Аналіз). Висвітиться назва модуля і далі натисніть кнопку Switch to (Переключитися в) або виберіть назву модуля Cluster Analysis.

2. На екрані з'явиться стартова панель модуля (рис.22) Clustering Method (методи кластерного аналізу): Joining (tree clustering) (ієрархічні агломеративні методи або деревоподібна кластеризація).

Рис.22. Стартова панель модуля Clustering Method (методи кластерного аналізу)

3. Створимо новий файл (New).Заповніть табличку згідно свого завдання. Після вибору Joining (tree clustering) і натискання на кнопку ОК з'являється вікно Cluster Analysis: Joing (Tree Clustering) (вікно введення режимів роботи для ієрархічних агломеративних методів) (рис. 23), в якому кнопка Variables дозволяє вибрати змінні беруть участь у класифікації. Натиснемо на кнопку Variables і виберемо всі змінні Select All. Далі натискаємо на кнопку OK.

Рис.23. ClusterAnalysis: Joing (TreeClustering)

(Вікно введення режимів роботи для ієрархічних агломеративних методів)

Також можна задати Input (тип вхідної інформації) і Cluster (режим класифікації (за ознаками або об'єктам)). Можна вказати Amalgamation (linkage) rule (правило об'єднання) і Distance measure (метрика відстаней). Codes for grouping variable (коди для груп змінної) будуть вказувати кількість аналізованих груп об'єктів. Missing data (пропущені змінні) дозволяє вибрати або порядкове видалення змінних зі списку, або замінити їх на середні значення. Open Data-дозволяє відкрити файл з даними. Причому можна вказати умови вибору спостережень з бази даних-кн. Select Cases. Можна задавати ваги змінним, вибравши їх із списку – кнопкою W.

Проставте значення, як показано на рисунку 22.

4. Після задання всіх необхідних параметрів і натискання на кнопку ОК будуть зроблені обчислення, а на екрані з'явиться вікно, що містить результати кластерного аналізу "Joining Results" рис.24.

Рис.24. Вікно, що містить результати кластерного аналізу "JoiningResults"

Висновок результатів та їх аналіз

Інформаційна частина діалогового вікна Joining Results Discriminant Function Analisis Results (результати аналізу кластерних функцій) повідомляє:

  • Number of variables - число змінних;

  • Number of cases - число спостережень;

  • Missing data were casewise deleted - здійснена класифікація спостережень або змінних (залежить від рівня параметра в рядку Cluster в попередньому вікні налаштування.)

  • Amalgation (joing) rule - правило об'єднання кластерів (назва ієрархічного агломеративного методу, заданого в рядку Amalgation rules, а в попередньому вікні налаштування);

  • Distanse metricis - Метрика відстані (залежить від установки в рядку Distance measureу попередньому вікні налаштування.

Користувач може викликати на екран горизонтальну і вертикальну діаграму (Horizontal hierarchical plot або Vertical icicle plot). Найбільш традиційне - вертикальне уявлення. (Рис. 25).

Рис.25. Vertical icicle plot

Тепер уявіть собі, що поступово (дуже малими кроками) ви "послабляєте" ваш критерій про те, які об'єкти є унікальними, а які ні. Іншими словами, ви знижуєте поріг, що відноситься до вирішення питання про об'єднання двох або більше об'єктів в один кластер. В результаті, ви пов'язуєте разом все більше і більше число об'єктів і об'єднуєте все більше і більше кластерів, що складаються з елементів, що усе більше відрізняються. Остаточно, на останньому кроці всі об'єкти об'єднуються разом. В результаті успішного аналізу методом об'єднання з'являється можливість виявити кластери (гілки) і інтерпретувати їх.

Щоб повернутися в вікно, що містить інші результати кластерного аналізу, необхідно натиснути на кнопку Continue.

Клацанням миші можна розкрити рядок Amalgamation schedule, що містить протокол об'єднання кластерів. Рис. 26

Рис. 26. Amalgamation schedule

У заголовку вказано ієрархічний агломеративний метод і метрика відстані. Таблиця може займати кілька вікон.

Наступною у вікні результатів йде кнопка Graph of amalgamation schedule. Після натискання, розкривається вікно, що містить ступінчасте, графічне зображення змін відстаней при об'єднанні кластерів рис. 27.

Рис. 27. Graph of amalgamation schedule

Повернувшись в основне вікно результатів і класифікації. Для перегляду же матриці відстаней необхідно здійснити натискання по рядку Distance matrix (рис.27).

Рис.28. Матриця відстаней

В основному вікні результатів класифікації є рядок Save distance matrix as: (Зберегти матрицю відстаней як ), що дозволяє задати ім'я файлу, в якому буде збережена матриця відстаней, яка в подальшому буде піддана обробці.

Рядок Discriptive statistics містить такі найважливіші описові статистики, як середнє (means) і середньоквадратичне відхилення (standart deviations) для кожного спостереження. При проведенні класифікації n об'єктів за k ознаками, для користувача виникає великий інтерес до значення цих показників для кожної ознаки. Для того щоб ці характеристики розраховувалися саме за ознаками необхідно повернуться в основне вікно налаштування параметрів і задати в рядку Cluster значення "variables (columns)".

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]