Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лабораторний практикум МCШІ - 2013 .doc
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
2.63 Mб
Скачать

Ієрархічний кластерний аналіз для бінарних об’єктів.

Мета роботи. Виконати ієрархічну класифікацію даних, з бінарним представленням значень ознак і результати відобразити з допомогою дендрограми та площинної діаграми.

Зміст роботи. Суть даної роботи полягає в реалізації конкретної процедури класифікації, зведених у звичайну таблицю “об’єкт – ознака” бінарних даних, представлених числами: “0” – відсутність даної ознаки в даного об’єкта або “1” – наявність цієї ознаки в цього об’єкта. При використанні інформаційної статистики матрицю близькості не формують. Підготовка даних означає, що будь-які числові дані також можуть бути представлені в бінарній формі, якщо їх значення мають конкретно визначений діапазон, для якого можна вказати, у відповідності з тим чи іншим критерієм, деяке порогове значення таке, що перевищення значенням ознаки цього значення можна трактувати як значення бінарної ознаки рівне “1”, а значення ознаки, які є меншими або рівними цьому порогу трактувати як значення бінарної ознаки рівне “0”.

Пояснимо процедуру ієрархічної класифікації методом інформаційної статистики на конкретному прикладі. Нехай необхідно згрупувати п’ять об’єктів, кожен з яких характеризується десятьма ознаками. Поіменуємо ці об’єкти літерами A, B, C, D, E і зведемо інформацію про них в таблицю, в якій бінарні значення ознак представлені цифрами “0”, “1”. Таблиця має наступний вид.

Об’єкти

Ознаки

1

2

3

4

5

6

7

8

9

10

A

1

1

0

1

0

0

1

1

1

1

B

1

0

1

1

0

1

0

1

1

1

C

0

0

1

0

1

0

1

0

0

1

D

0

0

0

1

0

1

1

1

0

0

E

1

1

1

0

1

1

0

0

1

0

Згідно з процедурою, на кожному кроці процесу класифікації буде потрібно знати:

1. Склад усіх груп, які залишились.

2. Число об’єктів в кожній групі.

3. Інформаційний зміст кожної групи.

Далі необхідно дослідити усі можливі об’єднання між групами, між об’єктами та між групою і об’єктом.

Для кожного об’єднання треба знати:

1. групи, з яких воно складене;

2. число об’єктів після об’єднання;

3. інформаційний зміст після об’єднання;

4. інформаційний виграш, визначений різницею інформаційних змістів об’єднаних груп.

Послідовність операцій в процедурі може бути представлена наступним алгоритмом.

Крок 1. Так як об’єкти A – E мають нульовий ін форм акційний зміст, то інформаційний виграш , наприклад від об’єднання A і B дорівнює , так, що для початкового об’єднання інформаційний виграш рівний інформаційному змісту. Об’єднують пару з найменшим інформаційним виграшем, тобто об’єднують об’єкти A і B в нову групу F з двома об’єктами і інформаційним змістом . Об’єкти A і B і будь-яке об’єднання, яке їх містить, можуть бути тепер виключені. Ілюстрацією реалізації першого кроку даної процедури є фрагмент таблиці 3.

Об’єкти

Кількість об’єктів

Специфікація

ознак

Інформацій-ний зміст

Інформацій-ний виграш

Крок 1

Початкові групи

A

1

1 1 0 1 0 0 1 1 1 1

0.0000

B

1

1 0 1 1 0 1 0 1 1 1

0.0000

C

1

0 0 1 0 1 0 1 0 0 1

0.0000

D

1

0 0 0 1 0 1 1 1 0 0

0.0000

E

1

1 1 1 0 1 1 0 0 1 0

0.0000

Об’єднання

Груп

AB

2

2 1 1 2 0 1 1 2 2 2

5.5452

5.5452

AC

2

1 1 1 1 1 0 2 1 1 2

9.7041

9.7041

AD

2

1 1 0 2 0 1 2 2 1 1

6.9315

6.9315

AE

2

2 2 1 1 1 1 1 1 2 1

9.7041

9.7041

BC

2

1 0 2 1 1 1 1 1 1 2

9.7041

9.7041

BD

2

1 0 1 2 0 2 1 2 1 1

6.9315

6.9315

BE

2

2 1 2 1 1 2 0 1 2 1

6.9315

6.9315

CD

2

0 0 1 1 1 1 2 1 0 1

8.3178

8.3178

CE

2

1 1 2 0 2 1 1 0 1 1

8.3178

8.3178

DE

2

1 1 1 1 1 2 1 1 1 0

11.0904

11.0904

Крок 2.

Групи, що залишились

C

1

0 0 1 0 1 0 1 0 0 1

0.0000

D

1

0 0 0 1 0 1 1 1 0 0

0.0000

E

1

1 1 1 0 1 1 0 0 1 0

0.0000

F

2

2 1 1 2 0 1 1 2 2 2

5.5452

Об’єднання

груп

CD*

2

0 0 1 1 1 1 2 1 0 1

8.3178

8.3178

CE*

2

1 1 2 0 2 1 1 0 1 1

8.3178

8.3178

DE*

2

1 1 1 1 1 2 1 1 1 0

11.0904

11.0904

FC

3

2 1 2 2 1 1 2 2 2 3

17.1855

11.6403

FD

3

2 1 1 3 0 2 2 3 3 3

13.3665

7.8213

FE

3

3 2 2 2 1 2 1 2 3 2

15.2760

9.7308

Крок 3.

Групи, що залишились

C

1

0 0 1 0 1 0 1 0 0 1

0.0000

E

1

1 1 1 0 1 1 0 0 1 0

0.0000

G

3

2 1 1 3 0 2 2 3 3 3

13.3665

Об’єднання

груп

CE*

2

1 1 2 0 2 1 1 0 1 1

8.3178

CG

4

2 1 2 3 1 2 3 3 2 3

24.5868

EG

4

3 2 2 3 1 3 2 3 3 2

24.5868

Крок 4.

Групи, що залишились

G

3

2 1 1 3 0 2 2 3 3 3

13.3665

H

2

1 1 2 0 2 1 1 0 1 1

8.3178

Об’єднання

Груп

GH

5

3 2 3 3 2 3 3 3 3 3

33.6510

11.9667

Деякі пояснення.

Крок 1. Зауважимо, що інформаційний виграш, наприклад для FC отримується з інформаційного змісту 17.1855 шляхом вирахування інформаційного змісту F(5.5452) і C(0.0000). найменший виграш зв’язаний з FD. Об’єднуючи F і D, отримуємо нову групу G з трьох об’єктів і всі, що відносяться до F і D виключаємо з подальшого розгляду.

Крок 3. Найменший виграш зв’язаний з CE. Об’єднання C і E дає нову групу H з двох об’єктів. Все, що відноситься до C і E виключається з подальшого аналізу.

Крок 4. Процес закінчено. Остаточний результат приведений в таблиці 4.

Таблиця 4

Об’єднання елементів і груп

Результат об’єднання

Інформаційний виграш

Інформаційний зміст

A

і

B

дає

F

5.5452

5.5452

D

і

F

дає

E

7.8213

13.3665

C

і

E

дає

G

8.3178

8.3178

E

і

G

дає

H

11.9667

33.6510

Хід роботи.

1. Зібрати бінарні дані про об’єкти, які характеризуються бінарними ознаками, наприклад, якісні характеристики побутових пристроїв, обчислювальної та офісної техніки, програми кандидатів, з якими вони йдуть на вибори, суб’єктивні оцінки соціальних явищ студентами групи.

2. Якщо серед даних є кількісні ознаки то їх необхідно представити в бінарній формі. Для цього слід поступити наступним чином. Знайти середнє арифметичне значень цієї ознаки у всіх об’єктів і значенням, які перевищують це середнє арифметичне присвоїти “1”, а значенням , які є рівними або меншими – “0”.

3. Сформувати дані в таблицю, аналогічну таблиці 3. Позначивши відповідним чином об’єкти.

4. Розробити програмне забезпечення для проміжних розрахунків.

5. Результати класифікації представити візуально у формі дендрограми та площинної діаграми.

6. В звіті привести вихідні дані у вигляді таблиці, аналогічній таблиці алгоритму класифікації методом інформаційної статистики, опис алгоритму, таблицю отриманих результатів кластерного аналізу та рисунки дендрограми і площинної діаграми. Чітко сформулювати постановку задачі та висновки. Загальний характер звіту повинен відповідати методичним рекомендаціям стосовно використання даного методу в практичних дослідженнях.

Список літератури.