- •Міністерство освіти і науки україни національний університет “львівська політехніка”
- •Лабораторний практикум
- •“Комп’ютерні науки”
- •Методи класифікації та понижування розмірності і. Формування даних
- •1.1. Поняття класу.
- •1.2. Суть задач класифікації та понижування розмірності.
- •1.3. Типові задачі практики.
- •1.4. Типи математичних постановок задач класифікації
- •Лабораторна робота № 1.1. Формування таблиць “об’єкт – властивість”
- •2. Побудова матриць близькості
- •2.1. Гіпотеза компактності.
- •2.2. Міри подібності (близькості) кількісних та якісних ознак.
- •Побудова матриць близькості для кількісних ознак
- •Побудова матриць близькості для якісних ознак
- •Список літератури
- •Кластерний аналіз
- •3.1. Модель кластерного аналізу.
- •3.2. Кластерний аналіз.
- •Комбінаторний метод ієрархічної класифікації.
- •Ієрархічний кластерний аналіз для бінарних об’єктів.
- •Іii. Лінійні розділяючі функції і поверхні рішень.
- •1.1. Основні поняття теорії розпізнавання образів
- •1.2. Випадок двох класів.
- •1.3. Випадок багатьох класів.
- •Обчислення відстані між класами
- •Побудова розділяючої функції
- •Статистичні методи розпізнавання.
- •2.1. Основи байєсівського підходу.
- •Іv. Розпізнавання зображень
- •4.1. Поняття зображення.
- •1.2. Формалізація поняття “алгоритм розпізнавання зображень”.
- •4.3. Математична постановка задачі розпізнавання.
- •1.4. Функціональна модель процесу розпізнавання.
- •Побудова класів об’єктів з заданим типом ознак.
- •Лабораторна робота 4.2. Побудова розпізнаючого алгоритму.
Ієрархічний кластерний аналіз для бінарних об’єктів.
Мета роботи. Виконати ієрархічну класифікацію даних, з бінарним представленням значень ознак і результати відобразити з допомогою дендрограми та площинної діаграми.
Зміст роботи. Суть даної роботи полягає в реалізації конкретної процедури класифікації, зведених у звичайну таблицю “об’єкт – ознака” бінарних даних, представлених числами: “0” – відсутність даної ознаки в даного об’єкта або “1” – наявність цієї ознаки в цього об’єкта. При використанні інформаційної статистики матрицю близькості не формують. Підготовка даних означає, що будь-які числові дані також можуть бути представлені в бінарній формі, якщо їх значення мають конкретно визначений діапазон, для якого можна вказати, у відповідності з тим чи іншим критерієм, деяке порогове значення таке, що перевищення значенням ознаки цього значення можна трактувати як значення бінарної ознаки рівне “1”, а значення ознаки, які є меншими або рівними цьому порогу трактувати як значення бінарної ознаки рівне “0”.
Пояснимо процедуру ієрархічної класифікації методом інформаційної статистики на конкретному прикладі. Нехай необхідно згрупувати п’ять об’єктів, кожен з яких характеризується десятьма ознаками. Поіменуємо ці об’єкти літерами A, B, C, D, E і зведемо інформацію про них в таблицю, в якій бінарні значення ознак представлені цифрами “0”, “1”. Таблиця має наступний вид.
Об’єкти |
Ознаки |
|||||||||
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
|
A |
1 |
1 |
0 |
1 |
0 |
0 |
1 |
1 |
1 |
1 |
B |
1 |
0 |
1 |
1 |
0 |
1 |
0 |
1 |
1 |
1 |
C |
0 |
0 |
1 |
0 |
1 |
0 |
1 |
0 |
0 |
1 |
D |
0 |
0 |
0 |
1 |
0 |
1 |
1 |
1 |
0 |
0 |
E |
1 |
1 |
1 |
0 |
1 |
1 |
0 |
0 |
1 |
0 |
Згідно з процедурою, на кожному кроці процесу класифікації буде потрібно знати:
1. Склад усіх груп, які залишились.
2. Число об’єктів в кожній групі.
3. Інформаційний зміст кожної групи.
Далі необхідно дослідити усі можливі об’єднання між групами, між об’єктами та між групою і об’єктом.
Для кожного об’єднання треба знати:
1. групи, з яких воно складене;
2. число об’єктів після об’єднання;
3. інформаційний зміст після об’єднання;
4. інформаційний виграш, визначений різницею інформаційних змістів об’єднаних груп.
Послідовність операцій в процедурі може бути представлена наступним алгоритмом.
Крок
1. Так як об’єкти A
– E
мають нульовий ін форм акційний зміст,
то інформаційний виграш , наприклад від
об’єднання A
і B
дорівнює
,
так, що для початкового об’єднання
інформаційний виграш рівний інформаційному
змісту. Об’єднують пару з найменшим
інформаційним виграшем, тобто об’єднують
об’єкти A
і B
в нову групу F
з двома об’єктами і інформаційним
змістом
.
Об’єкти A
і B
і будь-яке об’єднання, яке їх містить,
можуть бути тепер виключені. Ілюстрацією
реалізації першого кроку даної процедури
є фрагмент таблиці 3.
Об’єкти |
Кількість об’єктів |
Специфікація ознак |
Інформацій-ний зміст |
Інформацій-ний виграш |
Крок 1 Початкові групи |
||||
A |
1 |
1 1 0 1 0 0 1 1 1 1 |
0.0000 |
– |
B |
1 |
1 0 1 1 0 1 0 1 1 1 |
0.0000 |
– |
C |
1 |
0 0 1 0 1 0 1 0 0 1 |
0.0000 |
– |
D |
1 |
0 0 0 1 0 1 1 1 0 0 |
0.0000 |
– |
E |
1 |
1 1 1 0 1 1 0 0 1 0 |
0.0000 |
– |
Об’єднання Груп |
||||
AB |
2 |
2 1 1 2 0 1 1 2 2 2 |
5.5452 |
5.5452 |
AC |
2 |
1 1 1 1 1 0 2 1 1 2 |
9.7041 |
9.7041 |
AD |
2 |
1 1 0 2 0 1 2 2 1 1 |
6.9315 |
6.9315 |
AE |
2 |
2 2 1 1 1 1 1 1 2 1 |
9.7041 |
9.7041 |
BC |
2 |
1 0 2 1 1 1 1 1 1 2 |
9.7041 |
9.7041 |
BD |
2 |
1 0 1 2 0 2 1 2 1 1 |
6.9315 |
6.9315 |
BE |
2 |
2 1 2 1 1 2 0 1 2 1 |
6.9315 |
6.9315 |
CD |
2 |
0 0 1 1 1 1 2 1 0 1 |
8.3178 |
8.3178 |
CE |
2 |
1 1 2 0 2 1 1 0 1 1 |
8.3178 |
8.3178 |
DE |
2 |
1 1 1 1 1 2 1 1 1 0 |
11.0904 |
11.0904 |
Крок 2. Групи, що залишились |
||||
C |
1 |
0 0 1 0 1 0 1 0 0 1 |
0.0000 |
– |
D |
1 |
0 0 0 1 0 1 1 1 0 0 |
0.0000 |
– |
E |
1 |
1 1 1 0 1 1 0 0 1 0 |
0.0000 |
– |
F |
2 |
2 1 1 2 0 1 1 2 2 2 |
5.5452 |
– |
Об’єднання груп |
||||
CD* |
2 |
0 0 1 1 1 1 2 1 0 1 |
8.3178 |
8.3178 |
CE* |
2 |
1 1 2 0 2 1 1 0 1 1 |
8.3178 |
8.3178 |
DE* |
2 |
1 1 1 1 1 2 1 1 1 0 |
11.0904 |
11.0904 |
FC |
3 |
2 1 2 2 1 1 2 2 2 3 |
17.1855 |
11.6403 |
FD |
3 |
2 1 1 3 0 2 2 3 3 3 |
13.3665 |
7.8213 |
FE |
3 |
3 2 2 2 1 2 1 2 3 2 |
15.2760 |
9.7308 |
Крок 3. Групи, що залишились |
||||
C |
1 |
0 0 1 0 1 0 1 0 0 1 |
0.0000 |
– |
E |
1 |
1 1 1 0 1 1 0 0 1 0 |
0.0000 |
– |
G |
3 |
2 1 1 3 0 2 2 3 3 3 |
13.3665 |
– |
Об’єднання груп |
||||
CE* |
2 |
1 1 2 0 2 1 1 0 1 1 |
8.3178 |
– |
CG |
4 |
2 1 2 3 1 2 3 3 2 3 |
24.5868 |
– |
EG |
4 |
3 2 2 3 1 3 2 3 3 2 |
24.5868 |
– |
Крок 4. Групи, що залишились |
||||
G |
3 |
2 1 1 3 0 2 2 3 3 3 |
13.3665 |
– |
H |
2 |
1 1 2 0 2 1 1 0 1 1 |
8.3178 |
– |
Об’єднання Груп |
||||
GH |
5 |
3 2 3 3 2 3 3 3 3 3 |
33.6510 |
11.9667 |
Деякі пояснення.
Крок 1. Зауважимо, що інформаційний виграш, наприклад для FC отримується з інформаційного змісту 17.1855 шляхом вирахування інформаційного змісту F(5.5452) і C(0.0000). найменший виграш зв’язаний з FD. Об’єднуючи F і D, отримуємо нову групу G з трьох об’єктів і всі, що відносяться до F і D виключаємо з подальшого розгляду.
Крок 3. Найменший виграш зв’язаний з CE. Об’єднання C і E дає нову групу H з двох об’єктів. Все, що відноситься до C і E виключається з подальшого аналізу.
Крок 4. Процес закінчено. Остаточний результат приведений в таблиці 4.
Таблиця 4
Об’єднання елементів і груп |
Результат об’єднання |
Інформаційний виграш |
Інформаційний зміст |
|||
A |
і |
B |
дає |
F |
5.5452 |
5.5452 |
D |
і |
F |
дає |
E |
7.8213 |
13.3665 |
C |
і |
E |
дає |
G |
8.3178 |
8.3178 |
E |
і |
G |
дає |
H |
11.9667 |
33.6510 |
Хід роботи.
1. Зібрати бінарні дані про об’єкти, які характеризуються бінарними ознаками, наприклад, якісні характеристики побутових пристроїв, обчислювальної та офісної техніки, програми кандидатів, з якими вони йдуть на вибори, суб’єктивні оцінки соціальних явищ студентами групи.
2. Якщо серед даних є кількісні ознаки то їх необхідно представити в бінарній формі. Для цього слід поступити наступним чином. Знайти середнє арифметичне значень цієї ознаки у всіх об’єктів і значенням, які перевищують це середнє арифметичне присвоїти “1”, а значенням , які є рівними або меншими – “0”.
3. Сформувати дані в таблицю, аналогічну таблиці 3. Позначивши відповідним чином об’єкти.
4. Розробити програмне забезпечення для проміжних розрахунків.
5. Результати класифікації представити візуально у формі дендрограми та площинної діаграми.
6. В звіті привести вихідні дані у вигляді таблиці, аналогічній таблиці алгоритму класифікації методом інформаційної статистики, опис алгоритму, таблицю отриманих результатів кластерного аналізу та рисунки дендрограми і площинної діаграми. Чітко сформулювати постановку задачі та висновки. Загальний характер звіту повинен відповідати методичним рекомендаціям стосовно використання даного методу в практичних дослідженнях.
Список літератури.
