- •Міністерство освіти і науки україни національний університет “львівська політехніка”
- •Лабораторний практикум
- •“Комп’ютерні науки”
- •Методи класифікації та понижування розмірності і. Формування даних
- •1.1. Поняття класу.
- •1.2. Суть задач класифікації та понижування розмірності.
- •1.3. Типові задачі практики.
- •1.4. Типи математичних постановок задач класифікації
- •Лабораторна робота № 1.1. Формування таблиць “об’єкт – властивість”
- •2. Побудова матриць близькості
- •2.1. Гіпотеза компактності.
- •2.2. Міри подібності (близькості) кількісних та якісних ознак.
- •Побудова матриць близькості для кількісних ознак
- •Побудова матриць близькості для якісних ознак
- •Список літератури
- •Кластерний аналіз
- •3.1. Модель кластерного аналізу.
- •3.2. Кластерний аналіз.
- •Комбінаторний метод ієрархічної класифікації.
- •Ієрархічний кластерний аналіз для бінарних об’єктів.
- •Іii. Лінійні розділяючі функції і поверхні рішень.
- •1.1. Основні поняття теорії розпізнавання образів
- •1.2. Випадок двох класів.
- •1.3. Випадок багатьох класів.
- •Обчислення відстані між класами
- •Побудова розділяючої функції
- •Статистичні методи розпізнавання.
- •2.1. Основи байєсівського підходу.
- •Іv. Розпізнавання зображень
- •4.1. Поняття зображення.
- •1.2. Формалізація поняття “алгоритм розпізнавання зображень”.
- •4.3. Математична постановка задачі розпізнавання.
- •1.4. Функціональна модель процесу розпізнавання.
- •Побудова класів об’єктів з заданим типом ознак.
- •Лабораторна робота 4.2. Побудова розпізнаючого алгоритму.
Комбінаторний метод ієрархічної класифікації.
Мета роботи. Здійснити методом кластерного аналізу ієрархічну класифікацію даних, представлених матрицею близькостей, отриманою в попередніх дослідженнях та відобразити результати у вигляді дендрограми та площинної діаграми.
Зміст роботи. Суть даної роботи полягає в реалізації конкретної процедури класифікації відповідним чином підготовлених даних. Підготовка даних означає, що вони ретельно відібрані, перевірені представлені матрицею близькостей, причому допускається використана при формуванні матриці близькостей метрика, оскільки в іншому випадку матрицю близькостей необхідно обчислювати заново.
Загальний алгоритм процедури класифікації можна представити як основний цикл об’єднань наступними кроками.
Крок 1. Кожен з елементів, які підлягають класифікації, розглядається як окремий кластер. Обчислюється початкова матриця міжкластерних відстаней . Цей крок можна опустити, якщо відстані вже обчислені і повинні бути тільки введеними в програму.
Крок
2.
Поглядається матриця
і шукається мінімальний елемент
.
Крок
3.
Об’єднуються два кластери
та
,
визначені на кроці 2, утворюючи новий
кластер
.
Друкується інформація, яка відноситься
до цього об’єднання. Якщо залишається
лише один кластер, робота програми
припиняється.
Крок
4.
Обчислюються нові відстані
між новим кластером
і кожним з тих, що залишились, кластерів
,
які включаються в матрицю
.
Переходять до кроку 2.
Зауваження.
Якщо об’єднується
елементів, то першому кластеру, отриманому
при об’єднанні присвоюється номер
.
Кластерам, отриманим при кожному
наступному об’єднанні, присвоюються
наступні номери. Взагалі, коли залишається
груп, то остання утворена група отримує
номер
.
Якщо необхідно знати склад груп, тоді
кожному номеру групи потрібно поставити
у відповідність список номерів елементів,
які вона містить. Ця необхідна інформація
може бути отримана, як тільки буде
досягнуто задане значення
.
Більш конкретно зміст процедури об’єднання можна пояснити на наступному прикладі.
Припустимо, що маємо п’ять індивідуумів, для яких задані міри відмінностей , які представлені матрицею .
Використовуємо
для групування гнучку стратегію, яка
зберігає метрику простору, з параметром
.
Тоді, відповідно параметри
.
Послідовність кроків має наступний
зміст.
D |
1 |
2 |
3 |
4 |
5 |
1 |
- |
0.227 |
0.250 |
0.422 |
0.897 |
2 |
0.227 |
- |
0.492 |
0.387 |
0.917 |
3 |
0.250 |
0.492 |
- |
0.356 |
1.000 |
4 |
0.422 |
0.387 |
0.356 |
- |
0.773 |
5 |
0.897 |
0.917 |
1.000 |
0.773 |
- |
1.
Знаходимо найменше значення в матриці
:
воно рівне
.
Об’єднання елементів 1 і 2 утворює групу
6. Перераховуємо відстані, обчислюючи
значення
,
,
:
|
= |
0.625 x (0.250+0.492) |
- |
0.250 x (0.227) |
= |
0.407 |
|
= |
0.625 x (0.422+0.387) |
- |
0.250 x (0.227) |
= |
0.449 |
|
= |
0.625 x (0.897+0.917) |
- |
0.250 x (0.227) |
= |
1.077 |
Стовпчик 1 і стрічка 1 відкидаються, а замість стовпчика 2 і стрічки 2 записується стовпчик 6 і стрічка 6. Отримуємо нову матрицю:
|
6 |
3 |
4 |
5 |
6 |
- |
0.407 |
0.449 |
1.077 |
3 |
0.407 |
- |
0.356 |
1.000 |
4 |
0.449 |
0.356 |
- |
0.773 |
5 |
1.077 |
1.000 |
0.773 |
- |
Тепер
найменше значення в матриці
рівне
.
Об’єднуємо 3 і 4, в результаті отримуємо
групу 7 і обчислюємо
і
|
= |
0.625 x (1.000+0.733) |
- |
0.250 x (0.356) |
= |
1.019 |
|
= |
0.625 x (0.407+0.449) |
- |
0.250 x (0.356) |
= |
0.446 |
Стовпчик 3 і стрічка 3 відкидаються, а замість стовпчика 4 і стрічки 4 записується стовпчик 7 і стрічка 7, після чого матриця має вид:
|
6 |
7 |
5 |
6 |
- |
0.446 |
1.077 |
7 |
0.446 |
- |
1.019 |
5 |
1.077 |
1.019 |
- |
Найменше
значення в матриці тепер дорівнює
.
Об’єднуємо 6 і 7 і отримуємо групу 8.
тепер необхідно обчислити значення
,
яке рівне
|
= |
0.625 x (1.077+1.019) |
- |
0.250 x (0.446) |
= |
1.198 |
Об’єднання 5 і 8 дає групу 9. оскільки залишилась лише одна група то процедура класифікації завершується.
Результат може бути представлений у формі таблиці
Таблиця 1.
Об’єднання елементів і груп |
Результат об’єднання |
Значення відстані |
|||
1 |
і |
2 |
Дає |
6 |
|
3 |
і |
4 |
Дає |
7 |
|
6 |
і |
7 |
дає |
8 |
|
5 |
і |
8 |
дає |
9 |
|
Рис. 1. Представлення результатів ієрархічної комбінаторної класифікації: а – дендрограмою, б – площинною діаграмою.
Хід роботи.
1. Розробити окремі програмні продукти для забезпечення необхідних розрахунків при проведенні ієрархічної класифікації.
2. Виконати класифікацію і сформувати дані в таблицю, аналогічну таблиці 1 та розробити моніторний варіант цієї таблиці.
3. Відпрацювати на міліметровому папері графічні зображення дендрограми і площинної діаграми кластерів, так щоб отримати дані для відображення результатів даного кластерного аналізу на екрані монітору.
4. В звіті привести вхідні дані у вигляді таблиці, отриману матрицю близькостей (відстаней), опис алгоритму, таблицю отриманих результатів кластерного аналізу та рисунки дендрограми і площинної діаграми. Чітко сформулювати постановку задачі та висновки. Загальний характер звіту повинен відповідати методичним рекомендаціям стосовно використання даного методу в практичних дослідженнях.
Лабораторна робота 3.2.
