- •Методичні вказівки
- •Протокол № ___________ від «___»___________2012 р. Лабораторна робота № 5 Алгоритми неієрархічної кластеризації даних.
- •Теоретична частина
- •Застосування кластерного аналізу у різних сферах людської діяльності
- •Набір даних а
- •Застосування кластерного аналізу
- •2. Приклади реалізації неієрархічної кластеризації даних.
- •3. Порядок виконання роботи
- •Варіанти індивідуальних завдань
- •Вимоги до звіту
- •Оформлення звіту
- •Список рекомендованої літератури
- •Навчальне видання
- •Доц. Ковівчак Ярослав Васильович
Набір даних а
Таблиця 1.1.
№ прикладу |
Ознака X |
Ознака Y |
1 |
27 |
19 |
2 |
11 |
46 |
3 |
25 |
15 |
4 |
36 |
27 |
5 |
35 |
25 |
6 |
10 |
43 |
7 |
11 |
44 |
8 |
36 |
24 |
9 |
26 |
14 |
10 |
26 |
14 |
11 |
9 |
45 |
12 |
33 |
23 |
13 |
27 |
16 |
14 |
10 |
47 |
Дані в табличній формі не носять інформативний характер. Припустимо змінні X і Y у вигляді діаграми розсіювання, зображеної на рис.1.1.
Рис.1.1. Діаграма розсіювання змінних X і Y
На малюнку ми бачимо кілька груп "схожих" прикладів. Приклади (об'єкти), які за значеннями X і Y "схожі" один на одного, належать до однієї групи (кластеру); об'єкти з різних кластерів не схожі один на одного.
Критерієм для визначення схожості та відмінності кластерів є відстань між точками на діаграмі розсіювання. Цю схожість можна "виміряти" і вона дорівнює відстані між точками на графіці. Способів визначення міри відстані між кластерами, існує кілька. Найбільш поширений спосіб - обчислення евклідової відстані між двома точками i та j на площині, коли відомі їх координати X і Y:
(1.1)
Примітка: щоб дізнатися відстань між двома точками, треба взяти різницю їх координат по кожній осі, звести її в квадрат, скласти отримані значення для всіх осей і обчислити квадратний корінь з суми.
Коли осей більше, ніж дві, відстань розраховується таким чином: сума квадратів різниці координат складається із стількох доданків, скільки осей (вимірів) присутніх в нашому просторі. Наприклад, якщо нам потрібно знайти відстань між двома точками в просторі трьох вимірів (така ситуація представлена на рис. 1.2), формула (1) набуває вигляду:
(1.2)
Рис.1.2. Відстань між двома точками в просторі трьох вимірів
Кластер має наступні математичні характеристики: центр, радіус, середньоквадратичне відхилення, розмір кластера.
Центр кластера - це середнє геометричне місце точок у просторі змінних.
Радіус кластера - максимальна відстань точок від центру кластера.
Кластери можуть перекриватися. Така ситуація виникає, коли виявляється перекриття кластерів. У цьому випадку неможливо за допомогою математичних процедур однозначно віднести об'єкт до одного з двох кластерів. Такі об'єкти називають спірними.
Спірний об'єкт - це об'єкт, який у міру подібності може бути віднесений до кількох кластерів.
Розмір кластера може бути визначений або по радіусу кластера, або по середньоквадратичному відхиленню об'єктів для цього кластера. Об'єкт відноситься до кластеру, якщо відстань від об'єкта до центру кластера менше радіуса кластера. Якщо ця умова виконується для двох і більше кластерів, об'єкт є спірним.
Робота кластерного аналізу спирається на два припущення. Перше припущення - розглядаються ознаки об'єкта в принципі допускають бажане розбиття сукупності об'єктів на кластери. Друге припущення - правильність вибору масштабу або одиниць вимірювання ознак.
Методи кластерного аналізу
Методи кластерного аналізу можна розділити на дві групи:
Ієрархічні;
Неієрархічні.
Кожна з груп включає безліч підходів і алгоритмів. Використовуючи різні методи кластерного аналізу, аналітик може отримати різні рішення для одних і тих же даних. Це вважається нормальним явищем.
Ієрархічні методи кластерного аналізу
Суть ієрархічної кластеризації полягає в послідовному об'єднанні менших кластерів в більші або поділі великих кластерів на менші. Серед алгоритмів ієрархічної кластеризації виділяються два основних типи: зростаючі і спадаючі алгоритми. Спадаючі алгоритми працюють по принципу «зверху-вниз»:на початку всі об’єкти поміщаються в один кластер , який потім розбивається на все більш менші кластери. Більше розповсюджені зростаючі алгоритми ,які на початку роботи поміщають кожен об’єкт в окремий кластер, а потім об’єднують кластери в більш крупніші,поки всі об’єкти вибірки не будуть поміщені в одному кластері. Таким чином будується система вкладених розбиттів.Результати таких алгоритмів зазвичай представляють в виді дерева – дендрограмми.Класичний приклад такого дерева – класифікація тварин і рослин.
Для обчислення відстані між кластерами, частіш за все користуються одиночним або повним зв’язком.
До недостатку ієрархічних алгоритмів можна віднести систему повних розбиттів, яка може являтися лишньою в контексті поточної задачі.
Неієрархічні методи кластерного аналізу
Важливими перевагами неієрархічних методів кластеризації є їх гнучкість і можливість виконувати багатоваріантні дослідження. Найважливішими проблемами неієрархічних методів кластеризації є пошук початкової кількості та положення центрів кластерів, визначення критерію зупинки алгоритмів і критеріїв оцінки оптимальності кластеризації.
Значними проблемами при застосуванні неієрархічних методів кластеризації є велика розмірність інформаційних ознак інформаційних моделей досліджуваних об'єктів і адаптація метрики для оцінки близькості інформаційних моделей об’єктів.
