4. Міри близькості, засновані на відстанях, використовувані в алгоритмах кластеризації
Відстані між об'єктами припускають їх представлення у вигляді точок m-мірного простору Rm. У цьому випадку можуть бути використані різні підходи до обчислення відстаней. Розглянуті нижче міри визначають відстані між двома точками, що належать простору вхідних змінних. Використовуються такі позначення:
— безліч даних, що є підмножиною m-мірного речового простору;
— елементи множини даних;
— середнє значення точок даних;
— коваріаційна матриця {т x т).
Отже, наведемо найбільш відомі міри близькості.
Евклідова відстань. Іноді може виникнути бажання звести в квадрат стандартне евклідова відстань, щоб надати більші ваги більш віддаленим один від одного об'єктам. Це відстань обчислюється наступним чином:
(1.12)
Відстань по Хеммінгу. Це відстань є просто середнім різниць по координатах. У більшості випадків дана міра відстані приводить до таких же результатів, як і для звичайного відстані Евкліда, проте для неї вплив окремих великих різниць (викидів) зменшується (оскільки вони не зводяться в квадрат). Відстань по Хеммінг обчислюється за формулою:
(1.13)
Відстань Чебишева. Це відстань може виявитися корисним, коли бажають визначити два об'єкти як "різні", якщо вони розрізняються по якій-небудь одній координаті (яким одним виміром). Відстань Чебишева обчислюється за формулою:
(1.14)
Відстань Махаланобіса долає цей недолік, але дана міра відстані погано працює, якщо коваріаційна матриця вираховувати »на всьому безлічі вхідних даних. У той же час, будучи зосередженою на конкретному класі (групі даних), дана міра відстані показує гарні результати:
(1.15)
Пікова відстань припускає незалежність між випадковими змінними, що говорить про відстані в ортогональному просторі. Але в практичних додатках ці змінні не є незалежними:
(1.16)
Будь-яку з наведених заходів відстані можна вибирати з упевненістю лише в тоді, якщо є інформація про характер даних, що піддаються кластеризації. Так, наприклад, пікове відстань припускає незалежність між випадковими змінними, що говорить про відстані в ортогональному просторі. Але в практичних додатках ці змінні не є незалежними.
Представлення результатів
Результатом кластерного аналізу є набір кластерів, що містять елементи вихідної безлічі. Кластерна модель повинна описувати як самі кластери, так і належність кожного об'єкта до одного з них.
Для невеликого числа об'єктів, що характеризуються двома змінними, результати кластерного аналізу зображують графічно. Елементи представляються точками, кластери розділяються прямими, які описуються лінійними функціями. Для прикладу з даними з табл. 1.1. результат кластеризації можна представити діаграмою, зображеною на рис. 1.2.
Рис.1.2. Розділення ірисів на кластери лініями
Якщо кластери можна розділити прямими, то малюються ламані лінії, які описуються нелінійними функціями.
У разі якщо елемент може належати кільком кластерам, то можна використовувати Віденські діаграми, наприклад, як на мал. 1.3.
Рис.1.3. Розділення ірисів на кластери з використанням Віденських діаграм
Деякі алгоритми не просто відносять елемент до одного з кластерів, а визначають ймовірність його приналежності. У цьому випадку зручніше представляти результат їх роботи у вигляді таблиці. У ній рядки відповідають елементам вихідного безлічі, стовпці - кластерам, а в осередках вказується ймовірність приналежності елемента до кластера.
Ряд алгоритмів кластеризації будують ієрархічні структури кластерів. У таких структурах самий верхній рівень відповідає всьому безлічі об'єктів, тобто одному-єдиному кластеру. На наступному рівні він ділиться на кілька підкластера. Кожен з них ділиться ще на декілька і т. д. Побудова такої ієрархії може відбуватися до тих пір, поки кластери не будуть відповідати окремим об'єктам рис.1.4.. Такі діаграми називаються дендрограмма (dendrograms). Цей термін підкреслює деревоподібну структуру діаграм (від грец. dendron - дерево).
Рис.1.4. Дендрограма побудована відповідно до таблиці
Класифікація алгоритмів кластеризації
При виконанні кластеризації важливо, скільки у результаті має бути побудовано кластерів. Передбачається, що кластеризація повинна виявити природні локальні згущення об'єктів. Тому число кластерів є параметром, часто істотно ускладнює вид алгоритму, якщо передбачається невідомим, та суттєво впливають на якість результату, якщо воно відоме.
Проблема вибору числа кластерів вельми нетривіальна. Досить сказати, що для отримання задовільного теоретичного рішення часто потрібно зробити вельми сильні припущення про властивості деякого наперед заданого сімейства розподілів. Але про які припущеннях може йти мова, коли, особливо на початку дослідження, про даних практично нічого невідомо? Тому алгоритми кластеризації зазвичай будуються як деякий спосіб перебору числа кластерів і визначення його оптимального значення в процесі перебору.
Число методів розбиття множини на кластери досить велике. Всі їх можна підрозділити на ієрархічні та неієрархічні.
У неієрархічних алгоритмах характер їх роботи і умова зупинки необхідно заздалегідь регламентувати часто досить великим числом параметрів, що іноді важко, особливо на початковому етапі вивчення матеріалу. Але в таких алгоритмах досягається більша гнучкість у варіюванні кластеризації та зазвичай визначається число кластерів.
З іншого боку, коли об'єкти характеризуються великим числом ознак (параметрів), то набуває важливого значення задача угруповання ознак. Вихідна інформація міститься в квадратної матриці зв'язків ознак, зокрема в кореляційної матриці. Основою успішного вирішення завдання угруповання є неформальна гіпотеза про невеликому числі прихованих чинників, які визначають структуру взаємних зв'язків між ознаками.
В ієрархічних алгоритмах фактично відмовляються від визначення числа кластерів, будуючи повне дерево вкладених кластерів (Дендрограма). Число кластерів визначається з припущень, в принципі, не відносяться до роботи алгоритмів, наприклад по динаміці зміни порогу розщеплення (злиття) кластерів. Труднощі таких алгоритмів добре вивчені: вибір заходів близькості кластерів, проблема інверсій індексації в Дендрограма, негнучкість ієрархічних класифікацій, яка іноді дуже небажана. Тим не менш, уявлення кластеризації у вигляді дендрограми дозволяє отримати найбільш повне уявлення про структуру кластерів.
Ієрархічні алгоритми пов'язані з побудовою дендрограм і діляться:
на агломеративні, що характеризуються послідовним об'єднанням вихідних елементів та відповідним зменшенням числа кластерів (побудова кластерів знизу вгору);
на дивізимні (подільні), в яких число кластерів зростає, починаючи з одного, в результаті чого утворюється послідовність розщеплюють груп (побудова кластерів зверху вниз).
Адаптивні методи кластеризації
Вибір найкращого рішення і якість кластеризації
У попередньому розділі було розглянуто різні методи кластеризації. Основним результатом будь-якого з них є набір кластерів. Для того щоб алгоритм кластеризації побудував цей набір, необхідно знати кількість кластерів. Змінюючи його, можна отримати безліч рівноцінних (з формальної точки зору) результатів. Тим не менш мається на увазі, що існує невелика кількість практично корисних рішень задачі кластеризації (найчастіше одне) для заданої множини даних. Тому, коли про кількість кластерів немає інформації (це найпоширеніша ситуація), виникає проблема вибору найкращого розбиття, а це нетривіальне завдання. Полегшити її рішення можна, додавши в алгоритм кластеризації деякий адаптивний механізм вибору оптимального рішення серед безлічі можливих. Вибір оптимального рішення будемо засновувати на понятті якості кластеризації. Якістю кластеризації назвемо ступінь наближення результату кластеризації до ідеального рішенням. Оскільки ідеальне рішення задачі кластеризації невідомо, то оцінити якість можна двома способами-експертним і формальним. Експертна вибір найкращого рішення задачі полягає в оцінці рішення фахівцями в даній предметній області. Але експертна оцінка найчастіше об'єктивно неможлива через велику обсягу і складності даних. Тому важливу роль відіграють формальні критерії оцінки якості кластеризації.
Використання формальних критеріїв якості в адаптивній кластеризації
Формальні критерії оцінюють якість кластеризації по деякому показником, обчисленому на підставі результатів кластеризації. Найкращим в термінах обраного критерію є рішення, для якого значення критерію досягає екстремального значення.
Адаптивна складова добре поєднується з неієрархічних алгоритмами, особливо з алгоритмами нечіткої кластеризації. Алгоритми неієрархічних кластеризації, як правило, реалізують ітераційну процедуру наближення до вирішення задачі.
Методи кластеризації можна класифікувати на чіткі та нечіткі. Чіткі методи кластеризації розбивають вихідну множину об’єктів x на декілька непересічних підмножин. При цьому будь-який об’єкт із x належить тільки одному кластеру.
Нечіткі методи кластерного аналізу дозволяють будь-якому екземпляру одночасно належати до всіх визначених кластерів, але з різним ступенем.
Нечіткий кластерний аналіз використовується при побудові нейронечітких систем для визначення нечітких множин, якщо вони невідомі апріорі. Нечіткі множини знаходяться як проекції кластерів на кожну розмірність.
В результаті рішення основним результатом є матриця приналежності - на її основі виходить розбиття на кластери. Іншим важливим результатом є безліч центрів кластерів - векторів, приналежність яких відповідним кластерам максимальна. Таким чином, для побудови критерію необхідно використовувати один або обидва цих результату. Побудувавши критерій (або систему критеріїв), можна буде застосовувати адаптивний механізм кластеризації.
Рис.1.5. Узагальнена схема процедури адаптивної кластеризації
Ключовим елементом в адаптивній кластеризації є вибір критерію, за яким буде оцінюватися якість кластеризації. Наведемо деякі з них.
Показники чіткості
Показники чіткості вважають максимуму при найбільш чітко розбитті.
Коефіцієнт розбиття:
,
.
(1.13)
Індекс чіткості:
,
(1.14)
Ентропійні критерії
Ентропія відома як чисельне вираження впорядкованості системи. Ентропія розбиття досягає мінімуму при найбільшій впорядкованості в системі (у разі чіткого розбиття ентропія дорівнює нулю). Тобто чим більше ступінь належності елемента одному кластеру (і менше ступінь приналежності всім іншим кластерам), тим менше значення ентропії і тим більш якісно виконана кластеризація.
Ентропія розбиття:
,
.
(1.15)
Аналізуючи формулу і враховуючи властивості функції приналежності, очевидно, що в загальному випадку розбиття на меншу кількість кластерів дасть менше значення ентропії. Щоб врахувати цей факт, даний критерій видозмінюють для того, щоб ввести в ентропію розбиття кількість кластерів.
Нормалізована ентропія:
,
.
(1.16)
Модифікована ентропія:
,
.
(1.17)
Інші критерії
Показник компактності і ізольованості:
.
(1.18)
Менші значення цього індикатора відповідають більш компактним, добре віддільні кластерам
Індекс ефективності.
Максимум цього критерію дасть оптимальну кількість кластерів. Критерій будується з двох складових частин:
міжкластерні відмінності (великі при оптимальному К):
,
(1.19)
внутрішньо-кластерні відмінності (малі при оптимальному К):
.
(1.20)
Комбінуючи ці частини, отримуємо критерій:
.
(1.21)
Тут х - середнє арифметичне всіх вхідних векторів.
Приклад адаптивної кластеризації
Для ілюстрації використання адаптивної кластеризації наведемо приклад. Вихідними даними є безліч Iris dataset-класичний приклад, використовуваний для перевірки методів аналізу даних. Iris dataset складається з 3 класів по 50 елементів в кожному. Кожен з класів - це деякий вид ірису. Один клас лінійно відділимо від двох інших. Інші два класи лінійно невіддільні одне від одного. Кожен вхідний вектор має чотири атрибуту:
довжина чашолистки (в сантиметрах);
ширина чашолистків (в сантиметрах);
довжина пелюстки (в сантиметрах);
ширина пелюстки (в сантиметрах).
Ілюстрація чотирьох проекцій даних в тривимірний простір представлена на рис. 1.6.
Рис.1.6. Чотири проекції даних в тривимірному просторі
В якості критеріїв якості виберемо два з наведених критеріїв: модифіковану ентропію і індекс ефективності. За допомогою адаптивної процедури кластеризації будемо здійснювати пошук оптимальної кількості кластерів. Діапазон пошуку вибраний з загальних рекомендацій, які говорять про те, що мінімальна кількість кластерів дорівнює двом, а максимальне - близько квадратного кореня з потужності вхідного безлічі. Будемо використовувати евклідова відстань. На рис. 1.7 показані залежності значень критеріїв від кількості кластерів. Червоною крапкою показані екстремальні значення критеріїв.
З наведених малюнків видно, що критерії вказують на різне значення кластерів. У даному випадку індекс ефективності показав кращі результати, зумівши розрізнити всі три кластери, які є у вхідних даних, у тому числі і два лінійно нероздільних кластера Проте в інших завданнях використання цих критеріїв може дати інший результат.
Рис. 1.7. Залежність значень критеріїв від кількості кластерів. індекс ефективності
Підсумок
Завдання кластеризації полягає в поділі досліджуваної безлічі об'єктів на групи схожих об'єктів, званих кластерами.
Для визначення "схожості" об'єктів вводиться міра близькості, звана відстанню. Існують різні способи обчислення відстаней: евклідів, Манхеттенського, Чебишева та ін.
Результати кластеризації можуть бути представлені різними способами. Одним з найбільш популярних є Дендрограма-відображення послідовного процесу кластеризації.
Базові методи кластеризації діляться на ієрархічні та неієрархічні. Перші будують дендрограми або знизу вгору (агломеративні), або зверху вниз (дивізимні).
Найбільш популярний з неієрархічних алгоритмів - алгоритм k-середніх і його різновиди. Ідея методу полягає у визначенні центрів до кластерів та віднесення до кожного кластеру об'єктів, найбільш близько знаходяться до цих центрів.
Застосування адаптивної кластеризації може допомогти більш ефективно вирішувати задачу кластеризації та більш зважено підходити до оцінки результату. Тим не менше вибір критерію оцінки якості може виявитися критичним для вирішення задачі.
