Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Lab_4_Інтелектуальний аналіз даних.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
2.32 Mб
Скачать

Міністерство освіти і науки, молоді та спорту України

Національний університет “Львівська політехніка”

Кафедра автоматизованих систем управління

Пряма сполучна лінія 2

Методичні вказівки

до лабораторної роботи № 4

Кластеризація в Data Mining. Базові алгоритми кластеризації.

Ієрархічний алгоритм кластеризації ”

з дисципліни

Інтелектуальний аналіз даних”

для студентів базового напрямку підготовки по спеціальності

Комп’ютерні науки” (шифр 0804)

Львів-2012

Методичні вказівки до лабораторної роботи № 4 Кластеризація в Data Mining. Базові алгоритми кластеризації. Ієрархічний алгоритм кластеризації з дисципліни Інтелектуальний аналіз даних для студентів спеціальності - шифр 0804 “Комп’ютерні науки” Укл. доц. Ковівчак Я.В., Львів: Національний університет “Львівська політехніка”, 2012.

Методичні вказівки обговорено та схвалено на засіданні кафедри АСУ Протокол № ___________ від «___»___________2012 р.

Завідувач кафедрою АСУ ______________ Медиковський М. О.

Методичні вказівки обговорено та схвалено на засіданні методичної комісії базового напрямку підготовки

Протокол № ___________ від «___»___________2012 р.

Лабораторна робота № 4

Кластеризація в Data Mining. Базові алгоритми кластеризації.

Ієрархічний алгоритм кластеризації

Мета: Ознайомлення з алгоритмами ієрархічної кластеризації даних, їх побудовою, етапами реалізації.

Завдання: Навчитись аналітично розв’язувати задачу кластеризації вибірки об’єктів та побудувати дендрограму розв’язку задачі.

  1. Теоретична частина

Вступ

Кластерний аналіз (англ . Data clustering ) — задача розбиття заданої вибірки об'єктів (ситуацій) на підмножини, звані кластерами, так, щоб кожен кластер складався з схожих об'єктів, а об'єкти різних істотно суттєвих кластерів відрізнялися. Задача кластеризації відноситься до статистичної обробки. Кластерний аналіз — це багатовимірна статистична процедура, що виконує збір даних, що містять інформацію про вибірку об'єктів, і яка упорядковує об'єкти в порівняно однорідні групи (кластери) (Q-кластеризація, або Q-техніка, власне кластерний аналіз). Кластер — група елементів, що характеризуються загальною спільною властивістю, головна ціль кластерного аналізу — знаходження груп схожих об'єктів у вибірці. Спектр застосувань кластерного аналізу дуже широкий: його використовують в археології, медицині, психології, хімії, біології, державному управлінні, філології, антропології, маркетингу, соціології і інших дисциплінах. Проте універсальність застосування привела до появи великої кількості несумісних термінів, методів і підходів, що утрудняють однозначне використання і несуперечливу інтерпретацію кластерного аналізу.

Завдання і умови

Мета кластерного аналізу. Достатньо багато досліджень ставлять за мету організацію отриманих даних у наглядні структури. Так, в біології часто метою є розбиття сукупності тварин на види і підвиди, у психології – класифікація видів поведінки, у педагогіці – таксономія виховних цілей тощо. Допомогти це зробити може кластерний аналіз. Фактично, кластерний аналіз є набором різноманітних алгоритмів класифікації. Техніка кластеризації застосовується в дуже різноманітних сферах діяльності. Так, автори підручника Statsoft наводять приклади застосування кластерного аналізу в медицині – кластеризації піддаються симптоми захворювання чи види лікування, і отримуються достатньо цікаві класифікації. Теж саме стосується психіатрії та психотерапії. Відомі також ряд прикладів застосування кластерного аналізу в сфері маркетингу. Загалом, коли необхідно класифікувати великі масиви інформації на групи, які придатні для подальшого аналізу – кластерний аналіз є незамінним інструментом. Цікаві можливості кластерного аналізу у сфері психологічних досліджень групових процесів та явищ.

Кластерний аналіз має одну суттєву особливість – він не є звичайним статистичним методом, оскільки до нього у більшості випадків незастосовні процеси перевірки статистичної значимості. Кластерний аналіз дає найбільш значиме рішення. Саме тому досить часто його використовують тоді, коли дослідник має набір даних, але не має жодної апріорної гіпотези про класи цих даних.

Кластерний аналіз виконує наступні основні завдання:

  • Розробка типології або класифікації.

  • Дослідження корисних концептуальних схем групування об'єктів.

  • Породження гіпотез на основі дослідження даних.

  • Перевірка гіпотез або дослідження для визначення, чи дійсно типи (групи), виділені тим або іншим способом, присутні в наявних даних.

Незалежно від предмету вивчення застосування кластерного аналізу він передбачає наступні етапи:

  • Відбір вибірки для кластеризації.

  • Визначення безлічі змінних, по яких оцінюватимуть об'єкти у вибірці.

  • Обчислення значень тієї або іншої міри схожості між об'єктами.

  • Застосування вживання методу кластерного аналізу для створення груп схожих об'єктів.

  • Перевірка достовірності результатів кластерного рішення .

Кластерний аналіз представляє собою наступні вимоги до даним: по-перше, показники не повинні робити кореляцію між собою; по-друге, показники повинні бути безрозмірними; по-третє, їх розподіл повинен бути близьким до нормального; по-четверте, показники повинні відповідати вимозі «стійкості», під якою розуміється відсутність впливу на їх значення випадкових факторів ; по-п'яте, вибірка повинна бути однорідна, не містити «залишків». Якщо кластерному аналізу передує факторний аналіз, то вибірка не потребує «корегування» — викладені вимоги виконуються автоматично самою процедурою факторного моделювання (є ще одна чеснота, — z-стандартизація без негативних наслідків для вибірки; якщо її проводити безпосередньо для кластерного аналізу, вона може спричинити зменшення чіткості розділення груп). Інакше вибірку потрібно коректувати.

Аналіз і інтерпретація його результатів

При аналізі результатів соціологічних досліджень рекомендується здійснювати аналіз методами ієрархічного агломеративного сімейства, а саме методом Варда, при якому всередині кластерів оптимізується мінімальна дисперсія, у результаті створюються кластери приблизно рівних розмірів. Метод Варда найбільш успішний для аналізу соціологічних даних. Головним підсумком ієрархічного кластерного аналізу являється дендрограмма або «поступова діаграма». При її інтерпретації дослідники стикаються із проблемою того ж роду, що і тлумачення результатів факторного аналізу — відсутністю однозначних критеріїв виділення кластерів. Рекомендується використовувати два способи — візуальний аналіз дендрограми і порівняння результатів кластеризації, виконаної різними методами. Візуальний аналіз дендрограмми припускає «обрізання» дерева на оптимальному рівні схожості елементів вибірки.

Перевагою ієрархічних методів кластеризації є їх наочність.

Ієрархічні алгоритми пов'язані з побудовою дендрограмм (від грецького dendron - "дерево"), які є результатом ієрархічного кластерного аналізу. Дендрограмма описує близькість окремих точок і кластерів один до одного, представляє в графічному вигляді послідовність об'єднання (поділу) кластерів.

Дендрограма (dendrogram) - деревоподібна діаграма, що містить n рівнів, кожен з яких відповідає одному з кроків процесу послідовного збільшення кластерів.

Дендрограму також називають деревоподібної схемою, деревом об'єднання кластерів, деревом ієрархічної структури.

Дендрограма являє собою вкладене групування об'єктів, яке змінюється на різних рівнях ієрархії.

Існує багато способів побудови дендрограмм. У Дендрограмі об'єкти можуть розташовуватися вертикально або горизонтально.

Приклад вертикальної дендрограми наведено на рисунку 1.

Рис. 1. Приклад побудови дендрограми.

Числа 11, 10, 3 і т.д. відповідають номерам об'єктів або спостережень вихідної вибірки. Ми бачимо, що на першому кроці кожне спостереження являє один кластер (вертикальна лінія), на другому кроці спостерігаємо об'єднання таких спостережень: 11 і 10; 3, 4 і 5; 8 і 9; 2 і 6. На другому кроці продовжується об'єднання в кластери: спостереження 11, 10, 3, 4, 5 і 7, 8, 9. Даний процес продовжується до тих пір, поки всі спостереження не об'єднаються в один кластер.

Цілі кластеризації

  • Розуміння даних шляхом виявлення кластерної структури. Розбиття вибірки на групи схожих об'єктів дозволяє спростити подальшу обробку даних і прийняття рішень, застосовуючи до кожного кластера свій метод аналізу (стратегія «розділяй і пануй»).

  • Стиснення даних. Якщо початкова вихідна вибірка надмірно велика, то можна скоротити її, залишивши поодинці найбільш типовому представникові від кожного кластера.

  • Виявлення новизни (англ. novelty detection ). Виділяються нетипові об'єкти, які не вдається приєднати ні до одного з кластерів.

У першому випадку число кластерів прагнуть зробити трохи менш . У другому випадку важливіше забезпечити високий ступінь міри схожості об'єктів всередині кожного кластера, а кластерів може бути скільки завгодно. У третьому випадку найбільший інтерес представляють окремі об'єкти, що не вписуються ні в один з кластерів.

У всіх цих випадках може застосовуватися ієрархічна кластеризація, коли великі кластери дробляться на дрібніші, ті у свою чергу дробляться ще дрібніше і так далі. Такі завдання називаються завданнями таксономії .

Результатом таксономії являється деревоподібна ієрархічна структура. При цьому кожен об'єкт характеризується переліком всіх кластерів, яким він належить, зазвичай від великого до дрібного .

Класичним прикладом зразком таксономії на основі схожості являється біноміальна номенклатура живих істот, запропонована Карлом Лінєєм в середині XVIII століття . Аналогічні систематизації будуються в багатьох областях знань, щоб упорядкувати інформацію про велику кількість об'єктів.

Методи кластеризації

  • K-середніх (K-means );

  • Графські алгоритми кластеризації;

  • Статистичні алгоритми кластеризації;

  • Алгоритми сімейства FOREL;

  • Ієрархічна кластеризація або таксономія;

  • Нейронна мережа Кохонена;

  • Ансамбль кластеризатерів;

  • Алгоритми сімейства Кrab;

  • EM-алгоритм;

  • Алгоритм, заснований на методі просіювання.

Формальна постановка завдання кластеризації

Нехай існує безліч об'єктів, безліч номерів (імен) кластерів. Є задана функція відстані між об'єктами, є наявна кінцева скінченна вибірка об'єктів. Потрібно розбити вибірку на непересічні підмножини, звані кластерами, так, щоб кожен кластер складався з об'єктів, близьких по метриці, а об'єкти різних кластерів істотно відрізняються. При цьому кожному об'єкту приписується номер кластера.

Алгоритм кластеризації — це функція, яка будь-якому об'єкту ставить у відповідність номер кластера. Множина в деяких випадках відома заздалегідь наперед, проте частіше ставиться завдання визначити оптимальне число кластерів, або інший критерій якості кластеризації.

Кластеризація відрізняється від класифікації тим, що мітки початкових вихідних об'єктів спочатку не задані, і навіть може бути невідома сама множина .

Розв’язок задачі кластеризації принципово неоднозначний, і тому є декілька причин:

  • не існує однозначно найкращого критерію якості кластеризації. Відомий цілий ряд, низка евристичних критеріїв, а також низка алгоритмів, що не мають чітко вираженого висловлюваного критерію. Всі вони можуть давати різні результати;

  • число кластерів, як правило, невідоме заздалегідь наперед і встановлюється відповідно до деякого суб'єктивного критерію;

  • результат кластеризації істотно суттєво залежить від метрики, вибір якої, як правило, також суб'єктивний і визначається експертом;

  • групування результатів пошуку: Кластеризація використовується для «інтелектуального» групування результатів при пошуку файлів, веб-сайтів, інших об'єктів, надаючи користувачеві можливість спроможність швидкої навігації, вибору свідомо більш релевантної підмножини і виключення винятку свідомо менш ревалентного — що може підвищити «юзабіліті» інтерфейсу в порівнянні з висновком,виведенням у вигляді простого сортованого по релевантнтності списку;

  • Clusty — кластеризуюча пошукова машина компанії Vivisimo;

  • Nigma — російська пошукова система із автоматичною кластеризацією результатів;

  • Quintura — візуальна кластеризація у вигляді хмари ключових джерельних слів;

  • сегментація зображень (image segmentation): Кластеризація може бути використана для розбиття цифрового зображення на окремі області з ціллю знаходження меж кордонів (edge detection ), або розпізнавання об'єктів.

Завдання кластерного аналізу може бути сформульовано виходячи з наступних розміркувань. Нехай сукупність, що складається з n об'єктів, кожний з яких описується за допомогою m чинників-симптомів, задана у вигляді матриці вихідних (Х) або стандартизованих даних (Z), розміру n*m.

Тоді кластером називається така компактна група об'єктів із всієї вихідної сукупності, для якої середній квадрат серединногрупової відстані від об'єктів групи до її центра ваги менше середнього квадрата відстані від всіх об'єктів до центра ваги всієї вихідної сукупності. Чим більше серед виділених груп кластерів, тим більш успішною можна вважати отриману розбивку досліджуваної сукупності об'єктів.

Тоді завдання кластерного аналізу зводяться до пошуку й виділення у вихідній сукупності об'єктів максимального числа кластерів, які розглядаються як кількісно однорідні групи одночасно за всіма чинниками-симптомами. Іншими словами, у процесі кластеризації треба прагнути одержати таку розбивку сукупності, щоб кожний об'єкт належав до однієї й тільки до однієї групи, та відстані між об'єктами однієї групи були істотно меншими, у порівнянні з відстанями між об'єктами різних груп.

Для поставленої задачі це буде означати, що вдалося виділити групи підприємств з близькими значеннями показників, що відображають їхню конкурентоздатність, тобто визначити типи, класи досліджуваних об’єктів за рівнем латентної ознаки, що оцінюється.

Як і при застосуванні методів таксономії, одним із важливіших моментів кластерного аналізу є питання визначення певного кола чинників-симптомів, що характеризують латентну економічну ознаку підприємства. Слід мати на увазі, що це проблема не статистична, а економічна, яка повинна вирішуватися в ході якісного дослідження з урахуванням положень відповідної науки (в даному випадку теорії конкуренції та конкурентоспроможності підприємств).

Після визначення матриці вихідних даних X, стандартизації чинників-симптомів і утворення матриці Z, розрахунку матриці відстаней D між усіма об’єктами (підприємствами) переходять до безпосереднього застосування алгоритмів кластерного аналізу, яких у теперішній час у математико-статистичній літературі налічується більше ста . Всі вони можуть бути згруповані у три основних напрямки:

а) процедури прямої класифікації;

б) оптимізаційні алгоритми;

в) апроксимаційні підходи.

Процедури прямої класифікації – це історично найбільш ранній напрямок кластерного аналізу, пов'язаний з іменами німецького біолога Ф. Гейнке, польського антрополога К. Чекановського, які на початку ХХ століття висунули ідеї пошуку компактних груп об'єктів у просторі множини ознак.

Суть першого напрямку укладається в чіткому формулюванні поняття кластера й утворенні груп об'єктів, що відповідають даному формулюванню. Найбільшого поширення серед процедур прямої класифікації одержали ієрархічні алгоритми, які базуються на наступному визначенні кластера: всі відстані між об'єктами усередині групи повинні бути менше будь-якої відстані між об'єктами групи й іншою частиною множини об’єктів.

Застосування

Інтелектуальний аналіз даних (data mining ). Кластеризація у Data Mining набуває цінності тоді, коли вона виступає одним з етапів аналізу даних, побудови закінченого аналітичного рішення. Аналітику часто легко виділити групи схожих об'єктів, вивчити їх особливості і побудувати для кожної групи окрему модель, чим створювати одну загальну спільну модель для всіх даних. Таким прийомом постійно користуються в маркетингу, виділяючи групи клієнтів, покупців, товарів і розробляючи для кожної з них окрему стратегію.

Програмна реалізація алгоритмів кластерного аналізу широко представлена в різних інструментах Data Mining, які дозволяють вирішувати завдання досить великої розмірності. Наприклад, агломеративні методи реалізовані в пакеті SPSS, подільні методи − в пакеті Statgraf.

Ієрархічні методи кластеризації розрізняються правилами побудови кластерів. В якості правил виступають критерії, які використовуються при вирішенні питання про "схожості" об'єктів при їх об'єднанні в групу (агломеративні методи) або поділу на групи (подільні методи).

Ієрархічні методи кластерного аналізу використовуються при невеликих обсягах наборів даних.

Ієрархічний кластерний аналіз в SPSS

Розглянемо процедуру ієрархічного кластерного аналізу в пакеті SPSS (SPSS). Вона передбачає групування як об'єктів (рядків матриці даних), так і змінних (стовпців). Можна вважати, що в останньому випадку роль об'єктів відіграють рядки, а роль змінних - стовпці.

У цьому методі реалізується ієрархічний агломеративний алгоритм, зміст якого полягає в наступному. Перед початком кластеризації всі об'єкти вважаються окремими кластерами, в ході алгоритму вони об'єднуються. Спочатку вибирається пара найближчих кластерів, які об'єднуються в один кластер. В результаті кількість кластерів стає рівним N-1. Процедура повторюється, поки всі класи не об'єднаються. На будь-якому етапі об'єднання можна перервати, отримавши потрібне число кластерів. Таким чином, результат роботи алгоритму агрегування залежить від способів обчислення відстані між об'єктами та визначення близькості між кластерами.

Для визначення відстані між парою кластерів можуть бути сформульовані різні підходи. З урахуванням цього в SPSS передбачені наступні методи:

  • Середня відстань між кластерами (Between-groups linkage), встановлюється за умовчанням;

  • Середня відстань між усіма об'єктами пари кластерів з урахуванням відстаней всередині кластерів (Within-groups linkage);

  • Відстань між найближчими сусідами - найближчими об'єктами кластерів (Nearest neighbor);

  • Відстань між самими далекими сусідами (Furthest neighbor);

  • Відстань між центрами кластерів (Centroid clustering) або центроїдне метод. Недоліком цього методу є те, що центр об'єднаного кластера обчислюється як середнє центрів об'єднуються кластерів, без урахування їх обсягу;

  • Метод медіан - той же центроїдне метод, але центр об'єднаного кластера обчислюється як середнє всіх об'єктів (Median clustering);

  • Метод Варда.

Слід зазначити, що процедура кластеризації об’єктів на основі ієрархічного агломеративного алгоритму реалізована в пакеті прикладних обчислювальних програм STATISTICA компанії StarSoft.

Міри подібності

Для обчислення відстані між об'єктами використовуються різні міри подібності, які називаються також метриками або функціями відстаней.

Зупинимося докладніше на найбільш популярних процедурах прямої класифікації – ієрархічних агломеративних і деяких інших алгоритмах кластерного аналізу.

Відстані між об'єктами припускають їх представлення у вигляді точок m- мірного простору Rm. У цьому випадку можуть бути використані різні підходи до обчислення відстаней приналежних простору вхідних змінних.

Евклідова відстань. Це, мабуть, найбільш загальний тип відстані. Вона є геометричним відстанню в багатовимірному просторі і обчислюється таким чином:

Відстань (x, y) = { ∑i (xi - yi) 2}1/2

Зауважимо, що евклідова відстань (і її квадрат) обчислюється за вихідними, а не за стандартизованими даними. Це звичайний спосіб його обчислення, який має певні переваги (наприклад, відстань між двома об'єктами не змінюється при введенні в аналіз нового об'єкта, який може виявитися викидом). Тим не менш, на відстані можуть сильно впливати відмінності між осями, по координатах яких обчислюються ці відстані. Наприклад, якщо одна з осей виміряна в сантиметрах, а ви потім переведете її в міліметри (множачи значення на 10), то остаточне евклідова відстань (або квадрат евклідового відстані), що обчислюється за координатами, сильно зміниться, і, як наслідок, результати кластерного аналізу можуть сильно відрізнятися від попередніх.

Квадрат евклідового відстані. Іноді може виникнути бажання звести в квадрат евклідову відстань, щоб надати більші ваги більш віддаленим один від одного об'єктам. Це відстань обчислюється наступним чином (див. також зауваження в попередньому пункті):

Відстань (x, y) = ∑i (xi - yi) 2

Відстань міських кварталів (Манхеттенський відстань). Це відстань є середнім різниць по координатах. У більшості випадків ця міра відстані приводить до таких же результатів, як і для звичайного відстані Евкліда. Проте відзначимо, що для цього заходу вплив окремих великих різниць (викидів) зменшується (так як вони не зводяться в квадрат). Манхеттенська відстань обчислюється за формулою:

Відстань (x, y) = ∑i | xi - yi |

Відстань Чебишева. Ця відстань може виявитися корисною, коли бажають визначити два об'єкти як "різні", якщо вони відрізняються по якій-небудь одній координаті (якимсь одним виміром). Відстань Чебишева обчислюється за формулою:

Відстань (x, y) = Максимум | xi – yi |

Відсоток незгоди. Ця міра використовується в тих випадках, коли дані є категоріальними. Це відстань обчислюється за формулою:

Відстань (x, y) = (Кількість xi≠ yi) / i

Представлення результатів

Результатом кластерного аналізу є набір кластерів, що містять елементи вихідної множини. Кластерна модель повинна описувати як самі кластери, так і належність кожного об'єкта до одного з них.

Для невеликого числа об'єктів, що характеризуються двома змінними, результати кластерного аналізу зображують графічно. Елементи представляються точками, кластери розділяються прямими, які описуються лінійними функціями. Якщо кластери не можна розділити прямими, то малюються ламані лінії, які описуються нелінійними функціями.

Ряд алгоритмів кластеризації будують ієрархічні структури кластерів. У таких структурах найвищий рівень відповідає всій множини об'єктів, тобто одному-єдиному кластеру. На наступному рівні він ділиться на декілька підкластерів. Кожен з них ділиться ще на декілька і так далі. Побудова такої ієрархії може відбуватися до тих пір, поки кластери не відповідатимуть окремим об'єктам. Такі діаграми називаються дендрограмами (dendrograms).

Алгоритми ієрархічної кластеризації

Ієрархічні алгоритми дозволяють одержувати послідовну розбивку сукупності об'єктів за певним правилом. Вони підрозділяються на подільні й агломеративні.

Подільні алгоритми починають роботу з розгляду вихідної сукупності як одного кластера й послідовно розділяють її на більш дрібні групи, аж до розбивки, коли кожний об'єкт вважається окремим кластером .

В результаті утворюється ієрархічне дерево кластерів, і аналітик може вибрати ту її конфігурацію, яка краще відповідає розв'язанню задачі (Рис. 2).

Рис 2. Розбиття даних в кластери за допомогою дивізійних алгоритмів.

В агломеративній кластеризації також формується ієрархічне дерево, але шляхом об'єднання об'єктів в більш великі кластери з більш дрібних. Спочатку кожен об'єкт вихідної безлічі розглядається як окремий кластер, потім шукаються два об'єкти, відстань між якими мінімальна, і об'єднуються в один і т.д. Дана процедура продовжується до тих пір, поки всі об'єкти не будуть зібрані в єдиний кластер (рис. 3).

Рис 3. Розбиття даних в кластери за допомогою агломеративних алгоритмів

Ієрархічні алгоритми характеризуються рядом переваг у порівнянні з іншими процедурами кластерного аналізу. Відзначимо важливіші з них:

  • відносна простота й змістовна ясність;

  • допустимість втручання в роботу алгоритму;

  • можливість графічного подання процесу класифікації у вигляді дендрограми, тобто дерева об'єднання (розбивки);

  • порівняно невисока трудомісткість розрахунків.

На першому кроці даних процедур кожний об'єкт вважається окремим кластером і провадиться об'єднання (агломерація) кластерів відповідно до деякого правила, що визначає послідовність (ієрархію) такого об'єднання. Алгоритми зазначеного типу розрізняються між собою, головним чином, критеріями, які використовуються при об'єднанні кластерів. Головні з них наступні:

1. Критерій “ближнього сусіда”. В англомовній літературі даний критерій відомий як простий (одиночний) зв'язок (single linkage). На кожному кроці поєднуються кластери Кp і Кs, відстань між найближчими об'єктами p і s яких мінімальна.

При його використанні на першому кроці поєднуються два найближчих між собою об'єкта, на другому – кластери за мінімальною відстанню між двома ближніми сусідами й т.д. Звідси й назва критерію: потрібний тільки один мінімальний зв'язок, щоб приєднати об'єкт до кластера, оскільки враховується лише одиночний, простий зв'язок з однією точкою кластера (рис . 4, 5).

Рис.4. Критерій “ближнього сусіда”

Рис. 5. Приклад критерію «ближнього сусіда»

2. Критерій “далекого сусіда”. В англомовній літературі даний критерій відомий як повний зв'язок (сomplete linkage). На кожному кроці поєднуються кластери Кp і Кs, відстань між найбільш віддаленими об'єктами p і s яких мінімальна. (Рис. 6)

Рис. 6. Приклад критерію «далекого сусіда»

3. Критерій “середнього зв'язку” (середньої відстані). На кожному кроці поєднуються кластери Кp і Кs, середня відстань між всіма парами об'єктів яких мінімальна.

Даний критерій має дві модифікації залежно від способу розрахунку середніх відстаней між об'єктами кожного кластера: 1) критерій середньої відстані, розрахований за формулою простої середньої арифметичної (Unweigted pair-group averrage); 2) критерій середньої відстані, розрахований по формулі зваженої середньої арифметичної (Weigted pair-group averrage). У першому випадку не враховується число об'єктів у кожному кластері, тобто їхня статистична вага, а в другому – враховується.

4. Критерій “середнього сусіда” (центроїда). На кожному кроці поєднуються кластери Кp і Кs, відстань між центрами ваги яких мінімальна.

Даний критерій також має дві модифікації залежно від способу обліку чисельності кожного кластера: 1) критерій центроїда, розрахований без урахування числа об'єктів (статистичної ваги) поєднуваних груп (Unweigted pair-group centroid); 2) критерій центроїда, розрахований з урахуванням числа об'єктів (статистичної ваги) поєднуваних груп (Weigted pair-group centroid). (Рис. 7)

Рис. 7. Центроїд: середня перехресна подібність.

5. Критерій Варда (Ward’s method). Цей метод агломерації відрізняється від попередніх тим, що він ґрунтується на аналізі збільшень всередині групової варіації чинників-симптомів для всіх можливих варіантів об'єднання кластерів. Помічено, що метод Уорда приводить до утворення кластерів приблизно рівних розмірів у формі гіперсфер. (Рис. 8)

Рис. 8. Групове усереднення: усереднення всі показників подібності.

Для перших трьох методів існує загальна формула, запропонована А. Н. Колмогоровим для мір подібності.

−∞ ≤ η ≤ +∞

де-[i,j] група з двох об'єктів (кластерів) I i J ; k- об'єкт (кластер), з яким шукається схожість зазначеної групи; Ni-число елементів в кластері і; Nj-число елементів в кластері j.

Для відстаней є аналогічна формула Ланса – Вільямса.

Загальна схема ієрархічного агломеративного алгоритму

Загальна схема ієрархічного агломеративного алгоритму складається з наступних основних етапів:

1) всі об'єкти zi розглядаються як n самостійних кластерів К1, К2, … , Кn;

2) розраховуються відстані між всіма кластерами, і утворюються матриця відстаней D, розміру n*n;

3) на базі обраного критерію визначається пара найближчих кластерів, які поєднуються в один новий кластер. Якщо відразу кілька кластерів мають мінімальну відстань між собою, то вибирають будь-яку пару;

4) обчислюються відстані від отриманого нового кластера до всіх інших. Розмірність матриці D при цьому знижується на одиницю;

5) на наступному кроці повторюється виконання пунктів 2, 3, 4 доти, поки не вийде розбивка, що складається з одного кластера – вихідної сукупності об'єктів.

Очевидно, що доводити ієрархічний агломеративний алгоритм до кінця не має змісту, тому що одержаний результат кластеризації є тривіальним, а завдання багатомірного групування залишається невирішеним. Необхідна об'єктивно обґрунтована зупинка процедури агломерації. Сигналом для такої зупинки може служити різкий ріст на черговому кроці мінімальної відстані між поєднуваними кластерами. Це вказує на те, що в одну групу поєднуються вже більш різнорідні об'єкти, чим на попередніх кроках.

Блок схема алгоритму

Як видно із загальної блок-схеми наведеного алгоритму (рис. 9), для його успішного здійснення необхідно:

  1. розрахувати відстані від нового (об'єднаного) кластера до всіх інших;

  2. вчасно зупинити процедуру, вибравши оптимальне число компактних груп об'єктів.

З приводу останньої проблеми можна сказати, що вона вирішується в значній мірі суб'єктивно, залежно від досвіду й інтуїції дослідника. На відміну від неї, перше завдання має цілком строге математичне рішення. Існує загальна формула для розрахунку відстані між кластером Кr, що є результатом об'єднання кластерів Kp і Ks, і кластером Kg.

Рис. 9. Блок-схема ієрархічного агломеративного алгоритму

Таким чином визначаються відстані від нового (об'єднаного кластера) до всіх інших. Потім відбувається перехід до третього етапу алгоритму з наступним аналізом зміни мінімальної відстані між кластерами. Зупинка багатовимірної процедури здійснюється в тому випадку, коли зазначена відстань зростає стрибкоподібно, що сигналізує про перспективу об'єднати в один кластер об'єкти, досить віддалені один від одного.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]