Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
НАВЧ. ПОСІБ. МіМ.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
2.88 Mб
Скачать

13.6. Методи кластерного аналізу

Методи кластерного аналізу можна розділити на дві групи:

  • ієрархічні (агломеративні та дивізимні);

  • неієрархічні.

Кожна з груп включає безліч підходів і алгоритмів.

Використовуючи різні методи кластерного аналізу, аналітик може отримати різні рішення для одних і тих же даних. Це вважається нормальним явищем.

Суть ієрархічної кластеризації полягає в послідовному об’єднанні менших кластерів у великі або розділенні великих кластерів на менші.

Ієрархічні агломеративні методи характеризуються послідовним об’єднанням початкових елементів і відповідним зменшенням числа кластерів. На початку роботи алгоритму всі об’єкти є окремими кластерами. На першому кроці найбільш схожі об’єкти об’єднуються в кластер. На подальших кроках об’єднання продовжується до тих пір, поки всі об’єкти не складатимуть один кластер.

Ієрархічні дивізимні (ділимі) методи є логічною протилежністю агломеративным методам. На початку роботи алгоритму всі об’єкти належать до одного кластеру, який на подальших кроках ділиться на менші кластери, в результаті утворюється послідовність груп, що розщеплюються.

Програмна реалізація алгоритмів кластерного аналізу широко представлена в різних інструментах Data Mining, які дозволяють вирішувати завдання достатньо великої розмірності. Наприклад, агломеративные методи реалізовані в пакеті Statistica, дивізимні методи – в пакеті Statgraf.

Ієрархічні методи кластеризації розрізняються правилами побудови кластерів. Як правила виступають критерії, які використовуються при рішенні питання про «схожість» об’єктів при їх об’єднанні в групу (агломеративні методи) або розділення на групи (дивізимні методи).

Ієрархічні методи кластерного аналізу використовуються при невеликих об’ємах вихідних даних.

Перевагою ієрархічних методів кластеризації є їх наочність.

Ієрархічні алгоритми пов’язані з побудовою дендрограм (від грецького dendron - «дерево»), які є результатом ієрархічного кластерного аналізу. Дендрограма описує близькість окремих точок і кластерів один до одного, представляє в графічному вигляді послідовність об’єднання (розділення) кластерів.

Дендрограма (dendrogram) - деревовидна діаграма, що містить n рівнів, кожен з яких відповідає одному з кроків процесу послідовного укрупнення кластерів.

Дендрограму також називають деревовидною схемою, деревом об’єднання кластерів, деревом ієрархічної структури. Дендрограма є вкладеним групуванням об’єктів, яке змінюється на різних рівнях ієрархії.

Існує багато способів побудови дендрограм. У дендрограмі об’єкти можуть розташовуватися вертикально або горизонтально. Приклад вертикальної дендрограми приведений на рис. 12.2.

Рис. 13.3.  Приклад дендрограми

Числа 11, 10, 3 і так далі відповідають номерам об’єктів або спостережень початкової вибірки. Ми бачимо, що на першому кроці кожне спостереження представляє один кластер (вертикальна лінія), на другому кроці спостерігаємо об’єднання таких спостережень: 11 і 10; 3, 4 і 5; 8 і 9; 2 і 6. На третьому кроці продовжується об’єднання в кластери: спостереження 11, 10, 3, 4, 5 і 7, 8, 9. Даний процес продовжується до тих пір, поки всі спостереження не об’єднаються в один кластер.

Порядок проведення ієрархічної (деревовидної) кластеризації за допомогою пакету Statistica:

1. Створити новий файл вихідних даних.

2. З пункту головного меню Анализ через опцію Многомерный разведочный анализ відкрити модуль Кластерный анализ.

3. У вікні Методы кластеризации обрати опцію Иерархическая классификация. ОК.

4. З’являється вікно Кластерный анализ: иерархическая классификация, в якому натискаються кнопки Переменные Выбрать все. ОК.

5. У закладці Дополнительно потрібно задати Файл данныхИсходные данные та ОбъектыНаблюдения (строки). Можна вибрати різні позиції опцій Правило объединения та Мера близости. Кнопка Удаление ПД дозволяє обрати або порядкове видалення змінних, для яких пропущені дані, зі списку, або замінити їх на середні значення. ОК.

6. На екрані з’явиться вікно Результаты иерархической классификации. В режимі Дополнительно можна використати наступні кнопки: Горизонтальная дендрограмма, Вертикальная дендрограмма, Схема объединения, График схемы объединения, Матрица расстояний, Описательные статистики.

7. При натисканні кнопки Вертикальная дендрограмма на екрані з’являється графік об’єднання елементів у кластери, де по горизонтальній осі показуються елементи, а по вертикальній – відстань між ними. Чим раніше відбулось об’єднання певних елементів, тим більш подібними один до одного вони є. Отже, дендрограма показує міру близькості, схожості окремих елементів.

8. При натисканні кнопки Горизонтальная дендрограмма на екрані з’являється графік об’єднання елементів у кластери, де по вертикальній осі показуються елементи, а по горизонтальній – відстань між ними.

9. При натисканні кнопки Схема объединения відкривається вікно з протоколом об’єднання кластерів. Тут показується числове значення міри подібності окремих елементів. Чим менше значення міри схожості – тим більш подібні елементи.

10. Кнопка График схемы объединения розкриває вікно, що містить ступінчасте графічне зображення змін відстаней при об’єднанні кластерів.

11. Для перегляду відстаней між кластерами використовується кнопка Матрица расстояний.

12. Кнопка Описательные статистики показує середнє значення та середньоквадратичне відхилення для кожного спостереження.

До методів неієрархічної кластеризації можна віднести метод k-середніх. Його доцільно використовувати, коли дослідник має попереднє уявлення про кількість кластерів.

Алгоритм К-середніх є методом кластеризації, використовуваний для розділення набору об’єктів на до груп відповідно до вказаної міри близькості. Основний алгоритм роздільний на два кроки.

1. Обчислення центроїдів кластера: початкові центроїди встановлюються, використовуючи метод, вказаний користувачем. Методи вибору початкових центрів: вибрати N спостережень для максимізації початкової відстані, випадково вибрати N спостережень, і вибрати перші N спостережень. Тут N означає k.

2. Привласнення кожного об’єкту найближчому центроїду:

а) Найближчий центроїд в точності використовує метод заданої міри близькості. Значення всіх безперервних змінних перед обчисленням нормалізуються.

б) Після привласнення всіх об’єктів найближчому центроїду, обчислюються нові центроїди, використовуючи всі члени, ними привласнені. Для безперервних змінних значенням центроїда є середнє значень всіх членів, привласнених цьому кластеру. Для категоріальних змінних значенням центроїда є перша модель всіх членів йому привласнених.

У модулі «Кластерний аналіз» STATISTICA, алгоритм k-середніх для вимірювання відстані використовує квадрат евклідової відстані.

в) Якщо всі спостереження належать кластеру, якому належали до поточної ітерації, ітерація переривається. Також, якщо число ітерацій рівне максимальному числу ітерацій, ітерація переривається. Відновлюються центроїди і отримується остаточна кластеризація.

Порядок проведення кластеризації методом k-середніх за допомогою пакету Statistica:

1. Створити новий файл вихідних даних.

2. З пункту головного меню Анализ через опцію Многомерный разведочный анализ відкрити модуль Кластерный анализ.

3. У вікні Методы кластеризации обрати опцію Кластеризация методом К средних. ОК.

4. З’являється вікно Кластерный анализ: метод К средних, в якому натискаються кнопки Переменные Выбрать все. ОК.

5. У закладці Дополнительно потрібно задати ОбъектыНаблюдения (строки) та Количество кластеров. Можна вибрати різні позиції опцій Число итераций (зазвичай достатньо 10). Кнопка Начальные центры кластеров дозволяє обрати метод відбору початкових центрів кластерів: вибрати спостереження, що максимізують початкові відстані між кластерами; сортувати відстані та вибрати спостереження на постійних інтервалах; вибрати перші N (число кластерів) спостережень. Кнопка Удаление ПД дозволяє обрати або порядкове видалення змінних, для яких пропущені дані, зі списку, або замінити їх на середні значення. ОК.

6. На екрані з’явиться вікно Результаты метода К средних, на якому є наступні кнопки: Дисперсионный анализ, Средние кластеров и евклидово расстояние, График средних, Статистики для каждого кластера, Элементы кластеров и расстояния, Сохранить классификацию и расстояния.

7. При натисненні кнопки Дисперсионный анализ з’являється таблиця, рядки якої – це змінні, а стовпці – показники для кожної змінної: дисперсія між кластерами, число ступенів вільності для міжкластерної дисперсії, дисперсія всередині кластерів, число ступенів вільності для внутрішньокластерної дисперсії, F - критерій.

8. При натисненні кнопки Средние кластеров и евклидово расстояние на екран виводяться дві таблиці. У першій – середні величини кластерів за змінними. У другій – відстані між кластерами. Нижче діагоналі вказані Евклідові відстані, а вище – їх квадрати.

9. Кнопка График средних дає графічне зображення інформації з таблиці, що виводиться кнопкою Дисперсионный анализ. На графіці показуються середні величини змінних для кожного кластера.

10. Кнопка Статистики для каждого кластера виводить вікна по кількості кластерів, в яких вказуються: середнє значення, середньоквадратичне відхилення, дисперсія.

11. При натисненні кнопки Элементы кластеров и расстояния виводяться вікна по кількості кластерів, в яких показується число елементів у кластері, номер спостереження, евклідова відстань від центра кластера до цього спостереження.

12. Кнопка Сохранить классификацию и расстояния дозволяє зберегти таблицю з розрахунками.