Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
sis_an_pract.doc
Скачиваний:
14
Добавлен:
24.04.2019
Размер:
2.54 Mб
Скачать

Лабораторна робота 9 кластер ний аналіз. Виконання в пакеті statistica 6.0.

В STATISTICA реалізовані такі методи кластеризації – агломеративні методи: joining (tree clustering), two way joining, а також метод k-середніх – k-means clustering.

Здебільшого перед початком класифікації дані стандартизують (обчислюють середнє, і ділять на квадратний корінь з дисперсії). Отримані в результаті стандартизації змінні мають нульове середнє й одиничну дисперсію. Дані, які ми розглядаємо далі, - вже стандартизовані.

У STATISTICA можна вибрати такі правила ієрархічного об'єднання кластерів:

Single linkageметод одиночного зв'язку;

Complete linkageметод повного зв'язку;

Unweighted pair group averageнезважений метод "середнього зв'язку";

Weighted pair group averageзважений метод "середнього зв'язку";

Weighted centroid pair group – зважений центроїдний метод;

Ward method – метод Уорда.

Ці алгоритми відрізняються правилами об'єднання об'єктів у кластер.

У методі одиночного зв'язку на першому кроці об'єднують два об'єкти, які мають між собою максимальну міру подібності. На наступному кроці до них приєднують об'єкт з максимальною мірою подібності з одним із об'єктів кластера. У такий спосіб, процес продовжують далі. Отже, для включення об'єкта в кластер потрібна максимальна подібність лише з одним членом кластера. Звідси і назва методу одиночного зв'язку: потрібен тільки один зв'язок, для того, щоб приєднати об'єкт до кластера – зв'язок нового елемента з кластером визначається тільки за одним з елементів кластера. Вадою цього методу є утворення дуже великих "продовгуватих" кластерів.

Метод повних зв'язків дозволяє усунути цей недолік. Тут міра подібності між об'єктом – кандидатом на включення в кластер і всіма членами кластера не може бути меншою від деякого порогового значення.

У методі середнього зв'язку міра подібності між кандидатом і членами кластера середня, наприклад, беруть просто середнє арифметичне мір подібності.

Ідея ще одного агломеративного методу – методу Уорда полягає в тому, щоб проводити об'єднання, яке дає мінімальний приріст внутрішньогрупової суми квадратів відхилень. Зауважено, що метод Уорда приводить до утворення кластерів приблизно рівних розмірів, які мають форму гіперсфер.

Розглянемо ще ітеративний метод групування k-середніх – k-means clustering. Цей метод працює безпосередньо з об'єктами, а не з матрицею подібності. В методі k-середніх об'єкт зараховують до того класу, віддаль до якого мінімальна. Розглядають евклідову віддаль, тобто об'єкти – точки евклідового простору.

Запуск модуля

Виберіть у перемикачі модулів назву модуля – Cluster Analysis (Кластерний аналіз), висвітіть його ім'я і натисніть кнопку Switch To або просто двічі клацніть на його імені. У робочому вікні STATISTICA клацніть на пункт Analysis (аналіз). В меню, яке випадає, виберіть Startup Panel (стартова панель). На екрані з'явиться стартова панель модуля Cluster Analysis (Кластерний аналіз).

Вибір методу

Подивіться на стартову панель. У головній її частині є список методів кластерного аналізу, реалізованих у STATISTICA.

У списку методів висвітіть k-means (k-середніх) і натисніть кнопку ОК в правому верхньому куті панелі.

Діалогове вікно методу k-means з'явиться на екрані.

Вибір змінних, встановлення початкових значень, запуск обчислювальної процедури методу k-середніх

Почніть працювати в цьому вікні. Передусім виберіть змінні для аналізу. Натисніть кнопку Variables (змінні) в лівому верхньому куті активного вікна і відкрийте діалогове вікно: Select variables for analysis.

Нехай потрібно враховувати всі параметри. Тоді натисніть спочатку кнопку Select All (вибрати все), а потім – кнопку ОК.

Погляньте далі на поле Cluster (Кластер), яке розташоване нижче кнопки Variables (змінні). Натисніть стрілку в цьому полі, виберіть пункт меню Cases (Випадки). Так діють, коли кластеризують змінні.

У полі Number of Cases (Кількість кластерів) потрібно визначити кількість груп, на які ми хочемо розбити змінні. Запишіть у це поле число 3.

Таким чином, ми будемо розбивати далі на три кластери.

У рядку Number of iterations (кількість ітерацій) задають максимальну кількість ітерацій, які використовуються при побудові класів. Задайте, наприклад, число 11.

У рядку Missing Data задають спосіб обробки пропущених значень у даних (наприклад, для якогось об'єкту відсутнє значення деякого параметра). Якщо пропусків в даних немає, то обробка пропущених значень не відбувається.

Група опцій Initial cluster centers дозволяє задати початкові центри кластерів.

Після того, як всі установки зроблені, натисніть кнопку ОК у верхньому правому куті вікна k-means Clustering і запустіть обчислювальну процедуру.

Перегляд результатів кластеризації

Через декілька секунд після натискання кнопки ОК у вікні k-means Clustering вікно результатів з'явиться на екрані.

У верхній частині вікна записана інформація: кількість змінних, кількість випадків, метод кластеризації, кількість кластерів, а також повідомлення про те, після скількох ітерацій знайдено рішення: Solution was obtained after 3 iterations – Розв'язок знайдено після 3 ітерацій.

Кнопки в нижній частині вікна дозволяють провести аналіз результатів кластеризації.

Кнопка Analysis of variation (Дисперсійний аналіз) дозволяє продивитися таблицю дисперсійного аналізу.

Кнопка Cluster Means&Euclidean Distances дозволяє вивести таблиці, в першій із яких вказані середні для кожного кластера (знаходження середнього проводиться всередині кластера), в другій вказані евклідові відстані і квадрати евклідових відстаней між кластерами.

Кнопка Graph of means дозволяє продивитися середні значення для кожного кластера на лінійному графіку.

Кнопка Descriptive Statistics for each clusters відкриває електронну таблицю з описовими статистиками для кожного кластера (середнє, дисперсія і т.д.)

Кнопка Save classifications and distances дозволяє зберегти результаті класифікації у файлі для подальшого дослідження.

Нам, звичайно, цікаво подивитися, як розподілилися об'єкти за кластерами. Для цього потрібно натиснути кнопку Member of each cluster& distances. На екрані з'являться електронні таблиці з назвами об'єктів, віднесені до визначених кластерів. У рядках таблиць вказано відстань від кожного об'єкта до центра кластера.

Натисніть на кнопку Cluster Means&Euclidean Distances. На екрані з'явиться таблиця, в якій дані евклідові відстані між середніми кластерів (для кожного із параметрів всередині кластера обчислюють середнє, отримують точки в багатовимірному просторі і між ними знаходять відстані).

Над діагоналлю в таблиці дані квадрати відстаней між кластерами.

За допомогою кнопки Graph of means (графік середніх) будують графіки середніх значень характеристик об'єктів для кожного кластера.

Інші методи кластеризації, реалізовані в системі

У системі реалізовані також інші методи кластеризації, а саме так званий two way joining, в якому кластеризуються випадки і змінні одночасно.

Якщо ви скористаєтеся Joining (tree clustering), то зможете побачити дендрограму, або дерево об'єднання.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]