Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
НАВЧ. ПОСІБ. МіМ.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
2.88 Mб
Скачать

Розв’язання типових завдань

Методика кластерного аналізу за методом ієрархічної (деревовидної) кластеризації за допомогою пакету «Statistica»

На основі даних про урожайність пшениці та умови її формування за десятьма сільськогосподарськими підприємствами області (табл. 13.4) потрібно провести деревовидну кластеризацію, обравши за міру подібності елементів евклідову відстань, а за метод об’єднання елементів метод повного зв’язку.

Таблиця 13.4

Дані про урожайність пшениці та умови її формування

Якість ґрунтів, бал

Кількість добрив, кг/га

Терміни збору, дн.

Урожайність пшениці, ц/га

1

68

116

14

21

2

80

156

9

29

3

55

108

14

30

4

45

84

24

15

5

87

270

9

36

6

88

260

11

35

7

90

280

9

38

8

78

134

13

25

9

65

113

18

21

10

64

97

23

18

Хід виконання:

1. Із меню Файл обрати команду Создать. У діалоговому вікні, що відкрилося, задати число змінних – 4 та число регістрів – 10. Натиснути ОК.

2. У електронну таблицю, що відкрилася, внести вихідні для аналізу, давши ім’я кожній змінній. Для збереження даних вибрати команду Сохранить как з меню Файл.

3. З пункту головного меню Анализ через опцію Многомерный разведочный анализ відкрити модуль Кластерный анализ. У вікні Методы кластеризации обрати опцію Иерархическая классификация. ОК.

4. З’являється вікно Кластерный анализ: иерархическая классификация, в якому натискаються кнопки Переменные Выбрать все. ОК.

5. У закладці Дополнительно потрібно задати Файл данныхИсходные данные, ОбъектыНаблюдения (строки), Правило объединенияМетод полной связи та Мера близости – Евклидово расстояние. ОК.

6. На екрані з’явиться вікно Результаты иерархической классификации.

7. При натисканні кнопки Вертикальная дендрограмма в закладці Дополнительно на екрані з’являється графік об’єднання елементів у кластери (рис. 13.4).

Рис. 13.4. Вертикальна дендрограма

Як видно з графіку, виділяються три групи однорідних елементів: перша група – підприємства 5, 6 та 7, друга – підприємства 2 та 8, третя – підприємства 1, 3, 4, 9 та 10. Підприємства другої та третьої груп більш схожі між собою, ніж з підприємствами першої групи.

  1. При натисканні кнопки Схема объединения відкривається вікно з протоколом об’єднання кластерів (рис. 13.5).

Рис.13.5. Протокол об’єднання кластерів

Схема об’єднання є неграфічним представленням результатів кластерізації. Перший стовпець таблиці містить відстані для відповідних кластерів. Кожен рядок показує склад кластера на даному кроці класифікації. Наприклад, на першому кроці (1 рядок) об'єдналися 1 та 9 підприємство, на другому (2 рядок) – 5 та 6, на третьому (3 рядок) 1,9 та 3, на четвертому (4 рядок) – 5,6 та 7 і т.д.

  1. Кнопка График схемы объединения розкриває вікно, що показане на рис. 13.6.

Рис. 13.6. Діаграма відстані об'єднання по кроках

Даний графік надає можливість переглянути результати деревоподібної кластеризації в графічному вигляді.

  1. За допомогою кнопки Матрица расстояний виведемо таблицю, за якою можна проаналізувати відстань між кожним підприємством. Найменшу відстань мають підприємства 1 та 9, а найбільшу – 7 та 9.

  2. Кнопка Описательные статистики показує таблицю результатів з середніми значеннями і стандартними відхиленнями для кожного об'єкта, включеного в кластерний аналіз, тобто для кожного спостереження і змінної.

Методика кластерного аналізу за методом k-середніх за допомогою

пакету «Statistica»

На основі даних про урожайність пшениці та умови її формування за десятьма сільськогосподарськими підприємствами області (див. табл. 13.4) потрібно провести кластеризацію методом k-середніх, виділивши ти кластери та обравши за початкові центри кластерів спостереження, що максимізують початкові відстані між кластерами.

Хід виконання:

1. Із меню Файл обрати команду Создать. У діалоговому вікні, що відкрилося, задати число змінних – 4 та число регістрів – 10. Натиснути ОК.

2. У електронну таблицю, що відкрилася, внести вихідні для аналізу, давши ім’я кожній змінній. Для збереження даних вибрати команду Сохранить как з меню Файл.

3. З пункту головного меню Анализ через опцію Многомерный разведочный анализ відкрити модуль Кластерный анализ. У вікні Методы кластеризации обрати опцію Кластеризация методом К средних. ОК.

4. З’являється вікно Кластерный анализ: метод К средних, в якому натискаються кнопки Переменные Выбрать все. ОК.

5. У закладці Дополнительно потрібно задати ОбъектыНаблюдения (строки) та Количество кластеров – 3, Число итераций – 10, Начальные центры кластеровНаблюдения, максимизирующие начальные расстояния между кластерами. ОК.

6. На екрані з’явиться вікно Результаты метода К средних.

7. При натисненні кнопки Дисперсионный анализ з’являється таблиця. Кластер має місце, якщо дисперсія значень усередині нього менше, ніж поза її меж. У першій колонці таблиці представлена зовнішня дисперсія, у третій – дисперсія всередині кластерів. У п'ятій і шостій колонках – критерій статистичної значущості розбиття ознак по кластерам. Добре видно, що для всіх ознак внутрішня дисперсія менше зовнішньої – це означає, що кластерний аналіз дійсно групує котирування по схожим кластерам.

8. При натисненні кнопки Средние кластеров и евклидово расстояние на екран виводяться дві таблиці. У першій вказані середні величини класу по всім змінним (спостереженнями). По вертикалі вказані номери класів, а по горизонталі змінні (спостереження). У другій таблиці наведені відстані між класами. І по вертикалі і по горизонталі вказані номери кластерів. Таким чином при перетині рядків і стовпців вказані відстані між відповідними класами. Причому вище діагоналі (на якій стоять нулі) вказані квадрати, а нижче просто евклідова відстань. З даної таблиці можна зробити висновок,що найменша відстань між 2 та 3 класом, а найбільша – між 1 та 3.

9. Кнопка График средних дає графічне зображення інформації з таблиці (рис. 13.7).

Рис. 13.7. Графік середніх значень змінних для окремих кластерів

На графіку показані середні значення змінних для кожного кластера. По горизонталі відкладено змінні, а по вертикалі – середні значення змінних в розрізі одержуваних кластерів.

10. Кнопка Статистики для каждого кластера виводить вікна по кількості кластерів. У кожному такому вікні в рядках вказані змінні (спостереження), а по горизонталі їх характеристики, розраховані для даного класу: середнє, незміщене середньоквадратичне відхилення, незміщена дисперсія.

11. При натисненні кнопки Элементы кластеров и расстояния відображається стільки вікон, скільки задано класів, у нашому випадку – 3. В кожному вікні вказується загальна кількість елементів, віднесених до цього кластеру, в верхньому рядку вказано номер спостереження (змінної), віднесеної до даного класу і евклідова відстань від центру класу до цього спостереження (змінної). Відповідно до нашого прикладу перший кластер має 3 спостереження, другий – 2, третій – 5, відповідно до кожного наведено відстань до центра кластера. Центр кластера – середні величини по всім змінним (спостереженням) для цього класу.