Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
НАВЧ. ПОСІБ. МіМ.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
2.88 Mб
Скачать

13.5. Основи кластерного аналізу

Важливим є завдання з вибору оптимальної стратегії поведінки підприємства в умовах зовнішнього середовища, для чого доцільно провести позиціонування підприємства відносно інших за рівнем фінансових показників. Реалізувати це можна за допомогою кластерного аналізу.

Термін кластерний аналіз, вперше введений Тріоном (Tryon) в 1939 році, включає більше 100 різних алгоритмів.

На відміну від завдань класифікації, кластерний аналіз не вимагає апріорних припущень про набір даних, не накладає обмежень на форму подачі досліджуваних об’єктів, дозволяє аналізувати показники різних типів даних (інтервальні дані, частоти, бінарні дані). При цьому необхідно пам’ятати, що змінні повинні вимірюватися в порівнянних шкалах.

Кластерний аналіз може застосовуватися до сукупностей часових рядів, тут можуть виділятися періоди схожості деяких показників і визначатися групи часових рядів зі схожою динамікою.

Завдання кластерного аналізу можна об’єднати в наступні групи:

  1. Розробка типології або класифікації.

  2. Дослідження корисних концептуальних схем групування об’єктів.

  3. Представлення гіпотез на основі дослідження даних.

  4. Перевірка гіпотез або досліджень для визначення, чи дійсно типи (групи), виділені тим або іншим способом, присутні в наявних даних.

Як правило, при практичному використанні кластерного аналізу одночасно вирішується декілька з вказаних завдань.

Представимо змінні X і Y у вигляді діаграми розсіювання, зображеної на рис. 13.2.

Рис. 13.2.  Діаграма розсіювання змінних X і Y

На малюнку ми бачимо декілька груп «схожих» прикладів. Приклади (об’єкти), які по значеннях X і Y «схожі» один на одного, належать до однієї групи (кластеру); об’єкти з різних кластерів не схожі один на одного.

Критерієм для визначення схожості і відмінності кластерів є відстань між точками на діаграмі розсіювання. Цю схожість можна «зміряти», вона дорівнює відстані між точками на графіці.

Способів визначення міри відстані між кластерами, що називають ще мірою близькості, існує декілька. Найбільш поширений спосіб - обчислення евклідової відстані між двома точками i та j на площині, коли відомі їх координати X і Y. Щоб дізнатися відстань між двома точками (dE(xi,xj)), треба взяти різницю їх координат по кожній осі, звести її в квадрат, скласти набуті значення для всіх осей і вирахувати квадратний корінь з суми:

(13.1)

де хil, xjl – величина l-ой компоненти у i-го (j-го) об’єкта (l=1,2,...,k, i,j=1,2,...,n).

Кластер має наступні математичні характеристики:

1. Центр кластера – це середнє геометричне місце точок в просторі змінних.

2. Радіус кластера – максимальна відстань точок від центру кластера.

3. Середньоквадратичне відхилення точок від центру кластера.

4. Розмір кластера може бути визначений або по радіусу кластера, або по середньоквадратичному відхиленню об’єктів для цього кластера.

Об’єкт відноситься до кластера, якщо відстань від об’єкту до центру кластера менше радіусу кластера. Якщо ця умова виконується для двох і більш за кластери, об’єкт є спірним.

Спірний об’єкт – це об’єкт, який у міру схожості може бути віднесений до декількох кластерів.

Неоднозначність даного завдання може бути усунена експертом або аналітиком.

Кластерний аналіз спирається на два припущення:

Перше припущення – дані ознаки об’єкту в принципі допускають бажане розбиття сукупності об’єктів на кластери.

Друге припущення – правильність вибору масштабу або одиниць вимірювання ознак.

Вибір масштабу в кластерному аналізі має велике значення. Розглянемо приклад. Уявимо собі, що дані ознаки х в наборі даних А на два порядки більше за дані ознаки у: значення змінної х знаходяться в діапазоні від 100 до 700, а значення змінної у – в діапазоні від 0 до 1. Тоді, при розрахунку величини відстані між точками, що відображають положення об’єктів в просторі їх властивостей, змінна, що має великі значення, тобто змінна х, буде практично повністю домінувати над змінною з малими значеннями, тобто змінною у.

Таким чином, через неоднорідність одиниць вимірювання ознак неможливо коректно розрахувати відстані між точками. Ця проблема вирішується за допомогою попередньої стандартизації змінних.

Стандартизація (standardization) або нормування (normalization) приводить значення всіх перетворених змінних до єдиного діапазону значень шляхом виразу через відношення цих значень до якоїсь величини, що відображає певні властивості конкретної ознаки. Існують різні способи нормування початкових даних.

Найбільш поширені способи стандартизації:

  • ділення початкових даних на середньоквадратичне відхилення відповідних змінних;

  • обчислення Z-вклада або стандартизованного внеску.

Разом із стандартизацією змінних, існує варіант присвоєння кожній з них певного коефіцієнта важливості, або ваги, яка б відображала значущість відповідної змінної. Як ваги можуть виступати експертні оцінки, отримані в ході опитування експертів – фахівців даної області. Отримані добутки нормованих змінних на відповідні ваги дозволяють отримувати відстані між точками в багатовимірному просторі з урахуванням неоднакової ваги змінних.

В ході експериментів можливе порівняння результатів, отриманих з урахуванням експертних оцінок і без них, і вибір кращого з них.