Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Pitannya_dlya_pidgotovki_do_ekzamenu.doc
Скачиваний:
17
Добавлен:
06.09.2019
Размер:
551.42 Кб
Скачать

90. Види алгоритмів кластерного аналізу, критерії визначення кількості кластерів, оцінка надійності

Кластерний аналіз – це багатомірна статистична процедура, що дозволяє класифікувати об’єкти або спостереження в порівняно однорідні групи, названі кластерами. Якщо дані розуміти як крапки в ознаковому просторі, то задача кластерного аналізу формулюється як виділення «згущень крапок», розбивка сукупності на однорідні підмножини об’єктів. За змістом це означає виділення соціологічних категорій.

Наприклад, нехай ми маємо досить велику кількість статистичних показників, що характеризують рівень соціально-економічного розвитку кожного району: чисельність населення, кількість безробітних, довжина шосейних доріг, кількість квадратних метрів житла на одну людину та ін. Для організації опитування нам слід згрупувати райони в більші регіони, але зробити так, щоб у кожному регіоні були райони, близькі за своїм соціально-економічним розвитком. Це дасть змогу вибрати в такому регіоні один типовий район і результати опитування в цьому районі поширити на весь регіон. Таке групування можна ефективно здійснювати методом кластерного аналізу. При цьому важливо, що за такого групування враховується й узагальнюється велика кількість показників. Кількість алгоритмів кластерного аналізу дуже велика. Усі їх можна поділити на ієрархічні і неієрархічні.

Ідея ієрархічного кластерного аналізу полягає в наступному. На першому кроці всі N об’єктів поєднуються в N кластерів, тобто об’єкти називаються кластерами, у кожний кластер входить один об’єкт. Потім відбираються два об’єкти, що найбільш подібні, точні­ше, що найближчі один від одного в просторі обраних ознак (про розуміння «ближче» і про понятгя відстані ми поговоримо трохи пізніше). Ці об’єкти поєднуються в один кластер, тобто кількість кластерів стає рівним N - І. Потім знову знаходяться два найближчих кластери, причому новий кластер, що був отриманий шляхом об’єднання двох кластерів-об’єктів на попередньому кроці, бере участь у розрахунках нарівні з іншими. Процедура повторюється, поки всі кластери не об’єднаються в один.

Соціологами найчастіше використовуються ієрархічний кластерний аналіз та швидкий кластерний аналіз. Основними поняттями кластерного аналізу є подібність та дистанція. Дистанція є мірою того, наскільки об’єкти відділені один від одного, а подібність є мірою близькості. При угрупованні об’єктів у класи використовується одне із цих понять. У процесі класифікації кластерний аналіз прагне визначити групи таким чином, щоб мінімізувати внутрішньо групову варіацію об’єктів. Всі ознаки, які групують, враховуються одночасно при віднесенні об’єкта до тієї чи іншої групи. При цьому, як правило, відсутні чіткі межі кожної групи і заздалегідь не відомо, скільки саме груп доцільно виділити в досліджуваній сукупності.

Для роботи алгоритму кластерного аналізу необхідно обчислювати відстань між кластерами, до яких входять кілька об’єктів. Варіанти, реалізовані в SPSS:

  1. Відстань між найближчими сусідами (Nearest neighbor)

  2. Відстань між найвіддаленішими сусідами (Furthest neighbor)

  3. Середня відстань між кластерами (Between-groups linkage)

  4. Середня відстань між всіма об’єктами пари кластерів з урахуванням відстаней усередині кластерів (Within-groups linkage)

  5. Відстань між центрами кластерів (Centroid clustering)

  6. Метод медіан – той самий центроїд ний метод, але центр об’єднаного кластера обчислюється як медіана всіх об’єктів.

  7. Метод Варда. За відстань між кластерами береться приріст суми квадратів відстаней об’єктів до центрів кластерів, одержуваний в результаті їхнього об’єднання.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]