Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Lab_5_Інтелектуальний аналіз даних.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
553.47 Кб
Скачать

Застосування кластерного аналізу у різних сферах людської діяльності

У біології кластеризація має безліч застосувань в самих різних областях. Наприклад, в біоінформатиці за допомогою неї аналізуються складні мережі взаємодіючих генів, що складаються деколи з сотень або навіть тисяч елементів. Кластерний аналіз дозволяє виділити підмережі, вузькі місця, концентратори та інші приховані властивості досліджуваної системи, що дозволяє в кінцевому рахунку дізнатися внесок кожного гена в формування досліджуваного феномена.

В області екології широко застосовується для виділення просторово однорідних груп організмів, співтовариств і т. п. Рідше методи кластерного аналізу застосовуються для дослідження співтовариств в часі. Гетерогенність структури спільнот призводить до виникнення нетривіальних методів кластерного аналізу (наприклад, метод Чекановського).

Загалом варто відзначити, що історично склалося так, що в якості мір близькості в біології частіше використовуються міри подібності, а не міри відмінності (відстані).

Кластеризація часто використовується у соціології. При аналізі результатів соціологічних досліджень рекомендується здійснювати аналіз методами ієрархічного агломеративного сімейства, а саме методом Уорда, при якому всередині кластерів оптимізується мінімальна дисперсія, в результаті створюються кластери приблизно рівних розмірів. Метод Уорда найбільш вдалий для аналізу соціологічних даних. В якості міри відмінності краще квадратична евклідова відстань, яке сприяє збільшенню контрастності кластерів. Головним підсумком ієрархічного кластерного аналізу є дендрограма або «сосульчата діаграма». При її інтерпретації дослідники стикаються з проблемою того ж роду, що й тлумачення результатів факторного аналізу - відсутністю однозначних критеріїв виділення кластерів. В якості головних рекомендується використовувати два способи - візуальний аналіз дендрограмми і порівняння результатів кластеризації, виконаної різними методами.

Також кластеризація відіграє важливу роль в інформатиці. Кластеризація результатів пошуку - використовується для «інтелектуального» угруповання результатів при пошуку файлів, веб-сайтів, інших об'єктів, надаючи користувачеві можливість швидкої навігації, вибору завідомо більш релевантної підмножини і виключення свідомо менш релевантного - що може підвищити «юзабіліті» інтерфейсу в порівнянні з виведенням у вигляді простого сортованого за релевантністю списку.

  • Clusty - кластеризуюча пошукова машина компанії Vivísimo

  • Nigma - російська пошукова система з автоматичною кластеризацією результатів

  • Quintura - візуальна кластеризація у вигляді хмари ключових слів

Сегментація зображень (англ. image segmentation) - Кластеризація може бути використана для розбиття цифрового зображення на окремі області з метою виявлення меж (англ. edge detection) або розпізнавання об'єктів.

Інтелектуальний аналіз даних (англ. data mining) - Кластеризація в Data Mining набуває цінності тоді, коли вона виступає одним з етапів аналізу даних, побудови закінченого аналітичного рішення. Аналітику часто легше виділити групи схожих об'єктів, вивчити їх особливості та побудувати для кожної групи окрему модель, ніж створювати одну загальну модель для всіх даних. Таким прийомом постійно користуються в маркетингу, виділяючи групи клієнтів, покупців, товарів і розробляючи для кожної з них окрему стратегію.

Цілі кластеризації:

  • Розуміння даних шляхом виявлення кластерної структури. Розбиття вибірки на групи схожих об'єктів дозволяє спростити подальшу обробку даних і прийняття рішень, застосовуючи до кожного кластера свій метод аналізу (стратегія «розділяй і пануй»).

  • Стиснення даних. Якщо початкова вихідна вибірка надмірно велика, то можна скоротити її, залишивши поодинці найбільш типовому представникові від кожного кластера.

  • Виявлення новизни. Виділяються нетипові об'єкти, які не вдається приєднати ні до одного з кластерів.

У першому випадку число кластерів прагнуть зробити трохи меншим. У другому випадку важливіше забезпечити високий ступінь міри схожості об'єктів всередині кожного кластера, а кластерів може бути скільки завгодно. У третьому випадку найбільший інтерес представляють окремі об'єкти, що не вписуються ні в один з кластерів.

Методи кластеризації:

  • K-середніх (K-means )

  • Графські алгоритми кластеризації

  • Статистичні алгоритми кластеризації

  • Алгоритми сімейства FOREL

  • Ієрархічна кластеризація або таксономія

  • Нейронна мережа Кохонена

  • Ансамбль кластерізатерів

  • Алгоритми сімейства Кrab

  • EM-алгоритм

  • Алгоритм, заснований на методі просіювання

Формальна постановка завдання кластеризації

Нехай існує безліч об'єктів, безліч номерів (імен) кластерів. Є задана функція відстані між об'єктами, є наявна кінцева скінченна вибірка об'єктів. Потрібно розбити вибірку на непересічні підмножини, звані кластерами, так, щоб кожен кластер складався з об'єктів, близьких по метриці, а об'єкти різних кластерів істотно відрізняються. При цьому кожному об'єкту приписується номер кластера.

Алгоритм кластеризації — це функція, яка будь-якому об'єкту ставить у відповідність номер кластера. Множина в деяких випадках відома заздалегідь наперед , проте частіше ставиться завдання визначити оптимальне число кластерів, або інший критерій якості кластеризації.

Кластеризація відрізняється від класифікації тим, що мітки початкових вихідних об'єктів спочатку не задані, і навіть може бути невідома сама множина.

Існує ряд труднощів, які варто обміркувати перед проведенням кластеризації:

  • Складність вибору характеристик, на основі яких проводиться кластеризація. Необдуманий вибір призводить до неадекватного розбиття на кластери , і як наслідок - до невірного розв’язку задачі.

  • Складність вибору методу кластеризації. Цей вибір потребує знання самих методів і передумов їх використання. Щоб перевірити ефективність конкретного методу у визначеній предметній області, доцільно застосувати наступну процедуру: розгядають декілька апріорі різних між собою груп і перемішують їх представників випадковим чином. Далі проводиться кластеризація для відновлення початкового розбиття на кластери. Доля співпадінь об’єктів у виявлених і початкових групах є показником ефективності роботи методу.

  • Проблема вибору кількості кластерів. Якщо немає ніяких відомостей відносно можливої кількості кластерів, необхідно провести ряд експериментів, і в результаті перебору різної їх кількості, обрати оптимальну.

  • Проблема інтерпретації результатів кластеризації. Форма кластерів у більшості випадків визначається вибором методу об’єднання. Однак варто враховувати, що конкретні методи прагнуть створювати кластери певних форм, навіть якщо в наборі, що досліджується, даних кластерів насправді немає.

Завдання кластерного аналізу можна об'єднати в такі групи:

  1. Розробка типології або класифікації.

  2. Дослідження корисних концептуальних схем групування об'єктів.

  3. Подання гіпотез на основі дослідження даних.

  4. Перевірка гіпотез або досліджень для визначення, чи дійсно типи (групи), виділені тим або іншим способом, присутні в наявних даних.

Як правило, при практичному використанні кластерного аналізу одночасно вирішується кілька із зазначених завдань.

Розглянемо приклад процедури кластерного аналізу.

Допустимо, ми маємо набір даних А, що складається з 14-ти прикладів, у яких є по дві ознаки X і Y. Дані по них наведені в таблиці 1.1.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]