Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЭС_для заочников (1).doc
Скачиваний:
3
Добавлен:
01.07.2025
Размер:
1.39 Mб
Скачать

Основні підходи до вирішення задач іод Кластерінг (таксономія)

Бурхливий розвиток інформаційних технологій, спрямованих на автоматизацію процесу інтелектуального аналізу структур складних систем, обумовив численні спроби теоретичного обґрунтування методів для виявлення структурних особливостей цих систем та аналізу причинно-наслідкових залежностей між їх елементами шляхом забезпечення автоматичного розподілу множини елементів системи на окремі класи.

Сьогодні відомо багато варіантів визначення терміну таксономія. Основні з них:

Таксономія (від грецького táxis – розташування, устрій, порядок та nómos – закон) – теорія класифікації та систематизації складно організованих галузей реальності, що мають, звичайно, ієрархічну побудову (органічний світ, географічні, геологічні об’єкти й т.п.).

Визначення Розподілення множини об’єктів за їх формалізованим описом на класи (таксони) називається таксономією (автоматичною класифікацією, кластер-аналізом, навчанням без учителя).

У загальному випадку задачу таксономії пропонується формулювати наступним чином:

Дано: множина об'єктів, кожен з яких представлений множиною значень ознак.

Потрібно: сформувати додаткову властивість, що характеризує розподіл об'єктів на множину класів відповідно до їхнього розташування в просторі ознак P.

В залежності від цілі задачі, можливе виникнення апріорних умов і обмежень на характеристики досліджуваної вибірки або результат таксономії. Таким чином, наявність цілі обумовлює суб’єктивність процесу рішення задачі таксономії.

Основними цілями при рішенні задачі таксономії можуть бути:

  1. Виявлення закономірностей у розподілі досліджуваної множини об’єктів та формування на основі отриманих результатів певної логічної структури;

  2. Економія ресурсів, потрібних для зберігання інформації про досліджувані об’єкти, яка забезпечується за рахунок переходу від пооб'єктного до по-класового представлення. Адже після розбивки множини об'єктів на класи, відпадає необхідність зберігати окремо опис кожного об'єкта. У цьому випадку стає достатнім збереження, наприклад, наступної інформації:

      • характеристика одного найбільш типового представника класу (прецеденту);

      • максимальне відхилення значень кожної ознаки від значення цієї ознаки у прецедента;

      • список об'єктів, що належать цьому класу.

Взагалі перехід від опису об’єктів до опису їх таксонів є еквівалентним переходу від даних до знань. Якщо таксономія має ієрархічний характер, вона відображає структуру знань про досліджуваний процес або явище. Окремі знання нижнього рівню об’єднуються на наступному рівні в метазнання. У роботах В.П. Гладуна та його колег, присвячених розробці зростаючих пірамідальних мереж, описано алгоритми динамічного формування ієрархії понять в процесі накоплення нових фактів про досліджуване явище. У цих алгоритмах нові таксони можуть виникати не тільки при виникненні нового оригінального об’єкту, а й при виникненні таксону із занадто великою кількістю об’єктів. Таке перевантажене змістом знання нібито деталізується, ділиться на складові поняття. Застосування даного підходу виявило свою високу ефективність в системах штучного інтелекту.

Для формалізації проблеми рішення задачі таксономії, доцільно інтерпретувати досліджувані об’єкти в якості точок у відповідному інформаційному просторі ознак.

Тоді проблема таксономії полягає в розподіленні досліджуваної множини точок – об’єктів на порівняно невелику кількість (заздалегідь відому чи ні) класів таким чином, щоб об’єкти, що належать одному класу, знаходились на порівняно невеликих відстанях один від одного. Таким чином, таксономія – розподіл розглянутої сукупності на однорідні групи, в яких об’єкти близькі між собою і відрізняються від об'єктів в інших групах. Отримані в результаті розподілення класи часто називають кластерами, таксонами, таксонами, а саму таксономію кластер-аналізом, навчанням без учителя.

В залежності від того, одночасно чи послідовно відшукуються кластери прийнято виділяти два наступні типи методів таксономії: варіаційні; агломеративні.

Варіаційні методи засновані на оптимізації того чи іншого показника якості виявлень кластерної структури, а агломеративні методи – на послідовному об'єднанні пар найбільш близьких кластерів. Як правило, в основі цих методів лежить явне визначення поняття кластера в термінах максимально припустимого "радіуса" чи "порога істотності" зв'язків. Найбільший інтерес представляють методи, обчислювальні процедури яких можуть бути організовані кожним із зазначених способів.

В залежності від апріорних знань, щодо законів розподілення досліджуваної множини об’єктів пропонується виділяти два основні типи задач таксономії:

  1. Багатовимірний аналог задачі формування інтервалів угруповання при обробці одновимірних спостережень – звичайна задача розподілення статистично дослідженого n-вимірного діапазону значень ознак на інтервали, в результаті чого множина об’єктів ділиться таким чином, що об’єкти однієї групи знаходяться на порівняно невеликій відстані.

  2. Натуральна таксономія – задача визначення натурального розподілення вихідних спостережень на чітко визначені таксони – групи об’єктів, що лежать один від одного на деякій відстані, але не розбиваються на більш віддалені частини. У ймовірнісній інтерпретації (тобто якщо інтерпретувати спостереження, що класифікуються, як вибірку з деякої генеральної сукупності, яка описується функцією щільності розподілення f(Х), як правило, невідомою для дослідника) друга задача може бути сформульована як задача виявлення областей підвищеної щільності спостережень, тобто таких областей можливих значень досліджуваної багатовимірної ознаки Х, які відповідають локальним максимумам функції f(Х).

Якщо перша задача – задача формування областей угруповання – завжди має рішення, то при другій постановці результат може бути й негативним: може виявитися, що множина вихідних спостережень не містить натурального розподілення на таксони (наприклад, утворює один загальний таксон).