
4.3. Об’єднуючі та розділяючі стратегії
4.3.1. Агломеративні стратегії (об’єднання).
Початкові дії в усіх алгомеративних
системах однакові. Для
об’єктів обчислюються всі
мір відмінностей, пара об’єктів з
найменшою мірою об’єднується в одну
групу. Далі необхідно визначити міру
відмінностей між цією групою та рештою
об’єктами, а на більш пізніх стадіях,
очевидно, буде необхідно визначити міру
між об’єктом і групою будь-якого об’єму,
а також між будь-якими двома групами.
Основний алгоритм полягає в
тому, що на кожному кроці класифікації
здійснюється те об’єднання (між двома
об’єктами, між об’єктом і групою або
між двома групами), для якого міра
відмінностей мінімальна серед всіх
решти об’єктів і груп, які залишились
до даного кроку. Міра має бути такою,
щоб об’єкт можна було розглядати як
групу з одного елементу. Стратегія
об’єднання визначається саме мірою
відмінності між групами. Всього протягом
роботи алгоритму обчислюється
мір.
Комбінаторні рішення. Переважно
-міри
можна розглядати з позиції деякої
лінійної моделі. Нехай маємо дві групи
та
з кількістю
та
елементів відповідно. Позначимо міру
відмінностей між ними через
.
Припустимо, що
є найменшим з усіх, що залишилися, а
та
об’єднуються так, що після об’єднання
та
утворюють нову групу
,
з
елементами. Розглянемо деяку іншу групу
з
елементами. Перед об’єднанням відомі
значення
.
Приймемо:
. (3)
Де параметри
,
,
,
визначають суть стратегії. Для деяких
стратегій параметри є просто числами,
але в багатьох випадках вони є простими
функціями від деяких величин
.
Для інформаційної статистики, яка
представляє
-міри,
не існує комбінаторного вирішення, в
цьому випадку дані мають бути збережені
для обчислень, зв’язаних з об’єднанням
в групи, протягом усього процесу
класифікації.
Конкретні стратегії об’єднання.
Стратегія найдальшого сусіда.
Відстань між двома групами визначається
як відстань між двома найбільш віддаленими
представниками цих груп. Її параметри:
,
,
.
Сильно розтягує простір.
Стратегія найближчого сусіда.
Відстань між двома групами визначається
як відстань між двома найближчими
об’єктами з цих груп. Її параметри:
,
,
.
Сильно стягує простір.
Гнучка стратегія. Використовується
для будь-яких мір відмінностей, а її
параметри мають такі значення:
,
,
.
Властивості стратегії повністю залежать
від
.
Якщо
,
то стратегія зберігає метрику простору,
якщо
стратегія стискає простір, якщо
– розтягує його. На практиці переважно
приймають
.
4.3.2. Дивізивні стратегії (розділяючі).
Загальна характеристика. Теоретичні переваги дивізивних стратегій над агломеративними полягають в наступному:
1. Процес розділення починається з використанням максимального інформаційного змісту.
2. Поділ не обов’язково має продовжуватись до тих пір, поки вся сукупність об’єктів не буде розділена на окремі об’єкти.
3. Якщо число ознак є меншшим від числа
об’єктів, то кількість обчислень
зменшується, оскільки час, необхідний
для реалізації процесу дивізивного
розділення приблизно пропорційний
квадрату числа ознак
,
тоді , як для агломеративних –
.
Переважно більшість дивізивних програм
є монотетичними, тобто дихотомізація
сукупності об’єктів здійснюється на
основі однієї ознаки. Така процедура
чутлива до помилок визначення ознаки,
по якій проводиться поділ. Всі об’єкти
з ознаками, що мають зкачні відхилення
породжують хибні вітки ієрархії, тому
монотетичні стратегії переводять в
політетичні шляхом ведення процесу
ітеративних переміщень всіх об’єктів
при кожному діленні.