- •Міністерство освіти і науки україни національний університет “львівська політехніка”
- •Лабораторний практикум
- •“Комп’ютерні науки”
- •Методи класифікації та понижування розмірності і. Формування даних
- •1.1. Поняття класу.
- •1.2. Суть задач класифікації та понижування розмірності.
- •1.3. Типові задачі практики.
- •1.4. Типи математичних постановок задач класифікації
- •Лабораторна робота № 1.1. Формування таблиць “об’єкт – властивість”
- •2. Побудова матриць близькості
- •2.1. Гіпотеза компактності.
- •2.2. Міри подібності (близькості) кількісних та якісних ознак.
- •Побудова матриць близькості для кількісних ознак
- •Побудова матриць близькості для якісних ознак
- •Список літератури
- •Кластерний аналіз
- •3.1. Модель кластерного аналізу.
- •3.2. Кластерний аналіз.
- •Комбінаторний метод ієрархічної класифікації.
- •Ієрархічний кластерний аналіз для бінарних об’єктів.
- •Іii. Лінійні розділяючі функції і поверхні рішень.
- •1.1. Основні поняття теорії розпізнавання образів
- •1.2. Випадок двох класів.
- •1.3. Випадок багатьох класів.
- •Обчислення відстані між класами
- •Побудова розділяючої функції
- •Статистичні методи розпізнавання.
- •2.1. Основи байєсівського підходу.
- •Іv. Розпізнавання зображень
- •4.1. Поняття зображення.
- •1.2. Формалізація поняття “алгоритм розпізнавання зображень”.
- •4.3. Математична постановка задачі розпізнавання.
- •1.4. Функціональна модель процесу розпізнавання.
- •Побудова класів об’єктів з заданим типом ознак.
- •Лабораторна робота 4.2. Побудова розпізнаючого алгоритму.
3.2. Кластерний аналіз.
Класифікація – це віднесення об’єкта до його класу. Методи класифікації поділяють на два типи:
а) з навчанням – групи заздалегідь визначені;
б) без навчання – утворення таких груп на основі парметричних чи непараметричних критеріїв.
Чисельна класифікація. Чисельна таксономія встановлює класифікацію або неіснуючу раніше, або ігноруючи існуючу, створює нову. Її мета в спрощенні матриці даних. Дані, як правило, складаються з множини елементів, індивідів, об’єктів, кожен з яких визначається набором ознак. Множина даних вважається неоднорідною в тому сенсі, що її корисно розглядати, як складену з невідомого числа підмножин, які необхідно знайти. Причому елементи однієї множини є більш подібні між собою, ніж до елементів з інших підмножин. Тут термін “подібні” може бути визначений різними математичними виразами.
Є два типи інтересів користувача:
1) вияснити з якою мірою впевненості при використанні даної чисельної моделі можна вважати існування разних підмножин;
2) є підозра, що істинної відмінності між підмножинами немає, але для полегшення аналізу дуже великого числа елементів варто мати такі підмножини, отримавши їх шляхом штучного розчленування.
Інколи бажано транспонувати матрицю даних і класифікувати ознаки за їх значенням для різних об’єктів – зворотня класифікація.
Типи ознак:
Поліноміальні – (ознаки з невпорядкованими станами) визначаються станами (пр.: піщаник, граніт, базальт, крейда), хоча, можлива нумерація станів. Номер не несе ніякого змістового навантаження. Частинним випадком є бінарні (якісні) ознаки з двома станами.
Порядкові – (ознаки з впорядкованими станами) мають впорядкований ряд станів: рідкісний, порядковий, звичайний, багатющий. Хоча порядок має зміст, але відстані між станами невизначені.
Чисельні – (інколи метричні чи кількісні) вимірювані чи обчислювані кількості. Вимагають вибору шкали. В програмах обробки даних слід передбачити пропущені значення ознак.
Зчеплені – набір ознак, що представляють по суті одну ознаку. Вимагає спеціальеої математичної обробки.
Серіально-залежні – умовно визначувані, коли попадання деякої ознаки в певний стан робить неможливим визначення іншої.
Типи класифікацій. Чисельні класифікації включають різні числові процеси, з яких вибирають найбільш відповідні. Послідовність вибору показано на рисунку:
Рис.1. Послідовності вибору чисельних класифікацій.
Виключаючі / не виключаючі. Виключаючі – кожен елемент може бути лише в одній підмножині. Не виключаючі – один елемент може бути в різних підмножинах.
Внутрішні / зовнішні. Внутрішні – класифікація основана лише на заданому наборі ознак і всі ознаки на початковому етапі вважаються рівнозначними. Зовнішні – одна з ознак є зовнішньою і задача полягає в тому, щоб, використовуючи лише інформацію про рушту внутрішніх ознак, отримати класифікацію, яка найкращим чином відображає зовнішню ознаку.
Ієрархічні / не ієрархічні. Ієрархічні – групи розглядають попарно як можливі кандидати для об’єднання, при критарії найменшого збільшення неоднорідності. Не ієрархічні – групи вибираються так, щоб кожна була при можливості більш однорідною але відношення між групами невіяснені.
Агломеративні / дивізивні. Агломеративні – об’єкти об’єдуються в множини зростаючого об’єму, поки не відбудеться об’єднання в одну множину. В дивізівному – вихідна множина поступово ділиться, поки не буде досягнуте бажане розділення.
Монотетичні і політетичні. Монотетичні – поділ здійснюється на основі однієї ознаки, яка має максимальну інформативність. В політетичній всі ознаки враховуються однаковою мірою.
На початку класифікації всі ознаки вважаються рівноправними, але після класифікації може виявитись, що вклад в отриманий результат різних ознак – різний. Виникає потреба в діагностичній системі, яка б слідкувала за ходом класифікації і видавала б впорядкований список вкладів ознак для кожного чергового об’єднання чи розділення.
Міри подібності і відмінності. На практиці всі сучасні системи мають справу з мірами відмінності об’єктів. Виділяють два головних класи:
1.
-міри,
що можуть бути
обчислені для двох елементів чи груп
елементів до їх об’єднання,
якщо відомі їх характеристики.
2. Включає -міри, які зв’язують характеристики груп до і після об’єднання.
Для стандартного набору програм класифікації на практиці використовують наступні:
коефіцієнт кореляції;
міри, основані на Евклідовій метриці;
міри, основані на Манхеттенській метриці;
інформаційні статистики.
Введемо
позначення:
,
–
значення
та
ознак для двох об’єктів
,
.
У випадку бінарних ознак використовують
– позначення,
де
– число
ознак, які мають обидва об’єкти;
– число
ознак, які не зустрічаються ні
в
одному з об’єктів;
– числа
ознак, які має лише один з об’єктів.
Коефіцієнт
кореляції. Нехай
і
– значення для
-ої
з
ознак
-го
та
-го
об’єктів, а
,
– середнє для ознак цих об’єктів.
.
Якщо
ознаки представлені дихотомічно, тобто,
коли
і
–
рівні “0”
або
“1”,
то
в цьому випадку використовують
позначення
,
а
для
обчислення коєфіцієнта
кореляції використовують
формулу
-коєфіцієнта
Пірсона
. (8)
При цьому порядкові змінні можуть опрацьовуватись так само, як числові. У випадку, коли мають номінальні і числові ознаки, номінальну ознаку з станами розглядають як набір з незалежних бінарних ознак з станами “0” та “1” і вважають дійсними числами.
Евклідова метрика, тобто метрика Мінковського другого порядку визначається співвідношенням
. (9)
Для
того, щоб стратегії класифікації були
адитивними
по відношенню
до ознак,
використовують квадрат відстані
поділений на число його ознак.
У випадку числових ознак при різних фізичних одиницях їх необхідно привести до безрозмірних і стандартизувати. У випадку порядкових ознак значення станів вважаються рівновіддаленими і проводять обробку, як з числовими змінними.
Для
номінальних ознак, коли серед
об’єктів,
з яких знаходиться в стані
номінальної ознаки,
як показник розсіювання,
обчислюють
дисперсію
за
формулою
,
а у випадку повністю бінарних ознак (не стандартизовану) Евклідова відстань обчислюють як
.
Манхеттенська метрика. Ця метрика є частинним випадком метрики Мінковського порядку 1
.
Значення
часто
ділять на число ознак. Для числових
ознак
переважно
використовують
метрику Брея-Кертиса
,
причому
,
при цьому використовують стандартизовані
додатні дані та
Канберівську метрику
.
Канберівська
метрика
автоматично стандартизована і при
невід’ємних
знаходиться в межах
,
тобто її значення належать інтервалові
0,1.
Вона нечутлива до значень,
які сильно
різняться
між собою
і є доброю для сильно асиметричних
даних. При
її
значення рівне 1 і не залежить від
,
тому нульові значення
замінюють
меншими від найменших в матриці даних.
У випадку від’ємних даних знаменник
замінюють виразом
.
Проте тоді міра приймає
максимальне
значення рівне 1 у всіх випадках, коли
і
приймають
протилежні знаки.
Інформаційна
статистика.
В
основі цієї статистики використовується
Шеннонівське
поняття інформації, основане на
.
Бінарні
ознаки.
Нехай маємо групу з
елементів, які описуються присутністю
чи відсутністю
ознак,
і
нехай
елементів
мають ознаку
.
В
цьому випадку інформаційний
зміст
такої групи визначається виразом
. (1)
Нехай
інформаційний зміст двох груп
і
відповідно рівний
та
,
і нехай обидві ці групи об’єднано в
одну групу
з інформаційним змістом
.
Тоді
можна визначити інформаційний виграш
від об’єднання двох груп за
формулою
.
(2)
Інформаційний зміст одного елемента чи групи однакових елементів в цій моделі завжди рівний нулю. Процедура обчислень виглядає так.
Нехай
окремий елемент, що підлягає класифікації,
представляє популяцію (групу, множину)
з
елементів, які
розділені на категорії (види рослин чи
тварин) так, що в
-у
категорію попадає
індивідів,
причому
.
Визначимо інформаційний зміст повної
категорії,
який також називається різноманіттям,
як
. (3).
Тоді
інформаційний виграш цієї
категорії визначається
виразом
(1).
Запишемо його в явному вигляді.
Нехай два елементи, які об’єднуються,
представляються стрічками-векторами
і
,
–
суми по стрічках
,
–
сума по стовпчику
і
– загальна
сума, тоді
. (4)
Ця величина називається переданою інформацією. Наступний приклад пояснює суть інформаційної статистики.
Нехай необхідно знайти повну інформацію для випадку п’яти об’єктів, коли кожен з них характеризується чотирьома бінарними ознаками, причому, три об’єкти мають першу ознаку, два – другу, четверо – третю і всі п’ять – четверту. Позначимо таку групу таким чином: ( 3 – 2 – 4 – 5 ). Інформація, що відповідає першій ознаці рівна
.
Для другої ознаки маємо таку саму величину:
.
Для – третьої:
.
Для – четвертої:
.
Зауважимо,
що якщо
або
,
то інформаційний зміст є рівний нулю,
таким чином, інформаційний зміст одного
об’єкта чи групи повністю ідентичних
об’єктів також рівний нулю. Крім того,
вважається що
і
.
Агломеративні стратегії об’єднання.
Основний
алгоритм.
Початкові дії в усіх алгомеративних
системах однакові. Для
об’єктів
обчислюються
всі
мір
відмінностей, пара об’єктів з найменшою
мірою об’єднується в одну групу. Далі
необхідно визначити міру відмінностей
між цією групою та рештою
об’єктами,
а
на більш пізніх стадіях,
очевидно,
буде необхідно визначити міру між
об’єктом і групою будь-якого об’єму,
а також
між будь-якими
двома групами.
На кожному кроці класифікації здійснюється
те об’єднання
(між двома об’єктами, між об’єктом і
групою або між двома групами),
для якого міра відмінностей мінімальна
серед всіх решти об’єктів і груп, які
залишились до даного кроку. Міра має
бути такою, щоб об’єкт можна було
розглядати як групу з одного елементу.
Стратегія об’єднання визначається
саме мірою відмінності між групами.
Всього протягом роботи алгоритму
обчислюється
мір.
Комбінаторні
рішення.
Переважно
-міри
можна розглядати з позиції деякої
лінійної моделі. Нехай маємо
дві групи
та
з
кількістю
та
елементів
відповідно.
Позначимо міру відмінностей між ними
через
.
Припустимо, що
є найменшим з усіх, що залишилися,
а
та
об’єднуються
так,
що
після
об’єднання
та
утворюють
нову групу
,
з
елементами.
Розглянемо деяку іншу групу
з
елементами.
Перед об’єднанням відомі значення
.
Приймемо:
. (3)
Де
параметри
,
,
,
визначають суть стратегії. Для деяких
стратегій параметри є просто числами,
але в багатьох випадках вони є простими
функціями від деяких величин
.
Для
інформаційної статистики, яка представляє
-міри,
не існує комбінаторного вирішення, в
цьому випадку дані мають бути збережені
для обчислень, зв’язаних з об’єднанням
в групи, протягом усього процесу
класифікації.
Конкретні стратегії об’єднання.
Стратегія
найдальшого сусіда.
Відстань між двома групами визначається
як відстань між двома найбільш віддаленими
представниками цих груп. Її параметри:
,
,
.
Сильно розтягує простір.
Стратегія
найближчого сусіда.
Відстань між двома групами визначається
як відстань між двома найближчими
об’єктами з цих груп. Її
параметри:
,
,
.
Сильно стягує
простір.
Гнучка
стратегія.
Використовується для будь-яких мір
відмінностей, а її параметри мають такі
значення:
,
,
.
Властивості стратегії повністю залежать
від
.
Якщо
,
то стратегія зберігає метрику простору,
якщо
стратегія стискає простір, якщо
–
розтягує його. На практиці переважно
приймають
.
Розділяючі стратегії (дивізивні).
Загальна характеристика. Теоретичні переваги дивізивних стратегій над агломеративними полягають в наступному:
1. Процес розділення починається з використанням максимального інформаційного змісту.
2. Поділ не обов’язково має продовжуватись до тих пір, поки вся сукупність об’єктів не буде розділена на окремі об’єкти.
3.
Якщо
число ознак є меншшим від числа об’єктів,
то кількість обчислень зменшується,
оскільки час, необхідний для реалізації
процесу дивізивного розділення приблизно
пропорційний квадрату числа ознак
,
тоді , як для
агломеративних
–
.
Переважно більшість дивізивних програм
є монотетичними, тобто дихотомізація
сукупності об’єктів здійснюється на
основі однієї ознаки. Така процедура
чутлива до помилок визначення ознаки,
по якій проводиться поділ. Всі об’єкти
з ознаками, що мають зкачні відхилення
породжують хибні вітки ієрархії, тому
монотетичні стратегії переводять в
політетичні шляхом ведення процесу
ітеративних переміщень всіх об’єктів
при кожному діленні.
ЛАБОРАТОРНА РОБОТА № 3.1
