
- •Міністерство освіти і науки україни національний університет “львівська політехніка”
- •Лабораторний практикум
- •“Комп’ютерні науки”
- •Методи класифікації та понижування розмірності і. Формування даних
- •1.1. Поняття класу.
- •1.2. Суть задач класифікації та понижування розмірності.
- •1.3. Типові задачі практики.
- •1.4. Типи математичних постановок задач класифікації
- •Лабораторна робота № 1.1. Формування таблиць “об’єкт – властивість”
- •2. Побудова матриць близькості
- •2.1. Гіпотеза компактності.
- •2.2. Міри подібності (близькості) кількісних та якісних ознак.
- •Побудова матриць близькості для кількісних ознак
- •Побудова матриць близькості для якісних ознак
- •Список літератури
- •Кластерний аналіз
- •3.1. Модель кластерного аналізу.
- •3.2. Кластерний аналіз.
- •Комбінаторний метод ієрархічної класифікації.
- •Ієрархічний кластерний аналіз для бінарних об’єктів.
- •Іii. Лінійні розділяючі функції і поверхні рішень.
- •1.1. Основні поняття теорії розпізнавання образів
- •1.2. Випадок двох класів.
- •1.3. Випадок багатьох класів.
- •Обчислення відстані між класами
- •Побудова розділяючої функції
- •Статистичні методи розпізнавання.
- •2.1. Основи байєсівського підходу.
- •Іv. Розпізнавання зображень
- •4.1. Поняття зображення.
- •1.2. Формалізація поняття “алгоритм розпізнавання зображень”.
- •4.3. Математична постановка задачі розпізнавання.
- •1.4. Функціональна модель процесу розпізнавання.
- •Побудова класів об’єктів з заданим типом ознак.
- •Лабораторна робота 4.2. Побудова розпізнаючого алгоритму.
Побудова матриць близькості для кількісних ознак
Мета роботи. Використовуючи створену таблицю експериментальних даних про різні досліджувані об’єкти та задану метрику побудувати матрицю близькостей (відстаней), застосовуючи нормування даних.
Характеристики мір.
Якщо
відстань між об’єктами природно
трактувати як міру відмінності об’єктів,
то обернену величину
можна розглядати як міру подібності
(близькості) об’єктів.
1.
Найчастіше відстань
між об’єктами вимірюють в евклідовій
матриці, яка найбільш узгоджена з нашими
інтуїтивними представленнями про
близькість об’єктів і визначається
, (4)
де
та
–
значення компонент в опису 1-го та 2-го
об’єктів,
–
розмірність простору ознак .
2. Широко використовується лінійна метрика (метрика міських кварталів або манхетенська метрика) яка задає відстань
, (5)
а також sup- норма , яка визначає чебишевську відстань
. (6)
На рис. 1. показано зміст цих відстаней.
Рис.1.
Ілюстрація змісту відстаней
-
довжина
відрізка
АС;
-
сума
довжин
відрізків
АВ
і
ВС;
-
довжина
більшого
з
відрізків
АВ
і
ВС,
тобто
АВ.
Очевидно,
що
з ростом розмірності
манхетенська відстань
підкреслює, а чебишевська злагоджує
відмінності між об’єктами. Відстані
визначаються для тих описів , в яких
ознаки виражені кількісними шкалами і
є по-суті частинними випадками узагальнення
степеня відстані
Мінковського
,
для яких
отримуються при
.
Існує досить велика різноманітність
мір, але на практиці ці міри є найуживанішими.
Евклідова відстань ефективна при дослідженні слабокореляційних сукупностей об’єктів (кулеподібні класи), а манхетенська тоді, коли об’єкти утворюють плоскі витягнені класи, ортогональні будь-яким координатним осям простору ознак. Тому обробка однієї і тієї ж сукупності даних одним і тим же методом або алгоритмом, але з використанням різних метрик може дати різні, інколи кардинально протилежні, результати.
Наприклад. При використанні манхетенської метрики утворені класи витягнуті вздовж осі абсцис, а при використанні евклідової відстані об’єкти будуть згуртовані в два більш-менш рівні класи (пунктир). Отже, до вибору метрики слід підходити дуже продумано і обережно співставляючи результати використання різних метрик між собою із цілями здійснюваної обробки даних.
Якщо ознаки представляються в якісних шкалах, зокрема в шкалах найменувань та порядку, використовують відстань Хеммінга
для
якої відмінності виражаються числом
неспівпадінь властивостей порівнюваних
об’єктів. У випадку якісних шкал ознаки
розглядаються як бінарні, тобто такі,
що можуть приймати лише два значення
“ 0 “ та “ 1 “. Відстань Хеммінга
є максимальною і рівна
1
для об’єктів з протилежними за значеннями
описами, тобто елементи одного опису є
протилежними до відповідних елементів
опису другого об’єкту. Для об’єктів,
всі ознаки яких (з числа включених в
опис) співпадають,
.
Хід роботи.
1. Вибрати мову програмування та скласти план розробки програмного забезпечення для перетворення таблиці даних в матрицю близькості заданого типу: за видом метрики та способом нормування даних.
2. Розробити програмне забезпечення для побудови матриці близькостей, яке використовує вказану або вибрану метрику зчитує значення ознак з таблиці даних, нормує ці дані у відповідності з заданою формулою для нормування даних, визначає значення відстаней.
3. За отриманими даними побудувати матрицю відстаней, у формі придатній для подальшого програмного використання, тобто у формі файлу даних, які можна використовувати при роздруку як готову матрицю близькостей, а в програмах як файл даних.
4. В звіті представити вихідні дані у формі таблиці даних, опис метрики, пояснити метод нормування, привести алгоритм програмного забезпечення та матрицю близькостей. Для матриці близькостей дати коротке пояснення (які об’єкти є найближчі між собою, які найдальше, який зв’язок між об’єктами, тощо.), а звіт завершити короткими висновками.
ЛАБОРАТОРНА РОБОТА № 2.2