
- •Міністерство освіти і науки україни національний університет “львівська політехніка”
- •Лабораторний практикум
- •“Комп’ютерні науки”
- •Методи класифікації та понижування розмірності і. Формування даних
- •1.1. Поняття класу.
- •1.2. Суть задач класифікації та понижування розмірності.
- •1.3. Типові задачі практики.
- •1.4. Типи математичних постановок задач класифікації
- •Лабораторна робота № 1.1. Формування таблиць “об’єкт – властивість”
- •2. Побудова матриць близькості
- •2.1. Гіпотеза компактності.
- •2.2. Міри подібності (близькості) кількісних та якісних ознак.
- •Побудова матриць близькості для кількісних ознак
- •Побудова матриць близькості для якісних ознак
- •Список літератури
- •Кластерний аналіз
- •3.1. Модель кластерного аналізу.
- •3.2. Кластерний аналіз.
- •Комбінаторний метод ієрархічної класифікації.
- •Ієрархічний кластерний аналіз для бінарних об’єктів.
- •Іii. Лінійні розділяючі функції і поверхні рішень.
- •1.1. Основні поняття теорії розпізнавання образів
- •1.2. Випадок двох класів.
- •1.3. Випадок багатьох класів.
- •Обчислення відстані між класами
- •Побудова розділяючої функції
- •Статистичні методи розпізнавання.
- •2.1. Основи байєсівського підходу.
- •Іv. Розпізнавання зображень
- •4.1. Поняття зображення.
- •1.2. Формалізація поняття “алгоритм розпізнавання зображень”.
- •4.3. Математична постановка задачі розпізнавання.
- •1.4. Функціональна модель процесу розпізнавання.
- •Побудова класів об’єктів з заданим типом ознак.
- •Лабораторна робота 4.2. Побудова розпізнаючого алгоритму.
2. Побудова матриць близькості
2.1. Гіпотеза компактності.
Оцінювання ступеня подібності або відмінності об’єктів, які представлені векторами ознак, вимагає введення деякої формальної міри подібності (відмінності), в термінах якої і буде здійснюватись порівнювання цих об’єктів між собою. Впровадження такої міри обґрунтовується гіпотезою компактності, яка постулює можливість розбиття великої кількості об’єктів дослідження та невелике число “сильно відмінних” підмножин, в середині яких об’єкти є “подібні“ між собою в тому чи іншому можливо і невідомому, але об’єктивно існуючому відношенні.
Якщо
описи об’єктів розглядаються як вектори
в
– мірному просторі ознак
то гіпотеза компактності стверджує, що
для того щоб задача обробки емпіричних
даних, яка полягає у виявленні в них
емпіричних закономірностей, мала
розв’язок, емпіричні дані повинні мати
дві принципові властивості.
1.
Компактність – точки, що відображають
в
об’єкти одного класу, розташовані в
ближче одна до одної ніж точки, що
відображають в
об’єкти інших класів;
2. Сепарабельність – класи повинні бути обмежені і не перетинатися між собою.
Гіпотеза
компактності найбільш природно вводить
міру відмінності між об’єктами, як
відстань між точками (векторами), що
відображають порівнюванні об’єкти в
просторі
.
При цьому в одних і тих же термінах
формулюється як поняття відстані
між об’єктами
та
заданими їх описами
та
так і поняття відстані від об’єкта
до класу
(1)
та
між
класами
та
. (2)
З
(1) та (2) випливає, що відстань між об’єктом
та класом
це відстань між цим
та найближчим представником класу
,
а відстань між класами
та
– це відстань між найближчими
представниками цих класів. На
практиці використовується і менш строге
поняття відстані від об’єкту до класу
та між класами , наприклад у вигляді
відстані від центра ваги класу.
2.2. Міри подібності (близькості) кількісних та якісних ознак.
Введення
формального визначення подібності
(близькості) між об’єктами
– елементами деякої множини
,
означає, що на ній задана деяка топологія,
завдяки чому простір описів перетворюється
в топологічний простір. Існує багато
різних способів задання топології в
просторі ознак.
Досить
широкий клас алгоритмів є оснований на
тому, що топологія задається деякою
мірою подібності.
При цьому будь-яка міра подібності є
функцією, яка ставить у відповідність
кожній парі точок
деяке число
,
яке характеризує ступінь подібності
(близькості) між об’єктами
та
.
Міри подібності, які використовуються на практиці відрізняються великим різноманіттям властивостей, проте можна сформулювати загальні вимоги, яким повинна задовольняти використовувана міра подібності, тобто:
.
Переважно використовують три типи мір подібності:
1) коефіцієнти подібності (або квантифіковані коефіцієнти зв’язку);
2) коефіцієнти зв’язку (кореляції);
3) показники відстані в метричному просторі.
Коефіцієнти
подібності. Будь-який
вектор
,
елементи якого дійсні цілі числа –
номера градацій відповідних ознак,
завжди можна записати в двійковому
коді. Тоді, можемо вважати, що будь-який
об’єкт
описується вектором
,
кожна з
компонент якого приймає значення 0 або
1, тобто ознака
є булавою. Для побудови вимірювачів
подібності між об’єктами
та
введемо наступні позначення частот:
– число співпадаючих одиничних ознак
у обох об’єктів (пар 1, 1);
– число співпадаючих нульових ознак в
обох об’єктів (пар 0, 0);
– число співпадаючих одиничних ознак
в
-го
і нульових в
-го
об’єктів (пар 1, 0);
– число співпадаючих нульових ознак в
-го
і одиничних в
-го
об’єктів (пар 0, 1);
,
– число одиничних ознак в
-го
і в
-го
об’єктів відповідно;
,
– число нульових ознак в
-го
і в
-го
об’єктів відповідно;
– загальне число співпадаючих ознак,
тобто
;
– загальне число неспівпадаючих ознак,
тобто
;
– загальне число ознак, за якими
здійснюється порівняння.
Ці
показники називаються коефіцієнтами
подібності і
позначаються переважно
.
В даному випадку
.
Коефіцієнти подібності можуть бути побудовані не лише тільки для булевих вектор-описів об’єктів. У випадку кількісних ознак, які приймають скінчену множину числових значень поступають наступним чином.
Нехай
є значенням
-ої
ознаки
-го
об’єкта.
Очевидним чином визначаються величини
,
.
Величина
визначається як максимальне значення
-ої
ознаки. Далі для пари об’єктів,
які характеризуються цими ознаками,
вводяться величини, аналогічні розглянутим
вище, а саме:
і т.д. ці нові величини використовуються у виразах для коефіцієнтів подібності замість аналогічних величин, які розраховуються для бінарних ознак. Очевидно, що різні коефіцієнти подібності, будучи розрахованими для одних і тих же об’єктів та , будуть різними за величиною. Вибір того чи іншого коефіцієнта визначається характером розв’язуваної задачі (відносною важливістю нульових і одиничних ознак, важливістю порозрядного співпадіння або неспівпадіння) і досить суб’єктивним. Наприклад, в задачах класифікації, які розв’язуються з метою побудови системи автоматичної діагностики в медицині або техніці, можлива ситуація, коли наявність відхилення від норми того чи іншого параметра (ознаки) позначається символом “ 1 “, а відсутність цього ефекту – “ 0 “. Зрозуміло, що в одну групу необхідно об’єднати об’єкти з відхиленнями, а в другу – нормальні об’єкти. Для підсилення контрастності об’єктів при порівнянні в даному випадку краще скористатися коефіцієнтом Дейка, ніж звичайним відношенням числа співпадаючих ознак до їх загального числа, – коефіцієнтом, який використовується при припущенні про рівнозначність нульових і одиничних ознак.
До найбільш вживаних вимірювачів подібності відносять наступні, які для зручності і наочності зведені в таблицю.
Назва |
Формула |
Примітка |
Загальноприйнятої назви немає |
|
Застосовується в тих випадках, припускається “рівноважливість” нульових та одиничних ознак |
Коефіцієнт Рао |
|
|
Коефіцієнт Хаммана |
|
При
|
Коефіцієнт Роджерса і Танімото |
|
|
Коефіцієнт Джекарда |
|
|
Коефіцієнт Дейка |
|
Надає вдвічі більшу вагу співпадаючим одиничним ознакам |
Загальної назви немає |
|
Надає більшу вагу неспівпадаючим ознакам |
Коефіцієнт композиційної подібності |
|
Модифікація коефіцієнта Роджерса-Танімото. Відрізняється включенням співпадіння нульових ознак. |
Якісні ознаки. найбільш поширеною і простою у випадку якісних ознак є метрика Хеммінга, зміст якої полягає в наступному
відстань Хеммінга розглядають як квадрат евклідової відстані в просторі бінарних змінних, які відповідають категоріям (класам) початкових даних, тобто
, (5)
де
– номер початкової змінної;
– номер категорії (класу);
– число категорій
-ої
змінної. Величини
можуть приймати лише значення “1” або
“0”.
В найскладнішому для обробки емпіричних даних випадку, коли описи обєктів представлені в одинаково впорядкованій символьній послідовності (символами імен, понять, означень) т.з. “кендалівський ряд кореляції”.
, (8)
де коефіцієнти непарного порівняння між собою всіх компонент опису обєктів задаються відношенням порядку у вигляді:
(9)
для
компонент опису першого обєкта; для
2-го аналогічно. Символи
означають
природній або попередньо обумовлений
порядок слідування порівнюваних між
собою компонент опису об’єкта,
тобто
запис
означає, що
є попереду від
.
Якщо в описі в якості символів
використовуються цифри, то знак
замінюють на
.
Наприклад,
нехай
опис
деякого об’єкта заданий
послідовністю
ознак:
,
тоді,
у відповідності з (9)
В останньому випадку поняття “велике” і “гарне” визначають різні властивості і тому не можуть бути співставленими одна з одною, тобто в цьому сенсі мінімальне значення рівне 0, оскільки це значення відстань Кендала має для об’єктів, описи яких впорядковані одинаково (велике для розмірів, а гарне – для красоти).
Наприклад,
у випадку
числового
опису обєкта
і
є одинаковими і відстань Кендала між
ними рівна 0, оскільки
,
і з (8) маємо
.
Вибіркові
коефіцієнти зв’язку. В
якості таких для побудови класифікації
можна використати інформацію про
подібність (близькість) об’єктів
та
,
яка задається коефіцієнтами зв’язку
між об’єктами
та
.
Крім коефіцієнта кореляції може бути
використаний коефіцієнт
,
де
– коефіцієнт зв’язку
між
і
ознаками,
– значення ознаки
в
-го
об’єкта.
В принципі цей коефіцієнт може бути
використаний і тоді, коли значення ознак
і
є довільними числами.
ЛАБОРАТОРНА РОБОТА № 2.1