Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лабораторний практикум МCШІ - 2013 .doc
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
2.63 Mб
Скачать

2. Побудова матриць близькості

2.1. Гіпотеза компактності.

Оцінювання ступеня подібності або відмінності об’єктів, які представлені векторами ознак, вимагає введення деякої формальної міри подібності (відмінності), в термінах якої і буде здійснюватись порівнювання цих об’єктів між собою. Впровадження такої міри обґрунтовується гіпотезою компактності, яка постулює можливість розбиття великої кількості об’єктів дослідження та невелике число “сильно відмінних” підмножин, в середині яких об’єкти є “подібні“ між собою в тому чи іншому можливо і невідомому, але об’єктивно існуючому відношенні.

Якщо описи об’єктів розглядаються як вектори в – мірному просторі ознак то гіпотеза компактності стверджує, що для того щоб задача обробки емпіричних даних, яка полягає у виявленні в них емпіричних закономірностей, мала розв’язок, емпіричні дані повинні мати дві принципові властивості.

1. Компактність – точки, що відображають в об’єкти одного класу, розташовані в ближче одна до одної ніж точки, що відображають в об’єкти інших класів;

2. Сепарабельність – класи повинні бути обмежені і не перетинатися між собою.

Гіпотеза компактності найбільш природно вводить міру відмінності між об’єктами, як відстань між точками (векторами), що відображають порівнюванні об’єкти в просторі . При цьому в одних і тих же термінах формулюється як поняття відстані між об’єктами та заданими їх описами та так і поняття відстані від об’єкта до класу

(1)

та між класами та

. (2)

З (1) та (2) випливає, що відстань між об’єктом та класом це відстань між цим та найближчим представником класу , а відстань між класами та – це відстань між найближчими представниками цих класів. На практиці використовується і менш строге поняття відстані від об’єкту до класу та між класами , наприклад у вигляді відстані від центра ваги класу.

2.2. Міри подібності (близькості) кількісних та якісних ознак.

Введення формального визначення подібності (близькості) між об’єктами – елементами деякої множини , означає, що на ній задана деяка топологія, завдяки чому простір описів перетворюється в топологічний простір. Існує багато різних способів задання топології в просторі ознак.

Досить широкий клас алгоритмів є оснований на тому, що топологія задається деякою мірою подібності. При цьому будь-яка міра подібності є функцією, яка ставить у відповідність кожній парі точок деяке число , яке характеризує ступінь подібності (близькості) між об’єктами та .

Міри подібності, які використовуються на практиці відрізняються великим різноманіттям властивостей, проте можна сформулювати загальні вимоги, яким повинна задовольняти використовувана міра подібності, тобто:

.

Переважно використовують три типи мір подібності:

1) коефіцієнти подібності (або квантифіковані коефіцієнти зв’язку);

2) коефіцієнти зв’язку (кореляції);

3) показники відстані в метричному просторі.

Коефіцієнти подібності. Будь-який вектор , елементи якого дійсні цілі числа – номера градацій відповідних ознак, завжди можна записати в двійковому коді. Тоді, можемо вважати, що будь-який об’єкт описується вектором , кожна з компонент якого приймає значення 0 або 1, тобто ознака є булавою. Для побудови вимірювачів подібності між об’єктами та введемо наступні позначення частот: – число співпадаючих одиничних ознак у обох об’єктів (пар 1, 1); – число співпадаючих нульових ознак в обох об’єктів (пар 0, 0); – число співпадаючих одиничних ознак в -го і нульових в -го об’єктів (пар 1, 0); – число співпадаючих нульових ознак в -го і одиничних в -го об’єктів (пар 0, 1); , – число одиничних ознак в -го і в -го об’єктів відповідно; , – число нульових ознак в -го і в -го об’єктів відповідно; – загальне число співпадаючих ознак, тобто ; – загальне число неспівпадаючих ознак, тобто ; – загальне число ознак, за якими здійснюється порівняння.

Ці показники називаються коефіцієнтами подібності і позначаються переважно . В даному випадку .

Коефіцієнти подібності можуть бути побудовані не лише тільки для булевих вектор-описів об’єктів. У випадку кількісних ознак, які приймають скінчену множину числових значень поступають наступним чином.

Нехай є значенням -ої ознаки -го об’єкта. Очевидним чином визначаються величини , . Величина визначається як максимальне значення -ої ознаки. Далі для пари об’єктів, які характеризуються цими ознаками, вводяться величини, аналогічні розглянутим вище, а саме:

і т.д. ці нові величини використовуються у виразах для коефіцієнтів подібності замість аналогічних величин, які розраховуються для бінарних ознак. Очевидно, що різні коефіцієнти подібності, будучи розрахованими для одних і тих же об’єктів та , будуть різними за величиною. Вибір того чи іншого коефіцієнта визначається характером розв’язуваної задачі (відносною важливістю нульових і одиничних ознак, важливістю порозрядного співпадіння або неспівпадіння) і досить суб’єктивним. Наприклад, в задачах класифікації, які розв’язуються з метою побудови системи автоматичної діагностики в медицині або техніці, можлива ситуація, коли наявність відхилення від норми того чи іншого параметра (ознаки) позначається символом “ 1 “, а відсутність цього ефекту – “ 0 “. Зрозуміло, що в одну групу необхідно об’єднати об’єкти з відхиленнями, а в другу – нормальні об’єкти. Для підсилення контрастності об’єктів при порівнянні в даному випадку краще скористатися коефіцієнтом Дейка, ніж звичайним відношенням числа співпадаючих ознак до їх загального числа, – коефіцієнтом, який використовується при припущенні про рівнозначність нульових і одиничних ознак.

До найбільш вживаних вимірювачів подібності відносять наступні, які для зручності і наочності зведені в таблицю.

Назва

Формула

Примітка

Загальноприйнятої

назви немає

Застосовується в тих випадках, припускається “рівноважливість” нульових та одиничних ознак

Коефіцієнт Рао

Коефіцієнт Хаммана

При

Коефіцієнт Роджерса і Танімото

Коефіцієнт Джекарда

Коефіцієнт Дейка

Надає вдвічі більшу вагу співпадаючим одиничним ознакам

Загальної назви немає

Надає більшу вагу неспівпадаючим ознакам

Коефіцієнт композиційної подібності

Модифікація коефіцієнта Роджерса-Танімото. Відрізняється включенням співпадіння нульових ознак.

Якісні ознаки. найбільш поширеною і простою у випадку якісних ознак є метрика Хеммінга, зміст якої полягає в наступному

відстань Хеммінга розглядають як квадрат евклідової відстані в просторі бінарних змінних, які відповідають категоріям (класам) початкових даних, тобто

, (5)

де – номер початкової змінної; – номер категорії (класу); – число категорій -ої змінної. Величини можуть приймати лише значення “1” або “0”.

В найскладнішому для обробки емпіричних даних випадку, коли описи обєктів представлені в одинаково впорядкованій символьній послідовності (символами імен, понять, означень) т.з. “кендалівський ряд кореляції”.

, (8)

де коефіцієнти непарного порівняння між собою всіх компонент опису обєктів задаються відношенням порядку у вигляді:

(9)

для компонент опису першого обєкта; для 2-го аналогічно. Символи означають природній або попередньо обумовлений порядок слідування порівнюваних між собою компонент опису об’єкта, тобто запис означає, що є попереду від . Якщо в описі в якості символів використовуються цифри, то знак замінюють на .

Наприклад, нехай опис деякого об’єкта заданий послідовністю ознак: , тоді, у відповідності з (9)

В останньому випадку поняття “велике” і “гарне” визначають різні властивості і тому не можуть бути співставленими одна з одною, тобто в цьому сенсі мінімальне значення рівне 0, оскільки це значення відстань Кендала має для об’єктів, описи яких впорядковані одинаково (велике для розмірів, а гарне – для красоти).

Наприклад, у випадку числового опису обєкта і є одинаковими і відстань Кендала між ними рівна 0, оскільки , і з (8) маємо .

Вибіркові коефіцієнти зв’язку. В якості таких для побудови класифікації можна використати інформацію про подібність (близькість) об’єктів та , яка задається коефіцієнтами зв’язку між об’єктами та . Крім коефіцієнта кореляції може бути використаний коефіцієнт

,

де – коефіцієнт зв’язку між і ознаками, – значення ознаки в -го об’єкта. В принципі цей коефіцієнт може бути використаний і тоді, коли значення ознак і є довільними числами.

ЛАБОРАТОРНА РОБОТА № 2.1