
- •8.05010103, 7.05010103“Системне проектування”
- •1. Мета роботи
- •2.Короткі теоретичні відомості
- •2.1. Дерева рішень (decision trees)
- •2.2 Алгоритм id3
- •2.3 Технологія неточних множин та метод Boolean Reasoning
- •2.4 Мінімізація таблиці та вилучення суперечностей
- •Контрольні запитання
- •4. Лабораторне завдання
- •Мета роботи;
- •Короткі теоретичні відомості;
- •Список рекомендованої літератури
2.3 Технологія неточних множин та метод Boolean Reasoning
Отже, набір даних, що досліджується, подається у вигляді таблиці, кожен рядок якої може представляти подію чи будь-який об'єкт (наприклад, пацієнта). Кожен стовпчик таблиці відповідає певному атрибуту (певній властивості) об'єкта. Позначимо через U непорожню скінчену множину об'єктів, а через A - непорожню скінчену множину атрибутів.
Крім цього, до таблиці входить атрибут прийняття рішення d, який відносить об'єкт до того чи іншого класу. У випадку великих наборів реальних даних (які здебільшого представляють певну модель, предметну область, результати експериментів, тощо), деяка частина цих даних може бути надмірною або ж містити суперечливості. Наприклад, для двох різних об'єктів значення відповідних атрибутів співпадають, а значення атрибуту прийняття рішення відрізняється, тобто неможливо чітко класифікувати ці об'єкти. В такому випадку говорять, що ці елементи належать до т. зв. неточної (rough) області.
Розглянемо для прикладу наступну таблицю даних:
Таблиця 2.4. Приклад таблиці даних з класифікуючим атрибутом d
-
Y1
Y2
d
X1
0
1
1
X2
1
0
0
X3
1
0
1
X4
0
1
1
Одразу видно, що елементи Х2 та Х3 належать до неточної області, оскільки за однакових значень атрибутів для них відрізняється значення класифікуючого атрибуту (атрибут прийняття рішень). Також можна бачити що таблиця є надмірною, оскільки елементи Х1 та Х4 є однаковими. Ці елементи належать до одного класу еквівалентності. У реальних великих наборах даних може бути велика кількість різних класів еквівалентності. А оскільки для представлення всього такого класу потрібен лише один його елемент, то можна легко зменшити обсяг даних, що аналізуються, і це не вплине на кінцевий результат. Крім цього, з таблиці видаляються суперечливі дані (які входять в неточну область).
З метою подальшої мінімізації даних з таблиці видаляються зайві стовпці даних, які не впливають на класифікацію об'єктів. Мінімальний набір атрибутів, що залишилися, називають редуктом (reduct). Іншими словами, редукт є підмножиною множини атрибутів А і дозволяє здійснювати класифікацію так само, як і з використанням всієї множини А. Слід зазначити, що атрибутам таблиці можна також присвоювати деякий коефіціент важливості, наприклад з інтервалу [0, 1].
Знаходження редукту є NP-складною задачею, однак існують досить ефективні методи, які дозволяють це робити за прийнятний час. Наприклад, метод Boolean reasoning - логічне виведення, який займає важливе місце в методології неточноих множин.
Основою методу є побудова на базі таблиці прийняття рішень функції розрізнення, яка є булевою функцією від m змінних і визначається наступним чином:
Де
-
кількість атрибутів таблиці
А,
n
- кількість об'єктів,
- атрибут таблиці,
c*ij
-
елемент спеціальної
матриці розрізнення
М(А).
Цей елемент представляє
собою множину атрибутів, за якими відрізняються два об'єкти ui та uj з U, причому ці об'єкти повинні мати різне значення атрибуту прийняття рішення. Якщо об'єкти мають однакові значення атрибуту прийняття рішення, то c*ij= 0. Тобто, матриця М(А) є симетричною
матрицею розмірів n*n з нульовою діагоналлю.
Наступним кроком є приведення функції до вигляду кон'юнктивної нормальної форми. Для цього достаньо реалізувати скорочення за законами ідемпотентності для кон'юнкції a л a = a та спрощення (a v b) л a = a . Після такого спрощення булева функція містить елементи, які відповідають атрибутам, що входять до редукту.