Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Lab05_Decision trees_2011.doc
Скачиваний:
3
Добавлен:
13.11.2019
Размер:
905.22 Кб
Скачать

2.3 Технологія неточних множин та метод Boolean Reasoning

Отже, набір даних, що досліджується, подається у вигляді таблиці, кожен рядок якої може представляти подію чи будь-який об'єкт (наприклад, пацієнта). Кожен стовпчик таблиці відповідає певному атрибуту (певній властивості) об'єкта. Позначимо через U непорожню скінчену множину об'єктів, а через A - непорожню скінчену множину атрибутів.

Крім цього, до таблиці входить атрибут прийняття рішення d, який відносить об'єкт до того чи іншого класу. У випадку великих наборів реальних даних (які здебільшого представляють певну модель, предметну область, результати експериментів, тощо), деяка частина цих даних може бути надмірною або ж містити суперечливості. Наприклад, для двох різних об'єктів значення відповідних атрибутів співпадають, а значення атрибуту прийняття рішення відрізняється, тобто неможливо чітко класифікувати ці об'єкти. В такому випадку говорять, що ці елементи належать до т. зв. неточної (rough) області.

Розглянемо для прикладу наступну таблицю даних:

Таблиця 2.4. Приклад таблиці даних з класифікуючим атрибутом d

Y1

Y2

d

X1

0

1

1

X2

1

0

0

X3

1

0

1

X4

0

1

1

Одразу видно, що елементи Х2 та Х3 належать до неточної області, оскільки за однакових значень атрибутів для них відрізняється значення класифікуючого атрибуту (атрибут прийняття рішень). Також можна бачити що таблиця є надмірною, оскільки елементи Х1 та Х4 є однаковими. Ці елементи належать до одного класу еквівалентності. У реальних великих наборах даних може бути велика кількість різних класів еквівалентності. А оскільки для представлення всього такого класу потрібен лише один його елемент, то можна легко зменшити обсяг даних, що аналізуються, і це не вплине на кінцевий результат. Крім цього, з таблиці видаляються суперечливі дані (які входять в неточну область).

З метою подальшої мінімізації даних з таблиці видаляються зайві стовпці даних, які не впливають на класифікацію об'єктів. Мінімальний набір атрибутів, що залишилися, називають редуктом (reduct). Іншими словами, редукт є підмножиною множини атрибутів А і дозволяє здійснювати класифікацію так само, як і з використанням всієї множини А. Слід зазначити, що атрибутам таблиці можна також присвоювати деякий коефіціент важливості, наприклад з інтервалу [0, 1].

Знаходження редукту є NP-складною задачею, однак існують досить ефективні методи, які дозволяють це робити за прийнятний час. Наприклад, метод Boolean reasoning - логічне виведення, який займає важливе місце в методології неточноих множин.

Основою методу є побудова на базі таблиці прийняття рішень функції розрізнення, яка є булевою функцією від m змінних і визначається наступним чином:

Де - кількість атрибутів таблиці А, n - кількість об'єктів, - атрибут таблиці, c*ij - елемент спеціальної матриці розрізнення М(А). Цей елемент представляє

собою множину атрибутів, за якими відрізняються два об'єкти ui та uj з U, причому ці об'єкти повинні мати різне значення атрибуту прийняття рішення. Якщо об'єкти мають однакові значення атрибуту прийняття рішення, то c*ij= 0. Тобто, матриця М(А) є симетричною

матрицею розмірів n*n з нульовою діагоналлю.

Наступним кроком є приведення функції до вигляду кон'юнктивної нормальної форми. Для цього достаньо реалізувати скорочення за законами ідемпотентності для кон'юнкції a л a = a та спрощення (a v b) л a = a . Після такого спрощення булева функція містить елементи, які відповідають атрибутам, що входять до редукту.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]