Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
42
Добавлен:
23.02.2016
Размер:
924.67 Кб
Скачать

3. Методи побудови правил класифікації

3.1. Алгоритм побудови 1-правил

Розглянемо найпростіший алгоритм формування елементарних правил для класифікації об'єкта. Він будує правила за значенням однієї незалежної змінної, тому в літературі його часто називають "1-правило" (1-rule) або коротко lR-алгоритм.

Ідея алгоритму дуже проста. Для будь-якого можливого значення кожної незалежної змінної формується правило, яке класифікує об'єкти з навчальної вибірки. При цьому в заключній частині правила вказується значення залежної змінної, яке найбільш часто зустрічаєся у об'єктів з обраним значенням незалежної змінної. У цьому випадку помилкою правила є кількість об'єктів, що мають те ж значення аналізованої змінної, але не відносяться до обраного класу.

Таким чином, для кожної змінної буде отримано набір правил (для кожного значення). Оцінивши ступінь помилки кожного набору, вибирається змінна, на якій побудовані правила з найменшою помилкою.

Для прикладу, представленого в табл. 1, в результаті будуть отримані правила і їх оцінки, наведені в табл. 2.

Таблиця 2

Правило

Помилка

Якщо (спостереження = сонце) то (гра = немає)

2/5

Якщо (спостереження = хмарно) то (гра = так)

0/4

Якщо (спостереження = дощ) то (гра = так)

2/5

Якщо (температура = жарко) то (гра = немає)*

2/4

Якщо (температура = норма) то (гра = так)

2/6

Якщо (температура = холодно) то (гра = так)

1/4

Якщо (вологість = висока) то (гра = немає)

3/7

Якщо (вологість = норма) то (гра = так)

1/7

Якщо (вітер = немає) то (гра = так)

2/8

Якщо (вітер = є) то (гра = немає)*

3/6

Якщо у навчальній вибірці зустрічаються об'єкти з пропущеними значеннями незалежних змінних, то алгоритм 1R підраховує такі об'єкти для кожного можливого значення змінної.

Інший проблемою для розглянутого алгоритму є чисельні значення змінних. Очевидно, що якщо змінна має дійсний тип, то кількість можливих значень може бути нескінченно. Для вирішення цієї проблеми всю область значень такої змінної розбивають на інтервали таким чином, щоб кожен з них відповідав визначеному класу у навчальній вибірці. У результаті буде отримано набір дискретних значень, з якими може працювати даний алгоритм.

Припустимо, що дані змінної температура, наведені в табл. 1, мають такі числові значення та відповідні їм значення залежної змінної:

4

5

8 9 10

11 12

12 15 15

20

21 23

25

так

немає

так так так

ні ні

так так так

немає

так так

немає

У цьому випадку діапазон значень можна було б розбити на інтервали таким чином:

{До 4,5; 4,5-7,5; 7,5-10,5; 10,5-12; 12-17,5; 17,5-20,5; 20,5-24; більше 24 }.

Більш серйозна проблема розглянутого алгоритму – це надчутливність (overfitting). Справа в тому, що алгоритм буде вибирати змінні, що приймають найбільшу кількість можливих значень, тому що для них помилка буде найменшою. Наприклад, для змінної, що є ключем (тобто для кожного об'єкта своє унікальне значення), помилка буде дорівнює нулю. Однак для таких змінних правила будуть абсолютно даремні, тому при формуванні навчальної вибірки для даного алгоритму важливо правильно вибрати набір незалежних змінних.

На закінчення необхідно відзначити, що алгоритм 1R, незважаючи на свою простоту, у багатьох випадках на практиці виявляється досить ефективним. Це пояснюється тим, що багато об'єктів дійсно можна класифікувати лише по одному атрибуту. Крім того, небагаточисленність правил дозволяє легко зрозуміти і використовувати отримані результати.

3.2. Метод Naive Bayes

Розглянутий раніше lR-алгоритм формує правила для ухвалення рішення лише за однієї змінної об'єкта. Однак це не завжди прийнятно. Нерідко для класифікації необхідно розглянути кілька незалежних змінних. Таку класифікацію дозволяє виконувати алгоритм Naive Bayes, використовує формулу Байєса для розрахунку ймовірності. Назва naive (наївний) походить від наївного припущення, що всі розглядаємо змінні незалежні один від одного. Насправді це не завжди так, але на практиці все ж даний алгоритм знаходить застосування.

Імовірність того, що деякий об'єкт відноситься до класу (тобто ), позначимо як . Подія, що відповідає рівності незалежних змінних певним значенням, позначимо як , а ймовірність її настання . Ідея алгоритму полягає в розрахунку умовної ймовірності належності об'єкта до при рівності його незалежних змінних певним значенням. З теорії ймовірності відомо, що її можна визначити за формулою:

.

Іншими словами, формуються правила, в умовних частинах яких порівнюються всі незалежні змінні з відповідними можливими значеннями. У заключній частині присутні всі можливі значення залежної змінної:

якщо і і ... тоді .

Для кожного з цих правил за формулою Байєса визначається його ймовірність. Припускаючи, що незалежні змінні приймають значення незалежно один від одного, висловимо ймовірність через добуток ймовірностей для кожної незалежної змінної:

.

Тоді ймовірність для всього правила можна визначити за формулою:

.

Імовірність належності об'єкта до класу за умови рівності його змінної деякому значенню визначається за формулою:

тобто дорівнює відношенню кількості об'єктів у навчальній вибірці, у яких і до кількості об'єктів, що відносяться до класу . Наприклад, для об'єктів з табл. 1 отримуємо такі ймовірності для значень незалежної змінної спостереження:

P(Спостереження = сонце | гра = да) = 2/9;

P(Спостереження = хмарно | гра = да) = 4/9;

P(Спостереження = дощ | гра = да) = 3/9;

P(Спостереження = сонце | гра = немає) = 3/5;

P(Спостереження = хмарно | гра = немає) = 0/5;

P(Спостереження = дощ | гра = немає) = 2/5.

Ймовірність є відношення об'єктів з навчальної вибірки, належних класу до загальної кількості об'єктів у вибірці. У даному прикладі це:

Р(гра = так) = 9/14;

Р(гра = немає) = 5/14.

Таким чином, якщо необхідно визначити, чи відбудеться гра при наступних значеннях незалежних змінних (події Е):

спостереження = сонячно,

температура = холодно;

вологість = висока;

вітер = є,

треба обчислити такі умовні ймовірності:

Р(гра = так | Е) = Р(спостереження = сонячно | гра = так) х

х Р(температура = холодно | гра = так) х

х Р(вологість = висока | гра = так) х

х Р(вітер = є | гра = так) х Р (гра = так) / Р (Е);

Р (гра = немає | Е) = Р(спостереження = сонячно | гра = немає) х

х Р(температура = холодно | гра = немає) х

х Р(вологість = висока | гра = немає) х

х Р(вітер = є | гра = немає) х Р(гра = немає) / Р (Е).

Підставляючи відповідні ймовірності, отримаємо такі значення:

Р(гра = так | Е) = 2/9х3/9х3/9х3/9х9/14 /Р(Е) = 0,0053 / Р (Е);

Р (гра = немає | Е) = 3/5х1/5х4/5х3/5х5/14 / Р (Е) = 0,0206 / Р (Е).

Можливість Р (Е) не враховується, оскільки при нормалізації ймовірностей для кожного з можливих правил вона зникає. Нормалізована ймовірність для правила обчислюється за формулою:

.

У даному випадку можна стверджувати, що при вказаних умовах гра відбутися з ймовірністю:

Р'(гра = так | Е) = 0,0053 / (0,0053 + 0,0206) = 0,205;

і не відбудеться з ймовірністю:

Р (гра = немає | Е) = 0,0206 / (0,0053 + 0,0206) = 0,795.

Таким чином, за зазначених умов більш імовірно, що гра не відбудеться.

При використанні формули Байєса для оцінки достовірності правила виникає проблема, пов'язана з тим, що у навчальній вибірці може не бути жодного об'єкта, який має значення змінної і що відноситься до класу . У цьому випадку відповідна ймовірність буде дорівнює 0, а відповідно, і ймовірність такого правила дорівнює 0. Аби уникнути цього, до кожної ймовірності додається деяке значення, відмінне від нуля. Така методика називається оціночною функцією Лапласа.

Одним з дійсних переваг цього методу є те, що пропущені значення не створюють ніякої проблеми. При підрахунку ймовірності вони просто пропускаються для всіх правил, і це не впливає на співвідношення ймовірностей.

Числові значення незалежних змінних зазвичай обробляються з урахуванням того, що вони мають нормальний розподіл ймовірностей або розподіл Гаусса. Для них визначається математичне сподівання і середньоквадратичне відхилення.

У даному випадку під математичним сподіванням розуміється просто середнє число значень, тобто сума, позділена на число об'єктів. Середньоквадратичне відхилення – це квадратний корінь з типової дисперсії.

Функція щільності ймовірності для нормального розподілу із середнім і середньоквадратичним відхиленням :

.

Функція щільності ймовірності для об'єкта тісно пов'язана з його імовірністю, проте це не зовсім те ж саме. Реальний зміст функції густини – імовірність того, що кількість значень залежної змінної в межах невеликої області навколо (наприклад, між і ) дорівнює .

Соседние файлы в папке ДЕК Інформаційний бізнес