Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
41
Добавлен:
23.02.2016
Размер:
924.67 Кб
Скачать

35

Т 2. Класифікація і регресія

1. Постановка задачі

2. Подання результатів

3. Методи побудови правил класифікації

4. Методи побудови дерев рішень

5. Методи побудови математичних функцій

6. Карта Кохонена

1. Постановка задачі

У задачі класифікації і регресії потрібно визначити значення залежної змінної об'єкта на підставі значень інших змінних, що характеризують даний об'єкт. Формально задачу класифікації і регресії можна описати таким чином. Існує множина об'єктів:

де – досліджуваний об'єкт.

Прикладом таких об'єктів може бути інформація про проведення ігор при різних погодних умовах (табл. 1).

Таблиця 1

Спостереження

Температура

Вологість

Вітер

Гра

Сонце

Жарко

Висока

Немає

Немає

Сонце

Жарко

Висока

Є

Немає

Хмарність

Жарко

Висока

Немає

Є

Дощ

Норма

Висока

Немає

Є

Дощ

Холодно

Норма

Немає

Є

Дощ

Холодно

Норма

Є

Немає

Хмарність

Холодно

Норма

Є

Є

Сонце

Норма

Висока

Немає

Немає

Сонце

Холодно

Норма

Немає

Є

Дощ

Норма

Норма

Немає

Є

Сонце

Норма

Норма

Є

Є

Хмарність

Норма

Висока

Є

Є

Хмарність

Жарко

Норма

Немає

Є

Дощ

Норма

Висока

Є

Немає

Кожний об'єкт характеризується набором змінних:

,

де – незалежні змінні, значення яких відомі і на основі яких визначається значення залежної змінної . У даному прикладі незалежними змінними є: спостереження, температура, вологість і вітер. Залежною змінною є гра.

У Data Mining часто набір незалежних змінних позначають у вигляді вектора:

.

Кожна змінна може набувати значення з деякої множини:

.

Якщо значеннями змінної є елементи скінченної множини, то говорять, що вона має категоріальний тип. Наприклад, змінна спостереження приймає значення на множині значень {сонце, хмарність, дощ}.

Якщо множина значень змінної cкінчене, то задача називається задачею класифікації. Якщо змінна приймає значення на множині дійсних чисел , то задача називається задачею регресії.

2. Подання результатів

2.1. Правила класифікації

Незважаючи на те що був названий спосіб визначення значення залежної змінної функцією класифікації або регресії, він необов'язково може бути виражений математичної функцією. Існують такі основні види подання таких способів: класифікаційні правила, дерева рішень та математичні функції.

Класифікаційні правила складаються з двох частин: умови і висновків:

якщо (умова) то (висновок).

Умовою є перевірка однієї або кількох незалежних змінних. Перевірки декількох змінних можуть бути об'єднані з допомогою операцій "і", "або" і "не". Висновком є значення залежної змінної або розподіл її ймовірності по класах. Наприклад:

якщо (спостереження = сонце і температура = жарко) то (гра = немає);

якщо (спостереження = хмарність і температура = холодно) то (гра = є).

Основною перевагою правил є легкість їх сприйняття та запис на природній мові. Інша перевага – відносна їх незалежність. У набір правил легко додати нове без необхідності змінювати вже існуючі. Відносність незалежності правил пов'язана з можливою їх суперечливістю один одному. Якщо змінні, що характеризують певний об'єкт, задовольняють умовним частинам правил з різними висновками, то виникає невизначеність зі значенням його залежною змінною. Наприклад, є правила:

якщо (спостереження = сонце) то (гра = немає);

якщо (спостереження = хмарність і температура = холодно) то (гра = є).

У них об'єкти, що задовольняють умовам з другого правила, задовольняють і умови першого правила. Проте висновок робиться різний. Іншими словами, у відповідності з цими правилами при однакових обставин отримані суперечливі вказівки, що є неприйнятним.

2.2. Дерева рішень

Дерева рішень – це спосіб подання правил в ієрархічній, послідовній структурі. На рис. 1 зображено приклад дерева рішень для даних, представлених в табл. 1.

Рис. 1. Приклад дерева рішень

Зазвичай кожен вузол дерева включає перевірку певної незалежної змінної. Іноді у вузлі дерева дві незалежні змінні порівнюються одна з одною або визначається деяка функція від однієї або декількох змінних.

Якщо змінна, яка перевіряється у вузлі, приймає категоріальні значення, то кожному можливому значенню відповідає гілка, що виходить з вузла дерева. Якщо значенням змінної є число, то перевіряється, більше або менше це значення деякої константи. Іноді область числових значень розбивають на декілька інтервалів. У цьому випадку виконується перевірка на потрапляння значення в один з інтервалів.

Листя дерев відповідають значенням залежної змінної, тобто класам. Об'єкт належить певному класу, якщо значення його незалежних змінних задовольняють умовам, записаним у вузлах дерева на шляху від кореня до листа, відповідному цього класу.

Якщо яка-небудь незалежна змінна класифікованого об'єкта не має значення, то постає проблема, пов'язана з невизначеністю шляху, по якому необхідно рухатися по дереву. У деяких випадках пропущені значення можна замінювати значеннями за замовчуванням. Якщо такий підхід неприйнятний, то необхідно передбачити спеціальні способи обробки таких ситуацій (наприклад, переміщатися по гілці, яка веде до більшої кількості об'єктів з навчальної вибірки). Інший варіант обробки може бути пов'язаний з додаванням спеціальної гілки до вузла для пропущених значень.

Дерева рішень легко перетворюються в правила. У умовну частину таких правил записується умова, описане у вузлах дерева на шляху до листа, в завершальну частину – значення, визначене в листі. Наприклад, для дерева, наведеного на рис. 1, можуть бути побудовані такі правила:

якщо спостереження = сонячно і вологість = висока то гра = немає;

якщо спостереження = сонячно і вологість = нормально то гра = є;

якщо спостереження = дощ і вітер = так то гра = немає;

якщо спостереження = дощ і вітер = немає то гра = є.

Необхідно зауважити, що зворотне перетворення від правил до дерева не завжди можливо. Це пов'язано з більшою свободою запису правил. Наприклад, при використанні операції "або" в побудованому за таким правилом дереву виникне необхідність у дублюванні піддерев.

2.3. Математичні функції

Математична функція виражає відношення залежної змінної від незалежних. У цьому випадку аналізовані об'єкти розглядаються як точки в ()–мірному просторі. Тоді змінні об'єкта розглядають як координати, а функція має наступний вигляд:

,

де , , …, – ваги незалежних змінних, в пошуку яких і полягає завдання знаходження класифікаційної функції.

Очевидно, що всі змінні повинні бути подані у вигляді числових параметрів. Для перетворення логічних і категоріальних змінних до числових використовують різні способи.

Логічні типи, як правило, кодують цифрами 1 і 0. Істині ставлять у відповідність значення 1, а неправду позначають 0.

Значеннями категоріальних змінних є імена можливих станів досліджуваного об'єкта. Зрозуміло, таких станів може бути більше двох. Їх імена повинні бути перераховані і пронумеровані в списку. У системі кожне ім'я зі списку може бути представлене його номером. У результаті категоріальна змінна перетворюється в числову змінну. Наприклад, значення змінної спостереження = {сонце, хмарність, дощ} можна замінити значеннями {0, 1, 2}.

Інший спосіб подання початково категоріальної змінної в системі – це заміна можливих значень набором двійкових ознак. У наборі стільки двійкових ознак, скільки імен міститься в списку можливих станів об'єкта. При аналізі об'єкта значення 1 присвоюється тій бінарній ознаці, яка відповідає стану об'єкта. Решті присвоюється значення 0. Наприклад, для змінної спостереження такими значеннями будуть: {001, 010, 100}.

Різні алгоритми вирішення задачі класифікації і регресії будують і використовують різні способи визначення значення залежної змінної.

Соседние файлы в папке ДЕК Інформаційний бізнес