
Міністерство
освіти
і науки,
молоді та спорту України
Національний
університет “Львівська політехніка”
Кафедра
автоматизованих систем управління
Методичні вказівки
до лабораторної роботи №5
“Класифікація та регресія. Методи та алгоритми побудови дерев рішень”
з дисципліни
“Інтелектуальний аналіз даних”
для студентів базового напрямку підготовки по спеціальності
“ Комп’ютерні науки ” (шифр 0804)
Львів-2012
Методичні вказівки до лабораторної роботи №5 “Класифікація та регресія. Методи та алгоритми побудови дерев рішень” з дисципліни “Інтелектуальний аналіз даних” для студентів спеціальності - шифр 0804 “Комп’ютерні науки”/ Укл. доц. Ковівчак Я.В., Львів: Національний університет “Львівська політехніка”, 2012.
Методичні вказівки обговорено та схвалено на засіданні кафедри АСУ Протокол № ___________ від «___»___________2012 р.
Завідувач кафедрою АСУ ______________ Медиковський М. О.
Методичні вказівки обговорено та схвалено на засіданні методичної комісії базового напрямку підготовки
Протокол № ___________ від «___»___________2012 р.
Лабораторна робота №5
Мета: Оволодіти методами та алгоритмами побудови дерев рішень.
Теоретична частина:
Класифікація і регресія
В задачі класифікації і регресії потрібно виділити значення залежної змінної об’єкту на основі значень інших змінних, які характеризують даний об’єкт. Формально задачу класифікації і регресії можна описати наступним чином. Нехай ми маємо множину об’єктів:
I = {i1,i2…,ij,…,in}
де іj – досліджуваний об’єкт. Прикладом таких об’єктів може бути інформація про проведення ігор при різних погодних умовах (табл. 5.1).
Спостереження |
Температура |
Вологість |
Вітер |
Гра |
Сонце |
Жарко |
Висока |
Ні |
Ні |
Сонце |
Жарко |
Висока |
Так |
Ні |
Хмарно |
Жарко |
Висока |
Ні |
Так |
Дощ |
Норма |
Висока |
Ні |
Так |
Дощ |
Холодно |
Норма |
Ні |
Так |
Дощ |
Холодно |
Норма |
Так |
Ні |
Хмарно |
Холодно |
Норма |
Так |
Так |
Сонце |
Норма |
Висока |
Ні |
Ні |
Сонце |
Холодно |
Норма |
Ні |
Так |
Дощ |
Норма |
Норма |
Ні |
Так |
Сонце |
Норма |
Норма |
Так |
Так |
Хмарно |
Норма |
Висока |
Так |
Так |
Хмарно |
Жарко |
Норма |
Ні |
Так |
Дощ |
Норма |
Висока |
Так |
Ні |
Табл. 5.1. Інформація про проведення ігор при різних погодних умовах
Кожен об’єкт характеризується набором змінних: Іj = {x1,x2,…,xh,…,xm,y},
де xh – незалежні змінні, значення яких відомі і на основі них знаходиться значення залежної змінної y. В даному прикладі незалежні змінні являються: спостереження, температура, вологість і вітер. Залежною змінною являється ігра.
В Data Mining часто набір незалежних змінних позначають у вигляді вектора:
X = {x1, x2, …, xh, …, xm}
Кожна змінна xh може приймати значення із деякого проміжку:
Ch = {ch1, ch2, …}
Якщо значеннями змінної являються елементи скінченної множини, то говорять, що вона має категоріальний тип. Наприклад, змінна спостереження приймає значення на множині значень (сонце, хмарно, дощ).
Якщо множина значень С = {c1,c2,…,ci,…,ck} змінної y скінченне, то задача називається задачею класифікації. Якщо змінна y приймає значення на множині дійсних чисел R, то задача називається задачею регресії.
В задачах класифікації і регресії виявлена функціональна залежність між змінними може бути представлена одним із наступних способів:
Класифікаційні правила;
Дерева рішень;
Математичні функції;
В даній лабораторній роботі ми розглядатимемо методи та алгоритми побудови дерев рішень.