Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции по СППР / Лекция 6-7.doc
Скачиваний:
190
Добавлен:
23.03.2016
Размер:
2.2 Mб
Скачать

Классификация и регрессия

1. Постановка задачи

В задаче классификации и регрессии требуется определить значение зависимой переменной объекта на основании значений других переменных, характеризующих данный объект. Формально задачу классификации и регрессии, но описать следующим образом. Имеется множество объектов:

I={i1,i2,…,ij,..,in},

где ij- исследуемый объект. Примером таких объектов может быть информация о проведении игр при разных погодных условиях (табл. 5.1).

Наблюдение

Температура

Влажность

Ветер

Игра

Солнце

Жарко

Высокая

Нет

Нет

Солнце

Жарко

Высокая

Есть

Нет

Облачность

Жарко

Высокая

Нет

Да

Дождь

Норма

Высокая

Нет

Да

Дождь

Холодно

Норма

Нет

Да

Дождь

Холодно

Норма

Есть

Нет

Облачность

Холодно

Норма

Есть

Да

Солнце

Норма

Высокая

Нет

Нет

Солнце

Холодно

Норма

Нет

Да

Дождь

Норма

Норма

Нет

Да

Солнце

Норма

Норма

Есть

Да

Облачность

Норма

Высокая

Есть

Да

Облачность

Жарко

Норма

Нет

Да

Дождь

Норма

Высокая

Есть

Нет

Каждый объект характеризуется набором переменных:

Ij= {x1, x2, ...,xh,...,xm,y},

где xh — независимые переменные, значения которых известны и на основании которых определяется значение зависимой переменной у. В данном примере независимыми переменными являются: наблюдение, температура, влажность и ветер. Зависимой переменной является игра.

В Data Mining часто набор независимых переменных обозначают в виде век­тора:

Х={x1, x2, ...,xh,...,xm},

Каждая переменная x1 может принимать значения из некоторого множества:

Сh={ch1,c.h2,…}

Если значениями переменной являются элементы конечного множества, то говорят, что она имеет категориальный тип. Например, переменная наблюдение принимает значения на множестве значений {солнце, облачность, дождь}.

Если множество значений С = {сь с2, ..., сг,..., ск} переменной у - конечное, то задача называется задачей классификации. Если переменная у принимает значение на множестве действительных чисел R, то задача называется задачей регрессии.

Представление результатов

1. Правила классификации

Несмотря на то, что был назван способ определения значения зависимой переменной функцией классификации или регрессии, он необязательно может быть выражен математической функцией. Существуют следующие основные виды представления таких способов: классификационные правила, деревья решений и математические функции.

Классификационные правила состоят из двух частей: условия и заключения:

если (условие) то (заключение).

Условием является проверка одной или нескольких независимых переменных. Проверки нескольких переменных могут быть объединены с помощью операций "и", "или" и "не". Заключением является значение зависимой переменной или распределение ее вероятности по классам. Например:

если (наблюдение = солнце и температура = жарко) то (игра = нет);

если (наблюдение = облачность и температура = холодно) то (игра = да).

Основным достоинством правил является легкость их восприятия и запись на естественном языке. Другое преимущество - относительная их независимость. В набор правил легко добавить новое без необходимости изменять уже существующие. Относительность независимости правил связана с возможной их противоречивостью друг другу. Если переменные, характеризующие некоторый объект, удовлетворяют условным частям правил с разными заключениями, то возникает неопределенность со значением его зависимой переменной. Например, имеются правила:

если (наблюдение = солнце) то (игра = нет);

если (наблюдение = облачность и температура = холодно) то (игра = да).

В них объекты, удовлетворяющие условиям из второго правила, удовлетворяют и условиям первого правила. Однако вывод делается разный. Другими словами, в соответствии с этими правилами при одинаковых обстоятельствах получены противоречивые указания, что неприемлемо.

Соседние файлы в папке Лекции по СППР