Отчеты / Отчет по работе №1
.docxМИНОБРНАУКИ РОССИИ
Санкт-Петербургский государственный
электротехнический университет
«ЛЭТИ» им. В.И. Ульянова (Ленина)
Кафедра АПУ
отчет
по практической работе №1
по дисциплине «Моделирование систем»
Тема: Знакомство с методами классификации в Orange
Выполнила: Локкина О. С. Группа 5371
Преподаватель: Туральчук К. А.
Санкт-Петербург
2017
1. Описание системы данных.
Данные содержат в себе 400 записей, собранных в больнице за 2 месяца. Целью является прогнозирование у человека хронического заболевания почек (ХЗП).
В наборе данных есть пропущенные значения ("?"). Количество показателей: 24 + class = 25 (11 абсолютная, 14 номинальная).
В табл. 1.1 представлено описание показателей.
Таблица 1.1
№ |
Обозначение |
Содержание |
Шкала |
Диапазон1 |
1 |
age |
Возраст пациента в годах |
Абсолютная |
age in years |
2 |
bp |
Артериальное давление |
Абсолютная |
bp in mm/Hg |
3 |
sg |
Удельный вес |
Номинальная |
1.005,1.010,1.015,1.020,1.025 |
4 |
al |
Альбумин |
Номинальная |
0,1,2,3,4,5 |
5 |
su |
Уровень сахара в крови |
Номинальная |
0,1,2,3,4,5 |
6 |
rbc |
Эритроциты |
Номинальная |
normal,abnormal |
7 |
pc |
Лейкоциты |
Номинальная |
normal,abnormal |
8 |
pcc |
лейкоцитарные агрегаты |
Номинальная |
present,notpresent |
9 |
ba |
Бактерии |
Номинальная |
present,notpresent |
10 |
bgr |
Уровень глюкозы |
Абсолютная |
bgr in mgs/dl |
11 |
bu |
Мочевина в крови |
Абсолютная |
bu in mgs/dl |
12 |
sc |
Креатинин в сыворотке крови |
Абсолютная |
sc in mgs/dl |
13 |
sod |
Натрий |
Абсолютная |
sod in mEq/L |
14 |
pot |
Калий |
Абсолютная |
pot in mEq/L |
15 |
hemo |
Гемоглобин |
Абсолютная |
hemo in gms |
16 |
pcv |
Объём осаждённых эритроцитов |
Абсолютная |
(не указано) |
17 |
wc |
Число лейкоцитов |
Абсолютная |
wc in cells/cumm |
18 |
rc |
Число эритроцитов |
Абсолютная |
rc in millions/cmm |
19 |
htn |
Гипертония |
Номинальная |
yes,no |
20 |
dm |
Сахарный диабет |
Номинальная |
yes,no |
21 |
cad |
Ишемическая болезнь сердца |
Номинальная |
yes,no |
22 |
appet |
Аппетит |
Номинальная |
good,poor |
23 |
pe |
Отек ног |
Номинальная |
yes,no |
24 |
ane |
Анемия |
Номинальная |
yes,no |
25 |
class |
Хроническое заболевание почек |
Номинальная |
ckd,notckd |
Класс имеет следующее распределение (рис. 1.1):
Рисунок 1.1
2. В Orange 2.7 была построена схема (рис. 2.1):
Рисунок 2.1
Рассмотрим работу методов классификации, результаты2 занесены в таблицу 2.1.
Таблица 2.1
Методы классификации |
Режим тестирования |
|||
train |
test (30%, 10 times) |
cross-validation (7) |
one leave out |
|
Naive Bayes |
0.9650 |
0.9583 |
0.9651 |
0.9575 |
Majority |
0.6250 |
0.6250 |
0.6250 |
0.6250 |
Classification Tree |
0.9850 |
0.9733 |
0.9850 |
0.9800 |
CN2 rules |
1.0000 |
0.9867 |
0.9875 |
0.9825 |
Random Forest |
1.0000 |
0.9925 |
0.9900 |
0.9875 |
Жирным текстом выделены наилучшие результаты для каждого режима тестирования. Курсивом – наихудшие. Ниже будут представлены матрицы ошибок для тренировочного режима тестирования.
Majority.
В табл. 2.2.1 представлена матрица ошибок метода.
Таблица 2.2.1
Так как атрибут класса имеет всего 2 значения, то во всех режимах тестирования метод «Majority» причислял все объекты к доминирующему классу – ckd.
Random Forest.
В табл. 2.2.2 представлена матрица ошибок метода.
Таблица 2.2.2
Из-за простоты распределения класса (2 значения) метод «Лес Решений» показал наилучший результат по сравнению с другими методами. Т.к. из вершины выходит 2 листа, что соответствует 2 классам (легче определить правила). По этой же причине в «Дереве Решений» (ниже) глубина составляет 4 уровня.
Classification Tree.
На рис. 2.2 представлены результаты работы метода.
Рисунок 2.2
Минимальное число элементов в листе: 2 (по умолчанию).
Первое разделение идет по показателю гемоглобина в крови на уровне 12.950 gms. Далее – по удельному весу крови (1.017). И последний – по альбумину (0.500).
Число узлов: 3. Глубина: 4. Терминальные узлы: 4 (3 – ckd, 1 – notckd).
Таблица 2.2.3
В табл. 2.2.3 представлена матрица ошибок метода.
CN2 rules.
В таблице 2.3 представлены получившиеся в работе метода CN2 правила классификации.
Таблица 2.3
Rule length |
Rule quality |
Coverage |
Predicted class |
Distribution |
Rule |
1 |
0.995 |
193.000 |
ckd |
193.0:0.0 |
IF sc>1.00 THEN class=ckd |
1 |
0.978 |
43.000 |
ckd |
43.0:0.0 |
IF sg<=1.00 THEN class=ckd |
1 |
0.909 |
9.000 |
ckd |
9.0:0.0 |
IF al>0.00 THEN class=ckd |
1 |
0.833 |
4.000 |
ckd |
4.0:0.0 |
IF hemo<=12.00 THEN class=ckd |
1 |
0.667 |
1.000 |
ckd |
1.0:0.0 |
IF su>0.00 THEN class=ckd |
4 |
0.993 |
140.000 |
notckd |
0.0:140.0 |
IF pcv>39.00 AND sg>1.00 AND al<=0.00 AND appet=good THEN class=notckd |
2 |
0.875 |
6.000 |
notckd |
0.0:6.0 |
IF rbcc>4.00 AND sod>139.00 THEN class=notckd |
2 |
0.750 |
2.000 |
notckd |
0.0:2.0 |
IF bu<=15.00 AND rbc=normal THEN class=notckd |
2 |
0.750 |
2.000 |
notckd |
0.0:2.0 |
IF sc<=0.00 AND bu>32.00 THEN class=notckd |
Алгоритм создал 9 правил, учитывающих от 1 до 4 показателей.
Правило IF sc>1.00 THEN class=ckd (если креатинин в сыворотке крови превышает 1.00, то у человека ХЗП) покрывает набольшее число объектов – 193 из 400, к тому же является наиболее точным. Следующим по правильности и покрытию является правило IF pcv>39.00 AND sg>1.00 AND al<=0.00 AND appet=good THEN class=notckd (если объем осажденных эритроцитов превышает 39, удельный вес больше 1 (у этого показателя номинальная шкала, начинающаяся со значения 1.005), альбумин равен 0 (значения от 0 до 5) и хороший аппетит, тогда у пациента не ХЗП).
Таблица 2.2.4
В табл. 2.2.4 представлена матрица ошибок метода.
Naive Bayes.
В табл. 2.2.5 представлена матрица ошибок метода.
Таблица 2.2.5
Схема 2.3
На схеме 2.3 представлены результаты работы метода.
Вывод Наилучший результат в 4 режимах тестирования на данной выборке показал метод «Лес решений» (Random Forest). Данный метод позволяет решить проблему маскирования, оценить важность показателей, но при этом имеет большую вычислительную сложность и сложную структуру модели.
В таблице 3 представлены средние значения точности каждого метода по всем 4 режимам тестирования.
Таблица 3
Методы классификации |
Среднее значение точности |
Naive Bayes |
0,961475 |
Majority |
0,625000 |
Classification Tree |
0,980825 |
CN2 rules |
0,989175 |
Random Forest |
0,992500 |
Наихудший результат у Majority. Этот алгоритм является самым примитивным.
1 В случае абсолютной шкалы если не указан диапазон, то подразумеваются значения от 0 до бесконечности (как целочисленные, так и дробные), указаны единицы измерения.
2 Оценивается точность классификации (Accuracy).