 
        
        1
.docxМИНОБРНАУКИ РОССИИ
Санкт-Петербургский государственный
электротехнический университет
«ЛЭТИ» им. В.И. Ульянова (Ленина)
Кафедра АПУ
отчет
по лабораторной работе №1
по дисциплине «Моделирование систем»
| Студент гр. 5371 | 
 | Уруков С.Д. | 
| Преподаватель | 
 | Туральчук К.А. | 
- 
Описание системы данных 
СВОДКА: Набор данных о хронической болезни почек.
ОПИСАНИЕ: Данные о ранней стадии болезни. Собраны в 2015 году.
ОБЪЕМ ДАННЫХ: 400 записей, 25 атрибутов.
СОДЕРЖИМОЕ:
| № | Обозначение | Содержание | Шкала | Диапазон | 
| 1 | Age | Возраст в годах | Числовая | 
 | 
| 2 | Blood pressure | Давление в мм рт ст | Числовая | 
 | 
| 3 | Specific gravity | Удельная плотность | Номинальная | 1.005,1.010,1.015,1.020,1.025 | 
| 4 | Albumin | Альбумин | номинальная | 0,1,2,3,4,5 | 
| 5 | Sugar | Сахар | Номинальная | 0,1,2,3,4,5 | 
| 6 | Red blood cells | Клетки крови | Номинальная | normal,abnormal | 
| 7 | Pus cell | Клетки Пусса | Номинальная | normal,abnormal | 
| 8 | Pus Cell clumps | 
 | Номинальная | present,notpresent | 
| 9 | Bacteria | Наличие бактерий | Номинальная | present,notpresent | 
| 10 | Blood Glucose Random | Наличие глюкозы в крови | Числовая | 
 | 
| 11 | Blood urea | 
 | Числовая | 
 | 
| 12 | Serum creatinine | 
 | Числовая | 
 | 
| 13 | Soduim | 
 | Числовая | 
 | 
| 14 | Potassium | 
 | Числовая | 
 | 
| 15 | Hemoglobin | Гемоглобин | Числовая | 
 | 
| 16 | Packed Cell Volume | Объем упакованных клеток | Числовая | 
 | 
| 17 | White Blood Cell Count | Белые клетки крови кол-во | Числовая | 
 | 
| 18 | Red Blood Cell Count | Кол-во красных клеток крови | Числовая | 
 | 
| 19 | Hypertension | 
 | Номинальная | Yes, no | 
| 20 | Diabetes Mellitus | 
 | Номинальная | Yes, no | 
| 21 | Coronary Artery Disease | Болезнь | Номинальная | Yes, no | 
| 22 | Appetite | Аппетит | Номинальная | Good, poor | 
| 23 | Pedal Edema | 
 | Номинальная | Yes, no | 
| 24 | Anemia | Анемия | Номинальная | Yes, no | 
| 25 | Class | Класс | Номинальная | ckd,notckd | 
Результирующее значение классов. Каждая запись в базе описывает отдельного пациента. Мы имеем 62,5% пациентов, у которых выявлена болезнь почек.

- 
Классификация 

Точность классификации при кросс-валидации степени 5.
| Random Forest | 0.9850 | 
| Majority | 0.6250 | 
| CN2 rules | 0.9850 | 
| Classification Tree | 0.9775 | 
| Naive Bayes | 0.9650 | 
Точность классификации на обучаемых данных
| Random Forest | 1.0000 | 
| Majority | 0.6250 | 
| CN2 rules | 1.0000 | 
| Classification Tree | 0.9850 | 
| Naive Bayes | 0.9650 | 
Точность классификации при случайной выборке. Repetitions: 100, Proportion of training instances: 20%
| Random Forest | 0.9696 | 
| Majority | 0.6250 | 
| CN2 rules | 0.9567 | 
| Classification Tree | 0.9454 | 
| Naive Bayes | 0.9622 | 
CN2 Rules ViewerWed Oct 11 17, 19:06:23
| 
 | ||||||||||
| Rule length | Rule quality | Coverage | Predicted class | Distribution | Rule | 
 | 
 | 
 | 
 | 
 | 
| 1 | 0.995 | 193.000 | ckd | 193.0:0.0 | IF sc>1.00 THEN class=ckd | 
 | 
 | 
 | 
 | 
 | 
| 1 | 0.978 | 43.000 | ckd | 43.0:0.0 | IF sg<=1.00 THEN class=ckd | 
 | 
 | 
 | 
 | 
 | 
| 1 | 0.909 | 9.000 | ckd | 9.0:0.0 | IF al>0.00 THEN class=ckd | 
 | 
 | 
 | 
 | 
 | 
| 1 | 0.833 | 4.000 | ckd | 4.0:0.0 | IF hemo<=12.00 THEN class=ckd | 
 | 
 | 
 | 
 | 
 | 
| 1 | 0.667 | 1.000 | ckd | 1.0:0.0 | IF su>0.00 THEN class=ckd | 
 | 
 | 
 | 
 | 
 | 
| 4 | 0.993 | 140.000 | notckd | 0.0:140.0 | IF pcv>39.00 AND sg>1.00 AND al<=0.00 AND appet=good THEN class=notckd | 
 | 
 | 
 | 
 | 
 | 
| 2 | 0.875 | 6.000 | notckd | 0.0:6.0 | IF rbcc>4.00 AND sod>139.00 THEN class=notckd | 
 | 
 | 
 | 
 | 
 | 
| 2 | 0.750 | 2.000 | notckd | 0.0:2.0 | IF bu<=15.00 AND rbc=normal THEN class=notckd | 
 | 
 | 
 | 
 | 
 | 
| 2 | 0.750 | 2.000 | notckd | 0.0:2.0 | IF sc<=0.00 AND bu>32.00 THEN class=notckd | 
 | 
 | 
 | 
 | 
 | 
| 
 | ||||||||||
Classification Tree Graph

Матрицы ошибок
 
 



- 
Вывод по работе 
В ходе работы были использованы несколько ключевых методов классификации. По полученным данным можно сказать, что наиболее точно на этой выборке данных сработали алгоритмы CN2 и Random Forest. Тестирование было произведено на обучающем множестве, на кросс-валидации.
У алгоритма CN2 наибольшим условием для классификации выдалось следующее: IF pcv>39.00 AND sg>1.00 AND al<=0.00 AND appet=good THEN class=notckd (Если объем клеток больше 39 и гравитация больше 1 и показатель альбумина не положителен и хороший аппетит, то пациент не болен)
Рассматривая матрицу ошибок (confusion matrix), можно судить по правильности работы метода. Наблюдается огромное количество ошибок у метода majority, который предположил, что все данные принадлежат одному классу. Метод Naïve Bayes допустил 14 ошибок, а наиболее точными оказались CN2 и Random Forest, у которых неверно классифицированы 6 записей.
Санкт-Петербург
2017
