
Лабораторная 4 / УД_отчет по лаб 4
.docxМИНИСТЕРСТВО ЦИФРОВОГО РАЗВИТИЯ, СВЯЗИ И МАССОВЫХ КОММУНИКАЦИЙ РОССИЙСКОЙ ФЕДЕРАЦИИ
Ордена Трудового Красного Знамени федеральное государственное бюджетное образовательное учреждение высшего образования
«Московский технический университет связи и информатики»
Кафедра «Математическая кибернетика и информационные технологии»
Дисциплина «Управление данными»
Отчет по лабораторной работе 4
Выполнил:
студент группы БСТ21
Проверила: Тимофеева А. И.
Москва, 2024 г.
Содержание
Цель работы 3
Ход выполнения 3
Цель работы 3
Ход выполнения 3
Цель работы
Получить навыки работы с DCT и RF.
Ход выполнения
Дерево решений
Рис.1 – Импорт библиотек
Рис.2 – Чтение датасета, создание массивов всех признаков, целевого и features
Рис.3 – Вывод на экран 5 элементов датасета, задание переменных для обучения
Рис.4 – Создание дерева решений
Рис.5 – Визуализация дерева решений
Рис.6 – Левая и правая подвыборки (возраст людей с пульсом больше 120)
Рис.7 – Импорт библиотеки и вывод на экран датафрейма
Рис.8 – Узнаем давление людей не старше 50 лет
Рис.9 – Давление людей моложе 55 лет
Рис.10 – Давление людей моложе 52 лет
Рис.11 – Давление людей не старше 48 лет
Рис.12 – Возраст людей с давлением не выше 110
Рис.13 – Возраст людей с давлением не выше 100
Рис.14 – Возраст людей с давлением не выше 140
Рис.15 – Возраст людей с давлением не выше 130
Рис.16 – Возраст людей с давлением не выше 150
Рис.17 – Вероятности быть нулевым и первым классами соответственно
Рис.18 – Расчет энтропии
Рис.19 – Создание таблицы для записи результатов и разбиение на 2 подвыборки по возрасту
Рис.20 – Подсчет вероятностей в левой подвыборке
Рис.21 – Подсчет энтропии в левой подвыборке и вероятностей в правой
Рис.22 – Энтропия в правой подвыборке
Рис.23 – Подсчет прироста информации и добавление результатов в таблицу
Рис.24 – Вероятности в левой подвыборке (люди не старше 48)
Рис.25 – Энтропия в левой подвыборке и вероятности в правой
Рис.26 – Энтропия в правой подвыборке
Рис.27 – Прирост информации и запись результатов
Рис.28 – Функции для расчета энтропии и прироста информации
Рис.29 – Прирост информации для целевого значения выборки
Рис.30 – Запись результата
Рис.31 – Прирост информации (люди с давлением не больше 110)
Рис.32 – Прирост информации (люди с давлением не больше 100)
Рис.33 – Прирост информации (люди с давлением не больше 140)
Рис.34 – Прирост информации (люди с давлением не больше 130)
Рис.35 – Итоговая таблица
Рис.36 – Можно задавать вопросы, используя средние значения, а не уникальные
Рис.37 – Разбиения получались бы такими же
Рис.38 – Подготовка к построению дерева решений
Рис.39 – Построение дерева решений
Случайный лес
Рис.40 – Импорт библиотек, игнорирование предупреждения, чтение датасета
Рис.41 – Изучение датасета, вывод на экран
Рис.42 – Присвоение имен столбцам
Рис.43 – Количество непустых значений в каждом столбце
Рис.44 – Частотные распределения значений переменных
Рис.45 – Изучение переменной и проверка пропущенных значений
Рис.46 – Создание вектора признака, целевой переменной, разделение данных на обучающую и тестовую выборки, получение информации о составе датасетов
Рис.47 – Просмотр типов данных в обучающей выборке и вывод ее на экран
Рис.48 – Кодируем категориальные переменные
Рис.49 – Результаты кодирования
Рис.50 – Оценка точности модели с 10 деревьями решений
Рис.51 – Оценка точности модели со 100 деревьями решений
Рис.52 – Создание случайного леса и получаем оценки важности
Рис.53 – Визуализация оценок важности
Рис.54 – Построение модели случайного леса и проверка ее точности при удалении наименее значимой переменной
Рис.55 – Матрица ошибок и отчет о классификации