
доклад 2
.pptx
LOS ANGELES BUILDING AND SAFETY PERMITS

Д А Т А С Е Т , Ц Е Л Е В А Я З А Д А Ч А , А Л Г О Р И Т М
Датасет: Los Angeles Building and Safety Permits, 65 атрибутов, 1074660 векторов
Особенности датасета: категориальные признаки, пропущенные значения
Целевая задача: предсказание оценочной стоимости строительных работ
Выбранный алгоритм: Random Forest Regressor
2

П О Д Г О Т О В К А Д А Н Н Ы Х
Были отобраны 11 атрибутов (включая целевой).
df.sample(frac = 1.0) — перемешивает данные, но оставляет все данные в датасете.
3

Л О Г И Ч Е С К А Я И Ф И З И Ч Е С К А Я М О Д Е Л И Д А Н Н Ы Х
4

У Д А Л Е Н И Е П Р О П У Щ Е Н Н Ы Х З Н А Ч Е Н И Й
Было выбрано удаление пропущенных значений, т. к. целевой атрибут содержал большое количество пропусков
5

О Б Р А Б О Т К А О Т В Ы Б Р О С О В
6

КО Д И Р О В А Н И Е
КА Т Е Г О Р И А Л Ь Н Ы Х П Р И З Н А К О В
7

Н А С Т Р О Й К А А Л Г О Р И Т М А
•max_features — число признаков для выбора расщепления, у нас всего 10 признаков → берём 10
•random_state = 0 - «исключает» случайную составляющую, позволяет каждый раз получать одинаковый результат
•n_jobs = -1 — позволяет строить модель на максимальном доступном числе процессоров
8

Н А С Т Р О Й К А К О Л И Ч Е С Т В А Д Е Р Е В Ь Е В
n_estimators — количество деревьев
Так как при изменении количества деревьев качество обучения на тестовой выборке выходит на асимптоту, мы взяли количество деревьев = 80.
9

ПА Р А М Е Т Р Ы , О С Т А В Л Е Н Н Ы Е
ПО У М О Л Ч А Н И Ю
•max_depth — максимальная глубина деревьев — по умолчанию не ограничена
•bootstrap — построение деревьев на основе подвыборок с возвращением, по умолчанию True
•min_samples_split — минимальное число объектов, при котором выполняется расщепление, по умолчанию 2
10