Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

доклад 2

.pptx
Скачиваний:
1
Добавлен:
28.12.2024
Размер:
12.35 Mб
Скачать

LOS ANGELES BUILDING AND SAFETY PERMITS

Д А Т А С Е Т , Ц Е Л Е В А Я З А Д А Ч А , А Л Г О Р И Т М

Датасет: Los Angeles Building and Safety Permits, 65 атрибутов, 1074660 векторов

Особенности датасета: категориальные признаки, пропущенные значения

Целевая задача: предсказание оценочной стоимости строительных работ

Выбранный алгоритм: Random Forest Regressor

2

П О Д Г О Т О В К А Д А Н Н Ы Х

Были отобраны 11 атрибутов (включая целевой).

df.sample(frac = 1.0) — перемешивает данные, но оставляет все данные в датасете.

3

Л О Г И Ч Е С К А Я И Ф И З И Ч Е С К А Я М О Д Е Л И Д А Н Н Ы Х

4

У Д А Л Е Н И Е П Р О П У Щ Е Н Н Ы Х З Н А Ч Е Н И Й

Было выбрано удаление пропущенных значений, т. к. целевой атрибут содержал большое количество пропусков

5

О Б Р А Б О Т К А О Т В Ы Б Р О С О В

6

КО Д И Р О В А Н И Е

КА Т Е Г О Р И А Л Ь Н Ы Х П Р И З Н А К О В

7

Н А С Т Р О Й К А А Л Г О Р И Т М А

max_features — число признаков для выбора расщепления, у нас всего 10 признаков → берём 10

random_state = 0 - «исключает» случайную составляющую, позволяет каждый раз получать одинаковый результат

n_jobs = -1 — позволяет строить модель на максимальном доступном числе процессоров

8

Н А С Т Р О Й К А К О Л И Ч Е С Т В А Д Е Р Е В Ь Е В

n_estimators — количество деревьев

Так как при изменении количества деревьев качество обучения на тестовой выборке выходит на асимптоту, мы взяли количество деревьев = 80.

9

ПА Р А М Е Т Р Ы , О С Т А В Л Е Н Н Ы Е

ПО У М О Л Ч А Н И Ю

max_depth — максимальная глубина деревьев — по умолчанию не ограничена

bootstrap — построение деревьев на основе подвыборок с возвращением, по умолчанию True

min_samples_split — минимальное число объектов, при котором выполняется расщепление, по умолчанию 2

10

Соседние файлы в предмете Базы данных