Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
1 этап.pptx
Скачиваний:
2
Добавлен:
28.12.2024
Размер:
212.15 Кб
Скачать

ДАТАСЕТ

LOS ANGELES BUILDING AND SAFETY PERMITS

Общая информация

Данные о разрешениях на

В зависимости от сложности

строительство и

проекта разрешение может

безопасность в Лос-

быть выдано в тот же день

Анджелесе с 2013 по 2020

вместе с экспресс -

 

год . Информация включает

разрешением или

 

данные об адресах,

электронным разрешением

оценщиках, подрядчиках,

(категория «Без проверки

заявителях и статусе

плана»),

либо

разрешения . Департамент

разрешение может требовать

выдает разрешения на

проверки планов (категория

строительство,

«Проверка плана»)

 

реконструкцию и ремонт

сотрудниками отдела

зданий, включая

проверки планов

 

электрооборудование и

безопасности и

 

механическое оборудование.

строительства.»

 

Разрешения могут быть

 

 

выданы экспресс - или

 

 

электронным способом без проверки плана или после проверки плана.

Решение задач

Данные можно использовать для решения следующих задач:

Прогнозирование того, потребуется ли проверка плана для проекта в зависимости от его сложности (кол -ва жилых единиц, этажей, типа запрашиваемого разрешения и т .д .). Может помочь заявителям понять, сколько времени у них уйдёт на получение разрешения при его подаче .

Прогнозирование статуса разрешения на основании других параметров. Так как статусы показывают, было ли решение по итогу отменено или здание построено/находится в процессе ввода в эксплуатацию, можно предсказать «судьбу» решения.

Прогнозирование стоимости работ . В датасете есть поле valuation, указывающее на оценку стоимости работ. Его

значение можно научиться предсказывать при помощи других параметров.

Кластеризация районов по типам работ. Используя атрибуты Permit type и Zip Code, можно разбить районы на кластеры по наиболее часто выполняемым работам. Это может пригодиться для анализа и планирования развития города.

Целевая задача

В качестве целевой задачи была выбрана задача прогнозирования стоимости работ .

Процесс решения этой задачи можно разбить на следующие шаги:

Предварительный анализ данных: изучение структуры датасета, выявление пропущенных значений, выбросов, корреляций между атрибутами.

Подготовка данных: очистка и предобработка данных, кодирование категориальных переменных, масштабирование числовых признаков.

Выбор модели: выбор подходящего алгоритма машинного обучения для решения задачи.

Обучение модели: разделение данных на обучающую и тестовую выборки, обучение модели на обучающих данных.

Оценка качества модели: оценка качества модели на тестовой выборке.

Оценка результатов.

Метаинформация

Формат данных: csv.

Количество атрибутов: 65.

Количество векторов: 1074660 .

Рассмотрим атрибуты, которые мы будем использовать при обучении модели:

Permit Type — тип разрешения,

с трока, категориальное значение (Electrical, Bldg -Alter/Repair, Plumbing и т. д. ) .

Permit Sub -Type — подтип разрешения, с трока, категориальное значение (Apartment, 1 or 2 Family Dwelling, Commercial и т . д . ).

Permit Category — категория разрешения, с трока, бинарны й признак (No Plan Chec k или Plan Check).

# of Stories — количество этажей в здании, числовой атрибут .

Work Type – тип работы категориальный признак .

License Type - тип лицензии застройщика, с трока, категориальное значение (B, C36 и т . д. ).

Valuation — оценка стоимос ти работ, числовой атрибут .

Zone — зона, строка, категориальное значение (R1 - 1, R3 - 1 и т . д . ).

Condominium - является ли объект жилы м комплексом, бинарный .

Construction Type: тип конструкции с троительного объекта (например, жилой дом, коммерческий объект, гараж и т. д. ) .

Zip Code — почтовый индекс (использовать в качестве критерия определения района), чис ло, категориальный признак.

Предлагаемый алгоритм ML

Так как мы собираемся предсказывать оценочную стоимость работ, которая является непрерывной числовой величиной, мы будем решать задачу регрессии .

1)Random Forest — случайный лес. Алгоритм машинного обучения с учителем, использующий множество решающих деревьев. В задаче регрессии ответы деревьев усредняются. Хорошо справляется с большими объёмами данных и пропусками. Подходит для моделирования сложных зависимостей.

2)Градиентный бустинг. Является способом объединить базовые алгоритмы (деревья) в композицию. Способен постепенно улучшать качество модели благодаря линейной комбинации алгоритмов, находить нелинейные зависимости. Также хорошо справляется с пропусками.

3)Метод k-ближайших соседей. Основан на близости объектов друг к другу, использует оценку сходства между объектами. Может работать с разными видами зависимостей, его будет несложно реализовать.

Ограничения данных

Многие атрибуты содержат пропущенные значения (например, Valuation, # of Stories).

Необходимо удалить векторы, содержащие пропущенные значения.

В датесете присутствуют аномалии — например, отрицательные числа в # of Stories.

Многие атрибуты являются категориальными значениями. Для того, чтобы использовать их для анализа, необходимо привести их к числовому виду.

Необходимые настройки данных

Общие для трёх алгоритмов:

1 . Отбор признаков, используемых для построения модели.

2 . Обработка пропущенных значений (их исключение).

3 . Преобразование категориальных признаков в числовой формат .

4 . Разделение данных на две выборки: тестовую и обучающую.

Для методов градиентного бустинга и k-ближайших соседей также необходимо провести обработку данных от выбросов.

Для каждого из методов также нужно настроить параметры .

Для случайного леса — количество параллельно обучаемых деревьев, для градиентного бустинга — количество итераций алгоритма, для k-ближайших соседей — число k, обозначающее оптимальное число соседей.

Ожидаемые модели знаний

Ожидается, что в результате применения одного или нескольких из описанных ранее алгоритмов, будет получена модель, способная предсказывать оценочную стоимость строительных работ на основе других признаков, таких как тип разрешения, количество этажей, тип лицензии застройщика, зона и т. д.

Благодаря построенной модели можно будет оценить степень влияния этих признаков на стоимость работ, что можно будет использовать для планирования бюджета и консультирования заявителей.

Предлагаемые методы и критерии оценки построенных значений

• Средняя абсолютная ошибка (MAE):

MAE измеряет среднее абсолютное отклонение между прогнозируемыми значениями и фактическими значениями . Чем ниже значение MAE, тем лучше модель предсказывает целевую переменную . MAE хорошо интерпретируем и позволяет понять, насколько близко прогнозы модели к реальным данным .

• Средняя квадратичная ошибка (MSE):

MSE измеряет с реднее квадратичное отклонение между прогнозируемыми значениями и фактическими значениями . Она штрафует большие ошибки сильнее, чем MAE, что делает ее более чувствительной к выбросам . MSE также хорошо интерпретируем и помогает оценить точность модели .

• Коэффициент детерминации (R^ 2):

R^2 измеряет долю дисперсии зависимой переменной, которую объясняет модель . Значение R^2 ближе к 1 указывает на то, что модель лучше соответс твует данны м . Однако, R^2 может быть завышен в случае переобучения модели, поэтому его следует использовать вмес те с другими метриками .

Соседние файлы в предмете Базы данных