Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Уральский Федеральный университет им. Б.Н. Ельцина «УПИ»

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Margo_УИРС.doc

Скачиваний:

Добавлен:

01.07.2025

Размер:

1.01 Mб

Скачать

☆

1 / 31 2 3 > Следующая >>>

Министерство образования и науки Российской Федерации

ФГАОУ ВО «УрФУ имени первого Президента России Б. Н. Ельцина»

Институт радиоэлектроники и информационных технологий – РтФ

Депортамент радиоэлектроники информационных систем

EXTREME GRADIENT BOOSTING Отчет по учебно-исследовательской работе студента

Преподаватель ______________Бородин Андрей Михайлович

Студентка гр. РИ-340005 ______________Бабайлова Маргарита Леонидовна

Оценка работы ______________

Екатеринбург

2016

Часть 1. Введение

В реальной жизни мы сталкиваемся с классом задач, где объектом предсказания является номинативная переменная с двумя градациями. Например, купит ли покупатель исследуемый продукт или нет, расплатится ли заемщик по кредиту или уволится ли сотрудник из компании в ближайшее время и.т.д.

Модель XGboost, основанная на построении бинарных деревьев решений способна поддерживать многопоточную обработку данных и строить направленную композицию: каждый следующий алгоритм исправляет ошибки предыдущего.

Рисунок 1. Небольшой пример для понимания.

Часть 2. Общие сведения

Бустинг — это подход к построению композиций, в рамках которого:

• Базовые алгоритмы строятся последовательно, один за другим.

• Каждый следующий алгоритм строится таким образом, чтобы исправлять ошибки уже построенной композиции. Благодаря тому, что построение композиций в бустинге является направленным, достаточно использовать простые базовые алгоритмы, например неглубокие деревья.

Градиентный бустинг способ направленного построения композиции, которая является суммой, а не усреднением базовых алгоритмов b_i(x).

Это связано с тем, что алгоритмы обучаются последовательно, и каждый следующий корректирует ошибки предыдущих.

Пусть задана функция потерь L(y, z), где y — истинный ответ, z — прогноз алгоритма на некотором объекте.

Примерами возможных функций потерь являются:

• среднеквадратичная ошибка (в задаче регрессии):

• логистическая функция потерь (в задаче классификации):

Инициализация.

В начале построения композиции по методу градиентного бустинга нужно ее инициализировать, то есть построить первый базовый алгоритм b0(x). Этот алгоритм не должен быть сколько-нибудь сложным и не стоит тратить на него много усилий.

Например, можно использовать:

• алгоритм b₀(x) = 0, который всегда возвращает ноль (в задаче регрессии);

• более сложный, который возвращает средний по всем элементам обучающей выборки истинный ответ (в задаче регрессии);

• алгоритм, который всегда возвращает метку самого распространенного класса в обучающей выборке (в задаче классификации).

Обучение базовых алгоритмов происходит последовательно. Пусть к некоторому моменту обучены N − 1 алгоритмов b₁(x), ..., b_N−1(x), то есть композиция имеет вид:

Теперь к текущей композиции добавляется еще один алгоритм b_N (x). Этот алгоритм обучается так, чтобы как можно сильнее уменьшить ошибку композиции на обучающей выборке:

Сначала имеет смысл решить более простую задачу: определить, какие значения s₁, ..., s_lдолжен принимать алгоритм b_N (x_i) = s_i на объектах обучающей выборки, чтобы ошибка на обучающей выборке была минимальной:

, где s = (s₁, ..., s_l) — вектор сдвигов.

Другими словами, необходимо найти такой вектор сдвигов s, который будет минимизировать функцию F(s).

Поскольку направление наискорейшего убывания функции задается направлением антиградиента, его можно принять в качестве вектора s:

Компоненты вектора сдвигов s, фактически, являются теми значениями, которые на объектах обучающей выборки должен принимать новый алгоритм b_N (x), чтобы минимизировать ошибку строящейся композиции. Обучение b_N (x), таким образом, представляет собой задачу обучения на размеченных данных, в которой

— обучающая выборка, и используется, например, квадратичная функция ошибки:

Следует обратить особое внимание на то, что информация об исходной функции потерь L(y, z), которая не обязательно является квадратичной, содержится в выражении для вектора оптимального сдвига s. Поэтому для большинства задач при обучении b_N (x) можно использовать квадратичную функцию потерь.

Описание алгоритма градиентного бустинга:

Инициализация композиции:

a₀(x) = b₀(x), то есть построение простого алгоритма b₀.

Шаг итерации:

(a) Вычисляется вектор сдвига

(b) Строится алгоритм

, параметры которого подбираются таким образом, что его значения на элементах обучающей выборки были как можно ближе к вычисленному вектору оптимального сдвига s.

Если не выполнен критерий останова, то выполнить еще один шаг итерации. Если критерий останова выполнен, остановить итерационный процесс.

1 / 31 2 3 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
22.02.2015484.35 Кб63Main_shpora_REd.doc
#
01.05.2025200.19 Кб2Maket_RR_Zhiloe_zdanie.doc
#
14.04.2019107.42 Кб6makroekonomika.docx
#
23.02.201530.93 Mб6Maple6_см. 472-478.pdf
#
05.09.201984.77 Кб5Marble Sorters.docx
#
01.07.20251.01 Mб3Margo_УИРС.doc
#
11.08.2019240.64 Кб6mark.doc
#
13.03.2016224.89 Кб33Marketing_Konspekt_lektsiy.docx
#
12.03.201630.72 Кб28Marketing_kontr-rabota.doc
#
20.07.2019270.02 Кб3marketing_morozhenoe.docx
#
01.04.2025305.15 Кб2Markin.doc