Добавил:
при поддержке музыки группы Anacondaz Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
1
Добавлен:
07.06.2026
Размер:
1.37 Mб
Скачать

Экстремальный градиентный бустинг с троичным ветвлением

 

Выполнила: Курило А. А., группа M092401 (76)

02.06.2026 г

Научный руководитель: зав. кафедрой ПИИ, Соловьёв В. И.

 

Актуальность

Градиентный бустинг — основной инструмент анализа таблиц в банках, медицине и промышленности. Но прикладным задачам всё чаще нужны модели, которые не только точны, а ещё компактны и объяснимы.

Кредитный скоринг

Решение по кредиту должно быть объяснимо клиенту и регулятору

Промышленная

Устройства с малыми

диагностика

ресурсами

Отклик системы должен

Компактность — меньше

укладываться в жёсткие

вычислений и ниже

временные рамки

затраты

2

Проблема

CART 1984

3

Цели и задачи исследования

Цель — снизить эффективную глубину деревьев без потери качества с помощью интеграции метода троичного сплита в алгоритм градиентного бустинга и реализовать модифицированный алгоритм в виде кроссплатформенной библиотеки

1Формализовать критерий качества разбиения узла для троичного режима как обобщение бинарного случая XGBoost

2Сформулировать требования к алгоритму и библиотеке

3Спроектировать архитектуру вычислительного ядра и интерфейс

4Реализовать библиотеку TernaryGBM с поддержкой бинарного, троичного и адаптивного ветвления

5Экспериментально оценить влияние режима ветвления на глубину, сложность, качество и вычислительные затраты

4

Формула прироста информации

Бинарное разбиение:

Троичное разбиение:

Связь бинарного и троичного:

3 ≈ 2

троичное дерево глубины 4

≈ бинарное дерево глубины 6

 

 

5

Адаптивный режим. Корректность вырождения

Свойство корректности вырождения:

При пустой средней ветви троичное разбиение при γ > 0 всегда строго хуже бинарного.

Адаптивный режим корректен без единой дополнительной проверки в коде — это обеспечивает сама структура формулы.

6

Библиотека TernaryGBM

Ключевые свойства

• Кроссплатформенность

• Sklearn-совместимый интерфейс

• Детерминированность

Требования к исходным данным

• X — числовая матрица, без NaN и категориальных строк

• y — вещественное число (регрессия) или метка 0/1 (бинарная классификация)

Multi-class и multi-output не поддерживаются

7

Эксперименты. Синтетические данные

Три синтетических набора по 5000 объектов: две немонотонные «диапазонные» задачи и монотонная регрессия как контроль. Гиперпараметры фиксированы — чтобы изолировать эффект ветвления.

Уменьшение глубины

На немонотонной зависимости троичное и адаптивное достигают того же качества при меньшей глубине дерева.

8

Цена ёмкости и роль регуляризации

9

Реальные данные. Методология эксперимента

1 Данные

2 Оценка

3 Значимость

19 публичных наборов UCI / OpenML —

Вложенная кросс-валидация.

Непараметрические критерии по

регрессия и классификация, разные

Индивидуальный подбор

рангам моделей на наборах данных.

домены и объёмы.

гиперпараметров для каждой модели.

 

Проверка значимости эксперимента:

Критерий Фридмана

Различаются ли модели вообще?

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Критерий Неменьи

 

Критерий Уилкоксона

Все пары моделей

 

Методы против бинарного

Мера немонотонности признака

= 2

2

 

 

2 — качество «свободной» аппроксимации;

2 — качество наилучшей изотонической;

• ² = 1 − Σᵢ( ᵢ − ŷᵢ)² / Σᵢ( ᵢ − ȳ)² — коэффициент детерминации,

где yᵢ — целевое значение объекта i,

ŷᵢ — оценка аппроксимации,

ȳ — среднее значение y по выборке.

10

Соседние файлы в папке магистерская диссертация