Добавил:
при поддержке музыки группы Anacondaz Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
1
Добавлен:
07.06.2026
Размер:
1.37 Mб
Скачать

Реальные данные. Компактность

= .

Качество адаптивного и бинарного не различается

< .

Дерево надёжно мельче на 18 из 19 наборов

Средняя глубина листа

. против .

11

Реальные данные. Область эффективности метода

Точность + %

С увеличением глубины убывает.

Условия:

• Данные с немонотонными зависимостями признаков

• Ограниченная глубина деревьев: 2–3 уровня

12

Реальные данные. Область эффективности метода

13

Число троичных узлов в адаптивном режиме

Доля троичных разбиений, которую адаптивный режим выбирает на каждом наборе (глубина 6):

0

5

10

15

20

25

30

35

40

45

50

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

california_housing

 

 

 

 

 

 

 

 

 

 

 

 

 

29,83

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

28,02

 

 

 

 

14–30%

троичных

Диап. регрессия

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

троичные разбиения используются

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Монот. регрессия

 

 

 

 

 

 

 

 

 

 

 

 

27,48

 

 

 

 

существенно, но большинство узлов

 

 

 

 

 

 

 

 

 

 

 

 

 

 

25,38

 

 

 

 

 

 

остаются бинарными.

diabetes

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

22,04

 

 

 

 

 

 

 

 

Выбор устойчив

bank_marketing

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

СКО по зёрнам ≤ 1 %

adult

 

 

 

 

 

 

 

 

 

 

21,92

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Троичность используется только там,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Диап. классиф.

 

 

 

 

 

 

 

 

 

 

20

 

 

 

 

 

 

 

где она улучшает локальное

 

 

 

 

 

 

 

 

14,4

 

 

 

 

 

 

 

 

 

 

разбиение.

 

 

breast_cancer

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

14

Инференс, обучение, память

Время вывода, мкс на объект (среднее по 6 наборам):

 

 

 

 

 

 

Обучение

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

1

2

3

4

5

6

7

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Однопоточное ядро медленнее

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

TGBM-binary

0,75

Инференс

 

 

 

 

 

 

 

 

 

 

 

 

XGBoost, но в пределах одного

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

порядка.

 

 

 

 

 

 

Быстрее всех 4 промышленных эталонов

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Накладные расходы троичного

TGBM-adaptive

0,98

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

над бинарным: ×1.04–3.75; на

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

крупнейших наборах +4–21%.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

XGBoost

 

 

 

 

 

 

2,77

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Память

CatBoost

 

 

 

 

 

 

 

 

 

 

 

 

4,58

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Пик ≤ 226 МБ на всех наборах.

sklearn-HGB

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6,05

 

 

 

Перерасход на обучении —

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

направление дальнейшей

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

оптимизации.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

LightGBM

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6,22

 

 

 

 

15

Вывод

Теоретический вклад

Практический вклад

Перспективы развития

Выведена формула Gain — обобщение критерия XGBoost на троичный случай;

Доказано свойство корректности вырождения;

Троичное ветвление описано как форма структурной регуляризации.

Разработаны 2 режима

• Интеграция механизма

 

модификации метода XGBoost:

троичного ветвления в

 

троичный сплит, адаптивный

промышленные реализации

 

сплит;

(GPU-ускорение,

Разработана библиотека

многопоточность,

 

TernaryGBM с scikit-learn

разреженные и

 

интерфейсом.

категориальные данные).

Доказано: обобщение структуры базового ученика даёт более компактные ансамбли без значительной потери точности.

16

Спасибо за внимание

Готова ответить на ваши вопросы

17

Соседние файлы в папке магистерская диссертация