магистерская диссертация / ВКРМ
.pdf
Высокое значение меры означает выраженную «диапазонную» структуру, для
которой троичное разбиение наиболее естественно.
3.2 Контролируемая проверка на синтетических данных
Использованы три синтетических набора по 5000 объектов с 8 признаками:
диапазонная регрессия и диапазонная классификация (немонотонная
«коробочная» структура – целевая зависит от попадания признака в среднюю зону) и монотонная регрессия как контроль. Диапазонной структурой называем ту, для описания которой троичное разбиение использует один узел, тогда как бинарному нужны два уровня дерева.
3.2.1 Качество прогнозирования при фиксированной глубине
При фиксированной глубине 6 (рисунок 3.1, таблицы 3.2–3.3) троичное и адаптивное ветвление не превосходят бинарное: на диапазонной регрессии их
RMSE заметно хуже. Причина – избыточная ёмкость троичного дерева при большой глубине (до 3 листьев против 2 ) и, как следствие, переобучение. На классификации все три режима показывают идентичное качество.
Рисунок 3.1 – Качество по режимам ветвления при глубине 6
76
Таблица 3.2 – Качество на задачах регрессии (синтетика, среднее ± СКО)
|
Набор |
|
|
Режим |
|
|
RMSE |
|
|
MAE |
|
|
R² |
|
|
|
|
|
|
|
|
|
|
|
|||||
Диапазонная регрессия |
|
Бинарное |
0.413 ± 0.006 |
|
0.290 ± 0.008 |
|
0.975 ± 0.001 |
|
||||||
|
|
|
|
|
|
|
|
|
||||||
Диапазонная регрессия |
|
Троичное |
0.510 ± 0.050 |
|
0.334 ± 0.019 |
|
0.962 ± 0.008 |
|
||||||
|
|
|
|
|
|
|
|
|
||||||
Диапазонная регрессия |
|
Адаптивное |
0.502 ± 0.034 |
|
0.329 ± 0.015 |
|
0.963 ± 0.006 |
|
||||||
|
|
|
|
|
|
|
|
|
||||||
Монотонная регрессия |
|
Бинарное |
0.387 ± 0.009 |
|
0.299 ± 0.008 |
|
0.979 ± 0.002 |
|
||||||
|
|
|
|
|
|
|
|
|
||||||
Монотонная регрессия |
|
Троичное |
0.417 ± 0.006 |
|
0.317 ± 0.004 |
|
0.976 ± 0.002 |
|
||||||
|
|
|
|
|
|
|
|
|
||||||
Монотонная регрессия |
|
Адаптивное |
0.423 ± 0.004 |
|
0.322 ± 0.006 |
|
0.975 ± 0.002 |
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Таблица 3.3 – Качество на задаче классификации (синтетика, среднее ± СКО)
Режим |
AUC-ROC |
AUC-PR |
F1 |
Accuracy |
LogLoss |
Бинарное |
0.964 ± 0.004 |
0.949 ± 0.001 |
0.961 ± 0.003 |
0.959 ± 0.004 |
0.184 ± 0.016 |
|
|
|
|
|
|
Троичное |
0.964 ± 0.002 |
0.950 ± 0.003 |
0.960 ± 0.003 |
0.957 ± 0.004 |
0.201 ± 0.016 |
|
|
|
|
|
|
Адаптивное |
0.964 ± 0.003 |
0.950 ± 0.002 |
0.960 ± 0.003 |
0.958 ± 0.004 |
0.205 ± 0.018 |
|
|
|
|
|
|
3.2.2 Сложность модели
Сравнение сложности (рисунок 3.2, таблица 3.4) выявляет двойственность:
при равной глубине число листьев у троичного режима в 6–7 раз больше
(избыточная ёмкость), однако на классификации троичное строит заметно более мелкие деревья – средняя глубина 4,3 против 5,4, то есть на ~20% меньше при том же качестве. Компактность троичного режима проявляется именно по глубине.
Рисунок 3.2 – Сложность модели по режимам ветвления
77
Таблица 3.4 – Сложность модели и вычислительные затраты (синтетика)
|
Набор |
|
|
Режим |
|
|
Ср. гл. |
|
|
Листья |
|
|
t об., с |
|
|
t выв., мкс |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
Диап. регрессия |
|
Бинарное |
5.6 ± 0.0 |
|
41.5 |
± 2.1 |
|
0.34 |
|
4.57 |
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
Диап. регрессия |
|
Троичное |
5.6 ± 0.0 |
|
284.5 |
± 16.0 |
|
3.79 |
|
7.38 |
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
Диап. регрессия |
|
Адаптивное |
5.6 ± 0.0 |
|
275.3 |
± 14.5 |
|
4.21 |
|
7.36 |
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Монот. |
|
Бинарное |
5.7 ± 0.0 |
|
44.0 |
± 1.1 |
|
0.33 |
|
4.58 |
|
||||||
|
регрессия |
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Монот. |
|
Троичное |
5.6 ± 0.0 |
|
262.6 ± 4.3 |
|
3.58 |
|
7.14 |
|
|||||||
|
регрессия |
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Монот. |
|
Адаптивное |
5.6 ± 0.0 |
|
253.7 ± 6.7 |
|
4.00 |
|
7.28 |
|
|||||||
|
регрессия |
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
Диап. классиф. |
|
Бинарное |
5.4 ± 0.0 |
|
32.6 |
± 0.7 |
|
0.33 |
|
5.21 |
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
Диап. классиф. |
|
Троичное |
4.3 ± 0.1 |
|
65.5 |
± 2.2 |
|
0.65 |
|
5.90 |
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
Диап. классиф. |
|
Адаптивное |
4.5 ± 0.1 |
|
68.0 |
± 2.4 |
|
0.91 |
|
6.21 |
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3.2.3 Зависимость качества от глубины дерева
Свёртка по глубине (рисунок 3.3) раскрывает механизм: на диапазонной регрессии при малой глубине (2–3) троичное и адаптивное ветвление существенно превосходят бинарное, а с ростом глубины бинарное догоняет и обгоняет, тогда как троичное переобучается. Рабочая зона троичного режима именно малая глубина.
Рисунок 3.3 – Зависимость качества от максимальной глубины дерева
3.2.4 Глубина, необходимая для достижения заданного качества
Прямая числовая оценка компактности проиллюстрирована на рисунке 3.4
и в таблице 3.5.
78
Рисунок 3.4 – Минимальная глубина для достижения целевого качества
Таблица 3.5 – Глубина для достижения качества в пределах 5% от лучшего
Набор |
Целевое качество |
Бин. |
Трч. |
Адп. |
|
|
|
|
|
Диап. регрессия |
RMSE 0.405 |
4 |
3 |
3 |
|
|
|
|
|
Монот. регрессия |
RMSE 0.380 |
3 |
2 |
2 |
|
|
|
|
|
Диап. классиф. |
AUC_ROC 0.917 |
2 |
2 |
2 |
|
|
|
|
|
Минимальная глубина, при которой режим достигает качества в пределах
5% от лучшего: на диапазонной регрессии бинарному нужна глубина 4, а
троичному и адаптивному – 3 (экономия около 25%); на монотонной – 3 против
2.
3.2.5 Влияние регуляризации
Переобучение троичного режима на большой глубине управляемо регуляризацией, что видно на рисунке 3.5 и таблице 3.6.
На диапазонной регрессии при глубине 6 RMSE троичного снижается с
0.520 (без регуляризации) до 0.446 при подборе λ и до 0.449 при подборе γ, тогда как бинарное держится на 0.413. Регуляризация устраняет около 69% разрыва,
что подтверждает ёмкостную природу эффекта.
79
Рисунок 3.5 – Влияние регуляризации (λ и γ) на качество троичного режима Таблица 3.6 – Восстановление качества троичного режима регуляризацией
(RMSE)
|
Конфигурация |
|
|
RMSE |
|
|
|
|
|
||
|
Троичное, без регуляризации |
0.520 |
|
||
|
|
|
|
||
|
Троичное, лучшее по λ |
0.446 |
|
||
|
|
|
|
||
|
Троичное, лучшее по γ |
0.449 |
|
||
|
|
|
|
||
|
Бинарное (опорное) |
0.413 |
|
||
|
|
|
|
|
|
3.3 Проверка на реальных данных
Исследование проведено на 19 реальных наборах данных (UCI/OpenML) –
регрессия и классификация, разные домены и объёмы. Поскольку сравнение при единых для всех моделей гиперпараметрах некорректно, т.к. фиксированная конфигурация неизбежно подыгрывает одной из моделей, то был применён индивидуальный подбор гиперпараметров для каждой модели методом случайного поиска со вложенной валидацией.
3.3.1 Рейтинг моделей при индивидуальном подборе гиперпараметров
При честном подборе троичное и адаптивное ветвление по качеству статистически неотличимы от бинарного, как видно по критерию Уилкоксона: p = 0.374 для троичного и p = 0.845 для адаптивного (таблица 3.7). То есть ранее наблюдавшееся отставание было артефактом единой конфигурации. Внешние
80
библиотеки опережают по точности, что ожидаемо для зрелых промышленных инструментов; механизм ветвления ортогонален им и может быть в них встроен.
Рисунок 3.6 – Диаграмма критических различий
Рисунок 3.7 – Итоговый рейтинг моделей по среднему рангу Таблица 3.7 – Парный критерий Уилкоксона относительно бинарного режима
модель vs TGBM-binary |
p-value |
вывод |
TGBM-ternary |
0.374 |
не значимо |
|
|
|
TGBM-adaptive |
0.845 |
не значимо |
|
|
|
sklearn-HGB |
0.446 |
не значимо |
|
|
|
81
модель vs TGBM-binary |
p-value |
вывод |
XGBoost |
0.879 |
не значимо |
|
|
|
LightGBM |
0.446 |
не значимо |
|
|
|
CatBoost |
0.42 |
не значимо |
|
|
|
3.3.2 Компактность при равном качестве
Ключевой результат этапа можно увидеть на рисунке 3.8.
Рисунок 3.8 – Равное качество при меньшей глубине (реальные данные, подбор гиперпараметров)
При равном качестве адаптивное ветвление строит существенно более мелкие деревья. Разница в качестве адаптивного и бинарного статистически незначима (Уилкоксон p = 0.845, средняя разница +0.11%), тогда как сокращение глубины статистически значимо (Уилкоксон p < 0.0001, мельче на 18/19 наборах;
средняя глубина листа 1.69 против 3.04). Показательно, что подбор сам выбрал для троичного/адаптивного меньшую глубину (медиана 3–4 против 5 у
бинарного).
3.4 Поиск области эффективности метода
Чтобы найти условия, в которых троичное ветвление повышает точность,
был применён формальный, заданный заранее отбор: для пула кандидатов
82
(отобранные домены + регрессионный набор OpenML-CTR23) вычислялась мера немонотонности – изотонический разрыв. Далее были отобраны топ-8 самых немонотонных наборов (таблица 3.8).
Таблица 3.8 – Наборы данных с наибольшей немонотонностью
|
Набор |
|
|
Задача |
|
|
n |
|
|
d |
|
|
Немонотонность |
|
|
|
|
|
|
|
|
|
|
|
|||||
|
Superconductivity |
|
reg |
12000 |
|
79 |
|
0.191 |
|
|||||
|
|
|
|
|
|
|
|
|
|
|||||
|
CTR23-44964 |
|
reg |
12000 |
|
81 |
|
0.191 |
|
|||||
|
|
|
|
|
|
|
|
|
|
|||||
|
CTR23-44969 |
|
reg |
11934 |
|
14 |
|
0.078 |
|
|||||
|
|
|
|
|
|
|
|
|
|
|||||
|
CTR23-44960 |
|
reg |
768 |
|
8 |
|
0.064 |
|
|||||
|
|
|
|
|
|
|
|
|
|
|||||
|
Bike Sharing Demand |
|
reg |
12000 |
|
6 |
|
0.036 |
|
|||||
|
|
|
|
|
|
|
|
|
|
|||||
|
CTR23-44975 |
|
reg |
12000 |
|
48 |
|
0.032 |
|
|||||
|
|
|
|
|
|
|
|
|
|
|||||
|
CTR23-44977 |
|
reg |
12000 |
|
8 |
|
0.030 |
|
|||||
|
|
|
|
|
|
|
|
|
|
|||||
|
CTR23-44983 |
|
reg |
12000 |
|
15 |
|
0.027 |
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
На них модели сравнивались при ограниченной глубине (2, 3 и 5). Согласно выводам, сделанным по эксперименту с синтетическими данными, именно при дефиците глубины троичный узел заменяет целый уровень дерева.
3.4.1 Преимущество по точности в зависимости от глубины
Результат (рисунок 3.9, таблица 3.9) подтверждает гипотезу: при глубине
2 троичное и адаптивное ветвление значимо превосходят бинарное (средний выигрыш +6.51% и +7.02%, победа на 7/8 наборах, Уилкоксон p = 0.016). С
ростом глубины преимущество убывает (+4.04% при глубине 3) и при глубине 5
исчезает (-7.19%).
83
Рисунок 3.9 – Преимущество по точности в зависимости от глубины дерева
Таблица 3.9 – Выигрыш над бинарным режимом по глубинам на немонотонных данных
|
Глубина |
|
|
Троичное |
|
|
Адаптивное |
|
|
Побед |
|
|
p (трч.) |
|
|
p (адп.) |
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
2 |
|
+6.51% |
|
+7.02% |
|
7/8 |
|
0.016 |
|
0.016 |
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
||||||
3 |
|
+4.04% |
|
+4.04% |
|
6/8 |
|
0.156 |
|
0.156 |
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
||||||
5 |
|
-7.19% |
|
-6.78% |
|
4/8 |
|
0.578 |
|
0.688 |
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Это в точности воспроизводит механизм, предсказанный на синтетике.
3.4.2 Сравнение со всеми методами при малой глубине
При глубине 2 на немонотонных данных троичное и адаптивное ветвление занимают первые два места среди всех семи моделей, опережая XGBoost, LightGBM, CatBoost и sklearn (критерий Фридмана p = 0.0040, N = 8, CD = 3.19),
что видно на рисунке 3.10.
84
Рисунок 3.10 – Диаграмма критических различий при глубине 2 (немонотонные данные)
Это объясняется тем, что при равной малой глубине троичное разбиение даёт больше «ёмкости на уровень» – что и есть искомое преимущество в нише компактных моделей.
3.5 Проверка соответствия функциональным и нефункциональным
требованиям
Исследование проведено на шести наборах данных разной размерности – от 442 до 48 тысяч объектов (diabetes, breast_cancer, california_housing, superconductivity, bank_marketing, adult); Все семь моделей запущены с идентичными значениями ключевых гиперпараметров: число деревьев 100,
максимальная глубина 6, шаг обучения 0,1, число корзин гистограммы 64. Для корректности сравнения с однопоточным C++-ядром разработанной библиотеки во всех промышленных моделях принудительно установлен режим работы в один поток. Каждая комбинация запущена с тремя значениями зерна разбиения.
85
