Добавил:

ajuga_reptans при поддержке музыки группы Anacondaz Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский технический университет связи и информатики

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

магистерская диссертация / ВКРМ

.pdf

Скачиваний:

Добавлен:

07.06.2026

Размер:

1.99 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 78 / 108 9 10 > Следующая >>>

Высокое значение меры означает выраженную «диапазонную» структуру, для

которой троичное разбиение наиболее естественно.

3.2 Контролируемая проверка на синтетических данных

Использованы три синтетических набора по 5000 объектов с 8 признаками:

диапазонная регрессия и диапазонная классификация (немонотонная

«коробочная» структура – целевая зависит от попадания признака в среднюю зону) и монотонная регрессия как контроль. Диапазонной структурой называем ту, для описания которой троичное разбиение использует один узел, тогда как бинарному нужны два уровня дерева.

3.2.1 Качество прогнозирования при фиксированной глубине

При фиксированной глубине 6 (рисунок 3.1, таблицы 3.2–3.3) троичное и адаптивное ветвление не превосходят бинарное: на диапазонной регрессии их

RMSE заметно хуже. Причина – избыточная ёмкость троичного дерева при большой глубине (до 3 листьев против 2 ) и, как следствие, переобучение. На классификации все три режима показывают идентичное качество.

Рисунок 3.1 – Качество по режимам ветвления при глубине 6

Таблица 3.2 – Качество на задачах регрессии (синтетика, среднее ± СКО)

Набор

Режим

RMSE

MAE

R²

Диапазонная регрессия

Бинарное

0.413 ± 0.006

0.290 ± 0.008

0.975 ± 0.001

Диапазонная регрессия

Троичное

0.510 ± 0.050

0.334 ± 0.019

0.962 ± 0.008

Диапазонная регрессия

Адаптивное

0.502 ± 0.034

0.329 ± 0.015

0.963 ± 0.006

Монотонная регрессия

Бинарное

0.387 ± 0.009

0.299 ± 0.008

0.979 ± 0.002

Монотонная регрессия

Троичное

0.417 ± 0.006

0.317 ± 0.004

0.976 ± 0.002

Монотонная регрессия

Адаптивное

0.423 ± 0.004

0.322 ± 0.006

0.975 ± 0.002

Таблица 3.3 – Качество на задаче классификации (синтетика, среднее ± СКО)

Режим	AUC-ROC	AUC-PR	F1	Accuracy	LogLoss
Бинарное	0.964 ± 0.004	0.949 ± 0.001	0.961 ± 0.003	0.959 ± 0.004	0.184 ± 0.016

Троичное	0.964 ± 0.002	0.950 ± 0.003	0.960 ± 0.003	0.957 ± 0.004	0.201 ± 0.016

Адаптивное	0.964 ± 0.003	0.950 ± 0.002	0.960 ± 0.003	0.958 ± 0.004	0.205 ± 0.018

3.2.2 Сложность модели

Сравнение сложности (рисунок 3.2, таблица 3.4) выявляет двойственность:

при равной глубине число листьев у троичного режима в 6–7 раз больше

(избыточная ёмкость), однако на классификации троичное строит заметно более мелкие деревья – средняя глубина 4,3 против 5,4, то есть на ~20% меньше при том же качестве. Компактность троичного режима проявляется именно по глубине.

Рисунок 3.2 – Сложность модели по режимам ветвления

Таблица 3.4 – Сложность модели и вычислительные затраты (синтетика)

Набор

Режим

Ср. гл.

Листья

t об., с

t выв., мкс

Диап. регрессия

Бинарное

5.6 ± 0.0

41.5

± 2.1

0.34

4.57

Диап. регрессия

Троичное

5.6 ± 0.0

284.5

± 16.0

3.79

7.38

Диап. регрессия

Адаптивное

5.6 ± 0.0

275.3

± 14.5

4.21

7.36

Монот.

Бинарное

5.7 ± 0.0

44.0

± 1.1

0.33

4.58

регрессия

Монот.

Троичное

5.6 ± 0.0

262.6 ± 4.3

3.58

7.14

регрессия

Монот.

Адаптивное

5.6 ± 0.0

253.7 ± 6.7

4.00

7.28

регрессия

Диап. классиф.

Бинарное

5.4 ± 0.0

32.6

± 0.7

0.33

5.21

Диап. классиф.

Троичное

4.3 ± 0.1

65.5

± 2.2

0.65

5.90

Диап. классиф.

Адаптивное

4.5 ± 0.1

68.0

± 2.4

0.91

6.21

3.2.3 Зависимость качества от глубины дерева

Свёртка по глубине (рисунок 3.3) раскрывает механизм: на диапазонной регрессии при малой глубине (2–3) троичное и адаптивное ветвление существенно превосходят бинарное, а с ростом глубины бинарное догоняет и обгоняет, тогда как троичное переобучается. Рабочая зона троичного режима именно малая глубина.

Рисунок 3.3 – Зависимость качества от максимальной глубины дерева

3.2.4 Глубина, необходимая для достижения заданного качества

Прямая числовая оценка компактности проиллюстрирована на рисунке 3.4

и в таблице 3.5.

Рисунок 3.4 – Минимальная глубина для достижения целевого качества

Таблица 3.5 – Глубина для достижения качества в пределах 5% от лучшего

Набор	Целевое качество	Бин.	Трч.	Адп.

Диап. регрессия	RMSE 0.405	4	3	3

Монот. регрессия	RMSE 0.380	3	2	2

Диап. классиф.	AUC_ROC 0.917	2	2	2

Минимальная глубина, при которой режим достигает качества в пределах

5% от лучшего: на диапазонной регрессии бинарному нужна глубина 4, а

троичному и адаптивному – 3 (экономия около 25%); на монотонной – 3 против

3.2.5 Влияние регуляризации

Переобучение троичного режима на большой глубине управляемо регуляризацией, что видно на рисунке 3.5 и таблице 3.6.

На диапазонной регрессии при глубине 6 RMSE троичного снижается с

0.520 (без регуляризации) до 0.446 при подборе λ и до 0.449 при подборе γ, тогда как бинарное держится на 0.413. Регуляризация устраняет около 69% разрыва,

что подтверждает ёмкостную природу эффекта.

Рисунок 3.5 – Влияние регуляризации (λ и γ) на качество троичного режима Таблица 3.6 – Восстановление качества троичного режима регуляризацией

(RMSE)

Конфигурация		RMSE

Троичное, без регуляризации	0.520

Троичное, лучшее по λ	0.446

Троичное, лучшее по γ	0.449

Бинарное (опорное)	0.413

3.3 Проверка на реальных данных

Исследование проведено на 19 реальных наборах данных (UCI/OpenML) –

регрессия и классификация, разные домены и объёмы. Поскольку сравнение при единых для всех моделей гиперпараметрах некорректно, т.к. фиксированная конфигурация неизбежно подыгрывает одной из моделей, то был применён индивидуальный подбор гиперпараметров для каждой модели методом случайного поиска со вложенной валидацией.

3.3.1 Рейтинг моделей при индивидуальном подборе гиперпараметров

При честном подборе троичное и адаптивное ветвление по качеству статистически неотличимы от бинарного, как видно по критерию Уилкоксона: p = 0.374 для троичного и p = 0.845 для адаптивного (таблица 3.7). То есть ранее наблюдавшееся отставание было артефактом единой конфигурации. Внешние

библиотеки опережают по точности, что ожидаемо для зрелых промышленных инструментов; механизм ветвления ортогонален им и может быть в них встроен.

Рисунок 3.6 – Диаграмма критических различий

Рисунок 3.7 – Итоговый рейтинг моделей по среднему рангу Таблица 3.7 – Парный критерий Уилкоксона относительно бинарного режима

модель vs TGBM-binary	p-value	вывод
TGBM-ternary	0.374	не значимо

TGBM-adaptive	0.845	не значимо

sklearn-HGB	0.446	не значимо

модель vs TGBM-binary	p-value	вывод
XGBoost	0.879	не значимо

LightGBM	0.446	не значимо

CatBoost	0.42	не значимо

3.3.2 Компактность при равном качестве

Ключевой результат этапа можно увидеть на рисунке 3.8.

Рисунок 3.8 – Равное качество при меньшей глубине (реальные данные, подбор гиперпараметров)

При равном качестве адаптивное ветвление строит существенно более мелкие деревья. Разница в качестве адаптивного и бинарного статистически незначима (Уилкоксон p = 0.845, средняя разница +0.11%), тогда как сокращение глубины статистически значимо (Уилкоксон p < 0.0001, мельче на 18/19 наборах;

средняя глубина листа 1.69 против 3.04). Показательно, что подбор сам выбрал для троичного/адаптивного меньшую глубину (медиана 3–4 против 5 у

бинарного).

3.4 Поиск области эффективности метода

Чтобы найти условия, в которых троичное ветвление повышает точность,

был применён формальный, заданный заранее отбор: для пула кандидатов

(отобранные домены + регрессионный набор OpenML-CTR23) вычислялась мера немонотонности – изотонический разрыв. Далее были отобраны топ-8 самых немонотонных наборов (таблица 3.8).

Таблица 3.8 – Наборы данных с наибольшей немонотонностью

Набор	Задача		n		d		Немонотонность

Superconductivity	reg	12000		79		0.191

CTR23-44964	reg	12000		81		0.191

CTR23-44969	reg	11934		14		0.078

CTR23-44960	reg	768		8		0.064

Bike Sharing Demand	reg	12000		6		0.036

CTR23-44975	reg	12000		48		0.032

CTR23-44977	reg	12000		8		0.030

CTR23-44983	reg	12000		15		0.027

На них модели сравнивались при ограниченной глубине (2, 3 и 5). Согласно выводам, сделанным по эксперименту с синтетическими данными, именно при дефиците глубины троичный узел заменяет целый уровень дерева.

3.4.1 Преимущество по точности в зависимости от глубины

Результат (рисунок 3.9, таблица 3.9) подтверждает гипотезу: при глубине

2 троичное и адаптивное ветвление значимо превосходят бинарное (средний выигрыш +6.51% и +7.02%, победа на 7/8 наборах, Уилкоксон p = 0.016). С

ростом глубины преимущество убывает (+4.04% при глубине 3) и при глубине 5

исчезает (-7.19%).

Рисунок 3.9 – Преимущество по точности в зависимости от глубины дерева

Таблица 3.9 – Выигрыш над бинарным режимом по глубинам на немонотонных данных

	Глубина		Троичное		Адаптивное		Побед		p (трч.)		p (адп.)

2		+6.51%		+7.02%		7/8		0.016		0.016

3		+4.04%		+4.04%		6/8		0.156		0.156

5		-7.19%		-6.78%		4/8		0.578		0.688

Это в точности воспроизводит механизм, предсказанный на синтетике.

3.4.2 Сравнение со всеми методами при малой глубине

При глубине 2 на немонотонных данных троичное и адаптивное ветвление занимают первые два места среди всех семи моделей, опережая XGBoost, LightGBM, CatBoost и sklearn (критерий Фридмана p = 0.0040, N = 8, CD = 3.19),

что видно на рисунке 3.10.

Рисунок 3.10 – Диаграмма критических различий при глубине 2 (немонотонные данные)

Это объясняется тем, что при равной малой глубине троичное разбиение даёт больше «ёмкости на уровень» – что и есть искомое преимущество в нише компактных моделей.

3.5 Проверка соответствия функциональным и нефункциональным

требованиям

Исследование проведено на шести наборах данных разной размерности – от 442 до 48 тысяч объектов (diabetes, breast_cancer, california_housing, superconductivity, bank_marketing, adult); Все семь моделей запущены с идентичными значениями ключевых гиперпараметров: число деревьев 100,

максимальная глубина 6, шаг обучения 0,1, число корзин гистограммы 64. Для корректности сравнения с однопоточным C++-ядром разработанной библиотеки во всех промышленных моделях принудительно установлен режим работы в один поток. Каждая комбинация запущена с тремя значениями зерна разбиения.

<<< < Предыдущая 1 2 3 4 5 6 78 / 108 9 10 > Следующая >>>

Соседние файлы в папке магистерская диссертация

#
07.06.20261.99 Mб1ВКРМ.pdf
#
07.06.20261.37 Mб1ЗАЩИТА_2.0.pdf
#
07.06.20266.81 Кб0речь.txt