Добавил:
при поддержке музыки группы Anacondaz Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
0
Добавлен:
07.06.2026
Размер:
6.81 Кб
Скачать
2 слайд:
Градиентный бустинг — основной инструмент анализа табличных данных. Ключевые характеристики модели, помимо точности – это компактность и интерпретируемость.

3 слайд:
При этом все три ведущие реализации используют исключительно бинарные деревья. Бинарное ветвление вынуждает дерево наращивать глубину, что снижает интерпретируемость. Влияние коэффициента ветвления на свойства ансамбля систематически не изучалось.

4 слайд:
Таким образом, цель мой работы — обобщить градиентный бустинг на троичное ветвление и изучить, как многопутевой сплит влияет на характеристики ансамбля.

5 слайд:В стандартном ГБ узел выбирает один порог и делит объекты надвое. В моей троичной модификации — два порога и три ветви. Таким образом, центральным теоретическим результатом работы является формула выигрыша от троичного разбиения.

6 слайд:Далее было доказанное свойство вырождения: если средняя ветвь пуста, троичное разбиение автоматически проигрывает бинарному. На нём держится еще один режим разрабатываемого алгоритма - адаптивный: может использовать как бинарный, так и двичный сплит.

7 слайд:На основе предложенной математической модели троичного и адаптивного ветвления была реализована библиотека TernaryGBM. Она состоит из C++ ядра с Python-обёрткой через ctypes. Ядро делится на модули дерева и бустинга; нет внешних зависимостей, реализована полная совместимость со scikit-learn. Троичный поиск осуществляется гистограммно.

8 слайд:Далее разработанная библиотека была протестирована. Сначала — контролируемая проверка на синтетике: три набора с известной структурой при фиксированных гиперпараметрах, чтобы изолировать эффект ветвления. Главный результат: на немонотонной зависимости троичное и адаптивное ветвление достигает того же качества меньшей глубиной — три уровня вместо четырёх.

9 слайд:При большой фиксированной глубине у троичного дерева избыточная ёмкость, и оно переобучается, но с помощью регуляризации можно устранить около 69% разрыва. Тем ни мение, выигрыш троичного проявляется только при малой глубине.

10 слайд:Следующий этап – эксперименты на реальных данных: 19 наборов для задач регрессии и классификации. Гиперпараметры подбирались индивидуально для каждой модели. Значимость полученных результатов проверялась по рангам с помощью критериев Фридмана, Неменьи и Уилкоксона.

11 слайд:Главный результат: Адаптивный режим неотличим от бинарного по качеству, но строит значимо более мелкие деревья.

12 слайд:Затем была введена мера немонотонности данных и по ней отобрались самые немонотонные наборы. На них при малой глубине троичное дает +6.5% к точности, а адаптивное -- +7% по сравнению с бинарным, но с ростом глубины преимущество убывает.

13 слайд:Более того, в этой нише при глубине 2 — троичный и адаптивный режимы занимают первые два места среди промышленных реализаций по среднему рангу.

14 слайд:Также для того, чтоб доказать устойчивость адаптивного режима был проведен отдельный эксперимент с измерением доли троичных узлов. Который показал отклонение по запускам меньше 1%.

15 слайд:И о производительности. По времени инференса библиотека в среднем быстрее всех четырёх промышленных эталонов — за счёт компактного хранения деревьев и облегчённого предиктора. По обучению однопоточное ядро медленнее, но в пределах одного порядка. Память — до 226 МБ.

16 слайд:Таким образом, все задачи были выполнены, поставленная цель достигнута. Было доказано, что обобщение структуры базового ученика даёт более компактные ансамбли без потери точности. Теоретический вклад — формула выйгрыша для троичного сплита и свойство вырождения; практический — библиотека TernaryGBM. Перспектива — интеграция механизма в промышленный фреймворк.









































Соседние файлы в папке магистерская диссертация