магистерская диссертация / ВКРМ
.pdfбустинга остаётся практически не изученным. Отдельные работы по многопутевым деревьям для одиночных классификаторов [53, 54] не распространялись на ансамблевые методы. Анализ возможности такого расширения требует обращения к более широкому контексту троичности − как структурного принципа, неоднократно проявлявшего себя в логике, арифметике и современном машинном обучении.
1.4Троичный принцип в логике, арифметике и машинном обучении
1.4.1Многозначные логики и троичные системы счисления
Классическая двузначная логика, формализованная Булем, долгое время считалась единственной основой для вычислительных систем. Однако в начале
XX века исследователи обнаружили, что отказ от принципа исключённого третьего позволяет строить более гибкие формальные системы. Первой систематической работой стала трёхзначная логика Я. Лукасевича (1920) [55],
ввёдшего значение «возможно» (1/2) наряду с «истина» (1) и «ложь» (0).
Независимо Э. Пост (1921) разработал общую теорию k-значных логик, доказав функциональную полноту для произвольного k ≥ 2 [56].
В дальнейшем появились логика С.К. Клини («неизвестно») [57], логика Д.А. Бочвара («бессмысленно») [58] и нечёткая логика Л.А. Заде (непрерывный интервал [0, 1]) [59, 60]. Систематический обзор многозначных логических систем и их приложений в искусственном интеллекте содержится в монографии А.С. Карпенко [61], а также в работе Д.А. Поспелова [62]. Несмотря на различия в семантической интерпретации третьего значения, все эти системы при k = 3
обладают общей структурной особенностью: информация организуется в три непересекающиеся категории. Этот принцип троичного разбиения воспроизводится не только в логических исчислениях, но и в архитектуре вычислительных структур, что согласуется с гипотезой настоящей работы о троичности как универсальном способе декомпозиции пространства признаков.
26
Двоичная система стала стандартом вычислительной техники преимущественно по инженерным причинам: двухустойчивые элементы
(триггеры) проще в реализации и обладают максимальным запасом помехоустойчивости. Однако с точки зрения информационной эффективности она не является оптимальной [63]. Сравнение систем счисления проводится через показатель радикальной экономичности (radix economy) − произведение основания системы r на число разрядов, необходимых для представления числа
N:
( ) = · = ( / ) ·
Функция r/ln r достигает минимума при r = e ≈ 2,718. Среди натуральных оснований ближайшим к оптимуму является именно r = 3, что делает троичную систему теоретически наиболее экономичной для компактного представления данных [63, 64].
Троичная система существует в двух формах: несимметричной {0, 1, 2} и
симметричной (балансированной) {−1, 0, +1}. Последняя представляет особый интерес для машинного обучения:
–отрицание числа достигается инверсией знака всех цифр без дополнительных операций;
–округление до ближайшего целого эквивалентно усечению младших разрядов;
–диапазон n-разрядных чисел симметричен: от −(3ⁿ − 1)/2 до (3ⁿ − 1)/2.
Балансированная троичная система естественным образом соответствует
структуре троичного дерева решений: каждый узел сравнивает значение признака с двумя порогами θ < θ и формирует три ветви − «меньше θ », «между
θ и θ », «больше θ ». Это прямое соответствие цифрам {−1, 0, +1} позволяет формализовать троичное ветвление в терминах алгебраических операций над тернарными представлениями [64].
Множество {−1, 0, +1} со сложением и умножением по модулю 3 образует кольцо вычетов /3 , являющееся простым полем . Это гарантирует наличие
27
обратной аддитивной и мультипликативной операций для всех ненулевых элементов, что позволяет переносить аппарат линейной алгебры и теории конечных полей на троичные структуры [65].
Функциональная полнота тернарной логики над доказана Г. Эпштейном
[66]: набор операций {max, min, ¬, сдвиг} позволяет построить любую троичную логическую функцию. В контексте алгоритмов машинного обучения это означает, что троичные предикаты в узлах дерева могут быть выражены через конечный набор базовых операций без потери выразительности.
Арифметические операции в балансированной системе обладают удобными для оптимизации свойствами: сложение допускает переносы обоих знаков (+1 и −1), а умножение на цифру сводится к трём элементарным действиям (смена знака, обнуление, тождественное отображение). Хотя полная аппаратная реализация тернарных процессоров исторически сталкивалась с проблемами помехоустойчивости, алгебраическая замкнутость обеспечивает строгую математическую основу для формализации троичных разбиений в градиентном бустинге, что использовано при выводе обобщённой формулы прироста в подразделе 2.2 диссертации.
Поскольку базовым учеником градиентного бустинга является дерево решений, комбинаторные свойства d-арных деревьев напрямую влияют на эффективность ансамбля. Полное d-арное дерево глубины h содержит:
•число листьев: L(d, h) = dʰ;
•число внутренних узлов: ( , ) = ( ʰ − 1)/( − 1);
•общее число узлов: ( , ) = ( +1 − 1)/( − 1).
При фиксированном числе листьев L минимальная необходимая глубина определяется как ( , ) = . Соотношение минимальных глубин для троичного и двоичного деревьев:
(3, )/ (2, ) ≈ 3 / 2 = 2/ 3 ≈ 0,631.
Это означает, что троичное дерево достигает того же числа листьев при
глубине, меньшей примерно на 37 %. В контексте градиентного бустинга
28
глубина дерева напрямую связана с порядком учитываемых взаимодействий признаков: дерево с J листьями моделирует зависимости до (J − 1)-го порядка
[36]. Сокращение глубины при троичном ветвлении снижает число последовательных разбиений на пути от корня к листу, что действует как структурная регуляризация и уменьшает риск переобучения на шуме.
С другой стороны, при фиксированной глубине h троичное дерево имеет в
(3/2)ʰ раз больше листьев, чем двоичное, то есть обладает значительно большей ёмкостью модели. Комбинаторный анализ Флайоле и Седжвика [67] показывает,
что среднее число внутренних узлов в случайном троичном дереве с n листьями равно (n − 1)/2, тогда как в двоичном − n − 1. Меньшее число внутренних узлов означает меньшую структурную сложность гипотезного класса, что согласно теории статистического обучения соответствует лучшей обобщающей способности при одинаковой аппроксимационной силе [68, 69].
Таким образом, троичное ветвление предлагает теоретически обоснованный компромисс: сокращение глубины (регуляризация, ускорение инференса, снижение порядка взаимодействий) при контролируемом росте ёмкости (сохранение способности к аппроксимации). Влияние этого баланса на сходимость градиентного бустинга и обобщающую способность ансамбля формализуется в подразделе 2.2 и проверяется экспериментально в последующих главах диссертации.
1.4.2 Исторический прецедент и физическая реализуемость
Практическое воплощение троичных принципов в вычислительной технике наиболее полно реализовано в советской ЭВМ «Сетунь» (1958–1965)
под руководством Н.П. Брусенцова [70, 71]. Машина использовала балансированную троичную систему {−1, 0, +1} и ферритовые трансформаторы,
естественно реализующие три состояния намагниченности. До прекращения выпуска было изготовлено 50 серийных экземпляров, что доказало техническую осуществимость троичных вычислений [72, 73].
29
Прекращение проекта было обусловлено не техническими недостатками, а
административно-экономическими факторами: массовый переход к транзисторным интегральным схемам, стандартизация вокруг двоичной архитектуры и принятие стандарта IEEE 754 закрепили двоичную парадигму.
Ключевые барьеры для троичности носили аппаратный характер: диапазонное кодирование трёх уровней напряжения снижало помехоустойчивость вдвое по сравнению с двоичным [74, 75], а токовое кодирование требовало усложнённой схемотехники, делая троичные элементы дороже при той же элементной базе.
Накопленные инвестиции в программную экосистему, языки и стандарты создали мощный сетевой эффект, исключающий переход на аппаратную троичность.
Переход от математических моделей к физической реализации троичных схем в середине XX века столкнулся с фундаментальным ограничением:
помехоустойчивостью. В двоичной системе допустимый диапазон шума составляет ≈ 50 % от амплитуды сигнала, тогда как при диапазонном трёхуровневом кодировании он снижается до ≈ 33 % [74, 75]. Это требовало прецизионного изготовления компонентов и ограничивало масштабирование.
Несмотря на эксперименты с токовым кодированием, наноструктурами и многоуровневыми ячейками памяти (MLC/TLC NAND), троичность не стала мейнстримом аппаратной индустрии. Однако в 2010-х годах интерес к троичным принципам возродился в программных и алгоритмических доменах: квантизация весов нейронных сетей до {−1, 0, +1}, троичные хеши для поиска сходства,
тернарные деревья в информационном поиске [76, 77].
Важно подчеркнуть: все перечисленные ограничения относятся исключительно к физическому и архитектурному уровням. В области алгоритмов машинного обучения троичность не требует изменения представления данных в памяти или модификации процессорных инструкций.
Структура дерева решений реализуется как логическая конструкция, где поиск порогов и навигация по ветвям происходят в программной среде. Это
30
принципиальное разграничение снимает исторические инженерные аргументы против троичности применительно к алгоритмическим модификациям,
рассматриваемым в данной работе. Современные исследования в области многозначной логики, наноструктур и квантовых систем (кутритов)
подтверждают, что троичность остаётся востребованной как структурный принцип, снижающий логическую глубину и число последовательных операций
[78, 79].
1.4.3 Троичность в современных алгоритмах машинного обучения
Наиболее актуальное направление применения троичных принципов в машинном обучении возникло в середине 2010-х годов в контексте квантизации нейронных сетей. Тернарные нейронные сети (Ternary Weight Networks, TWN) [80] заменяют вещественные веса W значениями из {−1, 0, +1} по правилу:
= +1, если > ; 0, если| | ≤ ; −1, если < − , |
|||
|
|
|
|
где оптимальный |
порог |
≈ 0,7 · [| |], а |
масштабирующий |
коэффициент α подбирается для |
минимизации ‖ − · ‖2. Введение |
||
нулевого значения придаёт сети разреженность (sparsity), которая действует как встроенная регуляризация. Тернарные сети обеспечивают сжатие модели в ~16
раз при снижении точности всего на 2–3 процентных пункта (против 10–15
пунктов у бинарных сетей), что подтверждает эффективность троичного принципа для параметрической оптимизации [80, 81]. Сравнительный обзор тернарных нейронных сетей применительно к задачам компьютерного зрения приведён в работе А.Г. Гузия и А.В. Гулина [82].
Принципиальное отличие троичности в деревьях решений заключается в уровне применения: здесь она затрагивает не параметры, а структуру модели.
Первые систематические исследования троичных разбиений для непрерывных признаков провёл П. Уткофф [53], предложивший в каждом узле вводить два порога θ < θ , формирующие три ветви: x < θ , θ ≤ x < θ , x ≥ θ . Эмпирически это позволяло снизить глубину дерева на 30–35 % при сопоставимом качестве,
31
что точно соответствует теоретическому соотношению ln 2 / ln 3 ≈ 0,631,
выведенному в подразделе 1.4.2.
Однако работа Уткоффа не получила развития в ансамблевых методах. В
контексте одиночных деревьев многопутевое ветвление приводило к быстрой фрагментации выборки: при малом числе объектов в дочерних узлах статистические оценки становились ненадёжными, что провоцировало переобучение. Последующие сравнительные исследования [54, 83] закрепили предпочтение бинарных деревьев для изолированных моделей. Но в контексте градиентного бустинга ситуация меняется кардинально: каждое дерево обучается на полной (или крупноразмерной суб-) выборке, а регуляризация достигается за счёт shrinkage, стохастичности и ограничения глубины.
Фрагментация данных перестаёт быть критическим ограничением, тогда как структурный выигрыш от сокращения глубины сохраняется.
1.5 Обоснование троичного ветвления в градиентном бустинге
1.5.1 Постановка проблемы и научный пробел
Совокупность рассмотренных в предыдущих разделах исследований позволяет точно сформулировать научную нишу настоящей работы. С одной стороны, троичные принципы доказали свою эффективность в нейронных сетях как механизм параметрической регуляризации и сжатия [80, 81]. С другой стороны, троичное ветвление в деревьях решений имеет теоретическое и экспериментальное обоснование, но изучалось исключительно для одиночных классификаторов [53, 54, 83]. Наконец, все современные реализации градиентного бустинга − XGBoost [43], LightGBM [44] и CatBoost [45] −
используют исключительно бинарные деревья, наследуя стандарт алгоритма
CART [7] без систематической проверки влияния branching factor на качество ансамбля.
Это троякое обстоятельство создаёт чётко идентифицируемый пробел:
отсутствие исследований влияния троичного ветвления на сходимость,
32
обобщающую способность и вычислительную сложность градиентного бустинга. Важно отметить принципиальное различие уровней применения: в
нейронных сетях троичность снижает размерность пространства параметров,
тогда как в деревьях решений она изменяет геометрию разбиения входного пространства и порядок учитываемых взаимодействий признаков.
Настоящая работа исследует модификацию, в которой базовые ученики градиентного бустинга строятся по троичному принципу. Гипотеза состоит в том, что сокращение эффективной глубины дерева при троичном ветвлении действует как структурная регуляризация, изменяя баланс между смещением и дисперсией ансамбля. Теоретическое обоснование этого перехода,
формализация процедуры поиска двойного порога и анализ вычислительной сложности приводятся в подразделе 2.2 диссертации, а экспериментальная проверка проведена в последующих главах.
1.5.2 Троичность как универсальный принцип разбиения пространства
Принцип троичного разбиения повторяется в различных формальных системах именно потому, что три категории часто точнее отражают структуру реальных данных, чем две. Бинарное дерево решений аппроксимирует целевую зависимость последовательными дихотомиями, что не всегда оптимально: при унимодальном распределении целевой переменной в узле один порог близок к оптимальному, однако при бимодальном распределении с промежуточной областью малой плотности естественным является разбиение на три части
(«низкие», «средние», «высокие» значения) [7]. Это наблюдение Бреймана даёт прямое теоретическое обоснование случаев, в которых троичное ветвление предпочтительнее бинарного.
Формальный анализ оптимального числа ветвей показывает нетривиальную зависимость от размерности признаков. В исследованиях оптимизации структуры деревьев решений [84, 85] показано, что для минимизации ожидаемой глубины дерева при фиксированной точности
33
оптимальное число ветвей составляет порядка 1/( +1), где p − размерность пространства. При типичных для машинного обучения значениях p 10–100 это даёт 1,3–1,5, что теоретически указывает на преимущество структур, близких к унарным, однако на практике ограничение на минимальную глубину и регуляризацию смещает оптимум в сторону ветвления низкой кратности. С
другой стороны, минимизация числа листьев при фиксированной глубине требует увеличения ветвления, что создаёт фундаментальный компромисс между глубиной и шириной дерева. Именно баланс этого компромисса исследуется в данной работе.
Естественность троичной декомпозиции подтверждается также эмпирическими наблюдениями в смежных областях. Многие реальные признаки естественным образом делятся на три области (низкий/средний/высокий уровень; норма/отклонение влево/вправо; убыток/равновесие/прибыль), что отмечается как в работах по интерпретируемому машинному обучению [86], так и в прикладных задачах статистического анализа [8, 9]. Троичное дерево моделирует такую структуру одним узлом вместо двух последовательных бинарных, экономя уровни глубины и упрощая интерпретацию.
1.5.3 Влияние структуры дерева на обобщающую способность ансамбля
Ключевое преимущество троичного ветвления − сокращение глубины дерева при сохранении числа листьев J. Как показано в подразделе 1.2.3,
Фридман рекомендует J [4, 8] для базовых учеников [36]. При J = 27 бинарное дерево требует глубины log 27 = 5, тогда как троичное − log 27 = 3. Разница в 1–2 уровня имеет принципиальное значение для структуры моделируемых взаимодействий.
Дерево глубины d способно учитывать взаимодействия признаков порядка не выше d. Снижение глубины с 5 до 3 ограничивает максимальный порядок взаимодействий, что действует как структурная регуляризация. В работах по интерпретируемым моделям с учётом взаимодействий [87] это формализовано
34
через понятие глубины взаимодействия (interaction depth), показывая, что обобщающая способность ансамбля монотонно убывает при превышении порогового значения, зависящего от отношения числа значимых взаимодействий к объёму выборки. Переход к троичным деревьям меньшей глубины смещает модель в сторону более гладких аппроксимаций, снижая риск переобучения на шуме.
С точки зрения ёмкости модели, при фиксированных T (число итераций) и J (листья на итерацию) общее число параметров равно T·J. При фиксированной глубине d троичное дерево имеет в (3/2)ᵈ раз больше листьев, чем бинарное, что требует компенсации через уменьшение d или T. Предлагаемая модификация выбирает первый путь: сохранение T и J при уменьшении d за счёт троичного ветвления. Это обеспечивает более тонкое управление соотношением параметров к объёму выборки · /, критическое для bias-variance trade-off в
ансамблях [15, 88].
Принципиально важно, что в контексте градиентного бустинга трудности применения многопутевого ветвления, возникающие у одиночных классификаторов (фрагментация выборки между ветвями [54]), нивелируются благодаря следующим факторам:
•каждое дерево обучается на полной (или крупноразмерной суб-) выборке, что не допускает критического измельчения статистики в ветвях;
•последовательность деревьев формирует ансамбль, в котором ошибки и неточности отдельной модели компенсируются последующими итерациями;
•явная регуляризация (γ за каждый лист, λ-штраф на веса) делает «излишние» разбиения экономически невыгодными;
•shrinkage ν ограничивает вклад каждого отдельного дерева, что снижает чувствительность ансамбля к небольшим структурным изменениям базовых
моделей.
Совокупность этих факторов делает использование троичного ветвления в
градиентном бустинге принципиально более устойчивым по сравнению с его
35
