Добавил:
при поддержке музыки группы Anacondaz Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
1
Добавлен:
07.06.2026
Размер:
1.99 Mб
Скачать

бустинга остаётся практически не изученным. Отдельные работы по многопутевым деревьям для одиночных классификаторов [53, 54] не распространялись на ансамблевые методы. Анализ возможности такого расширения требует обращения к более широкому контексту троичности − как структурного принципа, неоднократно проявлявшего себя в логике, арифметике и современном машинном обучении.

1.4Троичный принцип в логике, арифметике и машинном обучении

1.4.1Многозначные логики и троичные системы счисления

Классическая двузначная логика, формализованная Булем, долгое время считалась единственной основой для вычислительных систем. Однако в начале

XX века исследователи обнаружили, что отказ от принципа исключённого третьего позволяет строить более гибкие формальные системы. Первой систематической работой стала трёхзначная логика Я. Лукасевича (1920) [55],

ввёдшего значение «возможно» (1/2) наряду с «истина» (1) и «ложь» (0).

Независимо Э. Пост (1921) разработал общую теорию k-значных логик, доказав функциональную полноту для произвольного k ≥ 2 [56].

В дальнейшем появились логика С.К. Клини («неизвестно») [57], логика Д.А. Бочвара («бессмысленно») [58] и нечёткая логика Л.А. Заде (непрерывный интервал [0, 1]) [59, 60]. Систематический обзор многозначных логических систем и их приложений в искусственном интеллекте содержится в монографии А.С. Карпенко [61], а также в работе Д.А. Поспелова [62]. Несмотря на различия в семантической интерпретации третьего значения, все эти системы при k = 3

обладают общей структурной особенностью: информация организуется в три непересекающиеся категории. Этот принцип троичного разбиения воспроизводится не только в логических исчислениях, но и в архитектуре вычислительных структур, что согласуется с гипотезой настоящей работы о троичности как универсальном способе декомпозиции пространства признаков.

26

Двоичная система стала стандартом вычислительной техники преимущественно по инженерным причинам: двухустойчивые элементы

(триггеры) проще в реализации и обладают максимальным запасом помехоустойчивости. Однако с точки зрения информационной эффективности она не является оптимальной [63]. Сравнение систем счисления проводится через показатель радикальной экономичности (radix economy) − произведение основания системы r на число разрядов, необходимых для представления числа

N:

( ) = · = ( / ) ·

Функция r/ln r достигает минимума при r = e ≈ 2,718. Среди натуральных оснований ближайшим к оптимуму является именно r = 3, что делает троичную систему теоретически наиболее экономичной для компактного представления данных [63, 64].

Троичная система существует в двух формах: несимметричной {0, 1, 2} и

симметричной (балансированной) {−1, 0, +1}. Последняя представляет особый интерес для машинного обучения:

отрицание числа достигается инверсией знака всех цифр без дополнительных операций;

округление до ближайшего целого эквивалентно усечению младших разрядов;

диапазон n-разрядных чисел симметричен: от −(3ⁿ − 1)/2 до (3ⁿ − 1)/2.

Балансированная троичная система естественным образом соответствует

структуре троичного дерева решений: каждый узел сравнивает значение признака с двумя порогами θ < θ и формирует три ветви − «меньше θ », «между

θ и θ », «больше θ ». Это прямое соответствие цифрам {−1, 0, +1} позволяет формализовать троичное ветвление в терминах алгебраических операций над тернарными представлениями [64].

Множество {−1, 0, +1} со сложением и умножением по модулю 3 образует кольцо вычетов /3 , являющееся простым полем . Это гарантирует наличие

27

обратной аддитивной и мультипликативной операций для всех ненулевых элементов, что позволяет переносить аппарат линейной алгебры и теории конечных полей на троичные структуры [65].

Функциональная полнота тернарной логики над доказана Г. Эпштейном

[66]: набор операций {max, min, ¬, сдвиг} позволяет построить любую троичную логическую функцию. В контексте алгоритмов машинного обучения это означает, что троичные предикаты в узлах дерева могут быть выражены через конечный набор базовых операций без потери выразительности.

Арифметические операции в балансированной системе обладают удобными для оптимизации свойствами: сложение допускает переносы обоих знаков (+1 и −1), а умножение на цифру сводится к трём элементарным действиям (смена знака, обнуление, тождественное отображение). Хотя полная аппаратная реализация тернарных процессоров исторически сталкивалась с проблемами помехоустойчивости, алгебраическая замкнутость обеспечивает строгую математическую основу для формализации троичных разбиений в градиентном бустинге, что использовано при выводе обобщённой формулы прироста в подразделе 2.2 диссертации.

Поскольку базовым учеником градиентного бустинга является дерево решений, комбинаторные свойства d-арных деревьев напрямую влияют на эффективность ансамбля. Полное d-арное дерево глубины h содержит:

число листьев: L(d, h) = dʰ;

число внутренних узлов: ( , ) = ( ʰ − 1)/( − 1);

общее число узлов: ( , ) = ( +1 − 1)/( − 1).

При фиксированном числе листьев L минимальная необходимая глубина определяется как ( , ) = . Соотношение минимальных глубин для троичного и двоичного деревьев:

(3, )/ (2, ) ≈ 3 / 2 = 2/ 3 ≈ 0,631.

Это означает, что троичное дерево достигает того же числа листьев при

глубине, меньшей примерно на 37 %. В контексте градиентного бустинга

28

глубина дерева напрямую связана с порядком учитываемых взаимодействий признаков: дерево с J листьями моделирует зависимости до (J − 1)-го порядка

[36]. Сокращение глубины при троичном ветвлении снижает число последовательных разбиений на пути от корня к листу, что действует как структурная регуляризация и уменьшает риск переобучения на шуме.

С другой стороны, при фиксированной глубине h троичное дерево имеет в

(3/2)ʰ раз больше листьев, чем двоичное, то есть обладает значительно большей ёмкостью модели. Комбинаторный анализ Флайоле и Седжвика [67] показывает,

что среднее число внутренних узлов в случайном троичном дереве с n листьями равно (n − 1)/2, тогда как в двоичном − n − 1. Меньшее число внутренних узлов означает меньшую структурную сложность гипотезного класса, что согласно теории статистического обучения соответствует лучшей обобщающей способности при одинаковой аппроксимационной силе [68, 69].

Таким образом, троичное ветвление предлагает теоретически обоснованный компромисс: сокращение глубины (регуляризация, ускорение инференса, снижение порядка взаимодействий) при контролируемом росте ёмкости (сохранение способности к аппроксимации). Влияние этого баланса на сходимость градиентного бустинга и обобщающую способность ансамбля формализуется в подразделе 2.2 и проверяется экспериментально в последующих главах диссертации.

1.4.2 Исторический прецедент и физическая реализуемость

Практическое воплощение троичных принципов в вычислительной технике наиболее полно реализовано в советской ЭВМ «Сетунь» (1958–1965)

под руководством Н.П. Брусенцова [70, 71]. Машина использовала балансированную троичную систему {−1, 0, +1} и ферритовые трансформаторы,

естественно реализующие три состояния намагниченности. До прекращения выпуска было изготовлено 50 серийных экземпляров, что доказало техническую осуществимость троичных вычислений [72, 73].

29

Прекращение проекта было обусловлено не техническими недостатками, а

административно-экономическими факторами: массовый переход к транзисторным интегральным схемам, стандартизация вокруг двоичной архитектуры и принятие стандарта IEEE 754 закрепили двоичную парадигму.

Ключевые барьеры для троичности носили аппаратный характер: диапазонное кодирование трёх уровней напряжения снижало помехоустойчивость вдвое по сравнению с двоичным [74, 75], а токовое кодирование требовало усложнённой схемотехники, делая троичные элементы дороже при той же элементной базе.

Накопленные инвестиции в программную экосистему, языки и стандарты создали мощный сетевой эффект, исключающий переход на аппаратную троичность.

Переход от математических моделей к физической реализации троичных схем в середине XX века столкнулся с фундаментальным ограничением:

помехоустойчивостью. В двоичной системе допустимый диапазон шума составляет ≈ 50 % от амплитуды сигнала, тогда как при диапазонном трёхуровневом кодировании он снижается до ≈ 33 % [74, 75]. Это требовало прецизионного изготовления компонентов и ограничивало масштабирование.

Несмотря на эксперименты с токовым кодированием, наноструктурами и многоуровневыми ячейками памяти (MLC/TLC NAND), троичность не стала мейнстримом аппаратной индустрии. Однако в 2010-х годах интерес к троичным принципам возродился в программных и алгоритмических доменах: квантизация весов нейронных сетей до {−1, 0, +1}, троичные хеши для поиска сходства,

тернарные деревья в информационном поиске [76, 77].

Важно подчеркнуть: все перечисленные ограничения относятся исключительно к физическому и архитектурному уровням. В области алгоритмов машинного обучения троичность не требует изменения представления данных в памяти или модификации процессорных инструкций.

Структура дерева решений реализуется как логическая конструкция, где поиск порогов и навигация по ветвям происходят в программной среде. Это

30

принципиальное разграничение снимает исторические инженерные аргументы против троичности применительно к алгоритмическим модификациям,

рассматриваемым в данной работе. Современные исследования в области многозначной логики, наноструктур и квантовых систем (кутритов)

подтверждают, что троичность остаётся востребованной как структурный принцип, снижающий логическую глубину и число последовательных операций

[78, 79].

1.4.3 Троичность в современных алгоритмах машинного обучения

Наиболее актуальное направление применения троичных принципов в машинном обучении возникло в середине 2010-х годов в контексте квантизации нейронных сетей. Тернарные нейронные сети (Ternary Weight Networks, TWN) [80] заменяют вещественные веса W значениями из {−1, 0, +1} по правилу:

= +1, если > ; 0, если| | ≤ ; −1, если < − ,

 

 

 

 

где оптимальный

порог

≈ 0,7 · [| |], а

масштабирующий

коэффициент α подбирается для

минимизации ‖ − · ‖2. Введение

нулевого значения придаёт сети разреженность (sparsity), которая действует как встроенная регуляризация. Тернарные сети обеспечивают сжатие модели в ~16

раз при снижении точности всего на 2–3 процентных пункта (против 10–15

пунктов у бинарных сетей), что подтверждает эффективность троичного принципа для параметрической оптимизации [80, 81]. Сравнительный обзор тернарных нейронных сетей применительно к задачам компьютерного зрения приведён в работе А.Г. Гузия и А.В. Гулина [82].

Принципиальное отличие троичности в деревьях решений заключается в уровне применения: здесь она затрагивает не параметры, а структуру модели.

Первые систематические исследования троичных разбиений для непрерывных признаков провёл П. Уткофф [53], предложивший в каждом узле вводить два порога θ < θ , формирующие три ветви: x < θ , θ ≤ x < θ , x ≥ θ . Эмпирически это позволяло снизить глубину дерева на 30–35 % при сопоставимом качестве,

31

что точно соответствует теоретическому соотношению ln 2 / ln 3 ≈ 0,631,

выведенному в подразделе 1.4.2.

Однако работа Уткоффа не получила развития в ансамблевых методах. В

контексте одиночных деревьев многопутевое ветвление приводило к быстрой фрагментации выборки: при малом числе объектов в дочерних узлах статистические оценки становились ненадёжными, что провоцировало переобучение. Последующие сравнительные исследования [54, 83] закрепили предпочтение бинарных деревьев для изолированных моделей. Но в контексте градиентного бустинга ситуация меняется кардинально: каждое дерево обучается на полной (или крупноразмерной суб-) выборке, а регуляризация достигается за счёт shrinkage, стохастичности и ограничения глубины.

Фрагментация данных перестаёт быть критическим ограничением, тогда как структурный выигрыш от сокращения глубины сохраняется.

1.5 Обоснование троичного ветвления в градиентном бустинге

1.5.1 Постановка проблемы и научный пробел

Совокупность рассмотренных в предыдущих разделах исследований позволяет точно сформулировать научную нишу настоящей работы. С одной стороны, троичные принципы доказали свою эффективность в нейронных сетях как механизм параметрической регуляризации и сжатия [80, 81]. С другой стороны, троичное ветвление в деревьях решений имеет теоретическое и экспериментальное обоснование, но изучалось исключительно для одиночных классификаторов [53, 54, 83]. Наконец, все современные реализации градиентного бустинга − XGBoost [43], LightGBM [44] и CatBoost [45] −

используют исключительно бинарные деревья, наследуя стандарт алгоритма

CART [7] без систематической проверки влияния branching factor на качество ансамбля.

Это троякое обстоятельство создаёт чётко идентифицируемый пробел:

отсутствие исследований влияния троичного ветвления на сходимость,

32

обобщающую способность и вычислительную сложность градиентного бустинга. Важно отметить принципиальное различие уровней применения: в

нейронных сетях троичность снижает размерность пространства параметров,

тогда как в деревьях решений она изменяет геометрию разбиения входного пространства и порядок учитываемых взаимодействий признаков.

Настоящая работа исследует модификацию, в которой базовые ученики градиентного бустинга строятся по троичному принципу. Гипотеза состоит в том, что сокращение эффективной глубины дерева при троичном ветвлении действует как структурная регуляризация, изменяя баланс между смещением и дисперсией ансамбля. Теоретическое обоснование этого перехода,

формализация процедуры поиска двойного порога и анализ вычислительной сложности приводятся в подразделе 2.2 диссертации, а экспериментальная проверка проведена в последующих главах.

1.5.2 Троичность как универсальный принцип разбиения пространства

Принцип троичного разбиения повторяется в различных формальных системах именно потому, что три категории часто точнее отражают структуру реальных данных, чем две. Бинарное дерево решений аппроксимирует целевую зависимость последовательными дихотомиями, что не всегда оптимально: при унимодальном распределении целевой переменной в узле один порог близок к оптимальному, однако при бимодальном распределении с промежуточной областью малой плотности естественным является разбиение на три части

(«низкие», «средние», «высокие» значения) [7]. Это наблюдение Бреймана даёт прямое теоретическое обоснование случаев, в которых троичное ветвление предпочтительнее бинарного.

Формальный анализ оптимального числа ветвей показывает нетривиальную зависимость от размерности признаков. В исследованиях оптимизации структуры деревьев решений [84, 85] показано, что для минимизации ожидаемой глубины дерева при фиксированной точности

33

оптимальное число ветвей составляет порядка 1/( +1), где p − размерность пространства. При типичных для машинного обучения значениях p 10–100 это даёт 1,3–1,5, что теоретически указывает на преимущество структур, близких к унарным, однако на практике ограничение на минимальную глубину и регуляризацию смещает оптимум в сторону ветвления низкой кратности. С

другой стороны, минимизация числа листьев при фиксированной глубине требует увеличения ветвления, что создаёт фундаментальный компромисс между глубиной и шириной дерева. Именно баланс этого компромисса исследуется в данной работе.

Естественность троичной декомпозиции подтверждается также эмпирическими наблюдениями в смежных областях. Многие реальные признаки естественным образом делятся на три области (низкий/средний/высокий уровень; норма/отклонение влево/вправо; убыток/равновесие/прибыль), что отмечается как в работах по интерпретируемому машинному обучению [86], так и в прикладных задачах статистического анализа [8, 9]. Троичное дерево моделирует такую структуру одним узлом вместо двух последовательных бинарных, экономя уровни глубины и упрощая интерпретацию.

1.5.3 Влияние структуры дерева на обобщающую способность ансамбля

Ключевое преимущество троичного ветвления − сокращение глубины дерева при сохранении числа листьев J. Как показано в подразделе 1.2.3,

Фридман рекомендует J [4, 8] для базовых учеников [36]. При J = 27 бинарное дерево требует глубины log 27 = 5, тогда как троичное − log 27 = 3. Разница в 1–2 уровня имеет принципиальное значение для структуры моделируемых взаимодействий.

Дерево глубины d способно учитывать взаимодействия признаков порядка не выше d. Снижение глубины с 5 до 3 ограничивает максимальный порядок взаимодействий, что действует как структурная регуляризация. В работах по интерпретируемым моделям с учётом взаимодействий [87] это формализовано

34

через понятие глубины взаимодействия (interaction depth), показывая, что обобщающая способность ансамбля монотонно убывает при превышении порогового значения, зависящего от отношения числа значимых взаимодействий к объёму выборки. Переход к троичным деревьям меньшей глубины смещает модель в сторону более гладких аппроксимаций, снижая риск переобучения на шуме.

С точки зрения ёмкости модели, при фиксированных T (число итераций) и J (листья на итерацию) общее число параметров равно T·J. При фиксированной глубине d троичное дерево имеет в (3/2)ᵈ раз больше листьев, чем бинарное, что требует компенсации через уменьшение d или T. Предлагаемая модификация выбирает первый путь: сохранение T и J при уменьшении d за счёт троичного ветвления. Это обеспечивает более тонкое управление соотношением параметров к объёму выборки · /, критическое для bias-variance trade-off в

ансамблях [15, 88].

Принципиально важно, что в контексте градиентного бустинга трудности применения многопутевого ветвления, возникающие у одиночных классификаторов (фрагментация выборки между ветвями [54]), нивелируются благодаря следующим факторам:

каждое дерево обучается на полной (или крупноразмерной суб-) выборке, что не допускает критического измельчения статистики в ветвях;

последовательность деревьев формирует ансамбль, в котором ошибки и неточности отдельной модели компенсируются последующими итерациями;

явная регуляризация (γ за каждый лист, λ-штраф на веса) делает «излишние» разбиения экономически невыгодными;

shrinkage ν ограничивает вклад каждого отдельного дерева, что снижает чувствительность ансамбля к небольшим структурным изменениям базовых

моделей.

Совокупность этих факторов делает использование троичного ветвления в

градиентном бустинге принципиально более устойчивым по сравнению с его

35

Соседние файлы в папке магистерская диссертация