Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Margo_УИРС.doc
Скачиваний:
3
Добавлен:
01.07.2025
Размер:
1.01 Mб
Скачать

Часть 4. Преимущества

В течение последних 10 лет бустинг остаётся одним из наиболее популярных методов машинного обучения, наряду с нейронными сетями и машинами опорных векторов.

Основные причины — простота, универсальность, гибкость (возможность построения различных модификаций), и, главное, высокая обобщающая способность.

Благодаря достаточной простоте метода и четкому математическому обоснованию, в каждой конкретной вариации бустинга не сложно провести некоторые математические и алгоритмические оптимизации, которые заметно ускорят работу алгоритма, поэтому этот метод считается одним из наиболее эффективных методов с точки зрения качества классификации.

Во многих экспериментах наблюдалось практически неограниченное уменьшение частоты ошибок на независимой тестовой выборке по мере наращивания композиции. Более того, качество на тестовой выборке часто продолжало улучшаться даже после достижения безошибочного распознавания всей обучающей выборки. Это перевернуло существовавшие долгое время представления о том, что для повышения обобщающей способности необходимо ограничивать сложность алгоритмов. На примере бустинга стало понятно, что хорошим качеством могут обладать сколь угодно сложные композиции, если их правильно настраивать.

Часть 5. Недостатки

Бустинг – трудоемкий метод, и работает он достаточно медленно. Зачастую требуется построение сотен или даже тысяч базовых алгоритмов для композиции.

Кроме того, без дополнительных модификаций он имеет свойство полностью подстраиваться под данные, в том числе под ошибки и выбросы в них.

Идея бустинга обычно плохо применима к построению композиции из достаточно сложных и мощных алгоритмов. Построение такой композиции занимает очень много времени, а качество существенно не увеличивается.

И наконец, результаты работы бустинга сложно интерпретируемы, особенно если в композицию входят десятки алгоритмов.

Часть 4. Области применения

Платформа Геоаналитика.

Интеллектуальная геоинформационная платформа:

Работа с потоками данных •

Автоматизированные процессы обработки и анализа геоданных •

Интерактивная аналитика •

Моделирование и машинное обучение •

Системы поддержки принятия решений и «облачные» геоинформационные сервисы.

Рисунок 2. Платформа Геоаналитика.

Рисунок 3. Межстрановые сравнения.

Заключение

В результате выполнения учебно-исследовательской работы был рассмотрена конкретная реализация градиентного бустинга — пакет XGBoost. Подводя итоги, стоит отметить, что градиентный бустинг в XGBoost имеет ряд важных особенностей.

1. Базовый алгоритм приближает направление, посчитанное с учетом вторых производных функции потерь.

2. Отклонение направления, построенного базовым алгоритмом, измеряется с помощью модифицированного функционала — из него удалено деление на вторуюпроизводную, за счет чего избегаются численные проблемы.

3. Функционал регуляризуется — добавляются штрафы за количество листьев и за норму коэффициентов.

4. При построении дерева используется критерий информативности, зависящий от оптимального вектора сдвига.

5. Критерий останова при обучении дерева также зависит от оптимального сдвига.

12

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]