
- •2. Генеральная совокупность, понятие репрезентативности выборки из данных. Смещение выборки.
- •3. Частотные распределения. Разница между нормальным и равномерным распределением. Приведите пример визуализации графика распределения для своего набора данных.
- •4. Визуализация данных. Линейный график, столбчатые диаграммы, гистограммы, диаграммы рассеяния. Изобразить графически, описать суть графиков.
- •5. Меры вариативности. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.
- •6. Меры центральной тенденции. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.
- •8. Определение выброса в данных. Приведите примеры конвенций для определения верхней и нижней границы нормальных значений данных. Через iqr или sigma
- •10. Определение корреляции в данных. Свойства коэффициента корреляции. Формула для нахождения коэффициента корреляции.
- •Свойства коэффициента корреляции
- •1. Изменяется от −1 до 1 (чем ближе коэффициент корреляции по модулю к 1, тем сильнее связь.)
- •2. Положительный коэффициент корреляции свидетельствует о прямой зависимости.
- •3. Отрицательный коэффициент корреляции свидетельствует об обратной зависимости.
- •Использование и интерпретация корреляции
- •11. Сформулируйте центральную предельную теорему. Объясните её постулаты на практическом примере. Сформулируйте закон больших чисел.
- •Шаг 1: Формулировка основной и альтернативной гипотезы
- •Шаг 3: Определение статистического критерия
- •Шаг 4: Формулировка правила принятия решения
- •Шаг 5: Принятие решения
- •Критическая область проверки гипотезы - область выборочного пространства; при попадании статистики критерия в критическую область, нулевая гипотеза отклоняется.
- •15. Сформулируйте определения параметрических и непараметрических критериев при тестировании гипотез. Критерий согласия хи-квадрат. Определение и применение.
- •16. Критерий независимости хи-квадрат при тестировании гипотез. Для чего используется? Что такие таблица сопряженности?
- •17. Параметрические критерии. T-статистика. Напишите определение и формулу для вычисления. Понятие степеней свободы.
- •18. Одновыборочный и парный t-тест. Объяснить разницу. Придумать пример на тестирование гипотезы одним из тестов, вычислить t-наблюдаемое.
- •23. Машина опорных векторов. Для решения каких задач применяется алгоритм? Объясните смысл алгоритма. Понятие гиперплоскости. Напишите наиболее распространенные ядерные функции.
- •26. Алгоритм knn. Для решения каких задач применяется алгоритм? Формула нахождения Евклидового расстояния. Опишите порядок действий при работе алгоритма.
- •28. Алгоритм Градиентного Бустинга. Для решения каких задач применяется алгоритм? Объясните принцип работы алгоритма. Основные параметры при работе алгоритма. Популярные реализации алгоритма.
- •Init – какой алгоритм мы будем использовать в качестве главного (именно его и улучшает техника бустинга).
28. Алгоритм Градиентного Бустинга. Для решения каких задач применяется алгоритм? Объясните принцип работы алгоритма. Основные параметры при работе алгоритма. Популярные реализации алгоритма.
Градиентный бустинг – это продвинутый алгоритм машинного обучения для решения задач классификации и регрессии. Он строит предсказание в виде ансамбля слабых предсказывающих моделей, которыми в основном являются деревья решений. Из нескольких слабых моделей в итоге мы собираем одну, но уже эффективную.
Общая идея алгоритма – последовательное применение предиктора (предсказателя) таким образом, что каждая последующая модель сводит ошибку предыдущей к минимуму.
Принцип работы градиентного бустинга заключается в следующем:
1. Сначала строится базовая модель, которая может быть любой моделью машинного обучения. Эта модель используется для предсказания значений целевой переменной.
2. Затем для каждого наблюдения вычисляется ошибка предсказания базовой модели. Это значение называется "потерь" или "ошибкой".
После этого строится новое дерево решений, которое минимизирует общую ошибку путем корректировки ошибок предыдущего дерева. Каждое новое дерево пытается исправить ошибки предыдущих деревьев.
Этот процесс повторяется несколько раз до тех пор, пока не будет достигнут определенный уровень точности или не будет достигнуто максимальное количество деревьев.
Стоит отметить, что для задач классификации и регрессии реализация алгоритма в программировании будет различаться.
Параметры алгоритма
loss – функция ошибки для минимизации.
criterion – критерий выбора расщепления, Mean Absolute Error (MAE) или Mean Squared Error (MSE). Используется только при построении деревьев.
Init – какой алгоритм мы будем использовать в качестве главного (именно его и улучшает техника бустинга).
learning_rate – скорость обучения.
n_estimators – число итераций в бустинге. Чем больше, тем лучше качество, однако слишком большой увеличение данного параметра может привести к ухудшению производительности и переобучению.
min_samples_split – минимальное число объектов, при котором происходит расщепление. С данным параметром мы можем избежать переобучение.
min_samples_leaf – минимальное число объектов в листе (узле). При увеличении данного параметра качество модели на обучении падает, в то время как время построения модели сокращается. Меньшие значения стоит выбирать для менее сбалансированных выборок.
max_depth – максимальная глубина дерева. Используется для того, чтобы исключить возможность переобучения.
max_features – количество признаков, учитываемых алгоритмом для построения расщепления в дереве.
max_leaf_nodes : Максимальное число верхних точек в дереве. При наличии данного пара`метра max_depth будет игнорироваться.
Основные параметры при работе алгоритма:
• Количество деревьев: Количество слабых деревьев, которые необходимо построить.
• Глубина дерева: Максимальная глубина деревьев решений.
• Скорость обучения: Скорость, с которой алгоритм уменьшает веса наблюдений.
• Регуляризация: Параметр, который предотвращает переобучение модели.
Популярные реализации алгоритма:
• XGBoost (Extreme Gradient Boosting)
• LightGBM (Light Gradient Boosting Machine)
• CatBoost (Categorical Boosting)