- •Генеральная совокупность, понятие репрезентативности выборки из данных. Смещение выборки.
- •Частотные распределения. Разница между нормальным и равномерным распределением. Приведите пример визуализации графика распределения для своего набора данных.
- •Визуализация данных. Линейный график, столбчатые диаграммы, гистограммы, диаграммы рассеяния. Изобразить графически, описать суть графиков.
- •Меры вариативности. Перечислить основные типы (4), написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.
- •Влияние выбросов.
- •Меры центральной тенденции. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.
- •Влияние выбросов.
- •Определение выброса в данных. Приведите примеры конвенций для определения верхней и нижней границы нормальных значений данных. Через iqr или sigma
- •Определение корреляции в данных. Свойства коэффициента корреляции. Формула для нахождения коэффициента корреляции.
- •. Сформулируйте центральную предельную теорему. Объясните её постулаты на практическом примере. Сформулируйте закон больших чисел.
- •Сформулируйте определения параметрических и непараметрических критериев при тестировании гипотез. Критерий согласия хи-квадрат. Определение и применение.
- •Критерий независимости хи-квадрат при тестировании гипотез. Для чего используется? Что такие таблица сопряженности?
- •Параметрические критерии. T-статистика. Напишите определение и формулу для вычисления. Понятие степеней свободы.
- •Одновыборочный и парный t-тест. Объяснить разницу. Придумать пример на тестирование гипотезы одним из тестов, вычислить t-наблюдаемое.
- •Простое сравнение для определения разницы:
- •Машина опорных векторов. Для решения каких задач применяется алгоритм? Объясните смысл алгоритма. Понятие гиперплоскости. Напишите наиболее распространенные ядерные функции.
- •Алгоритм knn. Для решения каких задач применяется алгоритм? Формула нахождения Евклидового расстояния. Опишите порядок действий при работе алгоритма.
- •Алгоритм Градиентного Бустинга. Для решения каких задач применяется алгоритм? Объясните принцип работы алгоритма. Основные параметры при работе алгоритма. Популярные реализации алгоритма.
Алгоритм Градиентного Бустинга. Для решения каких задач применяется алгоритм? Объясните принцип работы алгоритма. Основные параметры при работе алгоритма. Популярные реализации алгоритма.
Алгоритм Градиентного Бустинга – это метод, который помогает улучшать прогнозы, используя несколько моделей, которые работают вместе. Много маленьких моделей работают лучше, чем одна большая. Можно представить это как команду спортсменов, где каждый новый участник команды старается исправить ошибки предыдущих, делая общий результат лучше.
Этот метод подходит для множества задач:
Определение цен на что-то (как дома или товары)
Предсказание, сможет ли человек выплатить кредит
Распознавание объектов на фотографиях
Принцип работы алгоритма
Начальное предсказание. Если это задача предсказания цен, он может начать с предсказания средней цены всех предыдущих наблюдений.
Оценка ошибок. Алгоритм смотрит, насколько он ошибся -> вычисляет разницу между реальными значениями и предсказанными.
Построение новой модели. Алгоритм строит новую маленькую модель (обычно это дерево решений), которая пытается предсказать эти ошибки.
Когда новая модель построена, она используется для коррекции предыдущих предсказаний. То есть, алгоритм добавляет результаты этой новой модели к первоначальным предсказаниям, пытаясь сделать итоговые предсказания точнее.
Повторяем процесс
Суммируем вклады всех маленьких моделей и получаем финальное предсказание
Основные параметры
Скорость обучения. Это насколько сильно каждая новая маленькая модель влияет на общий результат.
Количество моделей. Сколько раз алгоритм будет пытаться улучшить предсказание.
Глубина деревьев. Это насколько сложные решения может принимать каждая маленькая модель.
Минимальное количество данных для разделения. Сколько примеров нужно, чтобы начать делать новые предсказания внутри маленькой модели.
Популярные реализации алгоритма
1. XGBoost
2. LightGBM
3. CatBoost
4. H2O
