- •Генеральная совокупность, понятие репрезентативности выборки из данных. Смещение выборки.
- •Частотные распределения. Разница между нормальным и равномерным распределением. Приведите пример визуализации графика распределения для своего набора данных.
- •Визуализация данных. Линейный график, столбчатые диаграммы, гистограммы, диаграммы рассеяния. Изобразить графически, описать суть графиков.
- •Меры вариативности. Перечислить основные типы (4), написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.
- •Влияние выбросов.
- •Меры центральной тенденции. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.
- •Влияние выбросов.
- •Определение выброса в данных. Приведите примеры конвенций для определения верхней и нижней границы нормальных значений данных. Через iqr или sigma
- •Определение корреляции в данных. Свойства коэффициента корреляции. Формула для нахождения коэффициента корреляции.
- •. Сформулируйте центральную предельную теорему. Объясните её постулаты на практическом примере. Сформулируйте закон больших чисел.
- •Сформулируйте определения параметрических и непараметрических критериев при тестировании гипотез. Критерий согласия хи-квадрат. Определение и применение.
- •Критерий независимости хи-квадрат при тестировании гипотез. Для чего используется? Что такие таблица сопряженности?
- •Параметрические критерии. T-статистика. Напишите определение и формулу для вычисления. Понятие степеней свободы.
- •Одновыборочный и парный t-тест. Объяснить разницу. Придумать пример на тестирование гипотезы одним из тестов, вычислить t-наблюдаемое.
- •Простое сравнение для определения разницы:
- •Машина опорных векторов. Для решения каких задач применяется алгоритм? Объясните смысл алгоритма. Понятие гиперплоскости. Напишите наиболее распространенные ядерные функции.
- •Алгоритм knn. Для решения каких задач применяется алгоритм? Формула нахождения Евклидового расстояния. Опишите порядок действий при работе алгоритма.
- •Алгоритм Градиентного Бустинга. Для решения каких задач применяется алгоритм? Объясните принцип работы алгоритма. Основные параметры при работе алгоритма. Популярные реализации алгоритма.
Алгоритм knn. Для решения каких задач применяется алгоритм? Формула нахождения Евклидового расстояния. Опишите порядок действий при работе алгоритма.
KNN, или метод k-ближайших соседей, — это простой способ предсказать классификацию объекта или его численное значение, основываясь на данных, которые уже у нас есть. Мы смотрим на k самых похожих примеров (соседей) и на основе их данных делаем выводы о новом объекте.
Для чего используется KNN?
Классификация: Определяем, к какой группе принадлежит новый объект, смотря на его соседей. Например, является ли письмо спамом. (Если мы хотим узнать, будет ли письмо спамом, и выбрали k=3, мы находим три самых похожих письма. Если два из них — спам, а одно — нет, мы решаем, что письмо, вероятно, тоже спам.)
Регрессия: Предсказываем число, например цену на дом, смотря на цены ближайших похожих домов.
Формула:
Есть
две точки P
и Q
c
координатами P
= (
и Q
=
Тогда
Евклидово расстояние между ними считаем
так:
Порядок действий:
Выбор k. Число k говорит, сколько ближайших соседей будем изучать
Измерение Евклидового расстояния. Измеряем Евклидово расстояние от нового объекта до ВСЕХ известных объектов
Найдем соседа. Определим k ближайших соседей (первые k-соседей с наименьшим Евклидовым расстоянием)
Примем решение.
Если задача классификации – выбираем самый частый класс среди соседей
Регрессия – среднее значение у соседей для предсказания
Алгоритм Random Forest. Для решения каких задач применяется алгоритм? Формула итогового классификатора. Порядок действий в алгоритме. Назовите критерии расщепления. Назовите важные параметры для работы алгоритма и объясните их суть.
Алгоритм Random Forest — это мощный метод машинного обучения, который использует группу решающих деревьев для решения задач классификации и регрессии. Применение: классификация и регрессия
Порядок действий в алгоритме:
Из основного набора данных создаём несколько маленьких выборок.
Для каждой подвыборки строится дерево. При построении каждого дерева используется только часть доступных признаков.
Каждое дерево решает свою задачу отдельно, пытаясь наилучшим образом ответить на вопрос (классифицировать или предсказать).
После того как все деревья построены, Random Forest смотрит на ответы всех деревьев и выбирает наиболее часто встречающийся ответ как окончательное решение для классификации или среднее всех ответов для регрессии.
Важные параметры алгоритма:
n_estimators - количество деревьев в лесу (Больше деревьев - больше точность, но выше время обучения)
max_features - максимальное кол-во признаков
max_depth - максимальная глубина каждого дерева
min_samples_leaf - минимальное количество образцов в листовом узле.
bootstrap - Если True, то каждое дерево строится на основе случайной выборки данных с возможностью повторного появления одних и тех же данных в одной выборке.
Критерии расщепления - как лучше всего разделить данные на этапе каждого узла дерева.
Индекс Джинни. Измеряет, насколько часто случайно выбранный элемент будет неправильно классифицирован
Энтропия (информационный прирост) измеряет степень неопределенности в узле. Информационный прирост рассчитывается как разница между энтропией до разделения и после него.
Снижение дисперсии.
