
- •2. Генеральная совокупность, понятие репрезентативности выборки из данных. Смещение выборки.
- •3. Частотные распределения. Разница между нормальным и равномерным распределением. Приведите пример визуализации графика распределения для своего набора данных.
- •4. Визуализация данных. Линейный график, столбчатые диаграммы, гистограммы, диаграммы рассеяния. Изобразить графически, описать суть графиков.
- •5. Меры вариативности. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.
- •6. Меры центральной тенденции. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.
- •8. Определение выброса в данных. Приведите примеры конвенций для определения верхней и нижней границы нормальных значений данных. Через iqr или sigma
- •10. Определение корреляции в данных. Свойства коэффициента корреляции. Формула для нахождения коэффициента корреляции.
- •Свойства коэффициента корреляции
- •1. Изменяется от −1 до 1 (чем ближе коэффициент корреляции по модулю к 1, тем сильнее связь.)
- •2. Положительный коэффициент корреляции свидетельствует о прямой зависимости.
- •3. Отрицательный коэффициент корреляции свидетельствует об обратной зависимости.
- •Использование и интерпретация корреляции
- •11. Сформулируйте центральную предельную теорему. Объясните её постулаты на практическом примере. Сформулируйте закон больших чисел.
- •Шаг 1: Формулировка основной и альтернативной гипотезы
- •Шаг 3: Определение статистического критерия
- •Шаг 4: Формулировка правила принятия решения
- •Шаг 5: Принятие решения
- •Критическая область проверки гипотезы - область выборочного пространства; при попадании статистики критерия в критическую область, нулевая гипотеза отклоняется.
- •15. Сформулируйте определения параметрических и непараметрических критериев при тестировании гипотез. Критерий согласия хи-квадрат. Определение и применение.
- •16. Критерий независимости хи-квадрат при тестировании гипотез. Для чего используется? Что такие таблица сопряженности?
- •17. Параметрические критерии. T-статистика. Напишите определение и формулу для вычисления. Понятие степеней свободы.
- •18. Одновыборочный и парный t-тест. Объяснить разницу. Придумать пример на тестирование гипотезы одним из тестов, вычислить t-наблюдаемое.
- •23. Машина опорных векторов. Для решения каких задач применяется алгоритм? Объясните смысл алгоритма. Понятие гиперплоскости. Напишите наиболее распространенные ядерные функции.
- •26. Алгоритм knn. Для решения каких задач применяется алгоритм? Формула нахождения Евклидового расстояния. Опишите порядок действий при работе алгоритма.
- •28. Алгоритм Градиентного Бустинга. Для решения каких задач применяется алгоритм? Объясните принцип работы алгоритма. Основные параметры при работе алгоритма. Популярные реализации алгоритма.
- •Init – какой алгоритм мы будем использовать в качестве главного (именно его и улучшает техника бустинга).
6. Меры центральной тенденции. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.
Для начала мы визуально отобразим все значения изученных нами показателей на гистограмме частот, где по оси Х будут откладываться полученные значения, а по оси Y количество этих значений.
Например, мы изучали какой рост встречается в определенной группе людей. По оси Х мы отразим все полученные нами переменные, а по оси Y – сколько людей имели тот или иной рост (это может быть отражено как столбцами, так и просто линией).
Нас может интересовать как что-то единое, общее для всех известных нам переменных (меры центральной тенденции), проще говоря — поможет ответить на вопрос, что объединяет наши данные, так и то, насколько эти переменные друг от друга отличаются (меры изменчивости).
Меры центральной тенденции измеряют среднюю или типичное значение в наборе данных. Они дают представление о том, где сосредоточены данные и как они распределены.
Меры центральной тенденции: Мода, Медиана, Среднее значение
Мода – это самое частое встречающееся значение в описываемой совокупности. На графике моду обозначает самая высокая точка пика. Если два соседних значения встречаются одинаково часто и чаще, чем любое другое значение, мода есть среднее этих двух значений. Так описывается унимодальное распределение.
Медиана – значение, которое делит данные на прямой ровно пополам. То есть слева и справа от медианы будут отложены одинаковое количество значений. При этом не важно, есть ли выбросы и симметрично ли распределение.
Выброс — экстремально малое или большое значение переменной, выбивающееся из общей картины.
Среднее значение – это результат деления суммы всех значений на количество этих значений. Тут уже очень важна симметричность и выбросы, потому что, как все знают, средняя температура и зарплата по больнице всегда очень неплохие.
(Среднее значение и медиана считаются по разному. Медиана в отсортированном массиве, среднее в сортировке не нуждается!!!)
Среднее весьма чувствительно к выбросам и нивелировать их способна только огромная выборка, что может быть накладно. Главное преимущество медианы в ее устойчивости к выбросам — аномально большим или малым значениям, так как при их появлении будет учитываться не значение признака, а лишь количество этих значений.
7. Стандартизированное распределение (z-распределение) и его свойства. Для чего используется? Напишите формулу для нахождения z-оценки. Придумайте пример для нахождения стандартизированного распределения, визуализируйте полученный результат
Стандартизированная оценка (z-оценка) — это относительная мера, которая показывает, на сколько среднеквадратичных отклонений наблюдаемое значение отличается от среднего значения распределения. Знак z-оценки показывает, находится ли значение левее среднего (–) или правее среднего (+). С помощью z-оценок мы можем стандартизировать распределение — выразить все значения в терминах дистанции от среднего. Поэтому z-оценка еще называется стандартизированной.
Выразим z-оценку формулой для генеральной совокупности:
И для выборки:
Z-оценка используется для стандартизации и нормализации данных, а также для выполнения статистических тестов, например, для определения того, насколько наблюдаемое значение отклоняется от среднего значения в распределении. Она помогает сравнивать данные, вычислять вероятности и принимать статистические решения.
В числителе у нас находится отклонение значения от среднего. А разделив его на среднеквадратичное отклонение, мы как раз находим расстояние от значения до среднего в единицах среднеквадратичных отклонений. Можно еще услышать, когда говорят, что значение находится на расстоянии «сколько-то сигм» от среднего. Кстати, зная z-оценку, среднее и среднеквадратичное отклонение, можно легко восстановить и оригинальное значение. Для генеральной совокупности:
Для выборки:
Давайте попробуем рассчитать z-оценку для X=95, принадлежащего генеральной совокупности с μ=86 и σ=7
z=(X–μ)/σ=(95−86)/7=9/7=1.29
Таким образом, мы можем сказать, что наблюдение X=95 находится на расстоянии 1.29 среднеквадратичного отклонения выше среднего.
А теперь давайте по оценке найдем оригинальное значение. Мы знаем, что z=–1.50, μ=60 и σ=8. Восстанавливаем значение по формуле:
X=μ+zσ=60+(–1.50∗8)=60–12=48
Если мы превратим все значения переменной в распределении в z-оценки, то мы получим z-распеределение или стандартизированное распределение. Такое распределение сохранит форму оригинального распределения, но среднее в нем будет равно 0, а среднеквадратичное отклонение — 1.
Z-распределение обладает и важными свойствами. Через z-оценки мы можем описать пропорции нормального распределения:
Если в случае с интерквартильным размахом мы знаем, что он дает нам информацию о разбросе в центральных 50% выборки, то теперь мы можем оценивать и количество данных в частях нормального распределения. Так в интервале от минус одного до плюс одного среднеквадратичного отклонения располагается примерно 68% выборки — то есть самые типичные для нее значения.