
- •2. Генеральная совокупность, понятие репрезентативности выборки из данных. Смещение выборки.
- •3. Частотные распределения. Разница между нормальным и равномерным распределением. Приведите пример визуализации графика распределения для своего набора данных.
- •4. Визуализация данных. Линейный график, столбчатые диаграммы, гистограммы, диаграммы рассеяния. Изобразить графически, описать суть графиков.
- •5. Меры вариативности. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.
- •6. Меры центральной тенденции. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.
- •8. Определение выброса в данных. Приведите примеры конвенций для определения верхней и нижней границы нормальных значений данных. Через iqr или sigma
- •10. Определение корреляции в данных. Свойства коэффициента корреляции. Формула для нахождения коэффициента корреляции.
- •Свойства коэффициента корреляции
- •1. Изменяется от −1 до 1 (чем ближе коэффициент корреляции по модулю к 1, тем сильнее связь.)
- •2. Положительный коэффициент корреляции свидетельствует о прямой зависимости.
- •3. Отрицательный коэффициент корреляции свидетельствует об обратной зависимости.
- •Использование и интерпретация корреляции
- •11. Сформулируйте центральную предельную теорему. Объясните её постулаты на практическом примере. Сформулируйте закон больших чисел.
- •Шаг 1: Формулировка основной и альтернативной гипотезы
- •Шаг 3: Определение статистического критерия
- •Шаг 4: Формулировка правила принятия решения
- •Шаг 5: Принятие решения
- •Критическая область проверки гипотезы - область выборочного пространства; при попадании статистики критерия в критическую область, нулевая гипотеза отклоняется.
- •15. Сформулируйте определения параметрических и непараметрических критериев при тестировании гипотез. Критерий согласия хи-квадрат. Определение и применение.
- •16. Критерий независимости хи-квадрат при тестировании гипотез. Для чего используется? Что такие таблица сопряженности?
- •17. Параметрические критерии. T-статистика. Напишите определение и формулу для вычисления. Понятие степеней свободы.
- •18. Одновыборочный и парный t-тест. Объяснить разницу. Придумать пример на тестирование гипотезы одним из тестов, вычислить t-наблюдаемое.
- •23. Машина опорных векторов. Для решения каких задач применяется алгоритм? Объясните смысл алгоритма. Понятие гиперплоскости. Напишите наиболее распространенные ядерные функции.
- •26. Алгоритм knn. Для решения каких задач применяется алгоритм? Формула нахождения Евклидового расстояния. Опишите порядок действий при работе алгоритма.
- •28. Алгоритм Градиентного Бустинга. Для решения каких задач применяется алгоритм? Объясните принцип работы алгоритма. Основные параметры при работе алгоритма. Популярные реализации алгоритма.
- •Init – какой алгоритм мы будем использовать в качестве главного (именно его и улучшает техника бустинга).
16. Критерий независимости хи-квадрат при тестировании гипотез. Для чего используется? Что такие таблица сопряженности?
Критерий независимости хи-квадрат используется для проверки, независимы ли две категориальные переменные. Другими словами, он проверяет, влияет ли одна переменная на распределение другой переменной.
Критерий независимости Хи-квадрат использует следующие нулевые и альтернативные гипотезы:
H0: (нулевая гипотеза) Две переменные независимы.
H1: (альтернативная гипотеза) Две переменные не являются независимыми. (т.е. они связаны)
Мы используем следующую формулу для расчета статистики критерия хи-квадрат X^2 :
Х^2 = Σ(ОЕ) 2 / Е
куда:
Σ: причудливый символ, означающий «сумма».
O: наблюдаемое значение
E: ожидаемое значение
Если p-значение, соответствующее тестовой статистике X^2 со степенями свободы (#rows-1)*(#columns-1), меньше выбранного вами уровня значимости, вы можете отклонить нулевую гипотезу.
Иногда тест независимости Хи-квадрат называют тестом Хи-квадрат на однородность вариаций, но математически они эквивалентны. Идея теста заключается в том, чтобы сравнить информацию выборки (наблюдаемые данные) со значениями, которые можно было бы ожидать, если бы две переменные были действительно независимыми. Основными свойствами теста Хи-квадрат на независимость являются:
Распределение статистики теста - это распределение Хи-квадрат, с (r−1)×(c−1) степенями свободы, где r - количество строк, а c - количество столбцов
Распределение Хи-квадрат является одним из наиболее важных распределений в статистике, наряду с нормальным распределением и F-распределением
Тест Хи-квадрат на независимость имеет правый хвост
Формула для статистики хи-квадрат имеет вид
Таблица сопряжённости, или таблица контингентности, факторная таблица в статистике — средство представления совместного распределения двух переменных, предназначенное для исследования связи между ними. Таблица сопряжённости является наиболее универсальным средством изучения статистических связей, так как в ней могут быть представлены переменные с любым уровнем измерения. Таблицы сопряжённости часто используются для проверки гипотезы о наличии связи между двумя признаками с использованием точного теста Фишера или критерия согласия Пирсона.
Строки таблицы сопряжённости соответствуют значениям одной переменной, столбцы — значениям другой переменной, при этом количественные шкалы предварительно должны быть сгруппированы в интервалы. Например, таблица сопряжённости может быть использована для показа зависимости музыкальных предпочтений от места проживания слушателей.
На пересечении строки и столбца указывается частота совместного появления fij соответствующих значений двух признаков xi и yj. Сумма частот по строке fi. называется маргинальной частотой строки; сумма частот по столбцу f.j — маргинальной частотой столбца.
Сумма маргинальных частот равна объёму выборки n; их распределение представляет собой одномерное распределение переменной, образующей строки или столбцы таблицы. В таблице сопряжённости могут быть представлены как абсолютные, так и относительные частоты (в долях или процентах). Относительные частоты могут рассчитываться по отношению: а) к маргинальной частоте по строке; б) к маргинальной частоте по столбцу; в) к объёму выборки.