
- •2. Генеральная совокупность, понятие репрезентативности выборки из данных. Смещение выборки.
- •3. Частотные распределения. Разница между нормальным и равномерным распределением. Приведите пример визуализации графика распределения для своего набора данных.
- •4. Визуализация данных. Линейный график, столбчатые диаграммы, гистограммы, диаграммы рассеяния. Изобразить графически, описать суть графиков.
- •5. Меры вариативности. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.
- •6. Меры центральной тенденции. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.
- •8. Определение выброса в данных. Приведите примеры конвенций для определения верхней и нижней границы нормальных значений данных. Через iqr или sigma
- •10. Определение корреляции в данных. Свойства коэффициента корреляции. Формула для нахождения коэффициента корреляции.
- •Свойства коэффициента корреляции
- •1. Изменяется от −1 до 1 (чем ближе коэффициент корреляции по модулю к 1, тем сильнее связь.)
- •2. Положительный коэффициент корреляции свидетельствует о прямой зависимости.
- •3. Отрицательный коэффициент корреляции свидетельствует об обратной зависимости.
- •Использование и интерпретация корреляции
- •11. Сформулируйте центральную предельную теорему. Объясните её постулаты на практическом примере. Сформулируйте закон больших чисел.
- •Шаг 1: Формулировка основной и альтернативной гипотезы
- •Шаг 3: Определение статистического критерия
- •Шаг 4: Формулировка правила принятия решения
- •Шаг 5: Принятие решения
- •Критическая область проверки гипотезы - область выборочного пространства; при попадании статистики критерия в критическую область, нулевая гипотеза отклоняется.
- •15. Сформулируйте определения параметрических и непараметрических критериев при тестировании гипотез. Критерий согласия хи-квадрат. Определение и применение.
- •16. Критерий независимости хи-квадрат при тестировании гипотез. Для чего используется? Что такие таблица сопряженности?
- •17. Параметрические критерии. T-статистика. Напишите определение и формулу для вычисления. Понятие степеней свободы.
- •18. Одновыборочный и парный t-тест. Объяснить разницу. Придумать пример на тестирование гипотезы одним из тестов, вычислить t-наблюдаемое.
- •23. Машина опорных векторов. Для решения каких задач применяется алгоритм? Объясните смысл алгоритма. Понятие гиперплоскости. Напишите наиболее распространенные ядерные функции.
- •26. Алгоритм knn. Для решения каких задач применяется алгоритм? Формула нахождения Евклидового расстояния. Опишите порядок действий при работе алгоритма.
- •28. Алгоритм Градиентного Бустинга. Для решения каких задач применяется алгоритм? Объясните принцип работы алгоритма. Основные параметры при работе алгоритма. Популярные реализации алгоритма.
- •Init – какой алгоритм мы будем использовать в качестве главного (именно его и улучшает техника бустинга).
15. Сформулируйте определения параметрических и непараметрических критериев при тестировании гипотез. Критерий согласия хи-квадрат. Определение и применение.
Критерий различия называют параметрическим, если он основан на конкретном типе распределения генеральной совокупности (как правило, нормальном) или использует параметры этой совокупности (средние, дисперсии и т.д.).
Критерий различия называют непараметрическим, если он не базируется на предположении о типе распределения генеральной совокупности и не использует параметры этой совокупности,
Параметрические критерии используются в задачах проверки параметрических гипотез и включают в свой расчет показатели распределения, например, средние, дисперсии и т.д. Это такие известные классические критерии, как критерий Стьюдента, критерий Фишера и др. Они позволяют сравнить основные параметры генеральных совокупностей, а также оценить разности средних и различия в дисперсиях. Критерии способны выявить тенденции изменения признака, оценить взаимодействие двух и более факторов в воздействии на изменения признака
Непараметрические критерии проверки гипотез основаны на операциях с другими данными, в частности, частотами, рангами и т.п. Это - критерий Манна-Уитни, критерий Уилкоксона и многие другие. Непараметрические критерии позволяют решить некоторые важные задачи, связанные с выявлением различий исследуемого признака, с оценкой сдвига значений исследуемого признака, выявлением различий в распределениях.
Как параметрические, так и непараметрические методы, используемые для сравнения результатов исследований, т.е. для сравнения выборочных совокупностей, заключаются в применении определенных формул и расчетов определенных показателей в соответствии с предписанными алгоритмами. В конечном результате рассчитывается определенная числовая величина К (эмпирическая), которую сравнивают с табличными пороговыми значениями Ккр (критическими).
Критерий согласия Пирсона или критерий согласия χ2 (хи-квадрат) — непараметрический метод, который позволяет оценить значимость различий между фактическим (выявленным в результате исследования) количеством исходов или качественных характеристик выборки, попадающих в каждую категорию, и теоретическим количеством, которое можно ожидать в изучаемых группах при справедливости нулевой гипотезы. Выражаясь проще, метод позволяет оценить статистическую значимость различий двух или нескольких относительных показателей (частот, долей).
Является наиболее часто употребляемым критерием для проверки гипотезы о принадлежности наблюдаемой выборки x1 , x2 , . . . , xn объёмом n некоторому теоретическому закону распределения F ( x , θ ).
Предположим, мы бросаем монету 100 раз и ожидаем, что она выпадет орлом 50 раз и решкой 50 раз. Однако на самом деле мы получаем 60 орлов и 40 решек.
Наблюдаемые частоты: Орел = 60, Решка = 40
Ожидаемые частоты: Орел = 50, Решка = 50
Статистика хи-квадрат = ((60-50)² + (40-50)²)/50 = 4
Критическое значение хи-квадрат с 1 степенью свободы при уровне значимости 0,05 равно 3,841.
Поскольку наша статистика хи-квадрат (4) больше критического значения (3,841), мы отклоняем гипотезу о том, что монета честная.