- •Генеральная совокупность, понятие репрезентативности выборки из данных. Смещение выборки.
- •Частотные распределения. Разница между нормальным и равномерным распределением. Приведите пример визуализации графика распределения для своего набора данных.
- •Визуализация данных. Линейный график, столбчатые диаграммы, гистограммы, диаграммы рассеяния. Изобразить графически, описать суть графиков.
- •Меры вариативности. Перечислить основные типы (4), написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.
- •Влияние выбросов.
- •Меры центральной тенденции. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.
- •Влияние выбросов.
- •Определение выброса в данных. Приведите примеры конвенций для определения верхней и нижней границы нормальных значений данных. Через iqr или sigma
- •Определение корреляции в данных. Свойства коэффициента корреляции. Формула для нахождения коэффициента корреляции.
- •. Сформулируйте центральную предельную теорему. Объясните её постулаты на практическом примере. Сформулируйте закон больших чисел.
- •Сформулируйте определения параметрических и непараметрических критериев при тестировании гипотез. Критерий согласия хи-квадрат. Определение и применение.
- •Критерий независимости хи-квадрат при тестировании гипотез. Для чего используется? Что такие таблица сопряженности?
- •Параметрические критерии. T-статистика. Напишите определение и формулу для вычисления. Понятие степеней свободы.
- •Одновыборочный и парный t-тест. Объяснить разницу. Придумать пример на тестирование гипотезы одним из тестов, вычислить t-наблюдаемое.
- •Простое сравнение для определения разницы:
- •Машина опорных векторов. Для решения каких задач применяется алгоритм? Объясните смысл алгоритма. Понятие гиперплоскости. Напишите наиболее распространенные ядерные функции.
- •Алгоритм knn. Для решения каких задач применяется алгоритм? Формула нахождения Евклидового расстояния. Опишите порядок действий при работе алгоритма.
- •Алгоритм Градиентного Бустинга. Для решения каких задач применяется алгоритм? Объясните принцип работы алгоритма. Основные параметры при работе алгоритма. Популярные реализации алгоритма.
Сформулируйте определения параметрических и непараметрических критериев при тестировании гипотез. Критерий согласия хи-квадрат. Определение и применение.
Параметрические критерии - методы статистики, которые используются, когда мы знаем, что наши данные распределены определенным образом (например, нормально). С помощью параметрических критериев мы можем сделать выводы о средних значениях, стандартных отклонениях и других числовых характеристиках данных.
Непараметрические критерии - используются, когда мы не знаем, как распределены данные, или они распределены не нормально. Непараметрические методы полезны, когда данные имеют много выбросов.
Критерий хи-квадрат — это непараметрический тест, используемый для определения того, есть ли значимые различия между ожидаемыми и наблюдаемыми частотами в одной или более категориях.
Применение:
1. Тестирование независимости: Используется для проверки, есть ли статистическая связь между двумя категориальными переменными. Например, проверка связи между полом и выбором профессии.
2. Тест хорошей подгонки: С его помощью можно проверить, насколько хорошо теоретическая модель соответствует реальным данным.
Представим, что у магазина есть четыре типа печенья, и магазин думает, что все они продаются поровну. С помощью критерия хи-квадрат можно проверить, действительно ли продажи распределены равномерно по всем четырем типам печенья, или какой-то тип продается лучше или хуже.
Критерий независимости хи-квадрат при тестировании гипотез. Для чего используется? Что такие таблица сопряженности?
Критерий независимости хи-квадрат применяется для проверки гипотезы о том, что две категориальные переменные независимы друг от друга в рамках генеральной совокупности. Например, вы можете использовать этот критерий, чтобы проверить, есть ли связь между полом (мужской, женский) и предпочтением определенного бренда (бренд А, бренд B).
30 мужчин предпочли Бренд
А, а 70 мужчин — Бренд B. 45
женщин предпочли Бренд А, а 55 женщин —
Бренд B.
|
Бренд А |
Бренд В |
Всего |
Мужской |
30 |
70 |
100 |
Женский |
45 |
55 |
100 |
Всего |
75 |
125 |
200 |
Как работает тест?
Шаг 1: Сформулировать гипотезы
Нулевая гипотеза (H0): Пол человека не влияет на предпочтение бренда (переменные независимы).
Альтернативная гипотеза (H1): Пол человека влияет на предпочтение бренда (переменные зависимы).
Шаг 2. Вычислить ожидаемые частоты
Предположим, что пол не влияет на выбор бренда. Если это так, мы ожидаем, что распределение предпочтений будет одинаковым для мужчин и женщин.
Ожидаемое
кол-во = (
)
Ожидаемое
кол-во для мужчин выбирающих А: (
=
37.5
Ожидаемое кол-во для женщин выбирающих А: ( = 37.5
Ожидаемое
кол-во для мужчин выбирающих B:
(
=
62.5
Ожидаемое
кол-во для женщин выбирающих B:
(
=
62.5
Шаг 3. Расчёт статистики хи-квадрат
,
где O
– наблюдаемая частота, Е – ожидаемая
Посчитаем
для каждого варианта и получим
= 4.8.
Если наше значение хи-квадрат больше критического значения, то статистически есть значимая связь между полом и брендом. Отвергаем нулевую гипотезу.
