
- •2. Генеральная совокупность, понятие репрезентативности выборки из данных. Смещение выборки.
- •3. Частотные распределения. Разница между нормальным и равномерным распределением. Приведите пример визуализации графика распределения для своего набора данных.
- •4. Визуализация данных. Линейный график, столбчатые диаграммы, гистограммы, диаграммы рассеяния. Изобразить графически, описать суть графиков.
- •5. Меры вариативности. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.
- •6. Меры центральной тенденции. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.
- •8. Определение выброса в данных. Приведите примеры конвенций для определения верхней и нижней границы нормальных значений данных. Через iqr или sigma
- •10. Определение корреляции в данных. Свойства коэффициента корреляции. Формула для нахождения коэффициента корреляции.
- •Свойства коэффициента корреляции
- •1. Изменяется от −1 до 1 (чем ближе коэффициент корреляции по модулю к 1, тем сильнее связь.)
- •2. Положительный коэффициент корреляции свидетельствует о прямой зависимости.
- •3. Отрицательный коэффициент корреляции свидетельствует об обратной зависимости.
- •Использование и интерпретация корреляции
- •11. Сформулируйте центральную предельную теорему. Объясните её постулаты на практическом примере. Сформулируйте закон больших чисел.
- •Шаг 1: Формулировка основной и альтернативной гипотезы
- •Шаг 3: Определение статистического критерия
- •Шаг 4: Формулировка правила принятия решения
- •Шаг 5: Принятие решения
- •Критическая область проверки гипотезы - область выборочного пространства; при попадании статистики критерия в критическую область, нулевая гипотеза отклоняется.
- •15. Сформулируйте определения параметрических и непараметрических критериев при тестировании гипотез. Критерий согласия хи-квадрат. Определение и применение.
- •16. Критерий независимости хи-квадрат при тестировании гипотез. Для чего используется? Что такие таблица сопряженности?
- •17. Параметрические критерии. T-статистика. Напишите определение и формулу для вычисления. Понятие степеней свободы.
- •18. Одновыборочный и парный t-тест. Объяснить разницу. Придумать пример на тестирование гипотезы одним из тестов, вычислить t-наблюдаемое.
- •23. Машина опорных векторов. Для решения каких задач применяется алгоритм? Объясните смысл алгоритма. Понятие гиперплоскости. Напишите наиболее распространенные ядерные функции.
- •26. Алгоритм knn. Для решения каких задач применяется алгоритм? Формула нахождения Евклидового расстояния. Опишите порядок действий при работе алгоритма.
- •28. Алгоритм Градиентного Бустинга. Для решения каких задач применяется алгоритм? Объясните принцип работы алгоритма. Основные параметры при работе алгоритма. Популярные реализации алгоритма.
- •Init – какой алгоритм мы будем использовать в качестве главного (именно его и улучшает техника бустинга).
Шаг 1: Формулировка основной и альтернативной гипотезы
Нулевая гипотеза (H0) – утверждение о параметре генеральной совокупности (параметрах генеральных совокупностей) или распределении, которое необходимо проверить.
Альтернативная гипотеза (HA) – утверждение, противоположное нулевой гипотезе. Выдвигается, но не проверяется
H0: мужчины и женщины пользуются интернетом с одинаковой частотой.
HА: мужчины и женщины пользуются интернетом с разной частотой.
Виды альтернативных гипотез
• Односторонняя: H1 утверждает, что разница или эффект существует в определенном направлении (например, больше, меньше).
• Двусторонняя: H1 утверждает, что разница или эффект существует в любом направлении (например, отличается).
Шаг 2: Выбор уровня значимости
Уровень значимости (α) – вероятность отвергнуть верную нулевую гипотезу. Нулевая гипотеза всегда проверяется на определенном уровне значимости. Например, если мы проверяем нулевую гипотезу на уровне значимости 5%, это означает, что если мы будем проводить аналогичные исследования 100 раз и проверять на основе имеющихся данных интересующую нас нулевую гипотезу, в 5 случаях из 100 мы отвергнем нулевую гипотезу, хотя она будет верной.
β – вероятность того, что ложная нулевая гипотеза будет принята.
Уровни значимости, принятые в маркетинговых исследованиях:
α – уровень значимости
0,01 (1%)
0,05 (5%)
(1-α) – уровень доверия (доверительная вероятность)
0,99 (99%)
0,95 (95%)
Шаг 3: Определение статистического критерия
Критерий χ2 (хи-квадрат) используется для проверки статистической значимости взаимосвязей между переменными, наблюдаемых в перекрестных таблицах. Он помогает нам определить, являются ли различия между наблюдаемыми и ожидаемыми данными случайными или они указывают на наличие статистически значимой разницы.
H0: взаимосвязи между переменными нет
Тест χ2 проверяет равенство частотных распределений:
fо – ожидаемые частоты (расчётные значения), которые бы стояли в ячейках, в случае когда связи между переменными нет.
fн – реально наблюдаемые частоты, т.е. значения, которые стоят в составленной нами таблице
Расчёт χ2 следует производить только на основе абсолютных значений частот. Если исходные данные представлены в процентах, то их необходимо пересчитать а абсолютные частоты.
В нашем примере:
Шаг 4: Формулировка правила принятия решения
Kн – наблюдаемое (расчётное) значение статистического критерия.
Kкрит– критическое значение статистического критерия для заданного уровня значимости.
Если Kн меньше уровня значимости (α), то H0 надо отклонить.
Если Kн больше критического значения (Kкрит), то H0 принимается.
Таблица критических значений χ2 для различных α
df=(r-1)(c-1)
df - количество степеней свободы r – количество строк c – количество столбцов
df=(2-1)(2-1)=1
H0 не может быть отклонена
Шаг 5: Принятие решения
Нашлись ли доказательства? Что из этого следует?
- H0 отсутствия различий не может быть отклонена
- Различия не являются статистически значимыми на уровне 0,05
- Полученные на выборке результаты не могут быть обобщены на генеральную совокупность
Пол и частота пользования интернетом
Можем ли мы на основании этой выборки утверждать, что во всем населении среди мужчин больше активных интернет пользователей, чем среди женщин?
Ответ:
Данная выборка не дает оснований для таких утверждений. Если выборка была произведена должным образом, то мы можем с 95% доверительной вероятностью констатировать, что взаимосвязи между полом и частотой пользования интернетом нет. В противном случае – мы не знаем ответа.