
- •2. Генеральная совокупность, понятие репрезентативности выборки из данных. Смещение выборки.
- •3. Частотные распределения. Разница между нормальным и равномерным распределением. Приведите пример визуализации графика распределения для своего набора данных.
- •4. Визуализация данных. Линейный график, столбчатые диаграммы, гистограммы, диаграммы рассеяния. Изобразить графически, описать суть графиков.
- •5. Меры вариативности. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.
- •6. Меры центральной тенденции. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.
- •8. Определение выброса в данных. Приведите примеры конвенций для определения верхней и нижней границы нормальных значений данных. Через iqr или sigma
- •10. Определение корреляции в данных. Свойства коэффициента корреляции. Формула для нахождения коэффициента корреляции.
- •Свойства коэффициента корреляции
- •1. Изменяется от −1 до 1 (чем ближе коэффициент корреляции по модулю к 1, тем сильнее связь.)
- •2. Положительный коэффициент корреляции свидетельствует о прямой зависимости.
- •3. Отрицательный коэффициент корреляции свидетельствует об обратной зависимости.
- •Использование и интерпретация корреляции
- •11. Сформулируйте центральную предельную теорему. Объясните её постулаты на практическом примере. Сформулируйте закон больших чисел.
- •Шаг 1: Формулировка основной и альтернативной гипотезы
- •Шаг 3: Определение статистического критерия
- •Шаг 4: Формулировка правила принятия решения
- •Шаг 5: Принятие решения
- •Критическая область проверки гипотезы - область выборочного пространства; при попадании статистики критерия в критическую область, нулевая гипотеза отклоняется.
- •15. Сформулируйте определения параметрических и непараметрических критериев при тестировании гипотез. Критерий согласия хи-квадрат. Определение и применение.
- •16. Критерий независимости хи-квадрат при тестировании гипотез. Для чего используется? Что такие таблица сопряженности?
- •17. Параметрические критерии. T-статистика. Напишите определение и формулу для вычисления. Понятие степеней свободы.
- •18. Одновыборочный и парный t-тест. Объяснить разницу. Придумать пример на тестирование гипотезы одним из тестов, вычислить t-наблюдаемое.
- •23. Машина опорных векторов. Для решения каких задач применяется алгоритм? Объясните смысл алгоритма. Понятие гиперплоскости. Напишите наиболее распространенные ядерные функции.
- •26. Алгоритм knn. Для решения каких задач применяется алгоритм? Формула нахождения Евклидового расстояния. Опишите порядок действий при работе алгоритма.
- •28. Алгоритм Градиентного Бустинга. Для решения каких задач применяется алгоритм? Объясните принцип работы алгоритма. Основные параметры при работе алгоритма. Популярные реализации алгоритма.
- •Init – какой алгоритм мы будем использовать в качестве главного (именно его и улучшает техника бустинга).
Использование и интерпретация корреляции
Корреляция свидетельствует именно о взаимосвязи, но ни в коем случае нельзя делать на основе корреляционного анализа выводы о причинно-следственных связях. Если между признаками А и Б есть тесная взаимосвязь, то мы не может говорить, что А влияет на Б или Б влияет на А.
Во-первых, мы можем использовать его для прогнозирования. Если мы знаем, что две переменные связаны определенным образом, то мы можем прогнозировать значение одной по значению другой. Например, мы выяснили, что оценки за ЕГЭ по математике и информатике сильно коррелируют. Тогда мы можем предполагать, что если у школьника хороший балл по математике, то и по информатике он тоже будет высокий. Но такой прогноз будет не совсем точен. Не у всех, кто получил высокий балл по математике, будет высокий балл по информатике. Более корректные предсказания можно делать на основании регрессионных моделей.
Во-вторых, корреляцию можно использовать для оценки валидности (обоснованность и пригодность применения методик и результатов исследования в конкретных условиях) разных тестов. Например, если психолог разработал тест для определения уровня тревоги, то его результаты должны показывать сильную корреляцию с другими показателями, которые точно идентифицируют тревожность (например, физиологические индикаторы).
В-третьих, с помощью корреляции вычисляется надежность оценочных инструментов. Предположим, некий студент сдает экзамен, чтобы получить сертификат по английскому языку. Если он сдает его два раза через небольшие промежутки времени, то его результаты должны быть практически одинаковые, если экзамен действительно хорошо составлен и условия проведения не изменились. Поэтому для оценки надежности теста можно провести его на группе людей, а потом повторить процедуру. Если корреляция между результатами сильная, то можно говорить о надежности инструмента.
11. Сформулируйте центральную предельную теорему. Объясните её постулаты на практическом примере. Сформулируйте закон больших чисел.
Центральная предельная теорема: для любой генеральной совокупности со средним μ и среднеквадратичным отклонением σ распределение выборочных средних выборок размера n будет иметь среднее μ и среднеквадратичное отклонение σ/√n, а его форма будет стремиться к нормальной при n стремящемся к бесконечности.
Более проще:
(Если мы берем достаточно большую выборку из любого распределения с конечным средним и конечной дисперсией, и складываем или усредняем значения этой выборки, то распределение этих сумм или средних будет приближаться к нормальному распределению, независимо от исходного распределения.)
Центральная предельная теорема также утверждает, что выборочное распределение будет иметь следующие свойства:
1. Среднее значение выборочного распределения будет равно среднему значению распределения генеральной совокупности:
х = μ
2. Дисперсия выборочного распределения будет равна дисперсии распределения генеральной совокупности, деленной на объем выборки:
с 2 = σ 2 / п
Среднее распределения выборочных средних называется математическим ожиданием выборочного среднего, а его среднеквадратичное отклонение — стандартной ошибкой выборочного среднего (SEM — Standard Error of Mean или σM)
Практический пример:
Предположим, мы хотим оценить средний рост населения города. Мы отбираем случайную выборку из 100 человек и измеряем их рост. Предположим, что рост в популяции распределен по нормальному закону со средним значением 170 см и стандартным отклонением 10 см.
Согласно центральной предельной теореме, даже если рост в популяции не распределен по нормальному закону, распределение средних значений роста в нашей выборке будет приблизительно нормальным. Это означает, что средний рост в нашей выборке будет приблизительно нормально распределен со средним значением 170 см и стандартным отклонением 10 см / √100 = 1 см.
Закон больших чисел:
Соответственно, здесь будет работать закон больших чисел (ЗБЧ) — чем больше размер выборки, тем больше вероятность, что значение его среднего будет близко к среднему генеральной совокупности.
12. Разделение выборки на обучающую и валидационную. Какое отношение данных обучающей выборки к валидационной обычно используется, для чего используются выборки? Опишите процесс стратификации данных, объясните для чего он используется.
При построении предсказательных моделей исходные данные обычно разбиваются на обучающую ("training set") и контрольную ("test set", "validation set") выборки.
Выборка обычно разделяется на обучающую и валидационную выборки в соотношении 80:20, где 80% данных используются для обучения модели, а 20% - для проверки ее производительности.
• Обучающая выборка: Используется для обучения модели распознавания образов. Модель учится на закономерностях в данных и создает модель, которая может предсказывать результаты для новых данных.
• Валидационная выборка: Используется для оценки производительности обученной модели на невиданных данных. Это помогает предотвратить переобучение модели на обучающей выборке.
Мы разделяем выборку на обучающую и валидационную по следующим причинам:
• Предотвращение переобучения: Обучающая выборка используется для обучения модели, и если мы будем использовать ту же выборку для оценки ее производительности, модель может переобучиться на обучающих данных. Это означает, что модель может слишком хорошо подходить к обучающим данным и плохо обобщаться на новые данные.
• Настройка гиперпараметров: Валидационная выборка может использоваться для настройки гиперпараметров модели. Гиперпараметры - это параметры модели, которые не обучаются из данных, такие как скорость обучения и количество эпох. Валидационная выборка помогает выбрать лучшие гиперпараметры, которые дают наилучшую производительность на невиданных данных.
• Сравнение разных моделей: Валидационная выборка может использоваться для сравнения производительности разных моделей. Мы можем обучить несколько моделей с разными архитектурами или алгоритмами и оценить их производительность на валидационной выборке, чтобы определить лучшую модель для нашей задачи.
Стратификация — метод выбора подмножества объектов из генеральной совокупности, разбитой на подмножества (страты). При стратификации объекты выбираются таким образом, чтобы итоговая выборка сохраняла соотношения размеров страт. Стратификация данных используется для обеспечения того, чтобы обучающая и валидационная выборки имели аналогичное распределение целевой переменной, что исходная совокупность. Это помогает предотвратить смещение в оценке производительности модели.
Пример:
Допустим, в вашем наборе данных есть 1000 клиентов, из которых 600 совершили покупку (положительные примеры), а 400 не совершили покупку (отрицательные примеры).
1. Разделите данные на две страты: совершившие покупку и не совершившие покупку.
2. Случайный отбор образцов из каждой страты: Случайным образом выберите 80% образцов из страты "совершившие покупку" и 80% образцов из страты "не совершившие покупку" для формирования обучающей выборки.
3. Повторите для валидационной выборки: Случайным образом выберите 20% образцов из страты "совершившие покупку" и 20% образцов из страты "не совершившие покупку" для формирования валидационной выборки.
13. Постановка и тестирование гипотез. Что такое нулевая и альтернативная гипотеза? Виды альтернативных гипотез. Что такое уровень статистической значимости α? Определение критической области. Ошибка первого и второго рода.
Постановка и тестирование гипотез - это процесс статистического анализа, который позволяет проверить предположения о параметрах популяции на основе выборочных данных.
Пошаговый алгоритм:
1.Формулировка основной и альтернативной гипотезы
2.Выбор уровня значимости
3.Определение подходящего статистического критерия
4.Формулировка правила принятия решения
5.Принятие решения на основании данных выборки