- •Генеральная совокупность, понятие репрезентативности выборки из данных. Смещение выборки.
- •Частотные распределения. Разница между нормальным и равномерным распределением. Приведите пример визуализации графика распределения для своего набора данных.
- •Визуализация данных. Линейный график, столбчатые диаграммы, гистограммы, диаграммы рассеяния. Изобразить графически, описать суть графиков.
- •Меры вариативности. Перечислить основные типы (4), написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.
- •Влияние выбросов.
- •Меры центральной тенденции. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.
- •Влияние выбросов.
- •Определение выброса в данных. Приведите примеры конвенций для определения верхней и нижней границы нормальных значений данных. Через iqr или sigma
- •Определение корреляции в данных. Свойства коэффициента корреляции. Формула для нахождения коэффициента корреляции.
- •. Сформулируйте центральную предельную теорему. Объясните её постулаты на практическом примере. Сформулируйте закон больших чисел.
- •Сформулируйте определения параметрических и непараметрических критериев при тестировании гипотез. Критерий согласия хи-квадрат. Определение и применение.
- •Критерий независимости хи-квадрат при тестировании гипотез. Для чего используется? Что такие таблица сопряженности?
- •Параметрические критерии. T-статистика. Напишите определение и формулу для вычисления. Понятие степеней свободы.
- •Одновыборочный и парный t-тест. Объяснить разницу. Придумать пример на тестирование гипотезы одним из тестов, вычислить t-наблюдаемое.
- •Простое сравнение для определения разницы:
- •Машина опорных векторов. Для решения каких задач применяется алгоритм? Объясните смысл алгоритма. Понятие гиперплоскости. Напишите наиболее распространенные ядерные функции.
- •Алгоритм knn. Для решения каких задач применяется алгоритм? Формула нахождения Евклидового расстояния. Опишите порядок действий при работе алгоритма.
- •Алгоритм Градиентного Бустинга. Для решения каких задач применяется алгоритм? Объясните принцип работы алгоритма. Основные параметры при работе алгоритма. Популярные реализации алгоритма.
Параметрические критерии. T-статистика. Напишите определение и формулу для вычисления. Понятие степеней свободы.
Параметрическими называют критерии, которые основаны на предположении, что распределение признака в совокупности подчиняется некоторому известному закону. К таким критериям относятся критерии Стьюдента, Фишера, Пирсона и т.д.
t-статистика используется в параметрических тестах для сравнения средних значений двух выборок, например, для оценки того, отличаются ли они статистически значимо на основе выборочных данных.
Эта статистика основана на предположении, что данные имеют нормальное распределение, и часто применяется для малых выборок.
Формула для вычисления t-статистики:
,
где
-
средние значения двух групп,
– стандартная
ошибка разности средних
Стандартная ошибка разности средних рассчитывается по формуле:
=
,
где
-
дисперсии каждой группы, n
– размеры выборок
Степени свободы - это число независимых наблюдений в выборке, которые могут свободно изменяться (и говорят вам, сколько элементов может быть выбрано случайным образом, прежде чем должны быть введены ограничения). В t-статистике степени свободы равны n - 1, где n - размер выборки.
Пример: если у нас есть выборка размером n (например, 10 людей в группе), и мы уже рассчитали среднее значение, n−1 (в нашем примере 9) значений в вашей выборке могут изменяться свободно. Десятое значение зависит от предыдущих 9, чтобы среднее значение оставалось тем же.
Одновыборочный и парный t-тест. Объяснить разницу. Придумать пример на тестирование гипотезы одним из тестов, вычислить t-наблюдаемое.
Одновыборочный t-тест используется для проверки гипотезы о среднем значении генеральной совокупности с известным стандартным или теоретическим средним значением. Этот тест проверяет, отличается ли среднее значение выборки от предполагаемого значения.
Парный t-тест используется для сравнения двух средних значений, полученных из двух связанных выборок.
Простое сравнение для определения разницы:
Одновыборочный - При выполнении этого теста среднее или среднее значение одной группы сравнивается с установленным средним значением, которое является либо теоретическим значением, либо средним значением для населения. Например, учитель хочет определить средний рост учеников 5-го класса и сравнить его с установленным значением более 45 кг.
Парный - Эта проверка гипотезы проводится, когда две группы принадлежат к одной и той же популяции или группе. Группы изучаются либо в два разных времени, либо в двух различных условиях.
Пример одновыборочного теста с расчётом t-наблюдаемого.
Пусть средний вес яблок в магазине должен быть не менее 150 грамм.
Взяв выборку 20 яблок, получили среднее значение веса 145 граммов и выборочное стандартное отклонение 10.
Вычислим
t-наблюдаемое:
=
= -2,24, где
—
среднее значение выборки
-
предполагаемое среднее значение
s — стандартное отклонение выборки
n — размер выборки
Вывод: если значение t-наблюдаемого больше критического значения t-статистики, то мы отвергаем нулевую гипотезу (в нашем случае что средний вес яблок не меньще 150 грамм)
Линейная регрессия. Нахождение уравнения регрессии. Напишите формулу для поиска коэффициентов линейного уравнения. Приведите практический пример и постройте график уравнения регрессии по собственным данным.
Линейная регрессия - это метод машинного обучения для построения линии, которая как можно точнее соответствует данным точкам на графике. Эта линия помогает нам понять связь между двумя переменными и предсказать значения одной переменной, если известно значение другой. (Способ предсказать одну величину на основе другой)
Y
=
,
Y — это то, что мы пытаемся предсказать (например, вес человека).
X — это то, что мы знаем (например, рост человека).
-
точка, где линия пересекает ось Y (вес,
когда рост равен 0)
b - наклон линии, который показывает, на сколько изменится вес, если рост увеличится на одну единицу.
Нахождение коэффициентов
=
- b
где
—
средние значения X и Y
Пример. Представим, что у нас есть данные о росте и весе пятерых людей.
Рост:
[160, 165, 170, 175, 180]
Вес: [60, 65, 70, 78, 85]
Посчитаем коэффициента a и b. = 170 см, = 71.6
|
|
|
|
|
|
160 |
60 |
-10 |
-11.6 |
116 |
100 |
165 |
65 |
-5 |
-6.6 |
33 |
25 |
170 |
70 |
0 |
-1.6 |
0 |
0 |
175 |
78 |
5 |
6.4 |
32 |
25 |
180 |
85 |
10 |
13.4 |
134 |
100 |
Cумма |
|
|
|
315 |
250 |
Результат
графика
Оценка качества регрессии. Использование среднеквадратической ошибки. Для чего используется коэффициент детерминации R2? Приведите практический пример и найдите коэффициент детерминации для собственных данных. Сделайте вывод о разбросе данных
Оценка
качества регрессионной модели
важна для понимания того, насколько
хорошо модель описывает
зависимость
между переменными. Для этого часто
используются среднеквадратическая
ошибка (MSE) и коэффициент детерминации
Среднеквадратическая ошибка — это способ измерения того, насколько ошибки модели (разница между предсказанными и реальными значениями) велики в среднем. Чем меньше значение MSE, тем лучше, потому что это означает, что ошибки модели меньше. (Просуммировать все и поделить на их колво)
Коэффициент детерминации (R²) показывает, насколько хорошо данные подходят под нашу модель. Если R² близок к 1, это значит, что наша модель очень хорошо объясняет данные, которые у нас есть — почти все точки лежат на предсказанной линии.
Практический пример.
Представим, что у нас есть данные о росте и весе пятерых людей.
Рост: [160, 165, 170, 175, 180]
Вес: [60, 65, 70, 78, 85]
Мы посчитаем коэффициенты a и b. = - b
Предположим, у нас уже есть модель линейной регрессии: Y= −142.6 + 1.26 × Х
Считаем
R² =
Найдем
.
Вычисляем
все
.
Получим
= -1.42 + 1.26 * Х. (В Х подставляем рост) И
вычисляем каждый предсказанный вес.
Суммируем все (Реальный вес – предсказанный
вес)Найдём
.
Считаем
среднее значение
.
Суммируем все (Реальный вес – средний вес)
Вычисляем R².
Логистическая регрессия. Для решения каких задач применяется алгоритм? Напишите определение шанса. Выведите логистическую функцию, постройте её график. Приведите пример нахождения оценки вероятности для своего линейного уравнения.
Логистическая регрессия применяется для решения задач классификации, где исход события является бинарным (да/нет, 0/1, успех/провал). Это может быть, например, предсказание того, будет ли клиент использовать продукт, заболеет ли пациент определенным заболеванием, или одобрят ли кредит.
Шансы (odds) — это способ выражения вероятности того, что событие произойдет, по отношению к вероятности того, что оно не произойдет.
Логистическая функция принимает вещественное число и "сжимает" его в диапазон между 0 и 1, что удобно для представления вероятности
Формула:
,
где t — это линейное уравнение
Пример оценки вероятности.
Модель
логистической регрессии будет следующей:
Часы сна |
Посетил или нет |
4 |
Не посетил (0) |
6 |
Посетил(1) |
8 |
Посетил(1) |
Допустим, что мы уже каким-то образом нашли коэффициенты: = -4, b = 1
Посчитаем:
Пусть студент спал 7 часов. Подставляем это значение в модель:
t= −4 + 1 × 7 = 3.
Вероятность:
0.95.
Высокая
Алгоритм Naïve Bayes. Для решения каких задач применяется алгоритм? Сформулируйте формулу теоремы Байеса. Объясните смысл составных частей. Почему алгоритм называется «наивным»? Приведите практический пример применения алгоритма Naïve Bayes для задачи фильтрации СПАМ-сообщений.
Алгоритм Naïve Bayes — это метод классификации, основанный на применении теоремы Байеса с наивным предположением о независимости всех признаков в данных относительно класса. Он особенно эффективен для больших объёмов данных и широко применяется в задачах, где признаки относительно независимы.
Формула теоремы Байеса:
=
,
где – вероятность гипотезы А если произошло событие В
–
вероятность
события Б, если гипотеза А верна
– вероятность
гипотезы А
– вероятность
события В
Алгоритм считается "наивным" из-за своего основного предположения о том, что все признаки в датасете независимы друг от друга относительно целевой переменной.
Пример со спамом.
Гипотеза A — это утверждение "сообщение является спамом".
Признаки B — это, например, наличие определённых слов или фраз в тексте сообщения
1. Обучение: Сначала алгоритм "учится", глядя на уже известные примеры спама и не-спама. Он запоминает, какие слова чаще встречаются в спаме и какие в обычных сообщениях. Например, слова "бесплатно", "подарок", "срочно" могут чаще встречаться в спаме.
2. Анализ новых сообщений: Когда приходит новое сообщение, алгоритм смотрит на слова в нём и на основе своих "записей" решает, похоже ли это сообщение на спам или нет. Если в письме много слов, которые часто встречаются в спаме, алгоритм склоняется к тому, чтобы считать его спамом.
3. Решение: Если большинство признаков (слов) указывают на спам, сообщение будет помечено как спам и перенесено в соответствующую папку. Если нет, оно останется в вашем основном почтовом ящике.
