- •2. Генеральная совокупность, понятие репрезентативности выборки из данных. Смещение выборки.
- •3. Частотные распределения. Разница между нормальным и равномерным распределением. Приведите пример визуализации графика распределения для своего набора данных.
- •4. Визуализация данных. Линейный график, столбчатые диаграммы, гистограммы, диаграммы рассеяния. Изобразить графически, описать суть графиков.
- •5. Меры вариативности. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.
- •6. Меры центральной тенденции. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.
- •8. Определение выброса в данных. Приведите примеры конвенций для определения верхней и нижней границы нормальных значений данных. Через iqr или sigma
- •10. Определение корреляции в данных. Свойства коэффициента корреляции. Формула для нахождения коэффициента корреляции.
- •Свойства коэффициента корреляции
- •1. Изменяется от −1 до 1 (чем ближе коэффициент корреляции по модулю к 1, тем сильнее связь.)
- •2. Положительный коэффициент корреляции свидетельствует о прямой зависимости.
- •3. Отрицательный коэффициент корреляции свидетельствует об обратной зависимости.
- •Использование и интерпретация корреляции
- •11. Сформулируйте центральную предельную теорему. Объясните её постулаты на практическом примере. Сформулируйте закон больших чисел.
- •Шаг 1: Формулировка основной и альтернативной гипотезы
- •Шаг 3: Определение статистического критерия
- •Шаг 4: Формулировка правила принятия решения
- •Шаг 5: Принятие решения
- •Критическая область проверки гипотезы - область выборочного пространства; при попадании статистики критерия в критическую область, нулевая гипотеза отклоняется.
- •15. Сформулируйте определения параметрических и непараметрических критериев при тестировании гипотез. Критерий согласия хи-квадрат. Определение и применение.
- •16. Критерий независимости хи-квадрат при тестировании гипотез. Для чего используется? Что такие таблица сопряженности?
- •17. Параметрические критерии. T-статистика. Напишите определение и формулу для вычисления. Понятие степеней свободы.
- •18. Одновыборочный и парный t-тест. Объяснить разницу. Придумать пример на тестирование гипотезы одним из тестов, вычислить t-наблюдаемое.
- •23. Машина опорных векторов. Для решения каких задач применяется алгоритм? Объясните смысл алгоритма. Понятие гиперплоскости. Напишите наиболее распространенные ядерные функции.
- •26. Алгоритм knn. Для решения каких задач применяется алгоритм? Формула нахождения Евклидового расстояния. Опишите порядок действий при работе алгоритма.
- •28. Алгоритм Градиентного Бустинга. Для решения каких задач применяется алгоритм? Объясните принцип работы алгоритма. Основные параметры при работе алгоритма. Популярные реализации алгоритма.
- •Init – какой алгоритм мы будем использовать в качестве главного (именно его и улучшает техника бустинга).
3. Частотные распределения. Разница между нормальным и равномерным распределением. Приведите пример визуализации графика распределения для своего набора данных.
Частотное распределение — метод статистического описания данных (измеренных значений, характерных значений). Частотное распределение можно представить не только в виде таблицы, но и визуализировать его. Для этого есть два типа диаграмм: гистограмма и полигон.
Гистограмма (очень простыми словами) - ряд прямоугольников, которые показывают, сколько наблюдений попадает в каждый интервал.
Для построения гистограммы по оси абсцисс (оси X) откладываются все возможные значения, а по оси ординат (оси Y) — частоты.
Значение |
Частота |
2 |
5 |
3 |
10 |
4 |
6 |
5 |
4 |
Однако важно помнить, что ее можно построить только для количественных данных.
Полигон (очень простыми словами) - линия, которая соединяет точки данных и показывает общую форму распределения.
Для этого нам необходимо отметить точки на области построения, которые соответствуют высоте столбца (как если бы мы строили гистограмму) и соединяем точки.
Гистограмма отлично подходит для визуализации количественных данных, но нам важно уметь в аналогичном виде представлять распределение частот для порядковых и номинальных данных. Аналогом гистограммы для качественных данных является столбчатая диаграмма. Для ее построения нужны ровно те же действия, что и для гистограммы, но визуально она немного отличается: между столбцами для разных категорий есть расстояние.
Нормальное распределение – это такое распределение, в котором крайние значения некоторого признака – наименьшее и наибольшее – появляются редко; чем ближе значение признака к математическому ожиданию (сумма произведений значения на его вероятность), тем чаще оно встречается.
Он имеет следующие свойства:
• Симметричный
• Колоколообразный
Равномерное распределение — это такое распределение вероятностей, при котором каждое значение в интервале от a до b равновероятно.
Он имеет следующие свойства:
•Симметричный
•прямоугольной формы
Нормальное распределение и равномерное распределение имеют следующее сходство:
• Оба распределения симметричны. левая и правая стороны распределения были бы идеально зеркальны друг другу
Однако эти два дистрибутива имеют следующее различия:
• Распределения имеют разную форму.
• Нормальное распределение имеет колоколообразную форму, что означает, что значения вблизи центра распределения более вероятны, чем значения в хвостах распределения.
• Равномерное распределение имеет прямоугольную форму, что означает, что каждое значение в распределении встречается с одинаковой вероятностью.
В равномерном вероятность попасти на любой участок равной меры (длины, площади итд) - одинакова, в нормальном - вероятность больше около центра, по мере удаления - быстро убывает.
Нормальное распределение используется для моделирования явления, которое имеет тенденцию следовать форме «колоколообразной кривой». Например, что вес новорожденных при рождении обычно распределяется со средним значением около 7,5 фунтов. Гистограмма массы тела при рождении новорожденных в США имеет колоколообразную форму, которая обычно имеет нормальное распределение:
Большинство младенцев, вероятно, будут весить около 7,5 фунтов, при этом немногие весят менее 7 фунтов, а немногие - более 8 фунтов.
И наоборот, равномерное распределение используется для моделирования сценариев, в которых каждый потенциальный результат равновероятен.
Классический пример — бросание игральной кости. Если вы бросаете игральную кость один раз, вероятность того, что она выпадет на число от 1 до 6, будет равномерно распределена, потому что все числа выпадут с одинаковой вероятностью.
Например, существует 6 возможных чисел, на которые может выпасть кубик, поэтому вероятность того, что выпадет 1 и другие варианты = 1/6.
