- •Генеральная совокупность, понятие репрезентативности выборки из данных. Смещение выборки.
- •Частотные распределения. Разница между нормальным и равномерным распределением. Приведите пример визуализации графика распределения для своего набора данных.
- •Визуализация данных. Линейный график, столбчатые диаграммы, гистограммы, диаграммы рассеяния. Изобразить графически, описать суть графиков.
- •Меры вариативности. Перечислить основные типы (4), написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.
- •Влияние выбросов.
- •Меры центральной тенденции. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.
- •Влияние выбросов.
- •Определение выброса в данных. Приведите примеры конвенций для определения верхней и нижней границы нормальных значений данных. Через iqr или sigma
- •Определение корреляции в данных. Свойства коэффициента корреляции. Формула для нахождения коэффициента корреляции.
- •. Сформулируйте центральную предельную теорему. Объясните её постулаты на практическом примере. Сформулируйте закон больших чисел.
- •Сформулируйте определения параметрических и непараметрических критериев при тестировании гипотез. Критерий согласия хи-квадрат. Определение и применение.
- •Критерий независимости хи-квадрат при тестировании гипотез. Для чего используется? Что такие таблица сопряженности?
- •Параметрические критерии. T-статистика. Напишите определение и формулу для вычисления. Понятие степеней свободы.
- •Одновыборочный и парный t-тест. Объяснить разницу. Придумать пример на тестирование гипотезы одним из тестов, вычислить t-наблюдаемое.
- •Простое сравнение для определения разницы:
- •Машина опорных векторов. Для решения каких задач применяется алгоритм? Объясните смысл алгоритма. Понятие гиперплоскости. Напишите наиболее распространенные ядерные функции.
- •Алгоритм knn. Для решения каких задач применяется алгоритм? Формула нахождения Евклидового расстояния. Опишите порядок действий при работе алгоритма.
- •Алгоритм Градиентного Бустинга. Для решения каких задач применяется алгоритм? Объясните принцип работы алгоритма. Основные параметры при работе алгоритма. Популярные реализации алгоритма.
Визуализация данных. Линейный график, столбчатые диаграммы, гистограммы, диаграммы рассеяния. Изобразить графически, описать суть графиков.
Линейный
график
— это тип диаграммы, который отображает
информацию как серию точек данных,
соединенных прямыми линиями. Если у вас
есть данные о ежемесячных продажах за
год, линейный график покажет, были ли
месяцы, когда продажи росли, и когда они
падали. Это поможет выявить сезонные
колебания или эффект от маркетинговых
кампаний.
С
толбчатая
диаграмма
используется для сравнения различных
элементов в данных через вертикальные
или горизонтальные столбцы. Высота или
длина столбца пропорциональна
представляемым значениям и позволяет
быстро сравнивать различные группы
между собой.
Гистограмма
— это вид столбчатой диаграммы, которая
группирует числовые данные в интервалы
(бины), показывая частоту данных в каждом
интервале. Гистограммы используются
для изучения распределения данных и
часто применяются в статистике для
демонстрации распределения вероятностей.
Используя гистограмму для оценок
студентов, можно узнать, сколько студентов
получили отличные, хорошие, удовлетворительные
и плохие оценки.
Диаграмма
рассеяния
— это тип графика, который использует
координаты для представления значений
двух переменных для набора данных.
Применяются для анализа взаимосвязей
между двумя числовыми переменными.
Меры вариативности. Перечислить основные типы (4), написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.
Меры вариативности (или дисперсии) используются в статистике для оценки того, насколько различными являются данные в наборе.
Размах — это разница между максимальным и минимальным значениями в наборе данных. Формула: R=max(x)−min(x)
Дисперсия
показывает, насколько в среднем данные
отклоняются от среднего значения.
Формула (для выборочной дисперсии):
,
где
– отдельные значения,
– среднее значение, n
– колво значений в выборке.
Стандартное отклонение — это корень квадратный из дисперсии, показывающий стандартное (типичное) отклонение значений данных от среднего.
Межквартильный размах (IQR) показывает разницу между третьим (75%) и первым (25%) квартилями данных.
Влияние выбросов.
Размах и стандартное отклонение особенно подвержены влиянию выбросов, они напрямую зависят от наиболее отдаленных значений в данных.
Пример: Представим набор данных о величине сбережений:100,150,200,250,300,10000.
Здесь 10000 — явный выброс.
Доказательство:
Среднее значение без выброса: (100 + 150 + 200 + 250 + 300) / 5 = 200
Среднее значение с выбросом: (100 + 150 + 200 + 250 + 300 + 10000) / 6 = 1666.67
Стандартное отклонение без выброса будет относительно низким, так как большинство значений близки к среднему.
Стандартное отклонение с выбросом будет значительно выше, так как данные значительно разбросаны из-за выброса.
Меры центральной тенденции. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.
Меры центральной тенденции используются для определения центрального или "типичного" значения в наборе данных. Они помогают представить набор данных одним числом, которое описывает среднее или наиболее типичное значение распределения.
Среднее
значение (арифметическое среднее)
- это сумма всех значений, деленная на
их количество.
Медиана — это значение, которое делит упорядоченный набор данных на две равные части. Половина данных находится ниже медианы, а половина — выше.
Если количество элементов n нечетное, медиана — это значение посередине. Если n четное, медиана — это среднее двух центральных значений.
Мода — это значение в наборе данных, которое встречается чаще всего.
Мода определяется как значение с наибольшим количеством повторений в данных.
