
- •2. Генеральная совокупность, понятие репрезентативности выборки из данных. Смещение выборки.
- •3. Частотные распределения. Разница между нормальным и равномерным распределением. Приведите пример визуализации графика распределения для своего набора данных.
- •4. Визуализация данных. Линейный график, столбчатые диаграммы, гистограммы, диаграммы рассеяния. Изобразить графически, описать суть графиков.
- •5. Меры вариативности. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.
- •6. Меры центральной тенденции. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.
- •8. Определение выброса в данных. Приведите примеры конвенций для определения верхней и нижней границы нормальных значений данных. Через iqr или sigma
- •10. Определение корреляции в данных. Свойства коэффициента корреляции. Формула для нахождения коэффициента корреляции.
- •Свойства коэффициента корреляции
- •1. Изменяется от −1 до 1 (чем ближе коэффициент корреляции по модулю к 1, тем сильнее связь.)
- •2. Положительный коэффициент корреляции свидетельствует о прямой зависимости.
- •3. Отрицательный коэффициент корреляции свидетельствует об обратной зависимости.
- •Использование и интерпретация корреляции
- •11. Сформулируйте центральную предельную теорему. Объясните её постулаты на практическом примере. Сформулируйте закон больших чисел.
- •Шаг 1: Формулировка основной и альтернативной гипотезы
- •Шаг 3: Определение статистического критерия
- •Шаг 4: Формулировка правила принятия решения
- •Шаг 5: Принятие решения
- •Критическая область проверки гипотезы - область выборочного пространства; при попадании статистики критерия в критическую область, нулевая гипотеза отклоняется.
- •15. Сформулируйте определения параметрических и непараметрических критериев при тестировании гипотез. Критерий согласия хи-квадрат. Определение и применение.
- •16. Критерий независимости хи-квадрат при тестировании гипотез. Для чего используется? Что такие таблица сопряженности?
- •17. Параметрические критерии. T-статистика. Напишите определение и формулу для вычисления. Понятие степеней свободы.
- •18. Одновыборочный и парный t-тест. Объяснить разницу. Придумать пример на тестирование гипотезы одним из тестов, вычислить t-наблюдаемое.
- •23. Машина опорных векторов. Для решения каких задач применяется алгоритм? Объясните смысл алгоритма. Понятие гиперплоскости. Напишите наиболее распространенные ядерные функции.
- •26. Алгоритм knn. Для решения каких задач применяется алгоритм? Формула нахождения Евклидового расстояния. Опишите порядок действий при работе алгоритма.
- •28. Алгоритм Градиентного Бустинга. Для решения каких задач применяется алгоритм? Объясните принцип работы алгоритма. Основные параметры при работе алгоритма. Популярные реализации алгоритма.
- •Init – какой алгоритм мы будем использовать в качестве главного (именно его и улучшает техника бустинга).
1. Классификация признаков данных: (Качественные и количественные, непрерывные и дискретные). Номинальные, порядковые, интервальные, дихотомические, относительные переменные. Объяснить суть, привести примеры
Качественные признаки (категориальные) - данные, которые не имеют численного представления, они могут иметь как и два уникальных значения (бинарные признаки), так и более (пол, цвет глаз, марка автомобиля) Они могут быть номинальными и порядковыми.
Номинальные признаки - это качественные переменные без внутренней структуры и определенного порядка, они просто описывают различные категории или группы. Например, Цвет автомобиля (красный, синий, зеленый, черный и т. д.)
Порядковые признаки - это качественные переменные, которые можно упорядочить. Например, уровень образования (начальное, среднее, высшее), оценки (отлично, хорошо, удовлетворительно).
Количественные признаки - это переменные, которые измеряются в числовом значении. Они могут быть дискретными и непрерывными.
Дискретные признаки - это переменные, которые могут принимать только целочисленные значения, конечное или счетное число значений. Например, количество детей в семье, количество лет, количество пассажиров на борту самолета.
Непрерывные признаки - это переменные, которые могут принимать любые значения в некотором диапазоне. Например, рост, вес, доход, температура и т.д.
Относительные признаки отражают соотношения между количественными признаками и измеряют их в процентах или долях. Например, доля женщин в общем числе сотрудников в компании, доля дохода, потраченного на аренду жилья.
Интервальные признаки - числовые признаки, для которых определены единицы измерения, и которые имеют порядковую структуру. Интервальные признаки позволяют проводить математические операции над значениями, а также измерять их относительные различия. Однако, при этом нельзя делать выводы о наличии абсолютного нуля:
Температура в градусах Цельсия
Время в секундах, минутах или часах
Год выпуска автомобиля
Рост и вес человека
Дихотомические признаки (бинарные признаки) принимают только два значения: 0 или 1. Они часто используются в машинном обучении для задач бинарной классификации, когда нужно разделить объекты на две категории:
Пол: мужской (1) или женский (0)
Наличие болезни: болен (1) или здоров (0)
Результат теста: сдал (1) или не сдал (0)
Флаг: включен (1) или выключен (0)
2. Генеральная совокупность, понятие репрезентативности выборки из данных. Смещение выборки.
Генеральная совокупность — это совокупность всех объектов, которые представляют интерес в конкретном исследовании.
Объем генеральной совокупности может быть очень велик, и на практике рассмотреть все ее элементы не представляется возможным. Поэтому обычно из генеральной совокупности извлекаются выборки.
Выборка — это группа объектов, отобранных из генеральной совокупности для исследования.
На основе анализа выборки аналитик пытается сделать вывод о свойствах всей совокупности, скрытых в ней закономерностях, действующих правилах и т.д. При этом выборки должны быть репрезентативными.
Репрезентативность — соответствие характеристик выборки характеристикам генеральной совокупности. Репрезентативность определяет, насколько возможно обобщать результаты исследования, полученные на основе выборочных данных на всю исходную совокупность. (Если в нашей генеральной совокупности 40% женщин и 60% мужчин, то и в выборке должно быть такое же соотношение женщин и мужчин. Для того чтобы было выполнено условие репрезентативности, все основные особенности исследуемой группы людей или объектов должны быть одни и те же у выборки и у генеральной совокупности.) Отсутствие репрезентативности выборки приводит к некорректным результатам анализа. Поэтому перед использованием выборки необходимо убедиться, что она репрезентативна.
Причины, по которым анализируют выборки, а не всю совокупность, могут быть следующими:
объем генеральной совокупности может быть очень велик, а её анализ сложен в вычислительном плане;
получить доступ ко всем элементам совокупности очень сложно, или вообще невозможно (например, опросить население всего города — кто-то уехал, кто-то просто отвечать не хочет, поэтому проводят выборочный опрос);
при использовании методов машинного обучения требуется использовать несколько множеств: обучающее, тестовое и валидационное, которые тоже являются выборками из исходного набора данных.
Выборки бывают:
Смещённые и не смещённые. Смещёнными называются выборки, структурные характеристики которых (среднее, математическое ожидание, дисперсия, среднеквадратическое отклонение) значимо отличаются (смещены) от соответствующих структурных характеристик совокупности. Значимость отличия проверяется специальными статистическими критериями (например, F-критерий Фишера). Чтобы получить несмещённую выборку нужно правильно выбрать алгоритм её формирования.
Случайными и детерминированными. В первом случае генерируется множество случайных значений и из совокупности извлекаются записи с соответствующими номерами. В детерминированной выборке извлекают сплошную последовательность наблюдений между заданными номерами, или удовлетворяющих некоторому условию (например, все клиенты с доходом больше 50 000 рублей).
С возвратом и без возврата. При выборке с возвратом, извлеченные наблюдения остаются в генеральной совокупности доступными для повторного выбора (в этом случае в выборке могут оказаться одинаковые наблюдения — дубликаты). В противном случае любое наблюдение может быть извлечено из совокупности только один раз.
Зависимые и независимые. Если каждому наблюдению из одной выборки соответствует одно и только одно наблюдение из другой, то такие выборки называются зависимыми. Если это условие не выполняется, то выборки независимы.
Если объем исходной совокупности недостаточен для формирования обучающей выборки требуемого объема, то применяются специальные методы отбора (например, перекрёстная проверка). Обеспечение репрезентативности выборки достигается правильным выбором используемого алгоритма сэмплинга.
Выделяют качественную и количественную репрезентативность. Качественная репрезентативность предполагает, что выборка содержит представителей всех групп объектов совокупности и в соответствующей пропорции. Например, если совокупность содержит мужчин и женщин в пропорции 2/3, то и выборка, чтобы быть репрезентативной, должна содержать представителей обоих полов в отношении 2/3.
Количественная репрезентативность предполагает достаточное количество наблюдений выборки. Т.е. выборка может быть качественно репрезентативной, но при этом содержать слишком мало наблюдений для построения эффективной модели.
Иногда может происходить смещение выборки — явление, при котором статистические характеристики выборки сильно отличаются (смещены) относительно характеристик генеральной совокупности. Например (Неслучайная выборка), если исследователь опрашивает только людей, которые подписаны на определенную рассылку новостей, его выборка может быть смещена в пользу людей, которые интересуются этой конкретной темой. Например (Неполный охват), если исследователь проводит онлайн-опрос, его выборка может быть смещена в пользу людей, у которых есть доступ к Интернету и которые готовы участвовать в опросах.
Чтобы избежать смещения выборки, важно проводить исследования на репрезентативных выборках, учитывать разнообразие групп и характеристик в генеральной совокупности, а также использовать различные методы и техники, такие как стратифицированная выборка, случайная выборка и др.