
- •Генеральная совокупность, понятие репрезентативности выборки из данных. Смещение выборки.
- •Частотные распределения. Разница между нормальным и равномерным распределением. Приведите пример визуализации графика распределения для своего набора данных.
- •Визуализация данных. Линейный график, столбчатые диаграммы, гистограммы, диаграммы рассеяния. Изобразить графически, описать суть графиков.
- •Меры вариативности. Перечислить основные типы (4), написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.
- •Влияние выбросов.
- •Меры центральной тенденции. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.
- •Влияние выбросов.
- •Определение выброса в данных. Приведите примеры конвенций для определения верхней и нижней границы нормальных значений данных. Через iqr или sigma
- •Определение корреляции в данных. Свойства коэффициента корреляции. Формула для нахождения коэффициента корреляции.
- •. Сформулируйте центральную предельную теорему. Объясните её постулаты на практическом примере. Сформулируйте закон больших чисел.
- •Сформулируйте определения параметрических и непараметрических критериев при тестировании гипотез. Критерий согласия хи-квадрат. Определение и применение.
- •Критерий независимости хи-квадрат при тестировании гипотез. Для чего используется? Что такие таблица сопряженности?
- •Параметрические критерии. T-статистика. Напишите определение и формулу для вычисления. Понятие степеней свободы.
- •Одновыборочный и парный t-тест. Объяснить разницу. Придумать пример на тестирование гипотезы одним из тестов, вычислить t-наблюдаемое.
- •Простое сравнение для определения разницы:
- •Машина опорных векторов. Для решения каких задач применяется алгоритм? Объясните смысл алгоритма. Понятие гиперплоскости. Напишите наиболее распространенные ядерные функции.
- •Алгоритм knn. Для решения каких задач применяется алгоритм? Формула нахождения Евклидового расстояния. Опишите порядок действий при работе алгоритма.
- •Алгоритм Градиентного Бустинга. Для решения каких задач применяется алгоритм? Объясните принцип работы алгоритма. Основные параметры при работе алгоритма. Популярные реализации алгоритма.
Машина опорных векторов. Для решения каких задач применяется алгоритм? Объясните смысл алгоритма. Понятие гиперплоскости. Напишите наиболее распространенные ядерные функции.
Машина опорных векторов (SVM) — это мощный метод машинного обучения, который используется для решения задач классификации и регрессии. Основная идея SVM заключается в нахождении такой границы (или гиперплоскости), которая с максимальной точностью разделяет данные на два или более классов.
Смысл алгоритма:
1. Поиск границы. У нас есть лист бумаги, на котором нарисованы красные и синие точки. Ваша задача — провести линию так, чтобы красные точки оказались с одной стороны, а синие — с другой. SVM ищет такую линию, которая не просто разделит эти точки, но и будет находиться от них на максимально возможном расстоянии.
2. Опорные векторы - эти точки ПОМОГАЮТ определить границу , которая разделяет разные классы данных, например, спам и не-спам.
Гиперплоскость - это просто граница, которая разделяет различные классы данных. В двух словах, это та линия или поверхность, которая помогает нам определить, к какому классу относится каждая точка данных.
Если точки перемешаны, соединить их прямой линией для выделения границ не получится. Нужно использовать специальные ядерные функции, чтобы помочь разделить их.
Примеры функций:
1) Линейное ядро
2) Сигмоидальное ядро
3) Радиальное базисное
Алгоритм решающего дерева. Для решения каких задач применяется алгоритм? Объясните смысл алгоритма. Из чего состоит дерево решений? Формула прироста информации. Напишите формулы для критериев информативности при решении задачи классификации. Какая функция потерь чаще всего используется при решении задачи регрессии.
Решающее дерево — это способ принятия решений, который можно представить в виде дерева, где каждый узел представляет выбор по определённому вопросу или признаку, а каждый лист — это конечное решение или ответ. В общем, последовательно разбивать данные на всё более мелкие группы.
Как это работает?
Начало: Начинаем с одного большого вопроса, который делит все данные на две группы. Например, "Меньше ли возраст 50 лет?".
Вопросы: Затем каждую группу делим дальше, задавая новые вопросы. Каждый раз, когда мы задаём вопрос, мы создаём новые ветви в дереве.
Конец: Процесс продолжается, пока мы не достигнем удовлетворительных и простых групп (листьев дерева), в которых все элементы похожи друг на друга или пока не закончатся признаки для вопросов.
Структура решающего дерева:
Корень - начальная точка дерева, где содержится весь набор данных.
Узлы - точки разбиения, где данные делятся на подгруппы по определённому признаку.
Ветви -пути от узла к узлу, представляющие решение (или выбор) по одному из признаков.
Листья - конечные узлы, где принимается окончательное решение или делается предсказание.
Прирост информации — это метод для определения, насколько хорошо определённый атрибут разделяет данные. Чем больше прирост информации при выборе атрибута, тем лучше этот атрибут подходит для разделения данных на чёткие классы.
Критерии информативности:
Энтропия
Индекс Джини (измеряет, насколько часто случайно выбранный элемент будет неправильно классифицирован)
В задачах регрессии часто используется среднеквадратичная ошибка.
Переобучение решающего дерева. Приведите графический пример переобучения модели. Какой результат точности обучения мы получим для переобученной модели на тестовой и валидационной выборке? Критерии останова для решающего дерева.
Переобучение — это когда модель машинного обучения учится слишком хорошо запоминать все детали и особенности данных, на которых она обучалась, включая случайные ошибки и неважные детали. Из-за этого модель может плохо работать с новыми данными, потому что она слишком специализирована на своём обучающем наборе и не может правильно реагировать на что-то новое.
Пример. Давайте представим, что мы имеем дело с задачей классификации, где нужно различать два класса данных (например, синие и красные точки), распределённых на плоскости.
Непереобученная модель: Нарисует относительно простую границу, например, прямую линию или гладкую кривую, которая эффективно разделяет большинство синих и красных точек на две стороны.
Переобученная модель: Начнёт нарисовывать сложную, извилистую границу, которая пытается точно обойти каждую синюю и каждую красную точку, учитывая даже самые маленькие группы или отдельные точки, что часто включает шум или аномалии в данных.
Результаты точности обучения для переобученной моделиданных
На обучающей выборке: Переобученная модель, как правило, показывает очень высокую или даже идеальную точность, потому что она "запомнила" все точки в данных
На тестовой и валидационной выборке: Точность значительно ухудшается. Поскольку модель слишком специализирована на особенностях обучающей выборки, она не способна адекватно реагировать на новые данные.
Критерии останова для решающего дерева — это правила, которые помогают определить, когда следует прекратить развитие дерева дальше.
1. Максимальная глубина дерева. Как только дерево достигает заданной глубины, дальнейшее деление узлов прекращается
2. Минимальное количество образцов для разделения. Помогает избежать чрезмерной детализации модели
3. Минимальное количество образцов в листе
4. Обрезка дерева - удаление узлов, которые не обеспечивают значительного вклада в предсказательную способность модели