Добавил:
мой вк: vk.com/truecrimebitch больше работ здесь: https://github.com/alisadex Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Экзамен УД билеты 2024

.docx
Скачиваний:
3
Добавлен:
11.07.2024
Размер:
17.71 Кб
Скачать

1. Классификация признаков данных: (Качественные и количественные, непрерывные и дискретные). Номинальные, порядковые, интервальные, дихотомические, относительные переменные. Объяснить суть, привести примеры

2. Генеральная совокупность, понятие репрезентативности выборки из данных. Смещение выборки.

3. Частотные распределения. Разница между нормальным и равномерным распределением. Приведите пример визуализации графика распределения для своего набора данных.

4. Визуализация данных. Линейный график, столбчатые диаграммы, гистограммы, диаграммы рассеяния. Изобразить графически, описать суть графиков.

5. Меры вариативности. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.

6. Меры центральной тенденции. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.

7. Стандартизированное распределение (z-распределение) и его свойства. Для чего используется? Напишите формулу для нахождения z-оценки. Придумайте пример для нахождения стандартизированного распределения, визуализируйте полученный результат

8. Определение выброса в данных. Приведите примеры конвенций для определения верхней и нижней границы нормальных значений данных. Через IQR или sigma

9. Стратегии работы с пропущенными значениями в данных. Приведите примеры действий для разных данных (заполнение средним значением, медианой, использование вектора значений, удаление столбцов с данными)

10. Определение корреляции в данных. Свойства коэффициента корреляции. Формула для нахождения коэффициента корреляции.

11. Сформулируйте центральную предельную теорему. Объясните её постулаты на практическом примере. Сформулируйте закон больших чисел.

12. Разделение выборки на обучающую и валидационную. Какое отношение данных обучающей выборки к валидационной обычно используется, для чего используются выборки? Опишите процесс стратификации данных, объясните для чего он используется.

13. Постановка и тестирование гипотез. Что такое нулевая и альтернативная гипотеза? Виды альтернативных гипотез. Что такое уровень статистической значимости α? Определение критической области. Ошибка первого и второго рода.

14. Метрики качества моделей машинного обучения. Изобразите матрицу ошибок для бинарной классификации. Напишите формулу для вычисления True Positive Rate и False Negative Rate. Метрика Accuracy. В каких случаях её применение даёт ложный результат о качестве модели? Что такое ROC-кривая. Что такое AUC ROC.

15. Сформулируйте определения параметрических и непараметрических критериев при тестировании гипотез. Критерий согласия хи-квадрат. Определение и применение.

16. Критерий независимости хи-квадрат при тестировании гипотез. Для чего используется? Что такие таблица сопряженности?

17. Параметрические критерии. t-статистика. Напишите определение и формулу для вычисления. Понятие степеней свободы.

18. Одновыборочный и парный t-тест. Объяснить разницу. Придумать пример на тестирование гипотезы одним из тестов, вычислить t-наблюдаемое.

19. Линейная регрессия. Нахождение уравнения регрессии. Напишите формулу для поиска коэффициентов линейного уравнения. Приведите практический пример и постройте график уравнения регрессии по собственным данным.

20. Оценка качества регрессии. Использование среднеквадратической ошибки. Для чего используется коэффициент детерминации R2? Приведите практический пример и найдите коэффициент детерминации для собственных данных. Сделайте вывод о разбросе данных

21. Логистическая регрессия. Для решения каких задач применяется алгоритм? Напишите определение шанса. Выведите логистическую функцию, постройте её график. Приведите пример нахождения оценки вероятности для своего линейного уравнения.

22. Алгоритм Naïve Bayes. Для решения каких задач применяется алгоритм? Сформулируйте формулу теоремы Байеса. Объясните смысл составных частей. Почему алгоритм называется «наивным»? Приведите практический пример применения алгоритма Naïve Bayes для задачи фильтрации СПАМ-сообщений.

23. Машина опорных векторов. Для решения каких задач применяется алгоритм? Объясните смысл алгоритма. Понятие гиперплоскости. Напишите наиболее распространенные ядерные функции.

24. Алгоритм решающего дерева. Для решения каких задач применяется алгоритм? Объясните смысл алгоритма. Из чего состоит дерево решений? Формула прироста информации. Напишите формулы для критериев информативности при решении задачи классификации. Какая функция потерь чаще всего используется при решении задачи регрессии.

25. Переобучение решающего дерева. Приведите графический пример переобучения модели. Какой результат точности обучения мы получим для переобученной модели на тестовой и валидационной выборке? Критерии останова для решающего дерева.

26. Алгоритм KNN. Для решения каких задач применяется алгоритм? Формула нахождения Евклидового расстояния. Опишите порядок действий при работе алгоритма.

27. Алгоритм Random Forest. Для решения каких задач применяется алгоритм? Формула итогового классификатора. Порядок действий в алгоритме. Назовите критерии расщепления. Назовите важные параметры для работы алгоритма и объясните их суть.

28. Алгоритм Градиентного Бустинга. Для решения каких задач применяется алгоритм? Объясните принцип работы алгоритма. Основные параметры при работе алгоритма. Популярные реализации алгоритма.