Добавил:
мой вк: vk.com/truecrimebitch больше работ здесь: https://github.com/alisadex Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Экзамен УД билеты + мои ответы 2024.docx
Скачиваний:
19
Добавлен:
11.07.2024
Размер:
613.65 Кб
Скачать
  1. Машина опорных векторов. Для решения каких задач применяется алгоритм? Объясните смысл алгоритма. Понятие гиперплоскости. Напишите наиболее распространенные ядерные функции.

Машина опорных векторов (SVM) — это мощный метод машинного обучения, который используется для решения задач классификации и регрессии. Основная идея SVM заключается в нахождении такой границы (или гиперплоскости), которая с максимальной точностью разделяет данные на два или более классов.

Смысл алгоритма:

1. Поиск границы. У нас есть лист бумаги, на котором нарисованы красные и синие точки. Ваша задача — провести линию так, чтобы красные точки оказались с одной стороны, а синие — с другой. SVM ищет такую линию, которая не просто разделит эти точки, но и будет находиться от них на максимально возможном расстоянии.

2. Опорные векторы - эти точки ПОМОГАЮТ определить границу , которая разделяет разные классы данных, например, спам и не-спам.

Гиперплоскость - это просто граница, которая разделяет различные классы данных. В двух словах, это та линия или поверхность, которая помогает нам определить, к какому классу относится каждая точка данных.

Если точки перемешаны, соединить их прямой линией для выделения границ не получится. Нужно использовать специальные ядерные функции, чтобы помочь разделить их.

Примеры функций:

1) Линейное ядро

2) Сигмоидальное ядро

3) Радиальное базисное

  1. Алгоритм решающего дерева. Для решения каких задач применяется алгоритм? Объясните смысл алгоритма. Из чего состоит дерево решений? Формула прироста информации. Напишите формулы для критериев информативности при решении задачи классификации. Какая функция потерь чаще всего используется при решении задачи регрессии.

Решающее дерево — это способ принятия решений, который можно представить в виде дерева, где каждый узел представляет выбор по определённому вопросу или признаку, а каждый лист — это конечное решение или ответ. В общем, последовательно разбивать данные на всё более мелкие группы.

Как это работает?

  1. Начало: Начинаем с одного большого вопроса, который делит все данные на две группы. Например, "Меньше ли возраст 50 лет?".

  2. Вопросы: Затем каждую группу делим дальше, задавая новые вопросы. Каждый раз, когда мы задаём вопрос, мы создаём новые ветви в дереве.

  3. Конец: Процесс продолжается, пока мы не достигнем удовлетворительных и простых групп (листьев дерева), в которых все элементы похожи друг на друга или пока не закончатся признаки для вопросов.

Структура решающего дерева:

  • Корень - начальная точка дерева, где содержится весь набор данных.

  • Узлы - точки разбиения, где данные делятся на подгруппы по определённому признаку.

  • Ветви -пути от узла к узлу, представляющие решение (или выбор) по одному из признаков.

  • Листья - конечные узлы, где принимается окончательное решение или делается предсказание.

Прирост информации — это метод для определения, насколько хорошо определённый атрибут разделяет данные. Чем больше прирост информации при выборе атрибута, тем лучше этот атрибут подходит для разделения данных на чёткие классы.

Критерии информативности:

  1. Энтропия

  2. Индекс Джини (измеряет, насколько часто случайно выбранный элемент будет неправильно классифицирован)

В задачах регрессии часто используется среднеквадратичная ошибка.

  1. Переобучение решающего дерева. Приведите графический пример переобучения модели. Какой результат точности обучения мы получим для переобученной модели на тестовой и валидационной выборке? Критерии останова для решающего дерева.

Переобучение — это когда модель машинного обучения учится слишком хорошо запоминать все детали и особенности данных, на которых она обучалась, включая случайные ошибки и неважные детали. Из-за этого модель может плохо работать с новыми данными, потому что она слишком специализирована на своём обучающем наборе и не может правильно реагировать на что-то новое.

Пример. Давайте представим, что мы имеем дело с задачей классификации, где нужно различать два класса данных (например, синие и красные точки), распределённых на плоскости.

  • Непереобученная модель: Нарисует относительно простую границу, например, прямую линию или гладкую кривую, которая эффективно разделяет большинство синих и красных точек на две стороны.

  • Переобученная модель: Начнёт нарисовывать сложную, извилистую границу, которая пытается точно обойти каждую синюю и каждую красную точку, учитывая даже самые маленькие группы или отдельные точки, что часто включает шум или аномалии в данных.

Результаты точности обучения для переобученной моделиданных

  • На обучающей выборке: Переобученная модель, как правило, показывает очень высокую или даже идеальную точность, потому что она "запомнила" все точки в данных

  • На тестовой и валидационной выборке: Точность значительно ухудшается. Поскольку модель слишком специализирована на особенностях обучающей выборки, она не способна адекватно реагировать на новые данные.

Критерии останова для решающего дерева — это правила, которые помогают определить, когда следует прекратить развитие дерева дальше.

1. Максимальная глубина дерева. Как только дерево достигает заданной глубины, дальнейшее деление узлов прекращается

2. Минимальное количество образцов для разделения. Помогает избежать чрезмерной детализации модели

3. Минимальное количество образцов в листе

4. Обрезка дерева - удаление узлов, которые не обеспечивают значительного вклада в предсказательную способность модели