Добавил:
связь https://discord.gg/sRPpSvnP Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Экзамен УД билеты + мои ответы 2024.docx
Скачиваний:
30
Добавлен:
11.07.2024
Размер:
613.65 Кб
Скачать
  1. Алгоритм knn. Для решения каких задач применяется алгоритм? Формула нахождения Евклидового расстояния. Опишите порядок действий при работе алгоритма.

KNN, или метод k-ближайших соседей, — это простой способ предсказать классификацию объекта или его численное значение, основываясь на данных, которые уже у нас есть. Мы смотрим на k самых похожих примеров (соседей) и на основе их данных делаем выводы о новом объекте.

Для чего используется KNN?

  • Классификация: Определяем, к какой группе принадлежит новый объект, смотря на его соседей. Например, является ли письмо спамом. (Если мы хотим узнать, будет ли письмо спамом, и выбрали k=3, мы находим три самых похожих письма. Если два из них — спам, а одно — нет, мы решаем, что письмо, вероятно, тоже спам.)

  • Регрессия: Предсказываем число, например цену на дом, смотря на цены ближайших похожих домов.

Формула:

Есть две точки P и Q c координатами P = ( и Q =

Тогда Евклидово расстояние между ними считаем так:

Порядок действий:

  1. Выбор k. Число k говорит, сколько ближайших соседей будем изучать

  2. Измерение Евклидового расстояния. Измеряем Евклидово расстояние от нового объекта до ВСЕХ известных объектов

  3. Найдем соседа. Определим k ближайших соседей (первые k-соседей с наименьшим Евклидовым расстоянием)

  4. Примем решение.

  • Если задача классификации – выбираем самый частый класс среди соседей

  • Регрессия – среднее значение у соседей для предсказания

  1. Алгоритм Random Forest. Для решения каких задач применяется алгоритм? Формула итогового классификатора. Порядок действий в алгоритме. Назовите критерии расщепления. Назовите важные параметры для работы алгоритма и объясните их суть.

Алгоритм Random Forest — это мощный метод машинного обучения, который использует группу решающих деревьев для решения задач классификации и регрессии. Применение: классификация и регрессия

Порядок действий в алгоритме:

  1. Из основного набора данных создаём несколько маленьких выборок.

  2. Для каждой подвыборки строится дерево. При построении каждого дерева используется только часть доступных признаков.

  3. Каждое дерево решает свою задачу отдельно, пытаясь наилучшим образом ответить на вопрос (классифицировать или предсказать).

  4. После того как все деревья построены, Random Forest смотрит на ответы всех деревьев и выбирает наиболее часто встречающийся ответ как окончательное решение для классификации или среднее всех ответов для регрессии.

Важные параметры алгоритма:

n_estimators - количество деревьев в лесу (Больше деревьев - больше точность, но выше время обучения)

max_features - максимальное кол-во признаков

max_depth - максимальная глубина каждого дерева

min_samples_leaf - минимальное количество образцов в листовом узле.

bootstrap - Если True, то каждое дерево строится на основе случайной выборки данных с возможностью повторного появления одних и тех же данных в одной выборке.

Критерии расщепления - как лучше всего разделить данные на этапе каждого узла дерева.

  1. Индекс Джинни. Измеряет, насколько часто случайно выбранный элемент будет неправильно классифицирован

  2. Энтропия (информационный прирост) измеряет степень неопределенности в узле. Информационный прирост рассчитывается как разница между энтропией до разделения и после него.

  3. Снижение дисперсии.