Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
уд экзамен.docx
Скачиваний:
48
Добавлен:
01.06.2024
Размер:
2.54 Mб
Скачать

Критическая область проверки гипотезы - область выборочного пространства; при попадании статистики критерия в критическую область, нулевая гипотеза отклоняется.

Обычно критическая область выбирается так, чтобы попадание в неё статистики критерия имело:

а) низкую вероятность, когда нет оснований для отклонения нулевой гипотезы

б) высокую вероятность, когда нулевая гипотеза отклоняется

Назначение уровня значимости, равного , означает вероятность попадания статистики критерия в критическую область при верной нулевой гипотезе.

Типы ошибок

  • Ошибка I рода – вероятность отвергнуть верную нулевую гипотезу (α).

  • Ошибка II рода – вероятность не отвергнуть неверную нулевую гипотезу (β).

14. Метрики качества моделей машинного обучения. Изобразите матрицу ошибок для бинарной классификации. Напишите формулу для вычисления True Positive Rate и False Negative Rate. Метрика Accuracy. В каких случаях её применение даёт ложный результат о качестве модели? Что такое ROC-кривая. Что такое AUC ROC.

Кривая ROC (кривая рабочих характеристик приемника) - график, показывающий эффективность модели классификации при всех пороговых значениях классификации. Эта кривая отображает два параметра: истинная положительная скорость, ложноположительный результат.

AUC (Area Under the ROC Curve) означает «Площадь под кривой ROC». AUC измеряет всю двумерную область под всей кривой ROC (например, интегральное исчисление) от (0,0) до (1,1).

AUC обеспечивает совокупный показатель производительности по всем возможным пороговым значениям классификации. Один из способов интерпретации AUC — это вероятность того, что модель ранжирует случайный положительный пример выше, чем случайный отрицательный пример.

Матрица ошибок:

Матрица ошибок — это одна из визуализаций на виде модели. Она показывает, сколько фактически истинных и фактически ложных значений было спрогнозировано правильно, а также общее количество значений для каждого класса.

  • TP - верный положительный прогноз,

  • FP - неверный положительный прогноз,

  • FN - неверный отрицательный прогноз,

  • TN - верный отрицательный прогноз.

Точность — это одна из метрик для оценки моделей классификации.

Неформально точность — это доля правильных прогнозов, сделанных нашей моделью. Формально точность имеет следующее определение:

Для бинарной классификации точность также может быть рассчитана с точки зрения положительных и отрицательных результатов следующим образом:

Стоит учесть, что метрика accuracy может быть обманчивой. Один из таких случаев — это несбалансированные данные. Предположим, у нас есть всего 600 единиц данных, из которых 550 относятся к классу Positive и только 50 — к Negative. Поскольку большинство семплов принадлежит к одному классу, accuracy для этого класса будет выше, чем для другого.

Если модель сделала 530 правильных прогнозов из 550 для класса Positive, по сравнению с 5 из 50 для Negative, то общая accuracy равна (530 + 5) / 600 = 0.8917. Это означает, что точность модели составляет 89.17%. Полагаясь на это значение, вы можете подумать, что для любой выборки (независимо от ее класса) модель сделает правильный прогноз в 89.17% случаев. Это неверно, так как для класса Negative модель работает очень плохо.