Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Архив2 от преподавателя. / Оценка качества работы к лассификаторов.doc
Скачиваний:
27
Добавлен:
15.09.2014
Размер:
181.76 Кб
Скачать

Самонастройка (Bootstrap)

В том случае, когда набор доступных данных невелик, для повышения надежности приходится использовать другие методики проверки классификаторов. Одной из таких методик является самонастройка (bootstrap), алгоритм которой можно записать так:

Для набора из N объектов повторить N раз следующую процедуру:

1.      Cоставить тренировочный набор из случайно выбранных N элементов (элементы могут входить в тренировочный набор несколько раз!)

2.      Провести тренировку на этом наборе

3.      Проверить на остальных данных, в набор не попавших.

Самонастройка считается наилучшим способом оценки классификации при очень маленьких наборов данных. Самонастройку также иногда называют '0.632 bootstrap'. 0.632 - это ожидаемая доля всех доступных данных, использованных для тренировки хотя бы на одном из шагов:

 

Как видно из формул, при росте N вероятность использования каждого из векторов данных (хотя бы в одной из итераций) стремится к 63.2%.

Сравнение классификаторов

Прямое сравнение

Простейшим способом сравнения двух классификаторов является сравнение их уровней ошибок (error rates) и выбора наиболее подходящего. В случае, если классификатор содержит свободный параметр, позволяющий регулировать соотношение nTP и nFP - целесообразно сравнивать ROC кривые.

На Рисунок 3 показано сравнение двух классификаторов. Можно увидеть что второй (график зеленого цвета) показывает больший уровень верных обнаружений при уровне ложных обнаружений менее 8%. В зависимости от того, какой уровень ложного обнаружения является допустимым можно выбрать из этих двух классификаторов оптимальный.

Рисунок 3 Сравнение двух классификаторов

Более компактная мера (не несущая, впрочем, всей информации о соотношении верных и ложных обнаружений) - это площадь под ROC кривой (area under curve - AUC). Для случая заметного превосходства одного классификатора над другим (см. Рисунок 4) AUC позволяет уверенно сравнить две кривые ROC и выбрать лучший.

Рисунок SEQ Рисунок * ARABIC 4 Соотношение ROC-кривой и меры AUC кривых различных классификаторов. Красный график - AUC = 0.96463, синий - AUC = 0.98841.

Однако не во всех случаях AUC дает верное представление о том, какой из классификаторов лучше. Например, на Рисунок 3 AUC для первого классификатора (красный график) больше, чем для второго, в то время как первый классификатор уступает второму при уровне ложных обнаружений менее 8%. В таких случаях без анализа самих кривых не обойтись.

Статистические тесты

Уровни ошибок, рассчитываемые по некоторому количеству испытаний, по сути, сами являются случайными величинами. Для повышения надежности оценки они усредняются (repeated holdout, cross-validation, leave one out). Фактически это означает, что производится оценка математического ожидания этих случайных величин.

Прямое сравнение полученных оценок матожидания уровня ошибок может дать неверные результаты, поскольку не учитывает <надежность> полученных оценок. Для проверки различия средних значений в статистике приняты различные тесты, в частности t-тест (тест Стьюдента) сравнения средних [5]. Данный тест дает ответ на вопрос - действительно ли имеет место значимое различие между средними, или оно объясняется статистическими колебаниями.

Для двух классификаторов, тренированных и проверяемых на одних и тех же данных (например, на одном и том же разделении при перекрестной проверке) применяется более точный парный двухвыборочный t-тест [6]. Проверка наличия статистического различия матожиданий уровней ошибок производится следующим образом. Пусть для оценки качества распознавания применяется перекрестная проверка с k подмножествами. На каждой итерации i=1..k; вычисляется уровень ошибок для первого и второго классификаторов Xi, Yi (для одного и того же набора). Для вынесения решения о статистически значимом отличии этих величин вычисляются следующие величины:

Данное распределение t имеет k-1 степень свободы. Для того чтобы принять (или отвергнуть) гипотезу о статистически значимом различии средних нужно сравнить полученное значение t с таблицей распределения Cтьюдента для k-1 степеней свободы. В случае если вычисленное значение не превышает табличное, вероятность существенного различия не выше указанного в таблице (таблица составляется для определенного уровня значимости), в противном случае - выше.

Если гипотеза о существовании различия подтверждается с высокой вероятностью, то проверить, какой конкретный классификатор лучше, можно с помощью простых методов проверки из предыдущего раздела.