4.2 Ансамблевое обучение
Можем ли мы совместно использовать эти функции для повышения производительности? Было установлено, что точность и разнообразие в отдельных классификаторах являются необходимыми и достаточными условиями для высокопроизводительного ансамбля классификаторов (Dietterich 2000). Кроме того, было показано, что обучение ансамблю не соответствует принципу бритвы Оккама, в котором говорится, что повышенная сложность снижает точность обобщения (Ho 1998).
Таблица 1: результаты FRR и FAR (заданные в процентах), полученные с помощью классификатора SVM одного класса для каждого набора функций для каждого пользователя. Результаты FRR были составлены за 10 прогонов.
Изучение ансамбля различает тип учащегося или тип ввода (например, набор экземпляров или функций) для достижения разнообразия. Например, сумка (Breiman 1996) варьирует набор экземпляров, тогда как метод случайного подпространства варьирует набор функций (Ho 1998). Мы используем метод случайного подпространства для изменения входных характеристик одноуровневых SVM. В двухкратном перекрестке на тренировочном наборе оценивается вес классификатора, используемого для объединения решений разных классификаторов (то есть «я» или «нет») при взвешенном голосовании. Выбор точных классификаторов здесь проблематичен, так как в одноклассной классификации трудно легко переработать, так как классификатор, который выбирает класс («я») наугад, может достичь идеальной точности! Чтобы преодолеть эту проблему и решить проблему разнообразия, мы выбираем подмножество классификаторов с взвешенной выборкой. Мы обучаем фиксированное количество классификаторов (300) каждый со случайным подмножеством признаков (5) в качестве пула классификаторов на выбор. Затем из этого пула для нашего ансамбля было выбрано фиксированное количество классификаторов (107). Эти параметры, количество классификаторов, количество функций и размер пула были выбраны эмпирически для хорошей производительности на пользователе 1 без корректировки для других пользователей. Будущая работа выберет переменное количество функций. Паузы и распределения времени между отзывами были усечены до первых 20 контейнеров для предотвращения ложных признаков из-за разреженности данных. Алгоритм 1 описывает нашу методологию. В таблице 2 сравнивается метод случайного подпространства со смесью экспертного ансамбля, где решение классификаторов, обучающихся по отдельным наборам функций, объединяется в взвешенное голосование с использованием аналогичной методологии.
Таблица 2: результаты FRR и FAR, полученные ансамблевыми методами одноклассных классификаторов SVM с взвешенной схемой голосования.
Алгоритм 1 Случайная
подпространственная ансамблевая
методика обучения, где экземпляры
являются учебными экземплярами, P -
размер пула, cl алгоритм классификатора,
f количество функций и n размер ансамбля
(n ≤ P).
Существует четкая линейная зависимость между результатами FRR и размером ансамбля (т. Е. Количеством выбранных учащихся из пула) (рис.8). Результаты FAR зависят как от размера ансамбля, так и от размера пула (рис.9). Существует значительная разница в производительности (p <0,05) между результатами FAR из нашего метода обучения по методу случайного подпространства и из метода экспертов, за исключением User 8, в котором записано наименьшее количество сеансов. Существует значительная разница в результатах FRR между двумя методами для половины пользователей, что предполагает, что могут потребоваться некоторые корректировки параметров для конкретных пользователей.
