Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
МНа Экзамен Ответы_окончательно.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
950.78 Кб
Скачать
  1. Алгоритм маніпулювання навчальною вибіркою Cross-validation для побудови ансамбля класифікаторів;

Этим методом занимались Parmanto, Munro, Doyle

Заключается в построении обучающей выборки при помощи выбрасывания из различных непересекающихся подмножеств.

(Перекрестная проверка; кросс-валидация; метод случайных подпространств)

Метод формирования обучающего и тестового множеств для обучения аналитической модели в условиях недостаточности исходных данных или неравномерного представления классов. Для успешного обучения аналитической модели необходимо, чтобы классы были представлены в обучающем множестве примерно в одинаковой пропорции. Однако если данных недостаточно или процедура семплинга при формировании обучающего множества была произведена неудачно, один из классов может оказаться доминирующим. Это может вызвать «перекос» в процессе обучения и доминирующий класс будет рассматориваться как наиболее вероятный. Метод перекрестной проверки позволяет избежать этого.

В основе метода лежит разделение исходного множества данных на k примерно равных блоков, например k=5. Затем, на k-1, т.е. 4-х блоках производится обучение модели, а 5-й блок используется для тестирования. Процедура повторяется k раз, при этом на каждом проходе для проверки выбирается новый блок, а обучение производится на оставшихся.

Перекрестная проверка имеет два основных преимущества перед использованием одного множества для обучения и одного для тестирования модели. Во-первых, распределение классов оказывается более равномерным, что улучшает качество обучения. Во-вторых, если при каждом проходе оценить выходную ошибку модели и усреднить ее по всем проходам, то полученная оценка ошибки будет более достоверной. На практике, чаще всего выбирается k=10 (10-проходная перекрестная проверка), т.е. берем обучающую выборку, разбиваем на 10 частей. Поочередно выбрасываем по одной части - получаем 10 разных выборок (мощность каждой из которых равна 1/9 от мощности всей обучающей выборки) для обучения ансамбля классификаторов, когда модель обучается на 9/10 данных и тестируется на 1/10. Исследования показали, что в этом случае получается наиболее достоверная оценка выходной ошибки модели.

  1. Маніпулювання цільовою функцією для побудови ансамблю класифікаторів;

МАНИПУЛИРОВАНИЕ ВЫХОДНЫМИ КЛАССАМИ

Есть опред. набор классов новостей, к примеру, 8. И разделим их на два как бы типа классов (4 из них - 0, а другие 4 - 1).

После обучения получим всего два класса: 0 и 1; расставим плюсы счётчикам каждого выходного класса классов.

Затем переформируем классы классов и опять прибавим счётчики (скажем, всем классам категории 1) - это для каждого нового обучаемого классификатора.

В результате получается один преобладающий целевой класс для конкретного примера, вместо голосования. Это аналогично перемешиванию обучающих выборок, но для целевых классов.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]