
- •МНа. Задачі, методи та зв'язок з іншими дисциплінами;
- •Постановка навчальної проблеми (well-posed learning problems) в мНа;
- •Побудова навчальної системи. Складові, особливості;
- •Навчальна та тестова вибірка. Особливості формування;
- •Типи навчання (з учителем, без учителя, ліниве, нетерпляче)
- •Основні статистичні характеристики даних та їх фізичний зміст;
- •Основні особливості алгоритмів індуктивного навчання концептам;
- •Теорема подання простору версій (Version space representation theorem);
- •Алгоритм Find-s;
- •Алгоритм Candidate-elimination;
- •Виснаження простору версій;
- •Алгоритм id3;
- •Пошук в просторі гіпотез для алгоритмів дерев рішень;
- •Індуктивне упередження (inductive bias) алгоритму id3;
- •Методи відсікання гілок;
- •Метод відсікання гілок зі зменшенням помилки (reduced-error pruning);
- •Метод подальшого відсікання гілок (rule-post prunning);
- •Надмірне підганяння (overfitting) в деревах рішень та методи боротьби з ним;
- •Обробка безперервних значень для побудови дерев рішень;
- •Розрахунок основних інформ. Показників для побудови дерев рішень (entropy, ig);
- •Альтернативні методи обрання атрибутів (split information, gain ratio)
- •Теорема Байєса та її застосування в машинному навчанні;
- •Обчислення умовних та безумовних ймовірностей;
- •Оптимальний Байєсівський класифікатор;
- •Алгоритм Гіббса;
- •Алгоритм наївного Байєсу;
- •Застосування наївного Баєсівського класифікатору для класифікації текст док-ів;
- •Байєсівські ймовірнісні мережі;
- •Об’єднаний розподіл ймовірності в Байєсівських ймовірнісних мережах;
- •Умовна незалежність в Баєсівських мережах;
- •Виведення за Баєсівською мережею;
- •Ансамблі класифікаторів. Методи побудови;
- •Алгоритм маніпулювання навчальною вибіркою AdaBoost для побудови ансамбля класифікаторів;
- •Алгоритм маніпулювання навчальною вибіркою Bagging для побудови ансамбля класифікаторів;
- •Алгоритм маніпулювання навчальною вибіркою Cross-validation для побудови ансамбля класифікаторів;
- •Маніпулювання цільовою функцією для побудови ансамблю класифікаторів;
Ансамблі класифікаторів. Методи побудови;
Ансамбль классификаторов - это набор классификаторов, индивидуальные решения которых комбинируются некоторым образом (как правило, методами взвешенного или невзвешенного голосования) с целью расклассифицировать новые примеры.
Имеем обучающую выборку и определённый набор классификаторов (гипотез).
Чтобы при увеличении кол-ва классификаторов точность возрастала (ансамбль становился более эффективным, чем отдельные его классификаторов), нужно учитывать условия:
1. Каждый классификатор имеет вероятность правильно расклассифицировать больше, чем случайным образом (как правило, эта вероятность - 0.5).
2. Они должны быть разными (именно не одинакового типа, а по-разному классифицирующими).
Способы построения ансамблей:
1. Использование различных типов классификаторов, архитектуры их и параметров.
2. Манипулирование обучающими выборками.
3. Манипулирование входными атрибутами алгоритма (кол-во соседей, метрика расстояния; изменение кол-ва аттрибутов, влияющих на целевой класс и т.п.).
4. Манипулирование выходными классами.
5. Внесение некоторой случайности в метод обучения.
Алгоритм маніпулювання навчальною вибіркою AdaBoost для побудови ансамбля класифікаторів;
У нас есть одна обучающая выборка (первичная) - дублируем классифицируем по ней, определяем точность классификации, сопоставляем результаты с реальными значениями классов, и ставим коэф-ты для каждого примера (0 или 1 (для неправильных) на первой итерации) - для второй итерации берём неверно-классифицированные примеры.
Алгоритм AdaBoost.M1
Этап построения модели:
- Ставим одинаковый вес всем обучающим примерам.
- Для каждой итерации (t):
- Обучаемся на данной выборки.
- Вычисляем ошибку классификации e (часть верно расклассифицированных примеров).
- Останавливаем цикл только если ошибка равна 0 или больше, чем 0.5.
- Для каждого примера в датасете:
- Если пример расклассифицирован верно, то умножаем его вес на e/(1-e)
- Нормализуем веса всех примеров.
Классификация:
- Нулевой вес для всех классов.
- Для каждого из t классификаторов:
Прибавить -log(e/(1-e)) к весу классов, ПРЕДИКЕЙТЕД классификатором.
- Возвращаем класс с наибольшим весом.
(ЗДЕСЬ НЕ ТРЕБУЕТСЯ ГОЛОСОВАНИЯ КЛАССИФИКАТОРОВ)
Бустинг работает хорошо, если базовые классификаторы не имеют экспоненциальное возростание ошибки.
Алгоритм маніпулювання навчальною вибіркою Bagging для побудови ансамбля класифікаторів;
Генерируем обучающие выборки такой же размерности, как и обучающая, но рандомно и с возможностью повторений. Повторения влияет на различные классификаторы.
Этот алгоритм хорош, если мы хотим усреднить ошибку классификации различных классификаторов ансамбля.
Метод формирования ансамблей классификаторов с использованием случайной выборки с возвратом или бутстрепа. Название метода произошло от англ. bootstrap +aggregating – bagging. Он был предложен в 1994 году Лео Брейманом.
При формировании бутстрэп-выборок берется множество данных, из которого случайным образом отбирается несколько подмножеств, которые содержат такое же количество примеров, как и исходное. Но поскольку отбор производится случайно, набор примеров в этих выборках будет различным: некоторые из них могут быть отобраны по несколько раз, а другие – ни разу. Затем на основе каждой строится классификатор и их выходы комбинируются (агрегируются) путем голосования или простого усреднения. Ожидается, что результат будет намного точнее любой одиночной модели, построенной на исходном наборе данных.
Метод производит взвешенное голосование базовых алгоритмов, обученных на различных подвыборках данных, либо на различных частях признакового описания объектов.
Выделение подмножества объектов и/или признаков производится, как правило, сучайным образом.
Берётся обучающая выборка и рэндомом выбираем из неё кол-во примеров, равное мощности самой выборки, причем с повторениями. И так 10 раз получаем 10 разных обучающих выборок для обучения ансамбля, в каждой из которых могут отсутствовать некоторые примеры из исходного обучения ансамбля, а другие - повторяться.