
- •МНа. Задачі, методи та зв'язок з іншими дисциплінами;
- •Постановка навчальної проблеми (well-posed learning problems) в мНа;
- •Побудова навчальної системи. Складові, особливості;
- •Навчальна та тестова вибірка. Особливості формування;
- •Типи навчання (з учителем, без учителя, ліниве, нетерпляче)
- •Основні статистичні характеристики даних та їх фізичний зміст;
- •Основні особливості алгоритмів індуктивного навчання концептам;
- •Теорема подання простору версій (Version space representation theorem);
- •Алгоритм Find-s;
- •Алгоритм Candidate-elimination;
- •Виснаження простору версій;
- •Алгоритм id3;
- •Пошук в просторі гіпотез для алгоритмів дерев рішень;
- •Індуктивне упередження (inductive bias) алгоритму id3;
- •Методи відсікання гілок;
- •Метод відсікання гілок зі зменшенням помилки (reduced-error pruning);
- •Метод подальшого відсікання гілок (rule-post prunning);
- •Надмірне підганяння (overfitting) в деревах рішень та методи боротьби з ним;
- •Обробка безперервних значень для побудови дерев рішень;
- •Розрахунок основних інформ. Показників для побудови дерев рішень (entropy, ig);
- •Альтернативні методи обрання атрибутів (split information, gain ratio)
- •Теорема Байєса та її застосування в машинному навчанні;
- •Обчислення умовних та безумовних ймовірностей;
- •Оптимальний Байєсівський класифікатор;
- •Алгоритм Гіббса;
- •Алгоритм наївного Байєсу;
- •Застосування наївного Баєсівського класифікатору для класифікації текст док-ів;
- •Байєсівські ймовірнісні мережі;
- •Об’єднаний розподіл ймовірності в Байєсівських ймовірнісних мережах;
- •Умовна незалежність в Баєсівських мережах;
- •Виведення за Баєсівською мережею;
- •Ансамблі класифікаторів. Методи побудови;
- •Алгоритм маніпулювання навчальною вибіркою AdaBoost для побудови ансамбля класифікаторів;
- •Алгоритм маніпулювання навчальною вибіркою Bagging для побудови ансамбля класифікаторів;
- •Алгоритм маніпулювання навчальною вибіркою Cross-validation для побудови ансамбля класифікаторів;
- •Маніпулювання цільовою функцією для побудови ансамблю класифікаторів;
Алгоритм маніпулювання навчальною вибіркою Cross-validation для побудови ансамбля класифікаторів;
Этим методом занимались Parmanto, Munro, Doyle
Заключается в построении обучающей выборки при помощи выбрасывания из различных непересекающихся подмножеств.
(Перекрестная проверка; кросс-валидация; метод случайных подпространств)
Метод формирования обучающего и тестового множеств для обучения аналитической модели в условиях недостаточности исходных данных или неравномерного представления классов. Для успешного обучения аналитической модели необходимо, чтобы классы были представлены в обучающем множестве примерно в одинаковой пропорции. Однако если данных недостаточно или процедура семплинга при формировании обучающего множества была произведена неудачно, один из классов может оказаться доминирующим. Это может вызвать «перекос» в процессе обучения и доминирующий класс будет рассматориваться как наиболее вероятный. Метод перекрестной проверки позволяет избежать этого.
В основе метода лежит разделение исходного множества данных на k примерно равных блоков, например k=5. Затем, на k-1, т.е. 4-х блоках производится обучение модели, а 5-й блок используется для тестирования. Процедура повторяется k раз, при этом на каждом проходе для проверки выбирается новый блок, а обучение производится на оставшихся.
Перекрестная проверка имеет два основных преимущества перед использованием одного множества для обучения и одного для тестирования модели. Во-первых, распределение классов оказывается более равномерным, что улучшает качество обучения. Во-вторых, если при каждом проходе оценить выходную ошибку модели и усреднить ее по всем проходам, то полученная оценка ошибки будет более достоверной. На практике, чаще всего выбирается k=10 (10-проходная перекрестная проверка), т.е. берем обучающую выборку, разбиваем на 10 частей. Поочередно выбрасываем по одной части - получаем 10 разных выборок (мощность каждой из которых равна 1/9 от мощности всей обучающей выборки) для обучения ансамбля классификаторов, когда модель обучается на 9/10 данных и тестируется на 1/10. Исследования показали, что в этом случае получается наиболее достоверная оценка выходной ошибки модели.
Маніпулювання цільовою функцією для побудови ансамблю класифікаторів;
МАНИПУЛИРОВАНИЕ ВЫХОДНЫМИ КЛАССАМИ
Есть опред. набор классов новостей, к примеру, 8. И разделим их на два как бы типа классов (4 из них - 0, а другие 4 - 1).
После обучения получим всего два класса: 0 и 1; расставим плюсы счётчикам каждого выходного класса классов.
Затем переформируем классы классов и опять прибавим счётчики (скажем, всем классам категории 1) - это для каждого нового обучаемого классификатора.
В результате получается один преобладающий целевой класс для конкретного примера, вместо голосования. Это аналогично перемешиванию обучающих выборок, но для целевых классов.