
- •МНа. Задачі, методи та зв'язок з іншими дисциплінами;
- •Постановка навчальної проблеми (well-posed learning problems) в мНа;
- •Побудова навчальної системи. Складові, особливості;
- •Навчальна та тестова вибірка. Особливості формування;
- •Типи навчання (з учителем, без учителя, ліниве, нетерпляче)
- •Основні статистичні характеристики даних та їх фізичний зміст;
- •Основні особливості алгоритмів індуктивного навчання концептам;
- •Теорема подання простору версій (Version space representation theorem);
- •Алгоритм Find-s;
- •Алгоритм Candidate-elimination;
- •Виснаження простору версій;
- •Алгоритм id3;
- •Пошук в просторі гіпотез для алгоритмів дерев рішень;
- •Індуктивне упередження (inductive bias) алгоритму id3;
- •Методи відсікання гілок;
- •Метод відсікання гілок зі зменшенням помилки (reduced-error pruning);
- •Метод подальшого відсікання гілок (rule-post prunning);
- •Надмірне підганяння (overfitting) в деревах рішень та методи боротьби з ним;
- •Обробка безперервних значень для побудови дерев рішень;
- •Розрахунок основних інформ. Показників для побудови дерев рішень (entropy, ig);
- •Альтернативні методи обрання атрибутів (split information, gain ratio)
- •Теорема Байєса та її застосування в машинному навчанні;
- •Обчислення умовних та безумовних ймовірностей;
- •Оптимальний Байєсівський класифікатор;
- •Алгоритм Гіббса;
- •Алгоритм наївного Байєсу;
- •Застосування наївного Баєсівського класифікатору для класифікації текст док-ів;
- •Байєсівські ймовірнісні мережі;
- •Об’єднаний розподіл ймовірності в Байєсівських ймовірнісних мережах;
- •Умовна незалежність в Баєсівських мережах;
- •Виведення за Баєсівською мережею;
- •Ансамблі класифікаторів. Методи побудови;
- •Алгоритм маніпулювання навчальною вибіркою AdaBoost для побудови ансамбля класифікаторів;
- •Алгоритм маніпулювання навчальною вибіркою Bagging для побудови ансамбля класифікаторів;
- •Алгоритм маніпулювання навчальною вибіркою Cross-validation для побудови ансамбля класифікаторів;
- •Маніпулювання цільовою функцією для побудови ансамблю класифікаторів;
Пошук в просторі гіпотез для алгоритмів дерев рішень;
Поиск в пространстве гипотез ID3 происходит от общего к частному.
Специфические характеристики:
+ Пространство гипотез ID3 является полным.
- ID3 поддерживает только одну общую гипотезу в процессе поиска. Например, он не может определить сколько альтернативных деревьев решений явл совместимыми с доступными обучающими данными.
- ID3 не позволяет возвращаться назад в процессе поиска.
+ ID3 исп мн-во обуч примеров в процессе поиска для принятия статических решений отн улучшения текущей гипотезы. Уменьшается риск принятия ошибочного решения.
Індуктивне упередження (inductive bias) алгоритму id3;
Обучение с помощью дерева решений – это метод для аппроксимации дискретных значений целевой функции, в которой обученная функция представлена деревом решений. Обученные деревья могут быть также представлены как выборки с правил «если-то» для улучшения читабельности человека. Этот обучающий метод является самым популярным алгоритмом индуктивного вывода и был успешно применен для решения многих задач и проблем. Поиск в пространстве гипотез управляется IG в соответствии с индуктивное предубеждение, которое в ID3 такое:
-Короткие деревья предпочтительнее больших деревьев.
-Предпочтение деревьев, у которых атрибуты с наибольшим выигрышем в информации стоят ближе к корню.
Предпочтение более коротких гипотез более длинным-принцип Бритвы Оккама (на нем и основан метод IB в ID3). Его +: меньше коротких, чем длинных гипотез (короткая гипотеза, подходящая под данные вряд ли случайна, длинная – может быть случайна); -: сущ. Много путей определения маленьких наборов гипотез, и что особенного в маленьких наборах основанных на размере гипотез?
Методи відсікання гілок;
Сущ 2 м-да : м-д отсечения уменьшающей ошибки и м-д послед отсечения ветвей.
Метод отсечения уменьшающей ошибки
1) разделяем данные на обучающую выборку и выборку подтверждений;
2) do while (отсечение не ухудшает точность)
- оцениваем влияние отсечения каждого возможного узла (плюс все узлы идущие ниже) на точность дерева на выборке для подтверждений;
- жадно удаляем тот узел, удаление которого максимально повышает точность.
В результате этого метода получаем наименьшую версию самого точного поддерева.
Метод последующего отсечения ветвей (правил):
конвертируем полученное дерево в эквивалентное множество правил
сокращаем каждое правило независимо от остальных с помощью удаления любого условия, которое ведет к улучшению точности правила. На отдельной валидационной выборке. Делается в цикле.
Сортируем сокращенные правила согласно их точности и используем в таком порядке при классификации новых примеров.
Обратно дерево не получаем. При классификации находится первое подходящее правило и остальные уже не рассматриваются.
Положительные моменты конвертации дерева в набор правил перед отсечением: конвертация удаляет различия между атрибутами, стоящими ближе к корню и атрибутами, стоящими ближе к листьям; удобства использования в программных системах, многие из которых имеют встроенные механизмы работы с правилами