
- •МНа. Задачі, методи та зв'язок з іншими дисциплінами;
- •Постановка навчальної проблеми (well-posed learning problems) в мНа;
- •Побудова навчальної системи. Складові, особливості;
- •Навчальна та тестова вибірка. Особливості формування;
- •Типи навчання (з учителем, без учителя, ліниве, нетерпляче)
- •Основні статистичні характеристики даних та їх фізичний зміст;
- •Основні особливості алгоритмів індуктивного навчання концептам;
- •Теорема подання простору версій (Version space representation theorem);
- •Алгоритм Find-s;
- •Алгоритм Candidate-elimination;
- •Виснаження простору версій;
- •Алгоритм id3;
- •Пошук в просторі гіпотез для алгоритмів дерев рішень;
- •Індуктивне упередження (inductive bias) алгоритму id3;
- •Методи відсікання гілок;
- •Метод відсікання гілок зі зменшенням помилки (reduced-error pruning);
- •Метод подальшого відсікання гілок (rule-post prunning);
- •Надмірне підганяння (overfitting) в деревах рішень та методи боротьби з ним;
- •Обробка безперервних значень для побудови дерев рішень;
- •Розрахунок основних інформ. Показників для побудови дерев рішень (entropy, ig);
- •Альтернативні методи обрання атрибутів (split information, gain ratio)
- •Теорема Байєса та її застосування в машинному навчанні;
- •Обчислення умовних та безумовних ймовірностей;
- •Оптимальний Байєсівський класифікатор;
- •Алгоритм Гіббса;
- •Алгоритм наївного Байєсу;
- •Застосування наївного Баєсівського класифікатору для класифікації текст док-ів;
- •Байєсівські ймовірнісні мережі;
- •Об’єднаний розподіл ймовірності в Байєсівських ймовірнісних мережах;
- •Умовна незалежність в Баєсівських мережах;
- •Виведення за Баєсівською мережею;
- •Ансамблі класифікаторів. Методи побудови;
- •Алгоритм маніпулювання навчальною вибіркою AdaBoost для побудови ансамбля класифікаторів;
- •Алгоритм маніпулювання навчальною вибіркою Bagging для побудови ансамбля класифікаторів;
- •Алгоритм маніпулювання навчальною вибіркою Cross-validation для побудови ансамбля класифікаторів;
- •Маніпулювання цільовою функцією для побудови ансамблю класифікаторів;
Метод відсікання гілок зі зменшенням помилки (reduced-error pruning);
Метод рассматривает каждый узел дерева, как кандидата на отсечение, которое состоит в удалении поддерева (для которого данный атрибут являлся корнем) и ставим туда лист, присваивая ему значение, которое наиболее часто встречалось в отсеченном поддереве. Узлы убираются только в случае, если дерево после отсечений такое же эффективное, как и до них. Это приводит к тому, что лист, поставленный в связи со случайной закономерностью в обучающей выборке скорее всего будет отсечен, потому что такие случайности вряд ли будут в проверочной выборке. Узлы отсекаются итерационно – всегда выбирается на отсечение тот узел, чье удаление наиболее увеличит аккуратность дерева на проверочной выборке. В результате этого метода получаем наименьшую версию самого точного поддерева.
Главный недостаток: когда данные ограничены, резервирование части данных под проверочную выборку уменьшает количество возможных обучающих примеров.
Метод подальшого відсікання гілок (rule-post prunning);
Шаги:
1.Выводим дерево решений из обучающей выборки, пока оно не покрывает всю выборку, допускаем избыточную подгонку.
2.Конвертируем полученное дерево в эквивалентное множество правил, создавая по правилу для каждого пути из корня в лист.
3.Отсекаем каждое правило, чье удаление ведет к улучшению оценочной точности.
4.Сортируем отсеченные правила по их оценочной точности и рассматриваем их в этой последовательности при классификации последующих примеров.
Оценка точности правила проводится либо по проверочной выборке. Обратно дерево не
получаем. При классификации находится первое подходящее правило и остальные уже не рассматриваются.
Положительные моменты конвертации дерева в набор правил перед отсечением: конвертация удаляет различия между атрибутами, стоящими ближе к корню и атрибутами, стоящими ближе к листьям; удобства использования в программных системах, многие из которых имеют встроенные механизмы работы с правилами; конвертация позволяет получить различия в контекстах, в которых узел дерева решений используется.
Надмірне підганяння (overfitting) в деревах рішень та методи боротьби з ним;
Гипотеза h приналд прост-ву гипотез Н является излишне подогнанной под обучающие данные, если существует альтернативная гипотеза h` из Н такая что ошибка h меньше, чем ошибка h` на обучающих примерах, но ошибка h` меньше h на всем распределении примеров.
Методы избежания излишней подгонки. Существует два подхода:
- мы прекращаем рост дерева перед достижением точки, когда оно отлично классифицирует обучающие примеры;
- строим полное дерево с излишней подгонкой, а затем отсекаем некоторые концы ветвей.
Второй подход показал себя на практике лучше, т.к. в первом сложно вычислить, когда точно следует прекратить рост дерева.
«Оптимальный» размер дерева может быть вычислен следующим образом:
-Измеряется точность дерева на обучающей выборке (классический вариант)
-Измеряется точность дерева на отдельной тестовой выборке
Использование принципа MDL (минимальной длины описания): минимизировать следующую сумму: размер дерева решений + размер ошибок этого дерева.
1-ый подход: прекращение роста дерева
1) Расщепление примеров по атрибуту дает принципиально различное число примеров по ветвям. В таком случае вместо атрибута ставится лист со значением целевой функции наиболее часто встречаемой у текущих примеров
2) ставим лист, если разница между примерами с различными классами является очень существенной
2-ой подход: метод отсечения уменьшающей ошибки
1) разделяем данные на обучающую выборку и выборку подтверждений;
2) do пока отсечение не ухудшает точность
-
оцениваем влияние отсечения каждого
возможного узла (плюс все узлы идущие
ниже) на точность дерева на выборке для
подтверждений;
- жадно удаляем тот узел, удаление которого максимально повышает точность.
В результате этого метода получаем наименьшую версию самого точного поддерева.
Метод последующего отсечения ветвей
конвертируем полученное дерево в эквивалентное множество правил
сокращаем каждое правило независимо от остальных с помощью удаления любого условия, которое ведет к улучшению точности правила. На отдельной валидационной выборке. Делается в цикле.
Сортируем сокращенные правила согласно их точности и используем в таком порядке при классификации новых примеров.
Обратно дерево не получаем. При классификации находится первое подходящее правило и остальные уже не рассматриваются.
П
оложительные
моменты конвертации дерева в набор
правил перед отсечением: конвертация
удаляет различия между атрибутами,
стоящими ближе к корню и атрибутами,
стоящими ближе к листьям; удобства
использования в программных системах,
многие из которых имеют встроенные
механизмы работы с правилами