
- •МНа. Задачі, методи та зв'язок з іншими дисциплінами;
- •Постановка навчальної проблеми (well-posed learning problems) в мНа;
- •Побудова навчальної системи. Складові, особливості;
- •Навчальна та тестова вибірка. Особливості формування;
- •Типи навчання (з учителем, без учителя, ліниве, нетерпляче)
- •Основні статистичні характеристики даних та їх фізичний зміст;
- •Основні особливості алгоритмів індуктивного навчання концептам;
- •Теорема подання простору версій (Version space representation theorem);
- •Алгоритм Find-s;
- •Алгоритм Candidate-elimination;
- •Виснаження простору версій;
- •Алгоритм id3;
- •Пошук в просторі гіпотез для алгоритмів дерев рішень;
- •Індуктивне упередження (inductive bias) алгоритму id3;
- •Методи відсікання гілок;
- •Метод відсікання гілок зі зменшенням помилки (reduced-error pruning);
- •Метод подальшого відсікання гілок (rule-post prunning);
- •Надмірне підганяння (overfitting) в деревах рішень та методи боротьби з ним;
- •Обробка безперервних значень для побудови дерев рішень;
- •Розрахунок основних інформ. Показників для побудови дерев рішень (entropy, ig);
- •Альтернативні методи обрання атрибутів (split information, gain ratio)
- •Теорема Байєса та її застосування в машинному навчанні;
- •Обчислення умовних та безумовних ймовірностей;
- •Оптимальний Байєсівський класифікатор;
- •Алгоритм Гіббса;
- •Алгоритм наївного Байєсу;
- •Застосування наївного Баєсівського класифікатору для класифікації текст док-ів;
- •Байєсівські ймовірнісні мережі;
- •Об’єднаний розподіл ймовірності в Байєсівських ймовірнісних мережах;
- •Умовна незалежність в Баєсівських мережах;
- •Виведення за Баєсівською мережею;
- •Ансамблі класифікаторів. Методи побудови;
- •Алгоритм маніпулювання навчальною вибіркою AdaBoost для побудови ансамбля класифікаторів;
- •Алгоритм маніпулювання навчальною вибіркою Bagging для побудови ансамбля класифікаторів;
- •Алгоритм маніпулювання навчальною вибіркою Cross-validation для побудови ансамбля класифікаторів;
- •Маніпулювання цільовою функцією для побудови ансамблю класифікаторів;
Виснаження простору версій;
Пространство версий - это набор всех гипотез, состоящих в тестовых данных.
Алгоритмы обучения концептам не работают с зашумленными или противоречивыми данными. В случае противоречивых данных мы получим истощение пространства версий. Оно происходит когда исчезает хотя бы одна из границ. Противоречивые примеры - это варианты шума, примеры с same значениями атрибутов, но с разными значениями классов.
Особливості побудови дерев рішень. + та -. Передумови застосування д. рішень;
Каждый внутренний узел соответствует атрибуту, каждая ветвь, выходящая из узла соответствует возможному значению атрибута. Каждый лист соответствует значению целевой функции или классу. Каждая ветвь представляет собой конъюнкцию, между ветвями установлено отношение дизъюнкции.
Основная рекурсивная процедура построения дерева:
-выбираем наилучший решающий атрибут для текущего узла;
-for each значения этого атрибута строим ветви и намечаем потомков;
-сортируем текущие обучающие примеры к намеченным потомкам;
-if в потомке все примеры одинаково классифицированы, ставим лист и останавливаемся,
else вызываем эту функцию для узла потомка.
На каждом шаге выбираем тот атрибут, который ведет к самому короткому дереву (индуктивное предубеждение).
Предпосылки использования деревьев решений:
- примеры описываются парами Атрибут – Значение;
- целевая функция принимает дискретные значения;
- может требоваться дизъюнктивная гипотеза в результате обучения;
- возможно небольшое зашумление обучающих примеров.
Достоинства метода:
- быстрый процесс обучения;
- генерация правил в областях, где эксперту трудно формализовать свои знания;
- извлечение правил на естественном языке;
- интуитивно понятная классификационная модель;
- высокая точность прогноза, сопоставимая с другими методами
Недостатки:
- Очень часто алгоритмы построения деревьев решений дают сложные деревья, которые "переполнены данными", имеют много узлов и ветвей. Такие "ветвистые" деревья очень трудно понять. К тому же ветвистое дерево, имеющее много узлов, разбивает обучающее множество на все большее количество подмн-в, сост. из все меньшего количества объектов.
Алгоритм id3;
Алгоритм индукции дерева решений ID3 – это жадный алгоритм, который строит дерево сверху вниз (от корня к листьям), в каждом узле выбирая атрибут, который наилучшим образом классифицирует локальные обучающие примеры. Этот процесс продолжается рекурсивно, пока дерево не будет идеально классифицировать все обучающие примеры, или пока не будут использованы все атрибуты.
Входные параметры: Examples – текущие обучающие примеры, целевой атрибут, Attributes – множество атрибутов-кандидатов.
Алгоритм ID3:
1. Создаем корневой узел дерева Root.
2. if все обучающие примеры отрицательные, возвращаем дерево, которое состоит из одного корня с листом «-».
3. if все обучающие примеры положительные, возвращаем дерево, которое состоит из одного корня с листом «+».
4. if множество Attributes пустое, возвращаем дерево, которое состоит из одного корня с пометкой, которая соответствует самому распространенному значению целевого атрибута в множестве Examples.
5. else: цикл:
-выбираем атрибут А из множества Attributes, который наилучшим образом классифицирует примеры Examples;
-ставим атрибут в текущий корень Root;
-for each возможного значения vi атрибута А:
- добавляем новую ветвь от корня Root, соответствующую проверке А= vi;
- выделяем Examplesvi – множество примеров, где А= vi;
- если множество Examplesvi пустое:
-тогда на конце этой ветви добавляем лист с пометкой, соответствующей самому распространенному значению целевого атрибута Examples;
-else на конце ветви строим поддерево ID3 (Examplesvi, целевой атрибут, {Attributes – А}).
6. Возвращаем Root.
Поиск в пространстве гипотез ID3 происходит от общего к частному.
Специфические характеристики:
+ Пространство гипотез ID3 является полным.
- ID3 поддерживает только одну общую гипотезу в процессе поиска.
- ID3 не позволяет возвращаться назад в процессе поиска.
+ ID3 исп мн-во обуч примеров в процессе поиска для принятия статических решений отн улучшения текущей гипотезы. Уменьшается риск принятия ошибочного решения.