
- •МНа. Задачі, методи та зв'язок з іншими дисциплінами;
- •Постановка навчальної проблеми (well-posed learning problems) в мНа;
- •Побудова навчальної системи. Складові, особливості;
- •Навчальна та тестова вибірка. Особливості формування;
- •Типи навчання (з учителем, без учителя, ліниве, нетерпляче)
- •Основні статистичні характеристики даних та їх фізичний зміст;
- •Основні особливості алгоритмів індуктивного навчання концептам;
- •Теорема подання простору версій (Version space representation theorem);
- •Алгоритм Find-s;
- •Алгоритм Candidate-elimination;
- •Виснаження простору версій;
- •Алгоритм id3;
- •Пошук в просторі гіпотез для алгоритмів дерев рішень;
- •Індуктивне упередження (inductive bias) алгоритму id3;
- •Методи відсікання гілок;
- •Метод відсікання гілок зі зменшенням помилки (reduced-error pruning);
- •Метод подальшого відсікання гілок (rule-post prunning);
- •Надмірне підганяння (overfitting) в деревах рішень та методи боротьби з ним;
- •Обробка безперервних значень для побудови дерев рішень;
- •Розрахунок основних інформ. Показників для побудови дерев рішень (entropy, ig);
- •Альтернативні методи обрання атрибутів (split information, gain ratio)
- •Теорема Байєса та її застосування в машинному навчанні;
- •Обчислення умовних та безумовних ймовірностей;
- •Оптимальний Байєсівський класифікатор;
- •Алгоритм Гіббса;
- •Алгоритм наївного Байєсу;
- •Застосування наївного Баєсівського класифікатору для класифікації текст док-ів;
- •Байєсівські ймовірнісні мережі;
- •Об’єднаний розподіл ймовірності в Байєсівських ймовірнісних мережах;
- •Умовна незалежність в Баєсівських мережах;
- •Виведення за Баєсівською мережею;
- •Ансамблі класифікаторів. Методи побудови;
- •Алгоритм маніпулювання навчальною вибіркою AdaBoost для побудови ансамбля класифікаторів;
- •Алгоритм маніпулювання навчальною вибіркою Bagging для побудови ансамбля класифікаторів;
- •Алгоритм маніпулювання навчальною вибіркою Cross-validation для побудови ансамбля класифікаторів;
- •Маніпулювання цільовою функцією для побудови ансамблю класифікаторів;
Теорема подання простору версій (Version space representation theorem);
Пускай Х будет произвольным набором примеров, а Н набором гипотез булевых значений, определенных над X. Пусть C: X -> {0,1} будет произв. целевым концептом, опред. над X, и пусть D будет произв. набором учебных примеров {{x, c(x)}}. Для всех X, H, C и D, такой, что S и G четко определены.
Доказательство:
Для док-ва теоремы достаточно показать, что (1) каждый h, удовлетворяет правую сторону вышеуказанные выражения в пространстве версий, и (2) каждый член пространства версий удовлетворяет выражение справа. Пускай g произвольный член G, s произвольный член S, h произв. член H, такие что g >=g h >= g s. Тогда с определения S, s должно удовлетворять все позитивные примеры в D. Так как h >= g s, h должны удовлетворять все позитивные примеры в D. Так же по определению G, g не может удовлетворять любой негативный пример в D, и так как g >= g h, h не может удовлетворять любой негативный пример в D. Поскольку h удовлетворяет все позитивные примеры в D и не удовлетворяет негативные примеры в D, h входит в D и поэтому h входит в пространство версий. Это доказывает шаг (1). Аргументация для (2) сложнее. Это может быть доказано, если допустить что h в простр-ве версий (V S H,D) не удовлетворяет правую сторону выражения, что приведет к непоследовательности.
Алгоритм Find-s;
Идея: начиная с самой частной гипотезы, обобщаем ее каждый раз, когда ей не удается покрыть рассматриваемый положительный обучающий пример. На выходе: одна самая частная гипотеза совместимая с обучающей выборкой.
Инициализируем Н самой частной гипотезы из множества Н;
Цикл for each: положительного обучающего примера Х
For each ограничения атрибута ai в h
if ai в h не удовлетворяет примеру Х, тогда заменяем ai на следующее более общее ограничение, которое удовлетворяет примеру Х
Выдаем полученную гипотезу h.
Недостатки Find-S: Игнорирует отрицательные примеры, не обязательно выдает окончательный концепт, не сигнализирует о том, что обучающие примеры могут быть несовместимыми (противоречивыми).
Алгоритм Candidate-elimination;
Алгоритм работает с граничным (S и G) пространством версий. На каждом шаге получает границы, которые соответствуют новому пространству версий, совместимом со всеми предыдущими примерами и текущим новым обучающим примером.
На выходе алгоритма получаем пространство версий в компактном представлении.
Для положительного примера алгоритм при необходимости обобщает S-границу минимально для того, чтобы покрыть новый обучающий пример и остаться совместимой с предыдущими обучающими примерами. А также исключает те гипотезы в G-границе, которые не покрывают новый пример.
Для отрицательного примера алгоритм при необходимости конкретизирует G-границу минимально для того, чтобы она не покрывала новый пример, оставаясь совместимой с предыдущими, а также удаляет из S-границы гипотезы, которые ошибочно покрывают текущий негативный пример.
Алгоритм Candidate-elimination:
1. Инициализируем границу G максимально общей гипотезой, а границу S максимально частной гипотезой.
2. Цикл for each обучающих примеров:
if пример d положительный
- исключаем из границы G все гипотезы, несовместимые с примером d;
- for each гипотезы s в границе S, несовместимой с примером d:
- исключаем несовместимую гипотезу из границы;
- add в границу S все мин обобщения h гипотезы s, такие что совместимые с d и нек гипотезы в границе G являются более общими, чем гипотеза h;
- исключаем из полученной границы S все гипотезы, более общие, чем другие;
if пример d отрицательный
- исключаем из границы S все гипотезы, несовместимые с примером d;
- for each гипотезы g в границе G, несовместимой с примером d:
- исключаем несовместимую гипотезу из границы;
- add в G все мин конкретизации h гипотезы g, такие что совместимые с примером d и нек др гипотезы в границе S явл более частными, чем гипотеза h;
- исключаем из получ границы G все гипотезы, кот явл менее общими, чем др.
3. Выводим S и G.
Алгоритм не работает с зашумленными и противоречивыми данными. В случае противоречивых данных мы получим истощение пространства гипотез. Оно происходит, когда исчезает хотя бы одна из границ.