
- •МНа. Задачі, методи та зв'язок з іншими дисциплінами;
- •Постановка навчальної проблеми (well-posed learning problems) в мНа;
- •Побудова навчальної системи. Складові, особливості;
- •Навчальна та тестова вибірка. Особливості формування;
- •Типи навчання (з учителем, без учителя, ліниве, нетерпляче)
- •Основні статистичні характеристики даних та їх фізичний зміст;
- •Основні особливості алгоритмів індуктивного навчання концептам;
- •Теорема подання простору версій (Version space representation theorem);
- •Алгоритм Find-s;
- •Алгоритм Candidate-elimination;
- •Виснаження простору версій;
- •Алгоритм id3;
- •Пошук в просторі гіпотез для алгоритмів дерев рішень;
- •Індуктивне упередження (inductive bias) алгоритму id3;
- •Методи відсікання гілок;
- •Метод відсікання гілок зі зменшенням помилки (reduced-error pruning);
- •Метод подальшого відсікання гілок (rule-post prunning);
- •Надмірне підганяння (overfitting) в деревах рішень та методи боротьби з ним;
- •Обробка безперервних значень для побудови дерев рішень;
- •Розрахунок основних інформ. Показників для побудови дерев рішень (entropy, ig);
- •Альтернативні методи обрання атрибутів (split information, gain ratio)
- •Теорема Байєса та її застосування в машинному навчанні;
- •Обчислення умовних та безумовних ймовірностей;
- •Оптимальний Байєсівський класифікатор;
- •Алгоритм Гіббса;
- •Алгоритм наївного Байєсу;
- •Застосування наївного Баєсівського класифікатору для класифікації текст док-ів;
- •Байєсівські ймовірнісні мережі;
- •Об’єднаний розподіл ймовірності в Байєсівських ймовірнісних мережах;
- •Умовна незалежність в Баєсівських мережах;
- •Виведення за Баєсівською мережею;
- •Ансамблі класифікаторів. Методи побудови;
- •Алгоритм маніпулювання навчальною вибіркою AdaBoost для побудови ансамбля класифікаторів;
- •Алгоритм маніпулювання навчальною вибіркою Bagging для побудови ансамбля класифікаторів;
- •Алгоритм маніпулювання навчальною вибіркою Cross-validation для побудови ансамбля класифікаторів;
- •Маніпулювання цільовою функцією для побудови ансамблю класифікаторів;
Основні статистичні характеристики даних та їх фізичний зміст;
-Мат ожидание –это ср.знач.СВ. Измеряется в единицах измерения самой СВ.
-МО Дискр. СВ – сумма произведений всех возможных её значений на вер-ти этих значений.
-Медиана-такое знач. Хm, при кот. Р{X<Xm}=P{X>Xm}=1/2.
-Мода - наиболее вероятное значение СВ.
-Стандартное отклонение (иногда среднеквадратичное отклонение) наиболее распространенный показатель дисперсии CВ (корень из дисперсии).
-Дисперсия СВ-это числовая хар-тика СВ, кот. Оценивает степень рассеивания СВ вокруг своего МО.
Inductive bias and unbiased learning;
IB создан для классификации новых невидимых примеров. Индуктивное предубеждение- это любой критерий, используемый обучаемой системой для ограничения пространства понятий или для выбора понятий в рамках этого пр-ва. Пр-во обуч. примеров обычно достаточно велико. Поэтому без нек. его разделения обучение на осн. поиска практически невозможно.
Имеются условия обобщения:
Целевой концепт С содержится в данном пространстве Н.
Если мы рассмотрим обучающий алгоритм L для выбора определенных объектов Х. Пусть С – произвольный концепт, определенный на тех примерах, которые у нас имеются. Dc = {x, C(x)} будет произвольный набор обучающих примеров с целевым концептом С. Пусть L(xi, Dc) обозначает классификацию xi по L после обучения на данных Dc, тогда inductive bias алгоритма обучения L – это минимальный набор предубеждений В такой, что для любого целевого концепта С и обучающего примера Dc будет иметь вид:
где A|- В значит А логическое следует B.
Обучение без предубеждений не способно делать вывод за пределами рассмотренных примеров. Все нерассмотренные примеры будут хорошо расклассифицированы половиной гипотез пространства версий, и расклассифицированы ошибочно другой половиной. Обучение без предубеждений не может делать индуктивные скачки, чтобы классифицировать невидимые примеры.
Основні особливості алгоритмів індуктивного навчання концептам;
Concept Learning – это выведение функции, которая имеет булевы значения, целевую функцию и примеры.
Candidate Elimination: манипулирует граничным представлением пространства версий, чтобы оно было совместимо со всеми прежними обучающими примерами + новым. Алгоритм не устойчив к зашумленным данным. Если приходит ошибочный обучающий пример, то происходит истощение пространства версий, что результируется в потере верхней или нижней границы.
Find-S: Целевой концепт должен быть представлен в пространстве гипотез и все примеры, которые являются негативными, влекут за собой другие знания. Ищет в пространстве гипотез от частного к общему наиболее частную гипотезу, совместимую с обучающими примерами, игнорируя отрицательные, не обязательно выдает окончательный концепт, не сигнализирует о том, что обучающие примеры могут быть несовместимыми (противоречивыми).
List-then-Eliminate: выбирает все гипотезы из пространства гипотез, охватывающие обучающие примеры, выдает пространство версий. Недостаток в том, что ввиду обработки всех гипотез он является сложным для вычисления.
Алгоритмы Concept Learning характеризуются простотой реализации и высокой скоростью обучения. Но они не гарантируют получение в результате окончательного концепта. Данные алгоритмы не работают на зашумленных и противоречивых данных, т. к. это может привести к неверному результату и истощению пространства гипотез. Они способны классифицировать невидимые примеры только благодаря их неявному индуктивному предопределению для выбора одной гипотезы, не противоречащей другой.