
- •МНа. Задачі, методи та зв'язок з іншими дисциплінами;
- •Постановка навчальної проблеми (well-posed learning problems) в мНа;
- •Побудова навчальної системи. Складові, особливості;
- •Навчальна та тестова вибірка. Особливості формування;
- •Типи навчання (з учителем, без учителя, ліниве, нетерпляче)
- •Основні статистичні характеристики даних та їх фізичний зміст;
- •Основні особливості алгоритмів індуктивного навчання концептам;
- •Теорема подання простору версій (Version space representation theorem);
- •Алгоритм Find-s;
- •Алгоритм Candidate-elimination;
- •Виснаження простору версій;
- •Алгоритм id3;
- •Пошук в просторі гіпотез для алгоритмів дерев рішень;
- •Індуктивне упередження (inductive bias) алгоритму id3;
- •Методи відсікання гілок;
- •Метод відсікання гілок зі зменшенням помилки (reduced-error pruning);
- •Метод подальшого відсікання гілок (rule-post prunning);
- •Надмірне підганяння (overfitting) в деревах рішень та методи боротьби з ним;
- •Обробка безперервних значень для побудови дерев рішень;
- •Розрахунок основних інформ. Показників для побудови дерев рішень (entropy, ig);
- •Альтернативні методи обрання атрибутів (split information, gain ratio)
- •Теорема Байєса та її застосування в машинному навчанні;
- •Обчислення умовних та безумовних ймовірностей;
- •Оптимальний Байєсівський класифікатор;
- •Алгоритм Гіббса;
- •Алгоритм наївного Байєсу;
- •Застосування наївного Баєсівського класифікатору для класифікації текст док-ів;
- •Байєсівські ймовірнісні мережі;
- •Об’єднаний розподіл ймовірності в Байєсівських ймовірнісних мережах;
- •Умовна незалежність в Баєсівських мережах;
- •Виведення за Баєсівською мережею;
- •Ансамблі класифікаторів. Методи побудови;
- •Алгоритм маніпулювання навчальною вибіркою AdaBoost для побудови ансамбля класифікаторів;
- •Алгоритм маніпулювання навчальною вибіркою Bagging для побудови ансамбля класифікаторів;
- •Алгоритм маніпулювання навчальною вибіркою Cross-validation для побудови ансамбля класифікаторів;
- •Маніпулювання цільовою функцією для побудови ансамблю класифікаторів;
Обробка безперервних значень для побудови дерев рішень;
В случае поступления непрерывных значений в обучающей выборке для построения дерева решений необходимо произвести дискретизацию. Самый простой, но интеллектуальный способ равномерная дискретизация. Деление диапазона значений на равные интервалы. Для целевого атрибута чаще всего используют этот способ. «Интеллектуальная» дискретизация с учетом значений целевой функции (для определенных атрибутов). Такая дискретизация проводится с использованием IG. Она будет уменьшать энтропию наших примеров и следовательно приведет к более короткому дереву. Критерием IG вычисляется важность каждого возможного порога дискретизации. Порогами-кандидатами для которых подсчитывается IG являются те значения атрибута, где меняется значение класса. Т.е. среднее значение между значениями с разными классами.
Алгоритм:
1.сортируем примеры по возрастанию того атрибута, которому требуется дискретизация
2. Выбираем пороги-кандидаты
3. if(Q порогов-кандидатов) <= (Q требуемых дискретных значений атрибута -1), тогда применяем эти пороги без подсчета IG. Else подсчитываем IG для каждого порога-кандидата и отбираем те пороги, у которых IG наибольший.
4. Применяем отобранные пороги для дискретизации.
IG в данном случае вычисляется по формуле:
G(S)=E(D)- |D<S| * E (D<S) / |D| - |D>S| * E (D>S) / |D|
Где S-значение порога, E – значение энтропии.
Розрахунок основних інформ. Показників для побудови дерев рішень (entropy, ig);
Обучение с помощью дерева решений – это метод для аппроксимации дискретных значений целевой функции, в которой обученная функция представлена деревом решений. IG- это мера, которая используется для определения наилучшего атрибутов, то есть тех, которые больше всего будет влиять на значение целевой функции. Для расчета IG также понадобится значение энтропии. Энтропия показывает насколько разбросаны примеры, относятся ли они к одному классу или к разным. (Другими словами: энтропия – это мера неопределенности информации и принимает значения от 0 до 1, а IG – это ожидаемое уменьшение энтропии).
Для функции булевых значений расчет энтропии производится по следующей формуле:
E(s) = -P- * log2P- –P+ log2P + , где р+ - отношение позитивных примеров к общ числу примеров, где р- - отношение отрицательных примеров к общ числу примеров.
Если кол-во классов больше чем 2, (записать самому – сумма по n ну и т.д., ты знаешь;)…)
IG: где |Sv| - побвыборка S, в которой у А есть значение, |S| - мощность множестваS, Values(A) – возможные значения атрибута А.
Альтернативні методи обрання атрибутів (split information, gain ratio)
Иногда приходится сталкиваться с атрибутами, принимающими множество значений. Например, атрибуты ДАТА (365 значений).Проблема: если у атрибута множество возможных значений велико, то мера IG будет всегда выбирать атрибут в качестве корневого. На практике такое дерево смысла иметь не будет. Решение: для того, чтобы избежать ошибки, необходимо выбирать атрибут другим методом, а не IG.
gain ratio выбраковывает такие атрибуты, вводя понятие split information, чувствительное к тому, насколько широко и однородно атрибут разбивает данные:
При этом С-подмножество примеров в результате разбиения S на С значений атрибута А.
SplitInformation - фактически энтропия S относительно значений атрибута А. Это противоречит предыдущему использованию энтропии, когда мы рассматривали только энтропию S относительно целевого атрибута, чье значение должно быть предсказано обученным деревом. Мера RatioGain определяется в понятиях как прошлой меры Gain, так и SplitInformation:
SplitInformation устраняет выделение атрибутов со многими однородно распространенными значениями.
Один момент, который проявляется при использовании GainRatio вместо Gain - то, что знаменатель может быть нулевым или очень малым, когда Si примерно равно S для одного из Si. Это делает GainRatio или неопределенным, или очень большим для атрибутов, которые могут иметь то же значение для почти всех членов S. Чтобы избежать отбора атрибутов исключительно исходя из этого, мы можем применить некоторую эвристику, например, сначала считать Gain каждого атрибута, затем применять GainRatio, рассматривая только те значения каждого атрибута, которые выше среднего Gain.
Instance-based learning;
Методы обучения на примерах – это прямые подходы для вывода локальной аппроксимации целевой функции дискретных или непрерывных значений. Это ленивые методы, поэтому вывод целевой функции откладывается до прихода нового примера на классификацию. При приходе нового примера на классификацию, вычисляется его отношение ко всем хранящимся обучающим примерам. Исходя из этого назначается классификация/значение целевой ф-ции.
Включает в себя методы: case-based reasoning, которые используют более сложное, символическое представление примеров. Главное преимущество этих методов в том, что вместо того, чтоб оценивать целевой атрибут для всего пространства примеров, они могут оценивать его для каждого нового примера отдельно.
Недостатки: 1) затраты на классификацию нового примера могут быть высокими. Это происходит потому, что все рассчеты производятся в то же время, что и классификация. 2) IBL-методы, особенно методы ближайшего соседа, учитывают все атрибуты, когда извлекают схожие примеры. При этом целевой концепт может зависеть только от нескольких.
Case-based reasoning;
Это так же ленивый метод, который классифицирует новый пример анализируя схожие примеры и игнорируя полностью отличные, но, в отличии от методов instance-based learning, не использует Эвклидово пространство для представления примеров в виде вещественных точек. Этот метод обучения на примерах для обучающих данных, представленных символьными логическими описаниями. Существуют задачи обучения, когда обучающие примеры не представляются в виде пар атрибут-значение.
Области применения:
- Проектирование различных механических устройств на основе хранящейся библиотеки предыдущих примеров.
- Область юриспруденции. Поддержка принятия решений в судах на основе аналогий.
- В менеджменте проектов.