
- •МНа. Задачі, методи та зв'язок з іншими дисциплінами;
- •Постановка навчальної проблеми (well-posed learning problems) в мНа;
- •Побудова навчальної системи. Складові, особливості;
- •Навчальна та тестова вибірка. Особливості формування;
- •Типи навчання (з учителем, без учителя, ліниве, нетерпляче)
- •Основні статистичні характеристики даних та їх фізичний зміст;
- •Основні особливості алгоритмів індуктивного навчання концептам;
- •Теорема подання простору версій (Version space representation theorem);
- •Алгоритм Find-s;
- •Алгоритм Candidate-elimination;
- •Виснаження простору версій;
- •Алгоритм id3;
- •Пошук в просторі гіпотез для алгоритмів дерев рішень;
- •Індуктивне упередження (inductive bias) алгоритму id3;
- •Методи відсікання гілок;
- •Метод відсікання гілок зі зменшенням помилки (reduced-error pruning);
- •Метод подальшого відсікання гілок (rule-post prunning);
- •Надмірне підганяння (overfitting) в деревах рішень та методи боротьби з ним;
- •Обробка безперервних значень для побудови дерев рішень;
- •Розрахунок основних інформ. Показників для побудови дерев рішень (entropy, ig);
- •Альтернативні методи обрання атрибутів (split information, gain ratio)
- •Теорема Байєса та її застосування в машинному навчанні;
- •Обчислення умовних та безумовних ймовірностей;
- •Оптимальний Байєсівський класифікатор;
- •Алгоритм Гіббса;
- •Алгоритм наївного Байєсу;
- •Застосування наївного Баєсівського класифікатору для класифікації текст док-ів;
- •Байєсівські ймовірнісні мережі;
- •Об’єднаний розподіл ймовірності в Байєсівських ймовірнісних мережах;
- •Умовна незалежність в Баєсівських мережах;
- •Виведення за Баєсівською мережею;
- •Ансамблі класифікаторів. Методи побудови;
- •Алгоритм маніпулювання навчальною вибіркою AdaBoost для побудови ансамбля класифікаторів;
- •Алгоритм маніпулювання навчальною вибіркою Bagging для побудови ансамбля класифікаторів;
- •Алгоритм маніпулювання навчальною вибіркою Cross-validation для побудови ансамбля класифікаторів;
- •Маніпулювання цільовою функцією для побудови ансамблю класифікаторів;
Застосування наївного Баєсівського класифікатору для класифікації текст док-ів;
Мы рассматриваем выборку Х, которая состоит из учебных примеров (в данном случае - текстовых документов). Дана также целевая функция f(x), область значений которой, - конечная область V. Нам нужно по этим учебным примерам научиться предугадывать целевое значение некоторого множества текстовых документов. Значение, по которому классифицируем, - например, тематика текстового документа. В этом случае будем руководствоваться ключевыми словами (не обязательно ключевые), - это значения атрибутов.
Пример: We want to classify this text.
a1 a2 a3 a4 a5 a6
И нужно определить его к классу "нравится"/"не нравится". Нумеруем слова, определяя их положение (позицию) в документе. А значение атрибута - само слово. Необходимо определить классификатор наивного Байеса:
Априорные знания: вероятности безусловные классов like и dislike:
p(dislike)=0.7 p(like)=0.3
При прихождении нового примера, воспользуемся формулой:
argmax - значит, что нужно найти класс, для которого вероятность является максимальной:
Vj - конкретное значение целевого атрибута.
(
вместо
111 – 6)
= argmax P(Vj) P(a1="We"|Vj) * ... * P(a6="text"|Vj)
Классификация Наивного Байеса - это такая классификация, которая максимизирует вероятность обнаружения слов, которые встретились в документе.
Делаем допущение: каждое слово встречается в документе независимо от остальных! Это, конечно, неверно. Но, скажем, если у нас будет абзац со 111-ти слов и два значения целевого аттрибута и в английском языке 50000 слов, то нам придётся вычислять около 10 млн различных операций.
Также допущение, что каждое слово может встретиться в любом месте текста:
wk - какое-то слово из словаря.
P(ai=wk|Vj)=P(am=wk|Vj)
Также нам нужно решить, как мы будем вычислять вероятности для каждого слова в документе:
nk - сколько раз мы встретили классифицируемое слово.
n - общее кол-во слов в текстах всех документов. P=(nk + 1)/(n + |Vocabulary|)
|Vocabulary| - кол-во разных слов в документах.
Алгоритм ОБУЧЕНИЯ по Наивному Байесу:
1. Выбираем все слова, пунктуацию, другие эл-ты текстов-примеров.
Формируем словарь, в который пойдут РАЗНЫЕ слова и др. эл-ты, которые будут важны для классификации.
2. Вычисляем необходимые априорные вероятности принадлежности к определённому классу: P(Vj); а также вероятность встречи каждого слова, независимо от его положения для этого класса документов: P(wk|Vj).
Для каждого значения целевого атрибута, вычисляем подмножество документов из нашей учебной выборки, для примеров которой значение целевой ф-и является Vj.
Вычисляем априорную вероятность целевого значения:
docsj - подвыборка документов текущего класса
Examples - вся учебная выборка
P(Vj)=|docsj|/|Examples|
Берём один документ textj, который будет являться сцеплением всех документов из docsj.
n = общее число слов в этом объединённом документе (мощность textj).
Для каждого слова wk из нашего словаря Vocabulary, нужно вычислить nk - это кол-во раз, когда мы встретили это слово в textj.
Считаем условную вероятность слов:
P(wk|Vj)=(nk+1)/(n+|Vocabulary|)
Алгоритм КЛАССИФИКАЦИИ Наивного Байеса:
1. После того, как получили какой-то новый документ для классификации, вычисляем позиции слов в этом доке.
Необходимо возвратить наиболее вероятную классификацию по формуле с argmax (*), только теперь в произведении у нас i изменяется от 1 до кол-ва позиций классифицируемого документа.