
- •Лекция 1 - Введение в Методы анализа данных
- •Лекция 2 – Методы классификации и прогнозирования
- •Методы построения правил классификации Алгоритм построения 1-правил
- •Метод Naive Bayes
- •Лекция 3 - Методы построения деревьев решений
- •Методика "Разделяй и властвуй"
- •Алгоритм id3
- •Алгоритм c4.5
- •Алгоритм покрытия
- •Лекция 4 - Методы построения математических функций
- •Корреляционный анализ
- •Для двух переменных
- •Для произвольного числа переменных
- •Регрессионный анализ
- •Метод наименьших квадратов
- •Нелинейные методы
- •Метод опорных векторов
- •Лекция 5 - Поиск ассоциативных правил
- •Формальная постановка задачи
- •Представление результатов
- •Алгоритм Apriori Свойство анти-монотонности
- •Описание алгоритма
- •Лекция 6 – Кластерный анализ данных Постановка задачи
- •Классификация алгоритмов
- •Иерархические алгоритмы
- •Представление результатов иерархического алгоритма
- •Алгоритм ближайшего соседа
- •Итеративные алгоритмы
- •Алгоритм k-means
- •Алгоритм Fuzzy c-Means
- •Плотностные алгоритмы
- •Алгоритм dbscan
- •Модельные алгоритмы
- •Алгоритм em
- •Концептуальные алгоритмы Алгоритм Cobweb
- •Сетевые алгоритмы Метод WaveCluster
- •Лекция 7 - Визуальный анализ данных
- •Характеристики средств визуализации данных
- •Методы геометрических преобразований
- •Методы, ориентированные на пикселы
- •Иерархические образы
- •Лекция 8 – Анализ текстовой информации
Методы построения правил классификации Алгоритм построения 1-правил
Пусть у нас есть
независимые переменные A1...Aj...Ak,
принимающие значения
соответственно,
и зависимая переменная C, принимающая
значения c1...cr.
Для любого возможного значения каждой
независимой переменной формируется
правило, которое классифицирует объект
из обучающей выборки. В если-части
правила указывают значение независимой
переменной (Если
).
В то-части правила указывается наиболее
часто встречающееся значение зависимой
переменной у данного значения независимой
переменной(то C = cr).
Ошибкой правила является количество
объектов, имеющих данное значение
рассматриваемой независимой переменной
(
),
но не имеющих наиболее часто встречающееся
значение зависимой переменной у данного
значения независимой переменной(
).
Оценив ошибки, выбирается переменная,
для которой ошибка набора минимальна.
В случае непрерывных значений манипулируют промежутками. В случае пропущенных значений - достраивают. Наиболее серьезный недостаток - сверхчувствительность, алгоритм выбирает переменные, стремящиеся к ключу (т.е. с максимальным количеством значений, у ключа ошибка вообще 0, но он не несет информации). Эффективен, если объекты классифицируются по одному атрибуту.
Метод Naive Bayes
"Наивная" классификация - достаточно прозрачный и понятный метод классификации. "Наивной" она называется потому, что исходит из предположения о взаимной независимости признаков.
Свойства наивной классификации:
1. Использование всех переменных и определение всех зависимостей между ними.
2. Наличие двух предположений относительно переменных:
все переменные являются одинаково важными;
все переменные являются статистически независимыми, т.е. значение одной переменной ничего не говорит о значении другой.
Вероятность того, что некий объект ii, относится к классу cr(y = cr) обозначим как P(y = cr). Событие, соответствующее равенству независимых переменных определенному значению, обозначим как Е, а его вероятность - Р(Е). Идея алгоритма в расчете условной вероятности принадлежности объекта к сr при равенстве его независимых переменных определенным значениям. Из тервера:
Таким образом
формулируются правила, в условных частях
которых сравниваются все независимые
переменные с соответсввующими возможными
значениями. В заключительной части -
все возможные значения зависимой
переменной:
....{и
так для все наборов} Для каждого из этих
правил по формуле Байеса определяется
его вероятность. Так как независимые
переменные независимы друг от друга,
то :
что
подставляем в верхную формулу и получаем
вероятность всего правила.
Вероятность принадлежности объекта к классу cr при равенстве его переменной xn определенному значению сnk :
Нормализованная вероятность вычисляется по формуле:
и является вероятностью наступления данного исхода вообще, а не только при E. P(E) просто сокращается.
Проблема: в обучающей
выборке может не быть объекта с
и
при этом принадлежащему к классу cr.
Тогда вероятность равна нулю и
соответственно вероятность правила
равна нулю. Чтобы этого избежать, к
каждой вероятности прибавляют значение,
отличное от нуля. Это называется оценочной
функцией Лапласа. При подсчете вероятностей
тогда эти вероятности пропускаются.