Вероятностная классификация

При статистическом распознавании образов оптимальный классификатор относит образец x_J. к классу С, руководствуясь решающим правилом Байеса. Для двух классов оно выглядит так:

V отнести хК к С\, если р{с.I.I}>р{с21 хК}, V отнести f к С2, если Р{С. I.I}< Р{С2 I хК }.

Смысл правила простой: образец f относится к группе, имеющей наибольшую апостериорную вероятность. Это правило оптимально в том смысле, что оно минимизирует среднее число неправильных классификаций. Ес

ли имеется такая пара функций {<PJ(X)' q>z(x)}, что выполнены условия:

<р\(Х)< <Р2(х), если p{c1Ix} < Р{С2 I х },

<Р2(Х» <Р.(Х), если Р{С\ I х}> Р{С2 I х },

то байесовское соотношение между априорной и апостериорной вероятностью сохраняет силу, и поэтому эти функции можно использовать в качестве упрощенных решающих функций. Так имеет смысл делать, если эти функции строятся и вычисляются более просто.

Хотя правило выглядит очень простым, применить его на практике оказывается трудно, так как бывают неизвестны апостериорные вероятности (или даже значения упрощенных решающих функций). Их значения можно оценить. В силу теоремы Байеса апостериорные вероятности можно выразить через априорные вероятности и функции плотности по формуле Р {С;

Ix} = Р{ С; }Р{х I С; ~ Р{ Cj }Р{х I Cj},

где j - номер класса. Таким образом, правило Байеса для произвольного числа классов принимает вид:

V отнести х к С; ,если Р{х I С; }Р{ С; } >Р{х I Cj }Р{ Cj) для Bcex j::i:i.

Классифика торы образов

Априорную плотность вероятности можно оценить различными способами. В параметрических методах предполагается, что плотность вероятности (PDF) является функцией определенного вида с неизвестными параметрами. Например, можно попробовать приблизить PDF при помощи гауссовой функции. Для того чтобы произвести классификацию, нужно предварительно получить оценочные значения для вектора среднего и матрицы ковариаций по каждому из классов данных и затем использовать их в решающем правиле. В результате получится полиномиальное решающее правило, содержащее только квадраты и попарные произведения переменных. Вся описанная процедура называется квадратичным дискриминантным анализом (QDA). В предположении, что матрицы ковариаций у всех классов одинаковы, QDA сводится к линейному дискриминантному анализу (LDA).

В методах другого типа - непараметрических - никаких предварительных предположений о плотности вероятности не требуется. В методе «k ближайших соседей» (kNN) вычисляется расстояние между вновь поступившим образцом и векторами обучающего множества, после чего образец относится к тому классу, к которому принадлежит большинство из k его ближайших соседей. В результате этого границы, разделяющие классы, получаются кусочно-линейными. В различных модификациях этого метода используются различные меры расстояния и специальные приемы нахождения соседей. Иногда вместо самого множества образцов берется совокупность центроидов, соответствующих кластерам в методе адаптивного векторного квантования (L VQ).

В других методах классификатор разбивает данные на группы по схеме дерева. На каждом шаге подгруппа разбивается надвое, и в результате получается иерархическая структура бинарного дерева. Разделяющие границы получаются, как правило, кусочно-линейными и соответствуют классам, состоящим из одного или нескольких листьев дерева. Этот метод хорош тем, что он порождает метод классификации, основанный на логических решающих правилах. Идеи древовидных классификаторов применяются в методах построения самонаращивающихся нейронных классификаторов.

<<< < Предыдущая 1 2 3 4 5 6 7 89 / 149 10 11 12 13 14 > Следующая >>>

Соседние файлы в папке Романов В.П. Интеллектуальные информационные системы в экономике

#
02.05.2014908.29 Кб140ГЛАВА 5.doc
#
02.05.2014662.02 Кб117ГЛАВА 6.doc
#
02.05.20144.14 Mб124ГЛАВА 7.doc
#
02.05.2014544.77 Кб121ГЛАВА 8.doc
#
02.05.20141.17 Mб127ГЛАВА 9.doc
#
02.05.20142.02 Mб136ГЛАВА13.doc