Скачиваний:
83
Добавлен:
02.05.2014
Размер:
2.02 Mб
Скачать

Вероятностная классификация

При статистическом распознавании образов оптимальный классификатор относит образец xJ. к классу С, руководствуясь решающим правилом Байеса. Для двух классов оно выглядит так:

V отнести хК к С\, если р{с.I.I}>р{с21 хК}, V отнести f к С2, если Р{С. I.I}< Р{С2 I хК }.

Смысл правила простой: образец f относится к группе, имеющей наи­большую апостериорную вероятность. Это правило оптимально в том смыс­ле, что оно минимизирует среднее число неправильных классификаций. Ес­

ли имеется такая пара функций {<PJ(X)' q>z(x)}, что выполнены условия:

<р\(Х)< <Р2(х), если p{c1Ix} < Р{С2 I х },

<Р2(Х» <Р.(Х), если Р{С\ I х}> Р{С2 I х },

то байесовское соотношение между априорной и апостериорной вероятно­стью сохраняет силу, и поэтому эти функции можно использовать в качестве упрощенных решающих функций. Так имеет смысл делать, если эти функции строятся и вычисляются более просто.

Хотя правило выглядит очень простым, применить его на практике ока­зывается трудно, так как бывают неизвестны апостериорные вероятности (или даже значения упрощенных решающих функций). Их значения можно оценить. В силу теоремы Байеса апостериорные вероятности можно выразить через априорные вероятности и функции плотности по формуле Р {С;

Ix} = Р{ С; }Р{х I С; ~ Р{ Cj }Р{х I Cj},

где j - номер класса. Таким образом, правило Байеса для произвольного числа классов принимает вид:

V отнести х к С; ,если Р{х I С; }Р{ С; } >Р{х I Cj }Р{ Cj) для Bcex j::i:i.

Классифика торы образов

Априорную плотность вероятности можно оценить различными спосо­бами. В параметрических методах предполагается, что плотность вероят­ности (PDF) является функцией определенного вида с неизвестными пара­метрами. Например, можно попробовать приблизить PDF при помощи га­уссовой функции. Для того чтобы произвести классификацию, нужно предварительно получить оценочные значения для вектора среднего и мат­рицы ковариаций по каждому из классов данных и затем использовать их в решающем правиле. В результате получится полиномиальное решающее правило, содержащее только квадраты и попарные произведения перемен­ных. Вся описанная процедура называется квадратичным дискриминантным анализом (QDA). В предположении, что матрицы ковариаций у всех классов одинаковы, QDA сводится к линейному дискриминантному анализу (LDA).

В методах другого типа - непараметрических - никаких предваритель­ных предположений о плотности вероятности не требуется. В методе «k ближайших соседей» (kNN) вычисляется расстояние между вновь посту­пившим образцом и векторами обучающего множества, после чего образец относится к тому классу, к которому принадлежит большинство из k его ближайших соседей. В результате этого границы, разделяющие классы, по­лучаются кусочно-линейными. В различных модификациях этого метода используются различные меры расстояния и специальные приемы нахожде­ния соседей. Иногда вместо самого множества образцов берется совокуп­ность центроидов, соответствующих кластерам в методе адаптивного век­торного квантования (L VQ).

В других методах классификатор разбивает данные на группы по схеме дерева. На каждом шаге подгруппа разбивается надвое, и в результате полу­чается иерархическая структура бинарного дерева. Разделяющие границы получаются, как правило, кусочно-линейными и соответствуют классам, со­стоящим из одного или нескольких листьев дерева. Этот метод хорош тем, что он порождает метод классификации, основанный на логических решаю­щих правилах. Идеи древовидных классификаторов применяются в методах построения самонаращивающихся нейронных классификаторов.

Соседние файлы в папке Романов В.П. Интеллектуальные информационные системы в экономике