Скачиваний:
97
Добавлен:
01.05.2014
Размер:
1.44 Mб
Скачать

Случай одной переменной:p(X|)

После получения апостериорной плотности p(|)остается только определить «условную по классу» плотностьp(x|)7. Из уравнений (14), (15)и (19)имеем

где

.

Следовательно, поскольку плотность p(x|) как функциях пропорциональна ехр [-(1/2)(x-)2/(+)] плотностьp(x|) распределена нормально со средними дисперсией+:

p(x|) N(,+ ). (25)

Другими словами, для получения «условной по классу» плотно­сти p(x|), имеющей параметрическую формуp(x|) N(,), следует просто заменитьнаина+. По сути дела, с ус­ловным среднимобращаются так, как если бы оно было истин­ным средним, а увеличение дисперсии характеризует дополнитель­ную неопределенностьх из-за недостаточно точного представления о среднем значении.Это и является окончательным результатом: плотностьp(x|) есть требуемая условная по классу плотностьp(x|,),которая с априорными вероятностямиP()составляет вероятностную информацию, требуемую для построения байесов­ского классификатора.

Непараметрические методы Введение

В предыдущей главе мы рассматривали вопросы обучения с учи­телем, допуская, что вид основных плотностей распределения изве­стен. Для большинства же случаев распознавания образов это до­пущение неверно. Очень редко распространенные параметрические формы соответствуют плоти остям распределения, встречающимся на практике. В частности, все стандартные параметрические плот­ности распределения одномодальные (имеют один локальный мак­симум), в то время как во многих практических задачах приходится иметь дело с многомодальными плотностями распределения. В дан­ной главе мы рассмотрим непараметрическиепроцедуры, которыми можно пользоваться, не считая, что вид основных плотностей рас­пределения известен.

Для распознавания образов интерес представляют несколько раз­личных видов непараметрических методов. Один из методов состоит из процедур оценки плотности распределения р(х|)на основании выбранных образов. Если эти оценки удовлетворительны, то при проектировании оптимального классификатора ими можно заменить истинные значения плотности распределения. Другой метод состоит из процедур прямой оценки апостериорных вероятностейР(|х). Этот метод близок такому методу непараметрических решающих процедур, как правило «ближайшего соседа», в котором, обходя вероятностные оценки, сразу переходят к решающим функциям. И наконец, есть непараметрические процедуры, преобразующие пространство признаков так, чтобы в преобразованном пространстве можно было использовать параметрические методы. К этим методам дискриминантного анализа относится хорошо известный метод ли­нейного дискриминанта Фишера, являющийся связующим звеном между параметрическими методами, описанными в гл. 3,и адаптив­ными методами гл. 5.

Оценка плотности распределения

Идеи, лежащие в основе методов оценки неизвестной плотности распределения вероятностей, довольно просты, хотя доказательство сходимости этих оценок сопряжено с большими трудностями. Боль­шинство фундаментальных методов опирается на то, что вероятность

Р попадания вектора х в область задается выражением

(1)

Таким образом, Ресть сглаженный, или усредненный, вариант плот­ности распределенияр(х), и можно оценить это сглаженное значе­ниерпосредством оценки вероятности Р. Предположим, чтоп выборокx1,...,хn берутся независимо друг от друга в соответ­ствии с вероятностным закономр(x).Очевидно, что вероятность по­паданияkизпвыборок в задается биномиальным законом

и ожидаемой величиной kбудет

E[k]=nP (2)

Более того, это биномиальное распределение для kимеет доволь­но резко выраженные максимумы около среднего значения, поэтому мы считаем, что отношениеk/nбудет хорошей оценкой вероятности Р, а следовательно, и сглаженной плотности распределения. Если теперь мы допустим, чтор(х)непрерывна и область настолько мала, что р в ее пределах меняется незначительно, то можем написать

(3)

где х —это точка внутри и V —объем .Объединяя уравнения(1) — (3),получаем следующую очевидную оценку для р(х):

(4)

Остается решить несколько проблем практического и теоретического плана. Если мы фиксируем объем Vи делаем все больше и больше выборок, отношениеk/nсойдется (по вероятности) требуемым обра­зом, но при этом мы получаем только оценку пространственно ус­редненной величиныр(x):

Если мы хотим получить р(х), а не усредненный ее вариант, необ­ходимо устремить Vк нулю. Однако если зафиксировать количествоп.выборок и позволить Vстремиться к нулю, то область в конечном счете станет настолько малой, что не будет содержать в себе никаких выборок, и наша оценкаp(x) 0будет бесполезной8.

С практической точки зрения количество выборок всегда огра­ничено, так что нельзя позволить объему Vстановиться бесконечно малым. Если приходится пользоваться таким видом оценки, то нужно допускать определенную дисперсию отношенияk/nи опре­деленное усреднение плотности распределенияр(х).

С теоретической точки зрения интересно, как можно обойти эти ограничения при наличии неограниченного количества выборок. Предположим, что мы пользуемся следующей процедурой. Для оценки плотности распределения х мы образуем последовательность областей 1, 2, . . .,содержащих х. Первая область будет соот­ветствовать одной выборке, вторая —двум и т. д. ПустьVnбудет объемом n,knколичеством выборок, попадающих в nрn(х)— n-й оценкойр(х):

(5)

Если рn(х) должна сойтись кр(х),то, по-видимому, нужны три условия:

1)

2)

3)

Первое условие обеспечивает сходимость пространственно ус­редненного P/Vкр(х)при однородном сокращении областей и при непрерывностир в х.Второе условие, имеющее смысл только прир(х)0,обеспечивает сходимость (по вероятности) отношения ча­стот к вероятностиР.

Совершенно ясно, что третье условие необходимо, если рn(х), заданная соотношением (5),вообще должна сойтись. Это условие гово­рит также о том, что, хотя в конечном счете в небольшую область nпопадает огромное количество выборок, оно составит лишь нез­начительно малую часть всего количества выборок.

Существуют два общих способа получения последовательностей областей, удовлетворяющих этим условиям. Первый способ заклю­чается в сжатии начальной области за счет определения объема Vnкак некоторой функции отп,такой, чтобыVn=l/. Затем следует по­казать, что случайные величиныknиkn/nведут себя правильно или, имея в виду существо дела, чторn(х)сходится кр(х).В этом за­ключается метод парзеновского окна, рассматриваемый в следующем разделе. Во втором методеknопределяется как некоторая функция отп: kn=.Здесь объемVnувеличивается до тех пор, пока не охватитkn«соседей» х. Это метод оценки поknближайшим соседям. Оба эти метода действительно обеспечивают сходимость, хотя труд­но сказать что-либо определенное об их поведении при конечном числе выборок.

Соседние файлы в папке Lecture5