Добавил:

Studfiles2 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный электротехнический университет "ЛЭТИ"

Предмет:

Распознавание изображений и речевых сигналов

Файл:

Лекции по МРРиИ, Геппенер В.В. / Lecture5 / Lecture5.doc

Скачиваний:

Добавлен:

01.05.2014

Размер:

1.44 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 45 / 115 6 7 8 9 10 11 > Следующая >>>

Случай одной переменной:p(X|)

После получения апостериорной плотности p(|)остается только определить «условную по классу» плотностьp(x|)^⁷. Из уравнений (14), (15)и (19)имеем

где

Следовательно, поскольку плотность p(x|) как функциях пропорциональна ехр [-(1/2)(x-)²/(+)] плотностьp(x|) распределена нормально со средними дисперсией+:

p(x|) N(,+ ). (25)

Другими словами, для получения «условной по классу» плотности p(x|), имеющей параметрическую формуp(x|) N(,), следует просто заменитьнаина+. По сути дела, с условным среднимобращаются так, как если бы оно было истинным средним, а увеличение дисперсии характеризует дополнительную неопределенностьх из-за недостаточно точного представления о среднем значении.Это и является окончательным результатом: плотностьp(x|) есть требуемая условная по классу плотностьp(x|,),которая с априорными вероятностямиP()составляет вероятностную информацию, требуемую для построения байесовского классификатора.

Непараметрические методы Введение

В предыдущей главе мы рассматривали вопросы обучения с учителем, допуская, что вид основных плотностей распределения известен. Для большинства же случаев распознавания образов это допущение неверно. Очень редко распространенные параметрические формы соответствуют плоти остям распределения, встречающимся на практике. В частности, все стандартные параметрические плотности распределения одномодальные (имеют один локальный максимум), в то время как во многих практических задачах приходится иметь дело с многомодальными плотностями распределения. В данной главе мы рассмотрим непараметрическиепроцедуры, которыми можно пользоваться, не считая, что вид основных плотностей распределения известен.

Для распознавания образов интерес представляют несколько различных видов непараметрических методов. Один из методов состоит из процедур оценки плотности распределения р(х|)на основании выбранных образов. Если эти оценки удовлетворительны, то при проектировании оптимального классификатора ими можно заменить истинные значения плотности распределения. Другой метод состоит из процедур прямой оценки апостериорных вероятностейР(|х). Этот метод близок такому методу непараметрических решающих процедур, как правило «ближайшего соседа», в котором, обходя вероятностные оценки, сразу переходят к решающим функциям. И наконец, есть непараметрические процедуры, преобразующие пространство признаков так, чтобы в преобразованном пространстве можно было использовать параметрические методы. К этим методам дискриминантного анализа относится хорошо известный метод линейного дискриминанта Фишера, являющийся связующим звеном между параметрическими методами, описанными в гл. 3,и адаптивными методами гл. 5.

Оценка плотности распределения

Идеи, лежащие в основе методов оценки неизвестной плотности распределения вероятностей, довольно просты, хотя доказательство сходимости этих оценок сопряжено с большими трудностями. Большинство фундаментальных методов опирается на то, что вероятность

Р попадания вектора х в область задается выражением

(1)

Таким образом, Ресть сглаженный, или усредненный, вариант плотности распределенияр(х), и можно оценить это сглаженное значениерпосредством оценки вероятности Р. Предположим, чтоп выборокx₁,...,х_nберутся независимо друг от друга в соответствии с вероятностным закономр(x).Очевидно, что вероятность попаданияkизпвыборок в задается биномиальным законом

и ожидаемой величиной kбудет

E[k]=nP (2)

Более того, это биномиальное распределение для kимеет довольно резко выраженные максимумы около среднего значения, поэтому мы считаем, что отношениеk/nбудет хорошей оценкой вероятности Р, а следовательно, и сглаженной плотности распределения. Если теперь мы допустим, чтор(х)непрерывна и область настолько мала, что р в ее пределах меняется незначительно, то можем написать

(3)

где х —это точка внутри и V —объем .Объединяя уравнения(1) — (3),получаем следующую очевидную оценку для р(х):

(4)

Остается решить несколько проблем практического и теоретического плана. Если мы фиксируем объем Vи делаем все больше и больше выборок, отношениеk/nсойдется (по вероятности) требуемым образом, но при этом мы получаем только оценку пространственно усредненной величиныр(x):

Если мы хотим получить р(х), а не усредненный ее вариант, необходимо устремить Vк нулю. Однако если зафиксировать количествоп.выборок и позволить Vстремиться к нулю, то область в конечном счете станет настолько малой, что не будет содержать в себе никаких выборок, и наша оценкаp(x) 0будет бесполезной^⁸.

С практической точки зрения количество выборок всегда ограничено, так что нельзя позволить объему Vстановиться бесконечно малым. Если приходится пользоваться таким видом оценки, то нужно допускать определенную дисперсию отношенияk/nи определенное усреднение плотности распределенияр(х).

С теоретической точки зрения интересно, как можно обойти эти ограничения при наличии неограниченного количества выборок. Предположим, что мы пользуемся следующей процедурой. Для оценки плотности распределения х мы образуем последовательность областей ₁, ₂, . . .,содержащих х. Первая область будет соответствовать одной выборке, вторая —двум и т. д. ПустьV_nбудет объемом _n,k_n—количеством выборок, попадающих в _n ,ар_n(х)— n-й оценкойр(х):

(5)

Если р_n(х) должна сойтись кр(х),то, по-видимому, нужны три условия:

Первое условие обеспечивает сходимость пространственно усредненного P/Vкр(х)при однородном сокращении областей и при непрерывностир в х.Второе условие, имеющее смысл только прир(х)0,обеспечивает сходимость (по вероятности) отношения частот к вероятностиР.

Совершенно ясно, что третье условие необходимо, если р_n(х), заданная соотношением (5),вообще должна сойтись. Это условие говорит также о том, что, хотя в конечном счете в небольшую область _nпопадает огромное количество выборок, оно составит лишь незначительно малую часть всего количества выборок.

Существуют два общих способа получения последовательностей областей, удовлетворяющих этим условиям. Первый способ заключается в сжатии начальной области за счет определения объема V_nкак некоторой функции отп,такой, чтобыV_n=l/. Затем следует показать, что случайные величиныk_nиk_n/nведут себя правильно или, имея в виду существо дела, чтор_n(х)сходится кр(х).В этом заключается метод парзеновского окна, рассматриваемый в следующем разделе. Во втором методеk_nопределяется как некоторая функция отп: k_n=.Здесь объемV_nувеличивается до тех пор, пока не охватитk_n«соседей» х. Это метод оценки поk_nближайшим соседям. Оба эти метода действительно обеспечивают сходимость, хотя трудно сказать что-либо определенное об их поведении при конечном числе выборок.

<<< < Предыдущая 1 2 3 45 / 115 6 7 8 9 10 11 > Следующая >>>

Соседние файлы в папке Lecture5

#
01.05.20141.44 Mб97Lecture5.doc
#
01.05.2014180.46 Кб86pic4_1.jpg
#
01.05.201476.71 Кб85pic4_2.jpg
#
01.05.201459.18 Кб85pic4_3.jpg