- •Лекция №5
- •Обучение статистической дискриминантной функции
- •Оценка параметров и обучение с учителем Введение
- •Оценка по максимуму правдоподобия Общая идея метода
- •Случай многомерного нормального распределения: неизвестно среднее значение
- •Общий многомерный нормальный случай
- •Байесовский классификатор
- •Плотности, условные по классу
- •Распределение параметров
- •Обучение при восстановлении среднего значения нормальной плотности Случай одной переменной: p(|)
- •Случай одной переменной:p(X|)
- •Непараметрические методы Введение
- •Оценка плотности распределения
- •Парзеновские окна Общие соображения
- •Сходимость среднего значения
- •Сходимость дисперсии
- •Оценка методом knближайших соседей
- •Оценка апостериорных вероятностей
- •Правило ближайшего соседа Общие замечания
- •Сходимость при использовании метода ближайшего соседа
- •Правилоkближайших соседей
Случай одной переменной:p(X|)
После получения апостериорной плотности p(|)остается только определить «условную по классу» плотностьp(x|)7. Из уравнений (14), (15)и (19)имеем
где
.
Следовательно, поскольку плотность p(x|) как функциях пропорциональна ехр [-(1/2)(x-)2/(+)] плотностьp(x|) распределена нормально со средними дисперсией+:
p(x|) N(,+ ). (25)
Другими словами, для получения «условной по классу» плотности p(x|), имеющей параметрическую формуp(x|) N(,), следует просто заменитьнаина+. По сути дела, с условным среднимобращаются так, как если бы оно было истинным средним, а увеличение дисперсии характеризует дополнительную неопределенностьх из-за недостаточно точного представления о среднем значении.Это и является окончательным результатом: плотностьp(x|) есть требуемая условная по классу плотностьp(x|,),которая с априорными вероятностямиP()составляет вероятностную информацию, требуемую для построения байесовского классификатора.
Непараметрические методы Введение
В предыдущей главе мы рассматривали вопросы обучения с учителем, допуская, что вид основных плотностей распределения известен. Для большинства же случаев распознавания образов это допущение неверно. Очень редко распространенные параметрические формы соответствуют плоти остям распределения, встречающимся на практике. В частности, все стандартные параметрические плотности распределения одномодальные (имеют один локальный максимум), в то время как во многих практических задачах приходится иметь дело с многомодальными плотностями распределения. В данной главе мы рассмотрим непараметрическиепроцедуры, которыми можно пользоваться, не считая, что вид основных плотностей распределения известен.
Для распознавания образов интерес представляют несколько различных видов непараметрических методов. Один из методов состоит из процедур оценки плотности распределения р(х|)на основании выбранных образов. Если эти оценки удовлетворительны, то при проектировании оптимального классификатора ими можно заменить истинные значения плотности распределения. Другой метод состоит из процедур прямой оценки апостериорных вероятностейР(|х). Этот метод близок такому методу непараметрических решающих процедур, как правило «ближайшего соседа», в котором, обходя вероятностные оценки, сразу переходят к решающим функциям. И наконец, есть непараметрические процедуры, преобразующие пространство признаков так, чтобы в преобразованном пространстве можно было использовать параметрические методы. К этим методам дискриминантного анализа относится хорошо известный метод линейного дискриминанта Фишера, являющийся связующим звеном между параметрическими методами, описанными в гл. 3,и адаптивными методами гл. 5.
Оценка плотности распределения
Идеи, лежащие в основе методов оценки неизвестной плотности распределения вероятностей, довольно просты, хотя доказательство сходимости этих оценок сопряжено с большими трудностями. Большинство фундаментальных методов опирается на то, что вероятность
Р попадания вектора х в область задается выражением
(1)
Таким образом, Ресть сглаженный, или усредненный, вариант плотности распределенияр(х), и можно оценить это сглаженное значениерпосредством оценки вероятности Р. Предположим, чтоп выборокx1,...,хn берутся независимо друг от друга в соответствии с вероятностным закономр(x).Очевидно, что вероятность попаданияkизпвыборок в задается биномиальным законом
и ожидаемой величиной kбудет
E[k]=nP (2)
Более того, это биномиальное распределение для kимеет довольно резко выраженные максимумы около среднего значения, поэтому мы считаем, что отношениеk/nбудет хорошей оценкой вероятности Р, а следовательно, и сглаженной плотности распределения. Если теперь мы допустим, чтор(х)непрерывна и область настолько мала, что р в ее пределах меняется незначительно, то можем написать
(3)
где х —это точка внутри и V —объем .Объединяя уравнения(1) — (3),получаем следующую очевидную оценку для р(х):
(4)
Остается решить несколько проблем практического и теоретического плана. Если мы фиксируем объем Vи делаем все больше и больше выборок, отношениеk/nсойдется (по вероятности) требуемым образом, но при этом мы получаем только оценку пространственно усредненной величиныр(x):
Если мы хотим получить р(х), а не усредненный ее вариант, необходимо устремить Vк нулю. Однако если зафиксировать количествоп.выборок и позволить Vстремиться к нулю, то область в конечном счете станет настолько малой, что не будет содержать в себе никаких выборок, и наша оценкаp(x) 0будет бесполезной8.
С практической точки зрения количество выборок всегда ограничено, так что нельзя позволить объему Vстановиться бесконечно малым. Если приходится пользоваться таким видом оценки, то нужно допускать определенную дисперсию отношенияk/nи определенное усреднение плотности распределенияр(х).
С теоретической точки зрения интересно, как можно обойти эти ограничения при наличии неограниченного количества выборок. Предположим, что мы пользуемся следующей процедурой. Для оценки плотности распределения х мы образуем последовательность областей 1, 2, . . .,содержащих х. Первая область будет соответствовать одной выборке, вторая —двум и т. д. ПустьVnбудет объемом n,kn—количеством выборок, попадающих в n ,арn(х)— n-й оценкойр(х):
(5)
Если рn(х) должна сойтись кр(х),то, по-видимому, нужны три условия:
1)
2)
3)
Первое условие обеспечивает сходимость пространственно усредненного P/Vкр(х)при однородном сокращении областей и при непрерывностир в х.Второе условие, имеющее смысл только прир(х)0,обеспечивает сходимость (по вероятности) отношения частот к вероятностиР.
Совершенно ясно, что третье условие необходимо, если рn(х), заданная соотношением (5),вообще должна сойтись. Это условие говорит также о том, что, хотя в конечном счете в небольшую область nпопадает огромное количество выборок, оно составит лишь незначительно малую часть всего количества выборок.
Существуют два общих способа получения последовательностей областей, удовлетворяющих этим условиям. Первый способ заключается в сжатии начальной области за счет определения объема Vnкак некоторой функции отп,такой, чтобыVn=l/. Затем следует показать, что случайные величиныknиkn/nведут себя правильно или, имея в виду существо дела, чторn(х)сходится кр(х).В этом заключается метод парзеновского окна, рассматриваемый в следующем разделе. Во втором методеknопределяется как некоторая функция отп: kn=.Здесь объемVnувеличивается до тех пор, пока не охватитkn«соседей» х. Это метод оценки поknближайшим соседям. Оба эти метода действительно обеспечивают сходимость, хотя трудно сказать что-либо определенное об их поведении при конечном числе выборок.