Скачиваний:
97
Добавлен:
01.05.2014
Размер:
1.44 Mб
Скачать

Распределение параметров

Хотя требуемая плотность p(х) неизвестна, предположим, что она имеет известную параметрическую форму. Единственно, что предполагается неизвестным, это величина параметрического век­тора .Тот факт, чтор(х)неизвестна, но имеет известный парамет­рический вид, выразим утверждением, что функцияp(x|)полно­стью известна. При байесовском подходе предполагается, что неизвестный параметрический вектор есть случайная переменная. Всю информацию о до наблюдения выборок даетизвестнаяапри­орная плотностьp().Наблюдение выборок превращает ее в апо­стериорную плотностьp(|),которая, как можно надеяться, имеет крутой подъем вблизи истинного значения .

Основная наша цель—это вычисление плотностиp(x|),до­статочно достоверной для того, чтобы прийти к получению неиз­вестнойp(х). Это вычисление мы выполняем посредством интегри­рования объединенной плотностир(х, |) по .Получаем

=

причем интегрирование производится по всему пространству пара­метра 6. Теперьр(х, |) всегда можно представить как произве­дениер(х, |).Так как х и выборки из получаются независимо, то первый множитель есть простоp(x|). Распределе­ние величины х,таким образом, полностью известно, если известна величина параметрического вектора. В результате имеем

p(x|)= (14)

Это важнейшее уравнение связывает «условную по классу» плот­ность p(x|)с апостериорной плотностьюp(|)неизвестного па­раметрического вектора. Если вблизи некоторого значения функ­цияp(|)имеет острый пик, тоp(x|) p(x|),так что решение может быть получено подстановкой оценки в качестве истинной величины вектора параметров. Вообще, если существует большая неопределенность относительно точного значения ,это уравнение приводит к средней плотностиp(x\)по возможным значениям . Таким образом, в случае, когда неизвестные плотности имеют из­вестный параметрический вид, выборки влияют наp(x\)через апостериорную плотность р(|).

Обучение при восстановлении среднего значения нормальной плотности Случай одной переменной: p(|)

В данном разделе мы рассмотрим вычисление апостериорной плотности p(|)и требуемой плотностир(x|)для случая, когдар(x|)~N(,), а вектор среднего значения есть неизвестный вектор параметров. Для простоты начнем с одномерного случая, при котором

р(x|)~N(,), (15)

где единственной неизвестной величиной является среднее значение . Предположим, что любое исходное знание, которое мы можем иметь о, можно выразить посредствомизвестнойаприорной плот­ности р(). Кроме того, можно предположить, что

p()~N(,), (16)

где и известны. Грубо говоря, величинаесть наше лучшее исходное предположение относительно, аотражает неуверен­ность в отношении этого предположения. Предположение о том, что априорное распределение для нормальное, в дальнейшем упростит математические выражения. Однако решающее предположение за­ключается не столько в том, что априорное распределениенор­мально, сколько в том, что оно существует и известно.

Выбрав априорную плотность для ,можно представить ситу­ацию следующим образом. Вообразим, что величина,получена из множества, подчиняющегося вероятностному законур().Будучи однажды получена, эта величина представляет истинное значение и полностью определяет плотность длях.Предположим теперь, что из полученного множества независимо взятопвыборокx1, . . . ,xn.Положив ={x1, . . . ,xn},воспользуемся байесовским правилом, чтобы получить выражение

(17)

где —масштабный множитель, зависящий от,но не зависящий от .Из этого уравнения видно, как наблюдение выборочного мно­жества влияет на наше представление об истинном значении , «превращая» априорную плотностьр() в апостериорную плот­ностьp(|). Так какp(xk|)N(,) иp()N(,) то имеем

(18)

где множители, не зависящие от ,включены в константыи. Таким образом,p(|),представляющая собой экспоненциальную функцию квадратичной функции от, также является нормальной плотностью. Так как это остается в силе для любого числа выборок, тоp(|)остается нормальной, когда числопвыборок возрастает, иp(|)называютвоспроизводящей плотностью.Если восполь­зоватьсяp(|)~N(,), то значенияимогут быть найде­ны приравниванием коэффициентов из уравнения (18)соответствую­щим коэффициентам из выражения

p(|)=(19)

Отсюда получаем

(20)

и

, (21)

где mnестьвыборочное среднее

. (22)

Решая уравнения в явном виде относительно и,получаем

(23)

и

. (24)

Из этих уравнений видно, как комбинация априорной информа­ции и эмпирической информации выборок дает апостериорную плот­ность p(|).Грубо говоря,представляет наше лучшее предпо­ложение относительнопосле наблюденияпвыборок, аотражает нашу неуверенность относительно этого предположения. Так какмонотонно убывает с ростом n,стремясь к/ппри стремлениип к бесконечности, каждое добавочное наблюдение уменьшает нашу неуверенность относительно истинного значения .При возраста­ниип.функцияp(|)все более заостряется, стремясь к дельта-функции приn.Такое поведение обычно называетсябайесов­ским обучением(рис. 3.2).

Рис. 3.2.Обучение среднему при нормальной плотности.

Вообще представляет линейную комбинациюmnис неот­рицательными коэффициентами, сумма которых равна единице. Поэтому значение ,всегда лежит междуmnи. Приве­личинастремится к выборочному среднему при стремлениип к бесконечности. Если,то получаем вырожденный случай, при котором априорная уверенность в том, что=, настолько тверда, что никакое число наблюдений не сможет изменить нашего мнения. При другой крайности, когда, мы настолько не уве­рены в априорном предположении, что принимаем=mn, исходя при оценкетолько из выборок. Вообще относительный баланс ме­жду исходным представлением и опытными данными определяется отношением к, называемым иногдадогматизмом.Если дог­матизм не бесконечен, то после получения достаточного числа вы­борок предполагаемые конкретные значенияине играют роли, астремится к выборочному среднему.

Соседние файлы в папке Lecture5