- •Лекция №5
- •Обучение статистической дискриминантной функции
- •Оценка параметров и обучение с учителем Введение
- •Оценка по максимуму правдоподобия Общая идея метода
- •Случай многомерного нормального распределения: неизвестно среднее значение
- •Общий многомерный нормальный случай
- •Байесовский классификатор
- •Плотности, условные по классу
- •Распределение параметров
- •Обучение при восстановлении среднего значения нормальной плотности Случай одной переменной: p(|)
- •Случай одной переменной:p(X|)
- •Непараметрические методы Введение
- •Оценка плотности распределения
- •Парзеновские окна Общие соображения
- •Сходимость среднего значения
- •Сходимость дисперсии
- •Оценка методом knближайших соседей
- •Оценка апостериорных вероятностей
- •Правило ближайшего соседа Общие замечания
- •Сходимость при использовании метода ближайшего соседа
- •Правилоkближайших соседей
Распределение параметров
Хотя требуемая плотность p(х) неизвестна, предположим, что она имеет известную параметрическую форму. Единственно, что предполагается неизвестным, это величина параметрического вектора .Тот факт, чтор(х)неизвестна, но имеет известный параметрический вид, выразим утверждением, что функцияp(x|)полностью известна. При байесовском подходе предполагается, что неизвестный параметрический вектор есть случайная переменная. Всю информацию о до наблюдения выборок даетизвестнаяаприорная плотностьp().Наблюдение выборок превращает ее в апостериорную плотностьp(|),которая, как можно надеяться, имеет крутой подъем вблизи истинного значения .
Основная наша цель—это вычисление плотностиp(x|),достаточно достоверной для того, чтобы прийти к получению неизвестнойp(х). Это вычисление мы выполняем посредством интегрирования объединенной плотностир(х, |) по .Получаем
=
причем интегрирование производится по всему пространству параметра 6. Теперьр(х, |) всегда можно представить как произведениер(х, |).Так как х и выборки из получаются независимо, то первый множитель есть простоp(x|). Распределение величины х,таким образом, полностью известно, если известна величина параметрического вектора. В результате имеем
p(x|)= (14)
Это важнейшее уравнение связывает «условную по классу» плотность p(x|)с апостериорной плотностьюp(|)неизвестного параметрического вектора. Если вблизи некоторого значения функцияp(|)имеет острый пик, тоp(x|) p(x|),так что решение может быть получено подстановкой оценки в качестве истинной величины вектора параметров. Вообще, если существует большая неопределенность относительно точного значения ,это уравнение приводит к средней плотностиp(x\)по возможным значениям . Таким образом, в случае, когда неизвестные плотности имеют известный параметрический вид, выборки влияют наp(x\)через апостериорную плотность р(|).
Обучение при восстановлении среднего значения нормальной плотности Случай одной переменной: p(|)
В данном разделе мы рассмотрим вычисление апостериорной плотности p(|)и требуемой плотностир(x|)для случая, когдар(x|)~N(,), а вектор среднего значения есть неизвестный вектор параметров. Для простоты начнем с одномерного случая, при котором
р(x|)~N(,), (15)
где единственной неизвестной величиной является среднее значение . Предположим, что любое исходное знание, которое мы можем иметь о, можно выразить посредствомизвестнойаприорной плотности р(). Кроме того, можно предположить, что
p()~N(,), (16)
где и известны. Грубо говоря, величинаесть наше лучшее исходное предположение относительно, аотражает неуверенность в отношении этого предположения. Предположение о том, что априорное распределение для нормальное, в дальнейшем упростит математические выражения. Однако решающее предположение заключается не столько в том, что априорное распределениенормально, сколько в том, что оно существует и известно.
Выбрав априорную плотность для ,можно представить ситуацию следующим образом. Вообразим, что величина,получена из множества, подчиняющегося вероятностному законур().Будучи однажды получена, эта величина представляет истинное значение и полностью определяет плотность длях.Предположим теперь, что из полученного множества независимо взятопвыборокx1, . . . ,xn.Положив ={x1, . . . ,xn},воспользуемся байесовским правилом, чтобы получить выражение
(17)
где —масштабный множитель, зависящий от,но не зависящий от .Из этого уравнения видно, как наблюдение выборочного множества влияет на наше представление об истинном значении , «превращая» априорную плотностьр() в апостериорную плотностьp(|). Так какp(xk|)N(,) иp()N(,) то имеем
(18)
где множители, не зависящие от ,включены в константыи. Таким образом,p(|),представляющая собой экспоненциальную функцию квадратичной функции от, также является нормальной плотностью. Так как это остается в силе для любого числа выборок, тоp(|)остается нормальной, когда числопвыборок возрастает, иp(|)называютвоспроизводящей плотностью.Если воспользоватьсяp(|)~N(,), то значенияимогут быть найдены приравниванием коэффициентов из уравнения (18)соответствующим коэффициентам из выражения
p(|)=(19)
Отсюда получаем
(20)
и
, (21)
где mnестьвыборочное среднее
. (22)
Решая уравнения в явном виде относительно и,получаем
(23)
и
. (24)
Из этих уравнений видно, как комбинация априорной информации и эмпирической информации выборок дает апостериорную плотность p(|).Грубо говоря,представляет наше лучшее предположение относительнопосле наблюденияпвыборок, аотражает нашу неуверенность относительно этого предположения. Так какмонотонно убывает с ростом n,стремясь к/ппри стремлениип к бесконечности, каждое добавочное наблюдение уменьшает нашу неуверенность относительно истинного значения .При возрастаниип.функцияp(|)все более заостряется, стремясь к дельта-функции приn.Такое поведение обычно называетсябайесовским обучением(рис. 3.2).
Рис. 3.2.Обучение среднему при нормальной плотности.
Вообще представляет линейную комбинациюmnис неотрицательными коэффициентами, сумма которых равна единице. Поэтому значение ,всегда лежит междуmnи. Привеличинастремится к выборочному среднему при стремлениип к бесконечности. Если,то получаем вырожденный случай, при котором априорная уверенность в том, что=, настолько тверда, что никакое число наблюдений не сможет изменить нашего мнения. При другой крайности, когда, мы настолько не уверены в априорном предположении, что принимаем=mn, исходя при оценкетолько из выборок. Вообще относительный баланс между исходным представлением и опытными данными определяется отношением к, называемым иногдадогматизмом.Если догматизм не бесконечен, то после получения достаточного числа выборок предполагаемые конкретные значенияине играют роли, астремится к выборочному среднему.