- •Лекция №5
- •Обучение статистической дискриминантной функции
- •Оценка параметров и обучение с учителем Введение
- •Оценка по максимуму правдоподобия Общая идея метода
- •Случай многомерного нормального распределения: неизвестно среднее значение
- •Общий многомерный нормальный случай
- •Байесовский классификатор
- •Плотности, условные по классу
- •Распределение параметров
- •Обучение при восстановлении среднего значения нормальной плотности Случай одной переменной: p(|)
- •Случай одной переменной:p(X|)
- •Непараметрические методы Введение
- •Оценка плотности распределения
- •Парзеновские окна Общие соображения
- •Сходимость среднего значения
- •Сходимость дисперсии
- •Оценка методом knближайших соседей
- •Оценка апостериорных вероятностей
- •Правило ближайшего соседа Общие замечания
- •Сходимость при использовании метода ближайшего соседа
- •Правилоkближайших соседей
Общий многомерный нормальный случай
В общем и более типичном многомерном нормальном случае неизвестны как среднее ,так и ковариационная матрица .Как раз эти неизвестные параметры и образуют компоненты параметрического вектора .Рассмотрим одномерный случай, приняви. Здесь имеем
logp()=
и
Тогда уравнение (5)приводит к следующим условиям:
и
где и — оценки по максимуму правдоподобия соответственно для и . После подстановки и несложных преобразований получим следующие оценки по максимуму правдоподобия дляи :
, (7)
. (8)
Хотя анализ многомерного случая в основном носит аналогичный характер, он значительно более трудоемок. Из литературы 4 хорошо известно, что оценка по максимуму правдоподобия для и дается выражениями
(9)
и
(10)
Таким образом, еще раз подтверждается, что оценка по максимуму правдоподобия для среднего значения вектора —это выборочное среднее. Оценка по максимуму правдоподобия для ковариационной матрицы —это среднее арифметическоеnматриц. Так как подлинная ковариационная матрица и есть, ожидаемое значение матрицыто полученный результат также весьма естествен.
Байесовский классификатор
Читателям, знакомым с математической статистикой, известно, что оценка по максимуму правдоподобия для ковариационной матрицы смещена, т. е. ожидаемое значение не равно .Несмещенная оценка для задаетсявыборочной ковариационной матрицей
. (11)
Очевидно, что так что эти две оценки, по существу, совпадают при большомп.Однако наличие двух сходных и тем не менее разных оценок для ковариационной матрицы смущает многих исследователей, так как, естественно, возникает вопрос: какая же из них «верная»? Ответить на это можно, сказав, что каждая из этих оценок ни верна, ни ложна: они просто различны. Наличие двух различных оценок на деле показывает, что единой оценки, включающей все свойства, которые только можно пожелать, не существует. Для наших целей сформулировать наиболее желательные свойства довольно сложно —нам нужна такая оценка, которая позволила бы наилучшим образом проводить классификацию. Хотя разрабатывать классификатор, используя оценки по максимуму правдоподобия для неизвестных параметров, обычно представляется разумным и логичным, вполне естествен вопрос, а нет ли других оценок, обеспечивающих еще лучшее качество работы. В данном разделе мы рассмотрим этот вопрос с байесовской точки зрения.
Плотности, условные по классу
Сущность байесовской классификации заложена в расчете апостериорных вероятностей . Байесовское правило позволяет вычислять эти вероятности по априорным вероятностями условным по классу плотностям, однако возникает вопрос: как быть, если эти величины неизвестны? Общий ответ таков: лучшее, что мы можем сделать,—это вычислить, используя всю информацию, имеющуюся в распоряжении. Часть этой информации может быть априорной, как, например, знание о виде неизвестных функций плотности и диапазонах значений неизвестных параметров. Часть этой информации может содержаться в множестве выборок. Пусть обозначает множество выборок, тогда мы подчеркнем роль выборок, сказав, что цель заключается в вычислении апостериорных вероятностей. По этим вероятностям мы можем построить байесовский классификатор.
Согласно байесовскому правилу 5,
= (12)
Это уравнение означает, что мы можем использовать информацию, получаемую из выборок, для определения как условных по классу плотностей, так и априорных вероятностей.
Мы могли бы придерживаться этой общности, однако впредь будем предполагать, что истинные значения априорных вероятностей известны, так что =.Кроме того, так как в данном случае мы имеем дело с наблюдаемыми значениями, то можно разделить выборки по классам всподмножеств причем выборки из принадлежат. Во многих случаях, в частности во всех, с которыми мы будем иметь дело, выборки из не оказывают влияния на,еслиij.Отсюда вытекают два упрощающих анализа следствия. Во-первых, это позволяет нам иметь дело с каждым классом в отдельности, используя для определениятолько выборки из .Вместе с принятым нами предположением, что априорные вероятности известны, это следствие позволяет записать уравнение (12)в виде
=
Во-вторых, так как каждый класс может рассматриваться независимо, можно отказаться от ненужных различий классов и упростить записи. По существу, здесь имеется сотдельных задач следующего вида: требуется определить,используя множество выборок, взятых независимо в соответствии с фиксированным, но неизвестным вероятностным закономр(х). Это и составляет главную задачу байесовского обучения.