- •Лекция №5
- •Обучение статистической дискриминантной функции
- •Оценка параметров и обучение с учителем Введение
- •Оценка по максимуму правдоподобия Общая идея метода
- •Случай многомерного нормального распределения: неизвестно среднее значение
- •Общий многомерный нормальный случай
- •Байесовский классификатор
- •Плотности, условные по классу
- •Распределение параметров
- •Обучение при восстановлении среднего значения нормальной плотности Случай одной переменной: p(|)
- •Случай одной переменной:p(X|)
- •Непараметрические методы Введение
- •Оценка плотности распределения
- •Парзеновские окна Общие соображения
- •Сходимость среднего значения
- •Сходимость дисперсии
- •Оценка методом knближайших соседей
- •Оценка апостериорных вероятностей
- •Правило ближайшего соседа Общие замечания
- •Сходимость при использовании метода ближайшего соседа
- •Правилоkближайших соседей
Оценка по максимуму правдоподобия Общая идея метода
Предположим, что мы разбили множество выборок на классы, так что получено склассов выборок χ1,…, χc, причем выборки в каждом классе χjполучены независимо в соответствии с вероятностным закономp(x|ωj).Предполагается, что плотностьp(x|ωj)задана в известной параметрической форме и, следовательно, однозначно определяется вектором параметров θj. Мы могли, например, получить распределениеp(x|ωj)~N(μj, ∑j), в котором компоненты θjсоставлены из компонент μjи ∑j.Чтобы явно выразить зависимостьp(x|ωj) от θj, запишемp(x|ωj) в виде2 p(x|ωj, θj).Задача состоит в использовании информации, получаемой из выборок, для удовлетворительной оценки векторов параметров θ1,…, θc.
Для облегчения задачи предположим, что выборки, принадлежащие χi,не содержат информации о θj,еслиi≠j,т. е. предполагается функциональная независимость параметров, принадлежащих разным классам3. Это дает возможность иметь дело с каждым классом в отдельности и упростить обозначения, исключив индексы принадлежности классу. В результате получаетсясотдельных задач, формулируемых следующим образом: на основании множества χ независимо от полученных выборок в соответствии с вероятностным закономp(x|θ) оценить неизвестный параметрический вектор θ.
Предположим, что χ содержитпвыборок: χ ={x1, ...,хn}. Так как выборки получены независимо, имеем
p(χ |θ)=p(xk|θ). (1)
Рис. 3.1.Оценка по максимуму правдоподобия для параметра θ.
Рассматриваемая как функция от θ,плотностьp(χ|θ) называетсяправдоподобиемвеличины θ относительно данного множества выборок.Оценка по максимуму правдоподобиявеличины θ есть по определению такая величина ,при которой плотностьp(χ|θ) максимальна (рис. 3.1).
Интуитивно это означает, что в некотором смысле такое значение величины θ наилучшим образом соответствует реально наблюдаемым выборкам.
Для целей анализа обычно удобнее иметь дело с логарифмом правдоподобия, нежели с самой его величиной. Так как логарифм есть монотонно возрастающая функция, то максимуму логарифма правдоподобия и максимуму правдоподобия соответствует одна и та же величина .Еслиp(χ|θ) есть гладкая дифференцируемая функция θ,то определяется посредством обычных методов дифференциального исчисления. Пусть θ естьp-компонентный вектор θ=(θ1,..., θp)t,пусть также—оператор градиента,
= (2)
и пусть - функция логарифма правдоподобия
= log p () (3)
Тогда
= (4)
и
= (5)
Совокупность условий, необходимых для определения оценки по максимуму правдоподобия величины ,может быть получена, таким образом, из решения системыруравнений=0.
Случай многомерного нормального распределения: неизвестно среднее значение
Для иллюстрации применения полученных результатов к конкретному случаю предположим, что выборки производятся из нормально распределенной совокупности со средним значением и ковариационной матрицей.Для простоты сначала рассмотрим случай, когда неизвестно только среднее значение. Тогда
log p ()=
и
Если отождествить и, то из уравнения (5)увидим, что оценка по максимуму правдоподобия для должна удовлетворять уравнению
После умножения на и преобразования получим
(6)
Этот результат весьма убедителен. Он свидетельствует о том, что оценка по максимуму правдоподобия при неизвестном среднем по совокупности в точности равна среднему арифметическому выборок —выборочному среднему.Если представитьпвыборок геометрически в виде облака точек, то выборочное среднее будет центром этого облака. Помимо всего, выборочное среднее имеет ряд достоинств с точки зрения статистических свойств, в связи с чем эта весьма наглядная оценка часто оказывается предпочтительнее, не говоря уже о том, что она представляет максимально правдоподобное решение.