Скачиваний:
97
Добавлен:
01.05.2014
Размер:
1.44 Mб
Скачать

Общий многомерный нормальный случай

В общем и более типичном многомерном нормальном случае неизвестны как среднее ,так и ковариационная матрица .Как раз эти неизвестные параметры и образуют компоненты парамет­рического вектора .Рассмотрим одномерный случай, приняви. Здесь имеем

logp()=

и

Тогда уравнение (5)приводит к следующим условиям:

и

где и — оценки по максимуму правдоподобия соответственно для и . После подстановки и несложных преоб­разований получим следующие оценки по максимуму правдопо­добия дляи :

, (7)

. (8)

Хотя анализ многомерного случая в основном носит аналогич­ный характер, он значительно более трудоемок. Из литературы 4 хорошо известно, что оценка по максимуму правдоподобия для и дается выражениями

(9)

и

(10)

Таким образом, еще раз подтверждается, что оценка по мак­симуму правдоподобия для среднего значения вектора —это вы­борочное среднее. Оценка по максимуму правдоподобия для кова­риационной матрицы —это среднее арифметическоеnматриц. Так как подлинная ковариационная матрица и есть, ожидаемое значение матрицыто полученный результат также весьма естествен.

Байесовский классификатор

Читателям, знакомым с математической статистикой, известно, что оценка по максимуму правдоподобия для ковариационной матрицы смещена, т. е. ожидаемое значение не равно .Не­смещенная оценка для задаетсявыборочной ковариационной мат­рицей

. (11)

Очевидно, что так что эти две оценки, по суще­ству, совпадают при большомп.Однако наличие двух сходных и тем не менее разных оценок для ковариационной матрицы смущает многих исследователей, так как, естественно, возникает вопрос: какая же из них «верная»? Ответить на это можно, сказав, что каж­дая из этих оценок ни верна, ни ложна: они просто различны. На­личие двух различных оценок на деле показывает, что единой оцен­ки, включающей все свойства, которые только можно пожелать, не существует. Для наших целей сформулировать наиболее жела­тельные свойства довольно сложно —нам нужна такая оценка, которая позволила бы наилучшим образом проводить классифика­цию. Хотя разрабатывать классификатор, используя оценки по максимуму правдоподобия для неизвестных параметров, обычно представляется разумным и логичным, вполне естествен вопрос, а нет ли других оценок, обеспечивающих еще лучшее качество ра­боты. В данном разделе мы рассмотрим этот вопрос с байесовской точки зрения.

Плотности, условные по классу

Сущность байесовской классификации заложена в расчете апо­стериорных вероятностей . Байесовское правило позволяет вычислять эти вероятности по априорным вероятностями условным по классу плотностям, однако возникает во­прос: как быть, если эти величины неизвестны? Общий ответ таков: лучшее, что мы можем сделать,—это вычислить, исполь­зуя всю информацию, имеющуюся в распоряжении. Часть этой информации может быть априорной, как, например, знание о виде неизвестных функций плотности и диапазонах значений неизвест­ных параметров. Часть этой информации может содержаться в множестве выборок. Пусть обозначает множество выборок, тогда мы подчеркнем роль выборок, сказав, что цель заключается в вычислении апостериорных вероятностей. По этим ве­роятностям мы можем построить байесовский классификатор.

Согласно байесовскому правилу 5,

= (12)

Это уравнение означает, что мы можем использовать информа­цию, получаемую из выборок, для определения как условных по классу плотностей, так и априорных вероятностей.

Мы могли бы придерживаться этой общности, однако впредь будем предполагать, что истинные значения априорных вероятно­стей известны, так что =.Кроме того, так как в данном случае мы имеем дело с наблюдаемыми значениями, то можно разделить выборки по классам всподмножеств причем выборки из принадлежат. Во многих случаях, в част­ности во всех, с которыми мы будем иметь дело, выборки из не оказывают влияния на,еслиij.Отсюда вытекают два упрощающих анализа следствия. Во-первых, это позволяет нам иметь дело с каждым классом в отдельности, используя для опре­делениятолько выборки из .Вместе с принятым нами предположением, что априорные вероятности известны, это следствие позволяет записать уравнение (12)в виде

=

Во-вторых, так как каждый класс может рассматриваться незави­симо, можно отказаться от ненужных различий классов и упростить записи. По существу, здесь имеется сотдельных задач следующего вида: требуется определить,используя множество вы­борок, взятых независимо в соответствии с фиксированным, но неизвестным вероятностным закономр(х). Это и составляет главную задачу байесовского обучения.

Соседние файлы в папке Lecture5