![](/user_photo/_userpic.png)
книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения
.pdf§ 6. СЛУЧАЙ НЕЗАВИСИМЫХ ПРИЗНАКОВ |
61 |
где |
|
|
|
|
|
|
Ср*(1), |
если ж* = |
с»(1), |
|
|
|
Р (х1, р1) = I ....................................... |
(3.11) |
|||
|
I Р* (Ті)і |
ѲСЛИ Х* = |
£І (ti), |
|
|
|
3=1 |
|
|
|
|
Составим функцию правдоподобия |
|
|
|||
|
|
I |
П |
|
|
|
L {хи ..., x t, p ) = |
П П Р (4, Р% |
|
||
|
|
fc=l г=1 |
|
|
|
где |
х\ — значение і-й координаты /с-го вектора |
обучаю |
|||
щей |
последовательности. |
|
|
|
|
Переставив порядок сомножителей, получим |
|
||||
|
|
П |
I |
|
|
|
Ь (хі,..., х„ р) = |
П П ^(4> |
Р*)- |
|
|
|
|
і=1 К=1 |
|
|
|
Перейдем к функции ln L: |
|
|
|
|
|
|
|
N |
I |
|
|
|
ln L (хъ ..., хь р) = |
2 |
2 ln -Р (4 , Р*)- |
|
|
|
|
1=1(С=1 |
|
|
Рассмотрим теперь величину
I
2 in р (4, р*).
іс=1
Согласно (3.11) она может быть представлена в виде
I Х'
2 1п р (4 . р*) = 2 щ ( / ) ln ^ о-)»
/С=1 |
3=1 |
где Wj (/) — число векторов выборки, у которых коорди ната принимает значение х{ — с1(/); £ — объем выборки,
(/) =Л-
62 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ
Таким образом, логарифм функции правдоподобия равен
|
|
п |
ті |
|
|
la L {xl, . . . , z l,p)=‘ 2 |
2 |
т гО')1пРЧ/)- |
(3-12) |
||
|
|
і = 1 3=1 |
|
|
|
Найдем максимум по р{ (/) |
функции ln L (a^, . . |
Хі, р) |
|||
при ограничениях |
(/) = |
1. |
Для |
этого воспользуемся |
|
і |
Лагранжа. |
|
|
||
методом множителей |
|
|
Составим функцию Лагранжа Ф (р, Я):
пті
Ф (р, я) = 2 '%(phO)inpl (j) — КрЧі )),
і —X 3=1
где ЯI — множители Лагранжа. |
|
||
Вектор р, |
доставляющий максимум функции Ф (pt Я), |
||
определяется |
из системы |
уравнений |
|
|
ЭФ (р, X) = |
ті (/) |
(3.13) |
|
(/) |
Р1(/’) |
|
|
|
Из (3.13), учитывая условия нормировки
получаем
>mt о -) р1(Л = • /
Таким образом, рекомендации метода максимума прав доподобия состоят в том, чтобы в качестве функции распре деления вероятностей использовать ее эмпирическую оценку, т. е.
т, (1) |
хг = сг(1), |
рг(1) = —2— , если |
|
Р (х\ р1) ....................................................... |
(3.14) |
т. (т.) |
X1= сг(Ті). |
рг{?і) — — J— , если |
§ 7. БАЙЕСОВЫ ОЦЕНКИ ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЯ 63
§ 7. Байесовы оценки параметров распределения дискретных независимых признаков
Ниже будет показано, что при минимальных априор ных сведениях относительно значения параметров рас
пределения Р (х1, рх) (параметры р1 = |
(1) |
, . . |
||
|
|
ч |
р1(/) |
|
распределены равномерно на симплексе |
l, p4 j) > |
|||
;> 0) байесова оценка имеет |
вид |
і=і |
|
|
рЧ1) = |
m (1) f-1 |
|
|
|
l -\-n |
|
(3.15) |
||
P(xl, pi) == |
|
|
|
|
Pl N |
= |
1Щ ( f j ) - f - |
1 |
|
I -\- Xi |
|
|
Согласно § 5 байесовы оценки являются наиболее точ ными. В случае, когда объем выборки I мал — соизмерим с числом градаций — эти оценки могут значительно отли чаться от оценок максимума правдоподобия (3.14).
Поэтому для построения дискриминантной функции по малым выборкам лучше пользоваться не оценками
(3.14), а оценками (3.15).
|
Получим байесовы оценки распределения. |
|
|
константу |
|||||||
|
Для этого |
вычислим |
сначала |
нормировочную |
|||||||
|
с (»1, • • |
•, Щ) == ^L ( хі, . . . , xt, » |
Р (р ) dp, |
|
|||||||
где |
L (хх, . . ., хі, р) |
— функция |
правдоподобия, Р (р) |
— апри |
|||||||
орная плотность. Подставляя сюда |
функцию правдоподобия и учи |
||||||||||
тывая, что параметры |
р* (/). |
распределены |
равномерно, |
получим |
|||||||
|
с (жі......... хі) = о Д |
с |
(хь . . ., |
хі); |
|
|
|||||
где |
а — Р (р) = |
const |
и |
І=1 |
|
|
|
|
|
||
|
|
|
|
|
|
|
|||||
|
c \ x h . .. ,хі) |
= |
§ |
|
П 1 CP*i </■))'"jW x |
|
|||||
|
|
|
|
|
2 |
|
i=i |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
J = i |
|
|
|
|
|
|
|
|
|
|
|
4-1 |
PU)>о |
<Ti> dpI |
|
|
|
|
|
|
|
|
|
(/))m i |
(1). . . dp{ |
|
|
||||
|
X |
[i - |
2 P |
(X. - |
1), (3,16) |
i=i
64 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИИ
Известно [57], что определенный интеграл (3.16) может быть вычислен
I Г Ң ( 1 ) + 1 ) . . . Г Ң ( т . ) 4 1)
|
|
1 - |
Г ( т . ( 1 ) |
+ ... + т . ( Т . ) + |
Т.) |
’ |
|
где |
Г (п) — гамма-функция. |
Для |
целых п |
она |
равна Г (п) = |
||
= |
(я - 1)! |
образом, |
нормировочная константа |
равна |
|||
|
Таким |
||||||
|
|
(. |
, Г(ті (1) + |
1)...Г(тп.(Ті)+1) |
|||
|
с |
(*!«•••.*»)-Г (я»і(1)+ |
. . . + ПІі(Ті) + Ті) • |
Найдем теперь байесову оценку функции распределения вероят
ностей. Согласно (3.5) она равна
П
£(*) =
п Х[^(/)ГіШ[1 - |
(/)]ГПі<Хі>^ | (і)... dP\ x - 1) |
X j=i |
j=i |
|
C [xi, ...,xt) |
Обозначим каждый сомножитель произведения Р (х1). Учитывая, что функция Р (хг I р) представлена в виде (3.11), вычислим зна
чение Р (х1) при ж* = с1 (к). Легко видеть, что аналогично инте гралу (3.16)
><«*(*)) =
Tj-l
JJJ...J П [р;(/)Г1Ш[1- S У(/)Г1<Ті)pUk)dp\i)...dpHr-i)
3=1
Таким образом,
Сг3=1 |
|
1 |
(хі, ..., ж;) |
|
|
Г(т.(Л-) + 2)Г(/ + т{) |
т. (/,-) + |
1 |
Г ( т . ( А )+ 1 ) Г (/ + т{ + 1) - |
1 + х. |
|
/(1 ) |
т (1) + 1 |
если |
І |
с |
І /4ѵ |
/ + Т. |
X = |
(1), |
|||
|
|
|
|
|
|
Р ( X 1) = |
|
|
|
|
(3.17) |
і |
mi(Ti) + 1 |
если |
i |
i |
|
P (Ti) = |
~ 'L|_T. ~ - |
* = c |
(Ti). |
Заметим, что оценки, полученные байесовым методом (3.17), от личаются от оценок, полученных методом максимума правдо подобия (3.14).
Отличаются эти оценки тем больше, чем меньше объем выбор ки и чем большее число значений ті могут принимать координаты
вектора х\.
$ 8. ВОССТАНОВЛЕНИЕ НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ 65
§ 8. Восстановление параметров нормального распределения методом максимума правдоподобия
В случае, когда функция плотности распределения вероятностей задана нормальным законом
р {х’ |
Л) = |
ехр [ |
т^х ~ ^)т А_1 - |
и-)] * |
|||
где |
р = |
(а1, . . ., р” — га-мерный |
вектор |
параметров, |
|||
а Д — матрица параметров п |
X п, |
функция правдоподо |
|||||
бия оказывается равной |
|
|
|
|
|
||
L(xu |
Х[, р, Д) = |
I |
|
|
|
|
|
|
|
|
|
|
|
|
|
= |
~(2я)^2|А|г/г~ѲХР [ “ |
^ |
{Хі ~ |
Ц)Г Л_1 {Хі ~ |
• |
(3,18) |
|
Логарифм функции правдоподобия равен величине |
|||||||
ln L{xx, ..., |
р, Д) = |
|
I |
|
|
|
|
|
|
|
|
|
|
|
=- 4 - IA J - 4 - S И - р)Д-1 (*!-»*). (3.19)
і—1
-.У
Оказывается, что максимум (3.18), а следовательно, и (3.19) достигается, когда вектор параметров р есть оценка математического ожидания вектора xt, т. е.
I
і=1
а матрица Д есть оценка ковариационной матрицы, т. е.
4-2 (4- 4)(4- 4)I = II к1}||. (3.20)
Доказательство этого факта имеется во всех руковод ствах по многомерному статистическому анализу [2]. Оно в векторной форме буквально повторяет очевидное для одномерного случая] утверждение: максимум, функции
|
|
|
, |
2 ^ - ц ) » |
ln L (хъ .., Х[, р , б) — I |
In 2л |
— I In б — |
1 |
г—1_______ |
|
2 |
|
2 |
я2 |
3 В. Н. Валник, А. Я. Червоненкис
66 гл. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ
достигается при |
|
Хэ = -J- 2 Щ, бэ = 1[ |
4~ 2 (Жі — Жэ)2 • |
і=Ч |
і=1 |
Как уже указывалось, по оценке параметров плотно сти распределения обоих классов векторов: р,х, Дх и р,2, А2, немедленно находится решающее правило
F{x) = Q (^— (х — ц2)гАГ (х - Ц8) —
- 4 “ (^ - PifAT1 (* - Иі) - ln f è j + lD 7J7) •
Особенность этого правила заключается в том, что оно образовано с помощью операции обращения
Y = A~XZ.
Известно, что к использованию операции обращения ма триц следует относиться с большой осторожностью: воз можны случаи, когда достаточно малой ошибке при за дании матрицы А соответствуют значительные ошибки величины Y. В нашем случае, когда в качестве матрицы А берется ее эмпирическая оценка, такие ошибки тем более вероятны, чем меньше объем выборки, по которой строи лась оценка, и чем хуже обусловленность самой ковариа ционной матрицы.
Поэтому может оказаться, что для построения надеж ного решающего правила потребуется такая точность в оценке ковариационных матриц, которая при заданном объеме выборки не может быть гарантирована. Вот по чему на практике применяются частные постановки, использующие особенности ковариационных матриц. При нято пять вариантов таких постановок.
1 в а'р и а н т . На матрицы Ах и А2 не наложено никаких дополнительных ограничений. В этом случае решающее правило оказывается^ квадратичной дискрими нантной функцией.
2 в а р и а н т . Считается, что коварицаионные ма трицы векторов обоих классов равны, т. е. Ах = Д2 = А. В качестве”оценки такой матрицы берется среднее ариф метическое матриц, полученных соответственно для
§ 9. НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ, БАЙЕСОВ МЕТОД |
67 |
векторов первого и второго классов:
д _ Аі 4~ Дг
2
В этом случае решающее правило оказывается линейной дискриминантной функцией (функцией Фишера)
F (х) = — р2)т А П х + - J - (p2A ~ % — РіА-1рі) + 1 п -^ .
3 в а р и а н т . Считается, что ковариационные ма трицы векторов разные классов различны, но диагональны:
бц |
0 ..,. 0 |
0 |
,. 0 |
|
g22 •■ |
0 0 ..,. а,
Этому варианту соответствует случай, когда координаты векторов X распределены независимо по нормальному
закону с дисперсией |
При |
этом решающее правило |
оказывается квадратичной дискриминантной формой. |
||
4 в а р и а н т . Считается, |
что ковариационные ма |
трицы векторов различных классов равны и диагональны. В этом случае решающее правило оказывается линейной дискриминантной функцией.
5 в а р и а н т . Считается, что ковариационные матри цы векторов обоих классов единичные. К этому варианту приводится случай известных одинаковых ковариацион ных матриц. При этом решающее правило оказывается линейной дискриминантной функцией. и* jps*,
Ясно, что каждый последующий вариант более «по мехоустойчив», чем предыдущий.
§ 9. Байесов метод восстановления нормального распределения
К сожалению, восстановить методом Байеса распре деление вероятностей в многомерном случае не удается. Как уже указывалось, это связано с тем, что не удается вычислить аналитически соответствующие кратные интег
3*
68 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ
ралы. Не удается аналитически получить байесову оценку даже для случая, когда вектор х имеет размерность 2.
Ниже мы покажем, что при минимальной априорной информации байесова оценка плотности нормального рас пределения случайной величины х имеет вид
р ь(?)~ Е(і)9в ' |
i-i |
||
|
|
(х — хяу- |
|
|
|
1 + (7+7ЙГ |
|
|
Ѵл |
Ѵі + і г ( у - і ) |
|
|
---------- т г г Д 2- |
||
I |
|
гМI |
|
= T 2 |
xu |
o i= j 2 |
(xi — хэТ- |
i=l |
|
1=1 |
|
Интересно, что эта оценка плотности нормального распре деления оказалась не принадлежащей классу нормаль ных. Однако читатель легко может убедиться, что при I —>ос справедливо
(X— Х э У
1
Рб(х) =
ѴШая
Использование более точных байесовых оценок плот ности для построения дискриминантных функций при водит к тому, что дискриминантная функция оказывается не квадратичной, а более сложного вида.
Сравним дискриминантные функции, полученные для третьего варианта постановки на основе байесовых оценок и оценок максимума правдоподобия:
а д = ѳ ( | ] ^ Ь п
\і=і
-2
1 4
In
№ + і )(<4)2-
i + |
|
+ |
|
(й + і )(4і)2. |
|||
+ 2 |
ln |
E (h) <s\ (2) |
|
E(h)ai(l) |
|||
i=i |
|
+ lnIL
Pil.
S Ѳ. НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ, БАЙЕСОВ МЕТОД 69
Fм (ж) =
|
(хг— s*a)* |
^ |
(х1— з ^ )2 |
^ |
вад |
Рі |
= ѳ |
2 |
і= і |
2 (а*,)* |
|
4 , |
Ри |
|
\і=і 2 ( 4 ) 2 |
|
где xh, «за — соответственно эмпирическая оценка мате матического ожидания і-й координаты векторов пер
вого и второго классов, ah, ah — эмпирическая оценка дисперсии і-й координаты векторов первого и второго классов. Эти функции различаются тем больше, чем меньше объем выборки. Однако в пределе при I —>эо
Рб (ж) -> FM(ж).
Итак, пусть известно, что величина х распределена по нормаль ному закону
г,, |
, |
1 |
Г (* —цЛ |
Р |
в ) = У Ш І * ХѴ |
* |
Кроме того, пусть априорное распределение параметров р и а подчиняется равномерному закону на интервале — Т р ^ + Т и 0 ^ а ^ N. Функция правдоподобия в этом случае будет равна
|
|
Г |
I |
1 |
|
|
|
|
2 |
(*і —і*)5 |
|
L (жі,. . . . xh р, а) = (2я)"Ѵ ѲХР |
i-i |
2а* |
|
||
|
|
||||
Байесова |
оценка плотности |
распределения |
вероятностей |
равна |
|
|
Т N |
|
(зе-р)« |
|
|
|
Y = S S - ^ - L ( x u |
. . . , x l,\i,<3)e |
2°‘ |
dpia |
|
Р (*) = |
----------~ Т °Т N------------------------------------------------- |
|
|
. |
(3.21) |
^^ L ( x i ....... жг,р,а)йрйа
-Г '0
Мы будем считать, что интервалы [ — Т, Т] и [О, JV] столь велики, что пределы интегрирования в (3.21) могут быть расширены до [ — оо, оо] и [0, оо]. Это' во всяком случае можно сделать, если I > 2 (так как при I > 2 интегралы в выражении (3.21) сходятся).
Вычислим интеграл
ОО ОО
I |
= __L- |
5 |
J |
~ L ( x i , . . . , x h р, р, |
а) ехр |
ф йа = |
||||
|
Y 2я |
—оо О |
|
|
|
I |
L |
J |
||
|
1 |
оо |
оо |
1 |
|
|
|
|
||
|
И |
ехр |
[ |
1 |
|
Ѵр) 1Ф d(J- |
||||
‘ |
j+i_ |
аІ+1 |
2а* ( 2 |
(*і - Iх)2 + (* - |
||||||
|
||||||||||
|
(2я) 2 |
—оо .0 |
|
|
'1 = 1 |
/J (3.22) |
70 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ
Обозначим
|
тдо = 2 |
|
|
|
+ (х —;о2- |
|
|
|
'■у. |
|
|
|||
|
|
г= 1 |
|
|
|
|
|
|
|
|
|
|
||
Тогда |
интеграл (3.22) перепишется в виде |
|
|
|
||||||||||
1 |
|
00 00 |
|
,_і |
|
|
|
|
|
|
|
|
|
|
|
С С |
|
у 1 1 |
• |
ехр |
|
|
|
йг/йр = |
|
|
|
||
*+і |
3 3 7 + 2 /и |
|
|
|
|
|
|
|||||||
(2я) |
|
|
^ Д О |
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
у |
|
|
|
|
|
|
|
|
|
1 |
|
|
Ф' |
00 |
1 |
||
|
|
|
|
|
|
|
|
|
С |
2 |
||||
|
|
|
|
|
|
|
|
1+1 |
|
7+2(1,) J |
У |
Ч у . |
||
Обозначим |
|
|
|
|
|
(2я) |
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
оо |
у |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
. Г л |
Я(і- 1 |
|
|
|
|
||
|
|
с ^ |
|
— |
|
Ч-і |
|
|
У1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
(2я) |
2 |
|
|
|
|
|
|
|
|
|
где С (I) не зависит ни от |
р, ни от о. |
|
в виде |
|
|
|||||||||
Итак, |
интеграл |
может |
быть представлен |
|
|
|||||||||
|
|
|
|
|
= „,!> |
$ |
dp |
|
|
|
|
|
(3.23) |
|
|
|
|
|
|
|
j L |
^ (Ю ■ |
|
|
|
|
|||
Преобразуем |
теперь |
выражение |
Т (р). |
Для |
этого |
заметим, |
что |
|||||||
|
|
I |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
(xi ~ fO2 = |
lst + 1(Д - |
хъ?. |
|
|
|
|||||
|
|
I |
|
|
|
I |
|
|
|
|
|
|
|
|
где х в = - ^ |
- |
2 x i ’ |
al = |
- J - |
2 ( ж г |
~ ж э ) 2 - |
Соответственно |
|
||||||
|
|
і—1 |
|
|
|
г—I |
|
|
|
|
|
|
|
|
|
Т (p) = |
|
h l |
+ |
I (p |
— xaf |
+ |
(X — p)2. |
|
|
||||
Положим |
теперь |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
XrJ+X |
|
|
|
|
|
|
||
|
|
|
|
|
|
l + l |
|
|
|
|
|
|
||
Тогда T (p) |
может |
|
быть |
представлено в виде |
|
|
|
Т (Р) = К + - Щ Г Г (* - *а)2 + (* = Ю2 (* + 1).