 
        
        книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения
.pdf| § 6. СЛУЧАЙ НЕЗАВИСИМЫХ ПРИЗНАКОВ | 61 | 
| где | 
 | 
 | 
 | 
 | 
 | 
| 
 | Ср*(1), | если ж* = | с»(1), | 
 | |
| 
 | Р (х1, р1) = I ....................................... | (3.11) | |||
| 
 | I Р* (Ті)і | ѲСЛИ Х* = | £І (ti), | 
 | |
| 
 | 3=1 | 
 | 
 | 
 | 
 | 
| Составим функцию правдоподобия | 
 | 
 | |||
| 
 | 
 | I | П | 
 | 
 | 
| 
 | L {хи ..., x t, p ) = | П П Р (4, Р% | 
 | ||
| 
 | 
 | fc=l г=1 | 
 | 
 | |
| где | х\ — значение і-й координаты /с-го вектора | обучаю | |||
| щей | последовательности. | 
 | 
 | 
 | 
 | 
| Переставив порядок сомножителей, получим | 
 | ||||
| 
 | 
 | П | I | 
 | 
 | 
| 
 | Ь (хі,..., х„ р) = | П П ^(4> | Р*)- | 
 | |
| 
 | 
 | і=1 К=1 | 
 | 
 | |
| Перейдем к функции ln L: | 
 | 
 | 
 | 
 | |
| 
 | 
 | N | I | 
 | 
 | 
| 
 | ln L (хъ ..., хь р) = | 2 | 2 ln -Р (4 , Р*)- | 
 | |
| 
 | 
 | 1=1(С=1 | 
 | 
 | |
Рассмотрим теперь величину
I
2 in р (4, р*).
іс=1
Согласно (3.11) она может быть представлена в виде
I Х'
2 1п р (4 . р*) = 2 щ ( / ) ln ^ о-)»
| /С=1 | 3=1 | 
где Wj (/) — число векторов выборки, у которых коорди ната принимает значение х{ — с1(/); £ — объем выборки,
(/) =Л-
62 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ
Таким образом, логарифм функции правдоподобия равен
| 
 | 
 | п | ті | 
 | 
 | 
| la L {xl, . . . , z l,p)=‘ 2 | 2 | т гО')1пРЧ/)- | (3-12) | ||
| 
 | 
 | і = 1 3=1 | 
 | 
 | |
| Найдем максимум по р{ (/) | функции ln L (a^, . . | Хі, р) | |||
| при ограничениях | (/) = | 1. | Для | этого воспользуемся | |
| і | Лагранжа. | 
 | 
 | ||
| методом множителей | 
 | 
 | |||
Составим функцию Лагранжа Ф (р, Я):
пті
Ф (р, я) = 2 '%(phO)inpl (j) — КрЧі )),
і —X 3=1
| где ЯI — множители Лагранжа. | 
 | ||
| Вектор р, | доставляющий максимум функции Ф (pt Я), | ||
| определяется | из системы | уравнений | 
 | 
| 
 | ЭФ (р, X) = | ті (/) | (3.13) | 
| 
 | (/) | Р1(/’) | |
| 
 | 
 | ||
Из (3.13), учитывая условия нормировки
получаем
>mt о -) р1(Л = • /
Таким образом, рекомендации метода максимума прав доподобия состоят в том, чтобы в качестве функции распре деления вероятностей использовать ее эмпирическую оценку, т. е.
| т, (1) | хг = сг(1), | 
| рг(1) = —2— , если | |
| Р (х\ р1) ....................................................... | (3.14) | 
| т. (т.) | X1= сг(Ті). | 
| рг{?і) — — J— , если | 
§ 7. БАЙЕСОВЫ ОЦЕНКИ ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЯ 63
§ 7. Байесовы оценки параметров распределения дискретных независимых признаков
Ниже будет показано, что при минимальных априор ных сведениях относительно значения параметров рас
| пределения Р (х1, рх) (параметры р1 = | (1) | , . . | ||
| 
 | 
 | ч | р1(/) | 
 | 
| распределены равномерно на симплексе | l, p4 j) > | |||
| ;> 0) байесова оценка имеет | вид | і=і | 
 | 
 | 
| рЧ1) = | m (1) f-1 | 
 | 
 | |
| l -\-n | 
 | (3.15) | ||
| P(xl, pi) == | 
 | 
 | 
 | |
| Pl N | = | 1Щ ( f j ) - f - | 1 | 
 | 
| I -\- Xi | 
 | 
 | ||
Согласно § 5 байесовы оценки являются наиболее точ ными. В случае, когда объем выборки I мал — соизмерим с числом градаций — эти оценки могут значительно отли чаться от оценок максимума правдоподобия (3.14).
Поэтому для построения дискриминантной функции по малым выборкам лучше пользоваться не оценками
(3.14), а оценками (3.15).
| 
 | Получим байесовы оценки распределения. | 
 | 
 | константу | |||||||
| 
 | Для этого | вычислим | сначала | нормировочную | |||||||
| 
 | с (»1, • • | •, Щ) == ^L ( хі, . . . , xt, » | Р (р ) dp, | 
 | |||||||
| где | L (хх, . . ., хі, р) | — функция | правдоподобия, Р (р) | — апри | |||||||
| орная плотность. Подставляя сюда | функцию правдоподобия и учи | ||||||||||
| тывая, что параметры | р* (/). | распределены | равномерно, | получим | |||||||
| 
 | с (жі......... хі) = о Д | с | (хь . . ., | хі); | 
 | 
 | |||||
| где | а — Р (р) = | const | и | І=1 | 
 | 
 | 
 | 
 | 
 | ||
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | |||||
| 
 | c \ x h . .. ,хі) | = | § | 
 | П 1 CP*i </■))'"jW x | 
 | |||||
| 
 | 
 | 
 | 
 | 
 | 2 | 
 | i=i | 
 | 
 | 
 | |
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | |
| 
 | 
 | 
 | 
 | J = i | 
 | 
 | 
 | 
 | 
 | 
 | |
| 
 | 
 | 
 | 
 | 4-1 | PU)>о | <Ti> dpI | 
 | 
 | 
 | 
 | |
| 
 | 
 | 
 | 
 | (/))m i | (1). . . dp{ | 
 | 
 | ||||
| 
 | X | [i - | 2 P | (X. - | 1), (3,16) | ||||||
i=i
64 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИИ
Известно [57], что определенный интеграл (3.16) может быть вычислен
I Г Ң ( 1 ) + 1 ) . . . Г Ң ( т . ) 4 1)
| 
 | 
 | 1 - | Г ( т . ( 1 ) | + ... + т . ( Т . ) + | Т.) | ’ | |
| где | Г (п) — гамма-функция. | Для | целых п | она | равна Г (п) = | ||
| = | (я - 1)! | образом, | нормировочная константа | равна | |||
| 
 | Таким | ||||||
| 
 | 
 | (. | , Г(ті (1) + | 1)...Г(тп.(Ті)+1) | |||
| 
 | с | (*!«•••.*»)-Г (я»і(1)+ | . . . + ПІі(Ті) + Ті) • | ||||
Найдем теперь байесову оценку функции распределения вероят
ностей. Согласно (3.5) она равна
П
£(*) =
| п Х[^(/)ГіШ[1 - | (/)]ГПі<Хі>^ | (і)... dP\ x - 1) | 
| X j=i | j=i | 
| 
 | C [xi, ...,xt) | 
Обозначим каждый сомножитель произведения Р (х1). Учитывая, что функция Р (хг I р) представлена в виде (3.11), вычислим зна
чение Р (х1) при ж* = с1 (к). Легко видеть, что аналогично инте гралу (3.16)
><«*(*)) =
Tj-l
JJJ...J П [р;(/)Г1Ш[1- S У(/)Г1<Ті)pUk)dp\i)...dpHr-i)
3=1
Таким образом,
| Сг3=1 | 
 | 1 | 
| (хі, ..., ж;) | 
 | 
 | 
| Г(т.(Л-) + 2)Г(/ + т{) | т. (/,-) + | 1 | 
| Г ( т . ( А )+ 1 ) Г (/ + т{ + 1) - | 1 + х. | 
 | 
| /(1 ) | т (1) + 1 | если | І | с | І /4ѵ | 
| / + Т. | X = | (1), | |||
| 
 | 
 | 
 | 
 | 
 | |
| Р ( X 1) = | 
 | 
 | 
 | 
 | (3.17) | 
| і | mi(Ti) + 1 | если | i | i | |
| P (Ti) = | ~ 'L|_T. ~ - | * = c | (Ti). | ||
Заметим, что оценки, полученные байесовым методом (3.17), от личаются от оценок, полученных методом максимума правдо подобия (3.14).
Отличаются эти оценки тем больше, чем меньше объем выбор ки и чем большее число значений ті могут принимать координаты
вектора х\.
$ 8. ВОССТАНОВЛЕНИЕ НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ 65
§ 8. Восстановление параметров нормального распределения методом максимума правдоподобия
В случае, когда функция плотности распределения вероятностей задана нормальным законом
| р {х’ | Л) = | ехр [ | т^х ~ ^)т А_1 - | и-)] * | |||
| где | р = | (а1, . . ., р” — га-мерный | вектор | параметров, | |||
| а Д — матрица параметров п | X п, | функция правдоподо | |||||
| бия оказывается равной | 
 | 
 | 
 | 
 | 
 | ||
| L(xu | Х[, р, Д) = | I | 
 | 
 | 
 | 
 | |
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | |
| = | ~(2я)^2|А|г/г~ѲХР [ “ | ^ | {Хі ~ | Ц)Г Л_1 {Хі ~ | • | (3,18) | |
| Логарифм функции правдоподобия равен величине | |||||||
| ln L{xx, ..., | р, Д) = | 
 | I | 
 | 
 | 
 | |
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | |
=- 4 - IA J - 4 - S И - р)Д-1 (*!-»*). (3.19)
і—1
-.У
Оказывается, что максимум (3.18), а следовательно, и (3.19) достигается, когда вектор параметров р есть оценка математического ожидания вектора xt, т. е.
I
і=1
а матрица Д есть оценка ковариационной матрицы, т. е.
4-2 (4- 4)(4- 4)I = II к1}||. (3.20)
Доказательство этого факта имеется во всех руковод ствах по многомерному статистическому анализу [2]. Оно в векторной форме буквально повторяет очевидное для одномерного случая] утверждение: максимум, функции
| 
 | 
 | 
 | , | 2 ^ - ц ) » | 
| ln L (хъ .., Х[, р , б) — I | In 2л | — I In б — | 1 | г—1_______ | 
| 
 | 2 | 
 | 2 | я2 | 
3 В. Н. Валник, А. Я. Червоненкис
66 гл. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ
| достигается при | 
 | 
| Хэ = -J- 2 Щ, бэ = 1[ | 4~ 2 (Жі — Жэ)2 • | 
| і=Ч | і=1 | 
Как уже указывалось, по оценке параметров плотно сти распределения обоих классов векторов: р,х, Дх и р,2, А2, немедленно находится решающее правило
F{x) = Q (^— (х — ц2)гАГ (х - Ц8) —
- 4 “ (^ - PifAT1 (* - Иі) - ln f è j + lD 7J7) •
Особенность этого правила заключается в том, что оно образовано с помощью операции обращения
Y = A~XZ.
Известно, что к использованию операции обращения ма триц следует относиться с большой осторожностью: воз можны случаи, когда достаточно малой ошибке при за дании матрицы А соответствуют значительные ошибки величины Y. В нашем случае, когда в качестве матрицы А берется ее эмпирическая оценка, такие ошибки тем более вероятны, чем меньше объем выборки, по которой строи лась оценка, и чем хуже обусловленность самой ковариа ционной матрицы.
Поэтому может оказаться, что для построения надеж ного решающего правила потребуется такая точность в оценке ковариационных матриц, которая при заданном объеме выборки не может быть гарантирована. Вот по чему на практике применяются частные постановки, использующие особенности ковариационных матриц. При нято пять вариантов таких постановок.
1 в а'р и а н т . На матрицы Ах и А2 не наложено никаких дополнительных ограничений. В этом случае решающее правило оказывается^ квадратичной дискрими нантной функцией.
2 в а р и а н т . Считается, что коварицаионные ма трицы векторов обоих классов равны, т. е. Ах = Д2 = А. В качестве”оценки такой матрицы берется среднее ариф метическое матриц, полученных соответственно для
| § 9. НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ, БАЙЕСОВ МЕТОД | 67 | 
векторов первого и второго классов:
д _ Аі 4~ Дг
2
В этом случае решающее правило оказывается линейной дискриминантной функцией (функцией Фишера)
F (х) = — р2)т А П х + - J - (p2A ~ % — РіА-1рі) + 1 п -^ .
3 в а р и а н т . Считается, что ковариационные ма трицы векторов разные классов различны, но диагональны:
| бц | 0 ..,. 0 | 
| 0 | ,. 0 | 
| 
 | g22 •■ | 
0 0 ..,. а,
Этому варианту соответствует случай, когда координаты векторов X распределены независимо по нормальному
| закону с дисперсией | При | этом решающее правило | 
| оказывается квадратичной дискриминантной формой. | ||
| 4 в а р и а н т . Считается, | что ковариационные ма | |
трицы векторов различных классов равны и диагональны. В этом случае решающее правило оказывается линейной дискриминантной функцией.
5 в а р и а н т . Считается, что ковариационные матри цы векторов обоих классов единичные. К этому варианту приводится случай известных одинаковых ковариацион ных матриц. При этом решающее правило оказывается линейной дискриминантной функцией. и* jps*,
Ясно, что каждый последующий вариант более «по мехоустойчив», чем предыдущий.
§ 9. Байесов метод восстановления нормального распределения
К сожалению, восстановить методом Байеса распре деление вероятностей в многомерном случае не удается. Как уже указывалось, это связано с тем, что не удается вычислить аналитически соответствующие кратные интег
3*
68 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ
ралы. Не удается аналитически получить байесову оценку даже для случая, когда вектор х имеет размерность 2.
Ниже мы покажем, что при минимальной априорной информации байесова оценка плотности нормального рас пределения случайной величины х имеет вид
| р ь(?)~ Е(і)9в ' | i-i | ||
| 
 | 
 | (х — хяу- | |
| 
 | 
 | 1 + (7+7ЙГ | |
| 
 | Ѵл | Ѵі + і г ( у - і ) | |
| 
 | ---------- т г г Д 2- | ||
| I | 
 | гМI | 
 | 
| = T 2 | xu | o i= j 2 | (xi — хэТ- | 
| i=l | 
 | 1=1 | 
 | 
Интересно, что эта оценка плотности нормального распре деления оказалась не принадлежащей классу нормаль ных. Однако читатель легко может убедиться, что при I —>ос справедливо
(X— Х э У
1
Рб(х) =
ѴШая
Использование более точных байесовых оценок плот ности для построения дискриминантных функций при водит к тому, что дискриминантная функция оказывается не квадратичной, а более сложного вида.
Сравним дискриминантные функции, полученные для третьего варианта постановки на основе байесовых оценок и оценок максимума правдоподобия:
а д = ѳ ( | ] ^ Ь п
\і=і
-2
1 4
In
№ + і )(<4)2-
| i + | 
 | + | |
| (й + і )(4і)2. | |||
| + 2 | ln | E (h) <s\ (2) | |
| E(h)ai(l) | |||
| i=i | 
 | ||
+ lnIL
Pil.
S Ѳ. НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ, БАЙЕСОВ МЕТОД 69
Fм (ж) =
| 
 | (хг— s*a)* | ^ | (х1— з ^ )2 | ^ | вад | Рі | 
| = ѳ | 2 | і= і | 2 (а*,)* | 
 | 4 , | Ри | 
| 
 | \і=і 2 ( 4 ) 2 | 
 | 
где xh, «за — соответственно эмпирическая оценка мате матического ожидания і-й координаты векторов пер
вого и второго классов, ah, ah — эмпирическая оценка дисперсии і-й координаты векторов первого и второго классов. Эти функции различаются тем больше, чем меньше объем выборки. Однако в пределе при I —>эо
Рб (ж) -> FM(ж).
Итак, пусть известно, что величина х распределена по нормаль ному закону
| г,, | , | 1 | Г (* —цЛ | 
| Р | в ) = У Ш І * ХѴ | * | |
Кроме того, пусть априорное распределение параметров р и а подчиняется равномерному закону на интервале — Т р ^ + Т и 0 ^ а ^ N. Функция правдоподобия в этом случае будет равна
| 
 | 
 | Г | I | 1 | 
 | 
| 
 | 
 | 
 | 2 | (*і —і*)5 | 
 | 
| L (жі,. . . . xh р, а) = (2я)"Ѵ ѲХР | i-i | 2а* | 
 | ||
| 
 | 
 | ||||
| Байесова | оценка плотности | распределения | вероятностей | равна | |
| 
 | Т N | 
 | (зе-р)« | 
 | |
| 
 | Y = S S - ^ - L ( x u | . . . , x l,\i,<3)e | 2°‘ | dpia | 
 | 
| Р (*) = | ----------~ Т °Т N------------------------------------------------- | 
 | 
 | . | (3.21) | 
^^ L ( x i ....... жг,р,а)йрйа
-Г '0
Мы будем считать, что интервалы [ — Т, Т] и [О, JV] столь велики, что пределы интегрирования в (3.21) могут быть расширены до [ — оо, оо] и [0, оо]. Это' во всяком случае можно сделать, если I > 2 (так как при I > 2 интегралы в выражении (3.21) сходятся).
Вычислим интеграл
ОО ОО
| I | = __L- | 5 | J | ~ L ( x i , . . . , x h р, р, | а) ехр | ф йа = | ||||
| 
 | Y 2я | —оо О | 
 | 
 | 
 | I | L | J | ||
| 
 | 1 | оо | оо | 1 | 
 | 
 | 
 | 
 | ||
| 
 | И | ехр | [ | 1 | 
 | Ѵр) 1Ф d(J- | ||||
| ‘ | j+i_ | аІ+1 | 2а* ( 2 | (*і - Iх)2 + (* - | ||||||
| 
 | ||||||||||
| 
 | (2я) 2 | —оо .0 | 
 | 
 | '1 = 1 | /J (3.22) | ||||
70 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ
Обозначим
| 
 | тдо = 2 | 
 | 
 | 
 | + (х —;о2- | 
 | 
 | 
 | '■у. | 
 | 
 | |||
| 
 | 
 | г= 1 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | ||
| Тогда | интеграл (3.22) перепишется в виде | 
 | 
 | 
 | ||||||||||
| 1 | 
 | 00 00 | 
 | ,_і | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
| 
 | С С | 
 | у 1 1 | • | ехр | 
 | 
 | 
 | йг/йр = | 
 | 
 | 
 | ||
| *+і | 3 3 7 + 2 /и | 
 | 
 | 
 | 
 | 
 | 
 | |||||||
| (2я) | 
 | 
 | ^ Д О | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | ||
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | у | 
 | |
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | 1 | 
 | 
 | Ф' | 00 | 1 | ||
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | С | 2 | ||||
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 1+1 | 
 | 7+2(1,) J | У | Ч у . | ||
| Обозначим | 
 | 
 | 
 | 
 | 
 | (2я) | 2 | 
 | 
 | 
 | 
 | 
 | 
 | |
| 
 | 
 | 
 | 
 | 
 | 
 | оо | у | 
 | 
 | 
 | 
 | 
 | 
 | |
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | ||
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | . Г л | Я(і- 1 | 
 | 
 | 
 | 
 | ||
| 
 | 
 | с ^ | 
 | — | 
 | Ч-і | 
 | 
 | У1 | 
 | 
 | 
 | 
 | |
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | |||
| 
 | 
 | 
 | 
 | (2я) | 2 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | |
| где С (I) не зависит ни от | р, ни от о. | 
 | в виде | 
 | 
 | |||||||||
| Итак, | интеграл | может | быть представлен | 
 | 
 | |||||||||
| 
 | 
 | 
 | 
 | 
 | = „,!> | $ | dp | 
 | 
 | 
 | 
 | 
 | (3.23) | |
| 
 | 
 | 
 | 
 | 
 | 
 | j L | ^ (Ю ■ | 
 | 
 | 
 | 
 | |||
| Преобразуем | теперь | выражение | Т (р). | Для | этого | заметим, | что | |||||||
| 
 | 
 | I | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
| 
 | 
 | 2 | 
 | (xi ~ fO2 = | lst + 1(Д - | хъ?. | 
 | 
 | 
 | |||||
| 
 | 
 | I | 
 | 
 | 
 | I | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
| где х в = - ^ | - | 2 x i ’ | al = | - J - | 2 ( ж г | ~ ж э ) 2 - | Соответственно | 
 | ||||||
| 
 | 
 | і—1 | 
 | 
 | 
 | г—I | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
| 
 | Т (p) = | 
 | h l | + | I (p | — xaf | + | (X — p)2. | 
 | 
 | ||||
| Положим | теперь | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | |
| 
 | 
 | 
 | 
 | 
 | 
 | XrJ+X | 
 | 
 | 
 | 
 | 
 | 
 | ||
| 
 | 
 | 
 | 
 | 
 | 
 | l + l | 
 | 
 | 
 | 
 | 
 | 
 | ||
| Тогда T (p) | может | 
 | быть | представлено в виде | 
 | 
 | 
 | |||||||
Т (Р) = К + - Щ Г Г (* - *а)2 + (* = Ю2 (* + 1).
