Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения

.pdf
Скачиваний:
39
Добавлен:
25.10.2023
Размер:
12.29 Mб
Скачать

§ 6. СЛУЧАЙ НЕЗАВИСИМЫХ ПРИЗНАКОВ

61

где

 

 

 

 

 

 

Ср*(1),

если ж* =

с»(1),

 

 

Р (х1, р1) = I .......................................

(3.11)

 

I Р* (Ті)і

ѲСЛИ Х* =

£І (ti),

 

 

3=1

 

 

 

 

Составим функцию правдоподобия

 

 

 

 

I

П

 

 

 

L {хи ..., x t, p ) =

П П Р (4, Р%

 

 

 

fc=l г=1

 

 

где

х\ — значение і-й координаты /с-го вектора

обучаю­

щей

последовательности.

 

 

 

 

Переставив порядок сомножителей, получим

 

 

 

П

I

 

 

 

Ь (хі,..., х„ р) =

П П ^(4>

Р*)-

 

 

 

і=1 К=1

 

 

Перейдем к функции ln L:

 

 

 

 

 

 

N

I

 

 

 

ln L (хъ ..., хь р) =

2

2 ln -Р (4 , Р*)-

 

 

 

1=1(С=1

 

 

Рассмотрим теперь величину

I

2 in р (4, р*).

іс=1

Согласно (3.11) она может быть представлена в виде

I Х'

2 1п р (4 . р*) = 2 щ ( / ) ln ^ о-)»

/С=1

3=1

где Wj (/) — число векторов выборки, у которых коорди­ ната принимает значение х{ — с1(/); £ — объем выборки,

(/) =Л-

62 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ

Таким образом, логарифм функции правдоподобия равен

 

 

п

ті

 

 

la L {xl, . . . , z l,p)=‘ 2

2

т гО')1пРЧ/)-

(3-12)

 

 

і = 1 3=1

 

 

Найдем максимум по р{ (/)

функции ln L (a^, . .

Хі, р)

при ограничениях

(/) =

1.

Для

этого воспользуемся

і

Лагранжа.

 

 

методом множителей

 

 

Составим функцию Лагранжа Ф (р, Я):

пті

Ф (р, я) = 2 '%(phO)inpl (j) — КрЧі )),

і —X 3=1

где ЯI — множители Лагранжа.

 

Вектор р,

доставляющий максимум функции Ф (pt Я),

определяется

из системы

уравнений

 

 

ЭФ (р, X) =

ті (/)

(3.13)

 

(/)

Р1(/’)

 

 

Из (3.13), учитывая условия нормировки

получаем

>mt о -) р1(Л = • /

Таким образом, рекомендации метода максимума прав­ доподобия состоят в том, чтобы в качестве функции распре­ деления вероятностей использовать ее эмпирическую оценку, т. е.

т, (1)

хг = сг(1),

рг(1) = —2— , если

Р (х\ р1) .......................................................

(3.14)

т. (т.)

X1= сг(Ті).

рг{?і) — — J— , если

§ 7. БАЙЕСОВЫ ОЦЕНКИ ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЯ 63

§ 7. Байесовы оценки параметров распределения дискретных независимых признаков

Ниже будет показано, что при минимальных априор­ ных сведениях относительно значения параметров рас­

пределения Р (х1, рх) (параметры р1 =

(1)

, . .

 

 

ч

р1(/)

 

распределены равномерно на симплексе

l, p4 j) >

;> 0) байесова оценка имеет

вид

і=і

 

 

рЧ1) =

m (1) f-1

 

 

l -\-n

 

(3.15)

P(xl, pi) ==

 

 

 

Pl N

=

1Щ ( f j ) - f -

1

 

I -\- Xi

 

 

Согласно § 5 байесовы оценки являются наиболее точ­ ными. В случае, когда объем выборки I мал — соизмерим с числом градаций — эти оценки могут значительно отли­ чаться от оценок максимума правдоподобия (3.14).

Поэтому для построения дискриминантной функции по малым выборкам лучше пользоваться не оценками

(3.14), а оценками (3.15).

 

Получим байесовы оценки распределения.

 

 

константу

 

Для этого

вычислим

сначала

нормировочную

 

с (»1, • •

•, Щ) == ^L ( хі, . . . , xt, »

Р (р ) dp,

 

где

L (хх, . . ., хі, р)

— функция

правдоподобия, Р (р)

— апри­

орная плотность. Подставляя сюда

функцию правдоподобия и учи­

тывая, что параметры

р* (/).

распределены

равномерно,

получим

 

с (жі......... хі) = о Д

с

(хь . . .,

хі);

 

 

где

а — Р (р) =

const

и

І=1

 

 

 

 

 

 

 

 

 

 

 

 

 

c \ x h . .. ,хі)

=

§

 

П 1 CP*i </■))'"jW x

 

 

 

 

 

 

2

 

i=i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

J = i

 

 

 

 

 

 

 

 

 

 

4-1

PU)>о

<Ti> dpI

 

 

 

 

 

 

 

 

(/))m i

(1). . . dp{

 

 

 

X

[i -

2 P

(X. -

1), (3,16)

i=i

64 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИИ

Известно [57], что определенный интеграл (3.16) может быть вычислен

I Г Ң ( 1 ) + 1 ) . . . Г Ң ( т . ) 4 1)

 

 

1 -

Г ( т . ( 1 )

+ ... + т . ( Т . ) +

Т.)

где

Г (п) — гамма-функция.

Для

целых п

она

равна Г (п) =

=

(я - 1)!

образом,

нормировочная константа

равна

 

Таким

 

 

(.

, Г(ті (1) +

1)...Г(тп.(Ті)+1)

 

с

(*!«•••.*»)-Г (я»і(1)+

. . . + ПІі(Ті) + Ті) •

Найдем теперь байесову оценку функции распределения вероят­

ностей. Согласно (3.5) она равна

П

£(*) =

п Х[^(/)ГіШ[1 -

(/)]ГПі<Хі>^ | (і)... dP\ x - 1)

X j=i

j=i

 

C [xi, ...,xt)

Обозначим каждый сомножитель произведения Р (х1). Учитывая, что функция Р (хг I р) представлена в виде (3.11), вычислим зна­

чение Р (х1) при ж* = с1 (к). Легко видеть, что аналогично инте­ гралу (3.16)

><«*(*)) =

Tj-l

JJJ...J П [р;(/)Г1Ш[1- S У(/)Г1<Ті)pUk)dp\i)...dpHr-i)

3=1

Таким образом,

Сг3=1

 

1

(хі, ..., ж;)

 

 

Г(т.(Л-) + 2)Г(/ + т{)

т. (/,-) +

1

Г ( т . ( А )+ 1 ) Г (/ + т{ + 1) -

1 + х.

 

/(1 )

т (1) + 1

если

І

с

І /4ѵ

/ + Т.

X =

(1),

 

 

 

 

 

Р ( X 1) =

 

 

 

 

(3.17)

і

mi(Ti) + 1

если

i

i

P (Ti) =

~ 'L|_T. ~ -

* = c

(Ti).

Заметим, что оценки, полученные байесовым методом (3.17), от­ личаются от оценок, полученных методом максимума правдо­ подобия (3.14).

Отличаются эти оценки тем больше, чем меньше объем выбор­ ки и чем большее число значений ті могут принимать координаты

вектора х\.

$ 8. ВОССТАНОВЛЕНИЕ НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ 65

§ 8. Восстановление параметров нормального распределения методом максимума правдоподобия

В случае, когда функция плотности распределения вероятностей задана нормальным законом

р {х

Л) =

ехр [

т^х ~ ^)т А_1 -

и-)] *

где

р =

(а1, . . ., р” — га-мерный

вектор

параметров,

а Д — матрица параметров п

X п,

функция правдоподо­

бия оказывается равной

 

 

 

 

 

L(xu

Х[, р, Д) =

I

 

 

 

 

 

 

 

 

 

 

 

=

~(2я)^2|А|г/г~ѲХР [ “

^

{Хі ~

Ц)Г Л_1 {Хі ~

(3,18)

Логарифм функции правдоподобия равен величине

ln L{xx, ...,

р, Д) =

 

I

 

 

 

 

 

 

 

 

 

 

=- 4 - IA J - 4 - S И - р)Д-1 (*!-»*). (3.19)

і—1

-.У

Оказывается, что максимум (3.18), а следовательно, и (3.19) достигается, когда вектор параметров р есть оценка математического ожидания вектора xt, т. е.

I

і=1

а матрица Д есть оценка ковариационной матрицы, т. е.

4-2 (4- 4)(4- 4)I = II к1}||. (3.20)

Доказательство этого факта имеется во всех руковод­ ствах по многомерному статистическому анализу [2]. Оно в векторной форме буквально повторяет очевидное для одномерного случая] утверждение: максимум, функции

 

 

 

,

2 ^ - ц ) »

ln L (хъ .., Х[, р , б) — I

In 2л

I In б —

1

г—1_______

 

2

 

2

я2

3 В. Н. Валник, А. Я. Червоненкис

66 гл. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ

достигается при

 

Хэ = -J- 2 Щ, бэ = 1[

4~ 2 (Жі — Жэ)2 •

і=Ч

і=1

Как уже указывалось, по оценке параметров плотно­ сти распределения обоих классов векторов: р,х, Дх и р,2, А2, немедленно находится решающее правило

F{x) = Q (^— (х ц2)гАГ (х - Ц8) —

- 4 “ (^ - PifAT1 (* - Иі) - ln f è j + lD 7J7) •

Особенность этого правила заключается в том, что оно образовано с помощью операции обращения

Y = A~XZ.

Известно, что к использованию операции обращения ма­ триц следует относиться с большой осторожностью: воз­ можны случаи, когда достаточно малой ошибке при за­ дании матрицы А соответствуют значительные ошибки величины Y. В нашем случае, когда в качестве матрицы А берется ее эмпирическая оценка, такие ошибки тем более вероятны, чем меньше объем выборки, по которой строи­ лась оценка, и чем хуже обусловленность самой ковариа­ ционной матрицы.

Поэтому может оказаться, что для построения надеж­ ного решающего правила потребуется такая точность в оценке ковариационных матриц, которая при заданном объеме выборки не может быть гарантирована. Вот по­ чему на практике применяются частные постановки, использующие особенности ковариационных матриц. При­ нято пять вариантов таких постановок.

1 в а'р и а н т . На матрицы Ах и А2 не наложено никаких дополнительных ограничений. В этом случае решающее правило оказывается^ квадратичной дискрими­ нантной функцией.

2 в а р и а н т . Считается, что коварицаионные ма­ трицы векторов обоих классов равны, т. е. Ах = Д2 = А. В качестве”оценки такой матрицы берется среднее ариф­ метическое матриц, полученных соответственно для

§ 9. НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ, БАЙЕСОВ МЕТОД

67

векторов первого и второго классов:

д _ Аі 4~ Дг

2

В этом случае решающее правило оказывается линейной дискриминантной функцией (функцией Фишера)

F (х) = — р2)т А П х + - J - (p2A ~ % — РіА-1рі) + 1 п -^ .

3 в а р и а н т . Считается, что ковариационные ма­ трицы векторов разные классов различны, но диагональны:

бц

0 ..,. 0

0

,. 0

 

g22 •■

0 0 ..,. а,

Этому варианту соответствует случай, когда координаты векторов X распределены независимо по нормальному

закону с дисперсией

При

этом решающее правило

оказывается квадратичной дискриминантной формой.

4 в а р и а н т . Считается,

что ковариационные ма­

трицы векторов различных классов равны и диагональны. В этом случае решающее правило оказывается линейной дискриминантной функцией.

5 в а р и а н т . Считается, что ковариационные матри­ цы векторов обоих классов единичные. К этому варианту приводится случай известных одинаковых ковариацион­ ных матриц. При этом решающее правило оказывается линейной дискриминантной функцией. и* jps*,

Ясно, что каждый последующий вариант более «по­ мехоустойчив», чем предыдущий.

§ 9. Байесов метод восстановления нормального распределения

К сожалению, восстановить методом Байеса распре­ деление вероятностей в многомерном случае не удается. Как уже указывалось, это связано с тем, что не удается вычислить аналитически соответствующие кратные интег­

3*

68 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ

ралы. Не удается аналитически получить байесову оценку даже для случая, когда вектор х имеет размерность 2.

Ниже мы покажем, что при минимальной априорной информации байесова оценка плотности нормального рас­ пределения случайной величины х имеет вид

р ь(?)~ Е(і)9в '

i-i

 

 

хяу-

 

 

1 + (7+7ЙГ

 

Ѵл

Ѵі + і г ( у - і )

 

---------- т г г Д 2-

I

 

гМI

 

= T 2

xu

o i= j 2

(xi — хэТ-

i=l

 

1=1

 

Интересно, что эта оценка плотности нормального распре­ деления оказалась не принадлежащей классу нормаль­ ных. Однако читатель легко может убедиться, что при I —>ос справедливо

(XХ э У

1

Рб(х) =

ѴШая

Использование более точных байесовых оценок плот­ ности для построения дискриминантных функций при­ водит к тому, что дискриминантная функция оказывается не квадратичной, а более сложного вида.

Сравним дискриминантные функции, полученные для третьего варианта постановки на основе байесовых оценок и оценок максимума правдоподобия:

а д = ѳ ( | ] ^ Ь п

\і=і

-2

1 4

In

№ + і )(<4)2-

i +

 

+

(й + і )(4і)2.

+ 2

ln

E (h) <s\ (2)

E(h)ai(l)

i=i

 

+ lnIL

Pil.

S Ѳ. НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ, БАЙЕСОВ МЕТОД 69

Fм (ж) =

 

(хг— s*a)*

^

(х1— з ^ )2

^

вад

Рі

= ѳ

2

і= і

2 (а*,)*

 

4 ,

Ри

 

\і=і 2 ( 4 ) 2

 

где xh, «за — соответственно эмпирическая оценка мате­ матического ожидания і-й координаты векторов пер­

вого и второго классов, ah, ah — эмпирическая оценка дисперсии і-й координаты векторов первого и второго классов. Эти функции различаются тем больше, чем меньше объем выборки. Однако в пределе при I —>эо

Рб (ж) -> FM(ж).

Итак, пусть известно, что величина х распределена по нормаль­ ному закону

г,,

,

1

Г (* —цЛ

Р

в ) = У Ш І * ХѴ

*

Кроме того, пусть априорное распределение параметров р и а подчиняется равномерному закону на интервале — Т р ^ + Т и 0 ^ а ^ N. Функция правдоподобия в этом случае будет равна

 

 

Г

I

1

 

 

 

 

2

(*і —і*)5

 

L (жі,. . . . xh р, а) = (2я)"Ѵ ѲХР

i-i

2а*

 

 

 

Байесова

оценка плотности

распределения

вероятностей

равна

 

Т N

 

(зе-р)«

 

 

Y = S S - ^ - L ( x u

. . . , x l,\i,<3)e

2°‘

dpia

 

Р (*) =

----------~ Т °Т N-------------------------------------------------

 

 

.

(3.21)

^^ L ( x i ....... жг,р,а)йрйа

-Г '0

Мы будем считать, что интервалы [ — Т, Т] и [О, JV] столь велики, что пределы интегрирования в (3.21) могут быть расширены до [ — оо, оо] и [0, оо]. Это' во всяком случае можно сделать, если I > 2 (так как при I > 2 интегралы в выражении (3.21) сходятся).

Вычислим интеграл

ОО ОО

I

= __L-

5

J

~ L ( x i , . . . , x h р, р,

а) ехр

ф йа =

 

Y

—оо О

 

 

 

I

L

J

 

1

оо

оо

1

 

 

 

 

 

И

ехр

[

1

 

Ѵр) 1Ф d(J-

j+i_

аІ+1

2а* ( 2

(*і - Iх)2 + (* -

 

 

(2я) 2

—оо .0

 

 

'1 = 1

/J (3.22)

70 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ

Обозначим

 

тдо = 2

 

 

 

+ ;о2-

 

 

 

'■у.

 

 

 

 

г= 1

 

 

 

 

 

 

 

 

 

 

Тогда

интеграл (3.22) перепишется в виде

 

 

 

1

 

00 00

 

,_і

 

 

 

 

 

 

 

 

 

 

 

С С

 

у 1 1

ехр

 

 

 

йг/йр =

 

 

 

*+і

3 3 7 + 2

 

 

 

 

 

 

(2я)

 

 

^ Д О

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

у

 

 

 

 

 

 

 

 

1

 

 

Ф'

00

1

 

 

 

 

 

 

 

 

 

С

2

 

 

 

 

 

 

 

 

1+1

 

7+2(1,) J

У

Ч у .

Обозначим

 

 

 

 

 

(2я)

2

 

 

 

 

 

 

 

 

 

 

 

 

оо

у

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

. Г л

Я(і- 1

 

 

 

 

 

 

с ^

 

 

Ч-і

 

 

У1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(2я)

2

 

 

 

 

 

 

 

 

где С (I) не зависит ни от

р, ни от о.

 

в виде

 

 

Итак,

интеграл

может

быть представлен

 

 

 

 

 

 

 

= „,!>

$

dp

 

 

 

 

 

(3.23)

 

 

 

 

 

 

j L

^ (Ю ■

 

 

 

 

Преобразуем

теперь

выражение

Т (р).

Для

этого

заметим,

что

 

 

I

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

(xi ~ fO2 =

lst + 1(Д -

хъ?.

 

 

 

 

 

I

 

 

 

I

 

 

 

 

 

 

 

 

где х в = - ^

-

2 x i ’

al =

- J -

2 ( ж г

~ ж э ) 2 -

Соответственно

 

 

 

і—1

 

 

 

г—I

 

 

 

 

 

 

 

 

 

Т (p) =

 

h l

+

I (p

xaf

+

(X — p)2.

 

 

Положим

теперь

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

XrJ+X

 

 

 

 

 

 

 

 

 

 

 

 

l + l

 

 

 

 

 

 

Тогда T (p)

может

 

быть

представлено в виде

 

 

 

Т (Р) = К + - Щ Г Г (* - *а)2 + (* = Ю2 (* + 1).

Соседние файлы в папке книги из ГПНТБ