Добавил:

ivanov666 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Башкирский Государственный Аграрный Университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения

.pdf

Скачиваний:

Добавлен:

25.10.2023

Размер:

12.29 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 67 / 427 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

§ 6. СЛУЧАЙ НЕЗАВИСИМЫХ ПРИЗНАКОВ

где
	Ср*(1),	если ж* =		с»(1),
	Р (х1, р1) = I .......................................				(3.11)
	I Р* (Ті)і	ѲСЛИ Х* =		£І (ti),
	3=1
Составим функцию правдоподобия
		I	П
	L {хи ..., x t, p ) =	П П Р (4, Р%
		fc=l г=1
где	х\ — значение і-й координаты /с-го вектора				обучаю
щей	последовательности.
Переставив порядок сомножителей, получим
		П	I
	Ь (хі,..., х„ р) =	П П ^(4>		Р*)-
		і=1 К=1
Перейдем к функции ln L:
		N	I
	ln L (хъ ..., хь р) =	2	2 ln -Р (4 , Р*)-
		1=1(С=1

Рассмотрим теперь величину

2 in р (4, р*).

іс=1

Согласно (3.11) она может быть представлена в виде

I Х'

2 1п р (4 . р*) = 2 щ ( / ) ln ^ о-)»

/С=1

3=1

где Wj (/) — число векторов выборки, у которых коорди ната принимает значение х{ — с1(/); £ — объем выборки,

(/) =Л-

62 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ

Таким образом, логарифм функции правдоподобия равен

		п	ті
la L {xl, . . . , z l,p)=‘ 2			2	т гО')1пРЧ/)-	(3-12)
		і = 1 3=1
Найдем максимум по р{ (/)		функции ln L (a^, . .			Хі, р)
при ограничениях	(/) =	1.	Для	этого воспользуемся
і	Лагранжа.
методом множителей	Лагранжа.

Составим функцию Лагранжа Ф (р, Я):

пті

Ф (р, я) = 2 '%(phO)inpl (j) — КрЧі )),

і —X 3=1

где ЯI — множители Лагранжа.
Вектор р,	доставляющий максимум функции Ф (pt Я),
определяется	из системы	уравнений
	ЭФ (р, X) =	ті (/)	(3.13)
	(/)	Р1(/’)	(3.13)
	(/)	Р1(/’)

Из (3.13), учитывая условия нормировки

получаем

>mt о -) р1(Л = • /

Таким образом, рекомендации метода максимума прав доподобия состоят в том, чтобы в качестве функции распре деления вероятностей использовать ее эмпирическую оценку, т. е.

т, (1)	хг = сг(1),
рг(1) = —2— , если	хг = сг(1),
Р (х\ р1) .......................................................	(3.14)
т. (т.)	X1= сг(Ті).
рг{?і) — — J— , если	X1= сг(Ті).

§ 7. БАЙЕСОВЫ ОЦЕНКИ ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЯ 63

§ 7. Байесовы оценки параметров распределения дискретных независимых признаков

Ниже будет показано, что при минимальных априор ных сведениях относительно значения параметров рас

пределения Р (х1, рх) (параметры р1 =			(1)	, . .
		ч	р1(/)
распределены равномерно на симплексе			р1(/)	l, p4 j) >
;> 0) байесова оценка имеет	вид	і=і
рЧ1) =		m (1) f-1
рЧ1) =		l -\-n		(3.15)
P(xl, pi) ==				(3.15)
Pl N	=	1Щ ( f j ) - f -	1
Pl N	=	I -\- Xi

Согласно § 5 байесовы оценки являются наиболее точ ными. В случае, когда объем выборки I мал — соизмерим с числом градаций — эти оценки могут значительно отли чаться от оценок максимума правдоподобия (3.14).

Поэтому для построения дискриминантной функции по малым выборкам лучше пользоваться не оценками

(3.14), а оценками (3.15).

	Получим байесовы оценки распределения.										константу
	Для этого	вычислим			сначала		нормировочную				константу
	с (»1, • •		•, Щ) == ^L ( хі, . . . , xt, »						Р (р ) dp,
где	L (хх, . . ., хі, р)		— функция			правдоподобия, Р (р)					— апри
орная плотность. Подставляя сюда						функцию правдоподобия и учи
тывая, что параметры				р* (/).	распределены				равномерно,		получим
	с (жі......... хі) = о Д					с	(хь . . .,		хі);
где	а — Р (р) =	const		и	І=1
где	а — Р (р) =	const		и
	c \ x h . .. ,хі)			=	§		П 1 CP*i </■))'"jW x
					2		i=i
					2
				J = i
				4-1	PU)>о	<Ti> dpI
				4-1	(/))m i			(1). . . dp{
	X	[i -		2 P	(/))m i			(1). . . dp{		(X. -	1), (3,16)

i=i

64 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИИ

Известно [57], что определенный интеграл (3.16) может быть вычислен

I Г Ң ( 1 ) + 1 ) . . . Г Ң ( т . ) 4 1)

		1 -	Г ( т . ( 1 )	+ ... + т . ( Т . ) +		Т.)	’
где	Г (п) — гамма-функция.			Для	целых п	она	равна Г (п) =
=	(я - 1)!	образом,	нормировочная константа				равна
	Таким
		(.	, Г(ті (1) +		1)...Г(тп.(Ті)+1)
	с	(!«•••.»)-Г (я»і(1)+			. . . + ПІі(Ті) + Ті) •

Найдем теперь байесову оценку функции распределения вероят

ностей. Согласно (3.5) она равна

£(*) =

п Х[^(/)ГіШ[1 -	(/)]ГПі<Хі>^ \| (і)... dP\ x - 1)
X j=i	j=i
	C [xi, ...,xt)

Обозначим каждый сомножитель произведения Р (х1). Учитывая, что функция Р (хг I р) представлена в виде (3.11), вычислим зна

чение Р (х1) при ж* = с1 (к). Легко видеть, что аналогично инте гралу (3.16)

><«*(*)) =

Tj-l

JJJ...J П [р;(/)Г1Ш[1- S У(/)Г1<Ті)pUk)dp\i)...dpHr-i)

3=1

Таким образом,

Сг3=1		1
(хі, ..., ж;)
Г(т.(Л-) + 2)Г(/ + т{)	т. (/,-) +	1
Г ( т . ( А )+ 1 ) Г (/ + т{ + 1) -	1 + х.

/(1 )	т (1) + 1	если	І	с	І /4ѵ
/(1 )	/ + Т.	если	X =	с	(1),
	/ + Т.
Р ( X 1) =					(3.17)
і	mi(Ti) + 1	если	i	i
P (Ti) =	~ 'L\|_T. ~ -	если	* = c		(Ti).

Заметим, что оценки, полученные байесовым методом (3.17), от личаются от оценок, полученных методом максимума правдо подобия (3.14).

Отличаются эти оценки тем больше, чем меньше объем выбор ки и чем большее число значений ті могут принимать координаты

вектора х\.

$ 8. ВОССТАНОВЛЕНИЕ НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ 65

§ 8. Восстановление параметров нормального распределения методом максимума правдоподобия

В случае, когда функция плотности распределения вероятностей задана нормальным законом

р {х’	Л) =		ехр [	т^х ~ ^)т А_1 -			и-)] *
где	р =	(а1, . . ., р” — га-мерный			вектор	параметров,
а Д — матрица параметров п				X п,	функция правдоподо
бия оказывается равной
L(xu	Х[, р, Д) =		I
			I
=	~(2я)^2\|А\|г/г~ѲХР [ “		^	{Хі ~	Ц)Г Л_1 {Хі ~	•	(3,18)
Логарифм функции правдоподобия равен величине
ln L{xx, ...,		р, Д) =		I
				I

=- 4 - IA J - 4 - S И - р)Д-1 (*!-»*). (3.19)

і—1

-.У

Оказывается, что максимум (3.18), а следовательно, и (3.19) достигается, когда вектор параметров р есть оценка математического ожидания вектора xt, т. е.

і=1

а матрица Д есть оценка ковариационной матрицы, т. е.

4-2 (4- 4)(4- 4)I = II к1}||. (3.20)

Доказательство этого факта имеется во всех руковод ствах по многомерному статистическому анализу [2]. Оно в векторной форме буквально повторяет очевидное для одномерного случая] утверждение: максимум, функции

			,	2 ^ - ц ) »
ln L (хъ .., Х[, р , б) — I	In 2л	— I In б —	1	г—1_______
	2		2	я2

3 В. Н. Валник, А. Я. Червоненкис

66 гл. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ

достигается при
Хэ = -J- 2 Щ, бэ = 1[	4~ 2 (Жі — Жэ)2 •
і=Ч	і=1

Как уже указывалось, по оценке параметров плотно сти распределения обоих классов векторов: р,х, Дх и р,2, А2, немедленно находится решающее правило

F{x) = Q (^— (х — ц2)гАГ (х - Ц8) —

- 4 “ (^ - PifAT1 (* - Иі) - ln f è j + lD 7J7) •

Особенность этого правила заключается в том, что оно образовано с помощью операции обращения

Y = A~XZ.

Известно, что к использованию операции обращения ма триц следует относиться с большой осторожностью: воз можны случаи, когда достаточно малой ошибке при за дании матрицы А соответствуют значительные ошибки величины Y. В нашем случае, когда в качестве матрицы А берется ее эмпирическая оценка, такие ошибки тем более вероятны, чем меньше объем выборки, по которой строи лась оценка, и чем хуже обусловленность самой ковариа ционной матрицы.

Поэтому может оказаться, что для построения надеж ного решающего правила потребуется такая точность в оценке ковариационных матриц, которая при заданном объеме выборки не может быть гарантирована. Вот по чему на практике применяются частные постановки, использующие особенности ковариационных матриц. При нято пять вариантов таких постановок.

1 в а'р и а н т . На матрицы Ах и А2 не наложено никаких дополнительных ограничений. В этом случае решающее правило оказывается^ квадратичной дискрими нантной функцией.

2 в а р и а н т . Считается, что коварицаионные ма трицы векторов обоих классов равны, т. е. Ах = Д2 = А. В качестве”оценки такой матрицы берется среднее ариф метическое матриц, полученных соответственно для

§ 9. НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ, БАЙЕСОВ МЕТОД

векторов первого и второго классов:

д _ Аі 4~ Дг

В этом случае решающее правило оказывается линейной дискриминантной функцией (функцией Фишера)

F (х) = — р2)т А П х + - J - (p2A ~ % — РіА-1рі) + 1 п -^ .

3 в а р и а н т . Считается, что ковариационные ма трицы векторов разные классов различны, но диагональны:

бц	0 ..,. 0
0	,. 0
	g22 •■

0 0 ..,. а,

Этому варианту соответствует случай, когда координаты векторов X распределены независимо по нормальному

закону с дисперсией	При	этом решающее правило
оказывается квадратичной дискриминантной формой.
4 в а р и а н т . Считается,		что ковариационные ма

трицы векторов различных классов равны и диагональны. В этом случае решающее правило оказывается линейной дискриминантной функцией.

5 в а р и а н т . Считается, что ковариационные матри цы векторов обоих классов единичные. К этому варианту приводится случай известных одинаковых ковариацион ных матриц. При этом решающее правило оказывается линейной дискриминантной функцией. и* jps*,

Ясно, что каждый последующий вариант более «по мехоустойчив», чем предыдущий.

§ 9. Байесов метод восстановления нормального распределения

К сожалению, восстановить методом Байеса распре деление вероятностей в многомерном случае не удается. Как уже указывалось, это связано с тем, что не удается вычислить аналитически соответствующие кратные интег

68 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ

ралы. Не удается аналитически получить байесову оценку даже для случая, когда вектор х имеет размерность 2.

Ниже мы покажем, что при минимальной априорной информации байесова оценка плотности нормального рас пределения случайной величины х имеет вид

р ь(?)~ Е(і)9в '			i-i
		(х — хяу-
		1 + (7+7ЙГ
	Ѵл	Ѵі + і г ( у - і )
	---------- т г г Д 2-
I		гМI
= T 2	xu	o i= j 2	(xi — хэТ-
i=l		1=1

Интересно, что эта оценка плотности нормального распре деления оказалась не принадлежащей классу нормаль ных. Однако читатель легко может убедиться, что при I —>ос справедливо

(X— Х э У

Рб(х) =

ѴШая

Использование более точных байесовых оценок плот ности для построения дискриминантных функций при водит к тому, что дискриминантная функция оказывается не квадратичной, а более сложного вида.

Сравним дискриминантные функции, полученные для третьего варианта постановки на основе байесовых оценок и оценок максимума правдоподобия:

а д = ѳ ( | ] ^ Ь п

\і=і

-2

1 4

№ + і )(<4)2-

i +		+
(й + і )(4і)2.
+ 2	ln	E (h) <s\ (2)
+ 2	ln	E(h)ai(l)
i=i		E(h)ai(l)

+ lnIL

Pil.

S Ѳ. НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ, БАЙЕСОВ МЕТОД 69

Fм (ж) =

	(хг— sa)	^	(х1— з ^ )2	^	вад	Рі
= ѳ	2	і= і	2 (а,)		4 ,	Ри
	\і=і 2 ( 4 ) 2	і= і	2 (а,)		4 ,	Ри

где xh, «за — соответственно эмпирическая оценка мате матического ожидания і-й координаты векторов пер

вого и второго классов, ah, ah — эмпирическая оценка дисперсии і-й координаты векторов первого и второго классов. Эти функции различаются тем больше, чем меньше объем выборки. Однако в пределе при I —>эо

Рб (ж) -> FM(ж).

Итак, пусть известно, что величина х распределена по нормаль ному закону

г,,	,	1	Г (* —цЛ
Р	в ) = У Ш І * ХѴ		*

Кроме того, пусть априорное распределение параметров р и а подчиняется равномерному закону на интервале — Т р ^ + Т и 0 ^ а ^ N. Функция правдоподобия в этом случае будет равна

		Г	I	1
			2	(і —і)5
L (жі,. . . . xh р, а) = (2я)"Ѵ ѲХР			i-i	2а*
L (жі,. . . . xh р, а) = (2я)"Ѵ ѲХР				2а*
Байесова	оценка плотности	распределения	вероятностей		равна
	Т N		(зе-р)«
	Y = S S - ^ - L ( x u	. . . , x l,\i,<3)e	2°‘	dpia
Р (*) =	----------~ Т °Т N-------------------------------------------------			.	(3.21)

^^ L ( x i ....... жг,р,а)йрйа

-Г '0

Мы будем считать, что интервалы [ — Т, Т] и [О, JV] столь велики, что пределы интегрирования в (3.21) могут быть расширены до [ — оо, оо] и [0, оо]. Это' во всяком случае можно сделать, если I > 2 (так как при I > 2 интегралы в выражении (3.21) сходятся).

Вычислим интеграл

ОО ОО

I	= __L-	5	J	~ L ( x i , . . . , x h р, р,				а) ехр	ф йа =
	Y 2я	—оо О					I	L	J
	1	оо	оо	1
		И			ехр	[	1		Ѵр) 1Ф d(J-
‘	j+i_			аІ+1			2а* ( 2	(і - Iх)2 + ( -

	(2я) 2	—оо .0					'1 = 1		/J (3.22)

70 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ

Обозначим

тдо = 2

+ (х —;о2-

'■у.

г= 1

Тогда

интеграл (3.22) перепишется в виде

00 00

,_і

С С

у 1 1

•

ехр

йг/йр =

*+і

3 3 7 + 2 /и

(2я)

^ Д О

Ф'

1+1

7+2(1,) J

Ч у .

Обозначим

(2я)

оо

. Г л

Я(і- 1

с ^

—

Ч-і

У1

(2я)

где С (I) не зависит ни от

р, ни от о.

в виде

Итак,

интеграл

может

быть представлен

= „,!>

(3.23)

j L

^ (Ю ■

Преобразуем

теперь

выражение

Т (р).

Для

этого

заметим,

что

(xi ~ fO2 =

lst + 1(Д -

хъ?.

где х в = - ^

2 x i ’

al =

- J -

2 ( ж г

~ ж э ) 2 -

Соответственно

і—1

г—I

Т (p) =

h l

I (p

— xaf

(X — p)2.

Положим

теперь

XrJ+X

l + l

Тогда T (p)

может

быть

представлено в виде

Т (Р) = К + - Щ Г Г (* - *а)2 + (* = Ю2 (* + 1).

<<< < Предыдущая 1 2 3 4 5 67 / 427 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в папке книги из ГПНТБ