Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения

.pdf
Скачиваний:
37
Добавлен:
25.10.2023
Размер:
12.29 Mб
Скачать

§ 5. ОСНОВНАЯ ЛЕММА

219

Таким образом, для того чтобы оценить поведение функции роста, достаточно выяснить, каково минималь­ ное число п такое, что ни на одной последовательности длины п система S не индуцирует все возможные подпо­ следовательности.

Замечание 2. Существуют примеры класса событий S, для которых

п—і

ms (l) = 2 СІ, i=0

где п первое число, при котором

т8 (I) ф 21.

Пусть X — произвольное бесконечное множество, а S состоит из всех его конечных подмножеств с числом эле­ ментов, меньшим п. Очевидно, что

ms (I) = 21 при I < п,

п—1

ms (I) = 2 С\ при І ^ п .

і—О

Таким образом, оценка теоремы для функций ms (I), не равных тождественно 2г, может достигаться.

§5. Основная лемма

Вконце § 2, было сказано, что основная идея, на кото­ рой строятся условия равномерной сходимости частот к

вероятностям, состоит в том, что бесконечная система с(Р] бытий S заменяется конечной подсистемой, состоящей из | таких событий, которые различимы на конечной выборке.

Для того чтобы сделать такой переход корректным, ока­ зывается необходимым заменить исходную проблему рав­ номерной близости частот событий к их вероятностям проб- ■

лемой равномерной близости частот в двух следующих

 

друг за другом выборках одинаковой длины.

 

Оказывается, что равномерная сходимость к нулю раз­

 

ности частот в двух полувыборках является необходимой

 

и достаточной для равномерной сходимости частот к ве­

 

роятностям и из оценок скорости одной сходимости сле­

j

дуют оценки для другой.

220 ГЛ. X. ДОСТАТОЧНЫЕ УСЛОВИЯ РАВНОМЕРНОЙ сходимости

Итак, пусть взята выборка длины 21;

Х ^

• •«, Xi, Хі+1, ..., Х21

и подсчитаны частоты выпадения события А ЕЕ S на пер­ вой полувыборке Х[ = х г , ...,:% и второй полувыборке

Х 21 — х г+г, хп . Обозначим соответственно частоты че­ рез ѵ' (А) и ѵ" (А) и рассмотрим отклонение этих величин:

Ра ( х х , ..., x2l) = I ѵ' (А) — ѵ" {А) I.

Нас будет интересовать максимальное отклонение ча­ стот по всем событиям класса S;

 

 

ps (xl t . ..,

= sup pA (xlt ..., x2l).

 

 

 

 

 

 

A<=S

 

 

 

 

Напомним,

что через ns ( x lt . . . , x{)

мы обозначили

 

 

ns {xu ..., X[) = sup I vl (Л) — P (A) |.

 

 

 

 

 

 

A e s

 

 

 

 

 

Далее

будем

полагать,

что

как

jis { х г ,

. . ., xj), так и

ps (х1,

...,

х 2і)

— измеримые функции.

величин

 

Основная лемма.

Распределения

( х х , . . .

...,Хі)

и ps

(xi t ..., x2i) связаны следующими соотношениями:

а)

Р (ns (хь ..., хг) > е) < 2Р jps (х1;----хы) >

, если

только I > — :

 

 

 

 

 

 

 

 

^

8

 

 

 

 

 

 

 

 

б) Р{р«(х1(...,х 2г) > е } < 2 Р {яв (*1,...,а :г)> - | - } -

 

 

 

 

 

-

[Р {я*3 (arl t ..., Xi) >

-j-J ]2 .

Д о к а з а т е л ь с т в о .

Доказательство

утверждения

а) построено по следующей схеме.

Представим

себе, что

полувыборки

х1, ...,

Хі и х [+1, ...,

х2і берутся последова­

тельно и независимо.

Допустим, что первая полувыборка

оказалась такой, что

 

 

 

 

 

 

 

 

 

sup I v' (Л; хъ ..., хг) — Р (Л) I >

е.

(10.16)

 

 

Aes

 

 

 

 

 

 

 

Это значит, что в классе S имеется событие А* такое, что

 

 

 

I V' (Л*) - Р (А*) I > е.

 

 

На второй

полувыборке

будем следить за отклонением

§ 5. ОСНОВНАЯ ЛЕММА

221

частоты от вероятности лишь для этого фиксированного события А*. Так как нас интересует всего одно событие, то можно воспользоваться обычным законом больших чи­ сел. Поэтому при достаточно большом I с достаточно вы­ сокой вероятностью частота ѵ" (4*) близка к вероятности

Р (А*):

К И * ) - Р ( л * ) K - f

и, следовательно,

IV' (А*) - V" (А*) I > -і- и pS(хъ

- г • (10.17)

Таким образом, условная вероятность (10.17) при усло­ вии (10.16) становится достаточно большой при соответст­ вующих I. Это и позволяет доказать утверждение а). Перейдем к формальному доказательству.

По определению

Р {Ps (Жі, • • •, Xi) > -j} = §

0 (ps (*1, • • •, Хц)

dP (X21),

X (20

 

 

где

 

 

1

при z|> 0 ,

 

0

при z 0.

 

Учитывая, что пространство X (21) выборок длины 21 есть прямое произведение (I) и Х 2 (I) полувыборок дли­ ны I, согласно теореме Фуббини [36] для любой измери­ мой функции ф (хх, ..., х2і)

^

Ф (хи . . х2і) dXn =

jj

[ ^

Ф (хи ..., X2і) dXl2j dX[.

X Ігі)

 

 

хІ(і)

xi(i)

 

Поэтому имеем

 

 

 

 

р { р Ц Х ы) > т - } =

 

 

 

 

 

= 5 d P ( x [ )

5 e ( p S ( ^ , . . . , ^ ) - 4 - ) d p ( ^ )

 

x\(l)

xt(l)

 

 

(во

внутреннем

интеграле

первая полувыборка

222 гл. X. ДОСТАТОЧНЫЙ УСЛОВИЯ РАВНОМЕРНОЙ сходимости

фиксируется). Обозначим через Q событие пространства

Xi (I)

 

(жх, ..., жг) >

е}

и, ограничивая интегрирование, получим

Р {

pS(X2' ) > - f }jj>.0 [> (* ,...,* * )•

 

 

 

 

> \ d P { X [ )

d P ( X 2)l . (10.18)

 

Хг (l)

 

Оценим внутренний интеграл правой части неравенст­ ва, обозначив его через I. Здесь хІ5 ..., жг фиксировано и таково, что я (х1, х г) е. Следовательно, существует А* GE S такое, что

Тогда

I Р (А*) — V(Л*;

ж1?

..., жі) I > е.

 

 

 

 

\

Ѳ sup Ра (хи .

 

 

d P ( X ) >

 

Lass

 

 

 

 

>

[

ѳ

(Х2г) — -I-] (X1).

Пусть,

например,

X ,(!)

 

 

 

 

 

v' (А*; Жц ...,

жг) < . Р ( Л * ) — е

(аналогично рассматривается случай ѵ'(Л*))>.Р (А *) + е). Тогда для выполнения условия

I ѵ' (Л*; хи ..., ж,) — ѵ" (Л*; хш , . . ж2/) | > ~

достаточно потребовать, чтобы выполнялось соотношение

ѵ"(Л*;ж1, . . . , ж 2г) > Р ( Л * ) -----1-,

откуда

 

 

 

І > $

Ѳ[ѵ"(Л*; хі+1, . .

ж2;) — Р (Л*)---- 1-]dP (X 2)l ^

Х,Ѵ)

 

 

 

=

2

с *рк И*) (1 - Р (Л*))гЛ

 

f

>р(А* )-т

 

§ 6. ВЫВОД ДОСТАТОЧНЫХ

УСЛОВИЙ

223

Как известно, последняя сумма превосходит Ѵ2,

если

2

 

2

только 1^>~.Возвращаясь к (10.18), получим для

—:

6

 

в

р {ps(*і,..*«) > -г} > $ 4 - d p ^

=

 

Q

 

 

= -Y'P{ns (x1, ..., жг) > в),

что и требуется.

Утверждение б) непосредственно следует из того, что если

I ѵ' (Л; жх, ..., Xі) — ѵ" (А; ж/+1, ..., ж2г) | > е,

то

либо

|ѵ'(Л; хи . . . , х І) — Р(А) |> - | - ,

либо

|ѵ"(Л; жг+1, ...,ж 2г) — Р ( Л ) |> - |- .

Учитывая, что при этом полувыборки и Х2 независимы, получаем:

Р {sup I v' (А; хъ ..., Ж;) — V' (Л; ж/+1, ..., ж2г) | > е} <

А

< 1 — ( і — р |sup I Р (Л) — V' (А) хъ ..., жг) ( > -|-J^ X

X ( l — Р jsup I Р {А) — v' {А; жг+1, . . жаг) | >

и поэтому

Р {ps (хіі ■

г)> е } :

2Р [ns (хъ ..., жг) > -|-j — Р I ns (жх, . . ., жг) >

Лемма доказана.

§ 6. Вывод достаточных условий равномерной сходимости частот к вероятностям по классу событий

Итак, задача может быть сведена к оценке равномер­ ной близости частот в двух последующих полувыборках. Схему сравнения частот выпадения событий в двух полу­ выборках можно представить себе так. Берется выборка

224 ГЛ. X. ДОСТАТОЧНЫЕ УСЛОВИЯ РАВНОМЕРНОЙ с х о д и м о с т и

двойной длины X 21 и затем делится случайным образом на две полувыборки равной длины. Будем считать, что вы­ борка X 21 зафиксирована. Еісли два события Ау и А 2 не­ различимы на выборке X 21, т. е. всякий элемент этой вы­ борки, принадлежащий Ау, принадлежит А 2 и наоборот, то частоты выпадения этих событий на всякой подвыбор­ ке одинаковы. Поэтому для оценки максимального укло­ нения частот достаточно из каждой группы неразличимых событий взять по одному. Число таких событий будет ко­ нечно и равно индексу As (ху, ..., х2Х) системы S относи­ тельно выборки Х у , . . . , Х ц . Рассмотрим одно из таких со­ бытий А и, по-прежнему считая выборку X 21 фиксирован­ ной, разобьем ее случайно на две равные полувыборки и оценим уклонение частот этого события в двух полувыборках. Эта схема равноценна схеме с невозвращаемыми ша­ рами, а поэтому (см. [64])

 

 

'~'тУъ1-т

Р{|ѵ'(Л; хи ■. .,хі)—ѵ"(А; x l+1, .. . , ^ г ) І > е}= 2

к:

к

т к

{ 1

I

где т — число элементов А в выборке X 21, к — число эле­ ментов А в первой полувыборке.

Как показано в приложении к главе X, правая часть равенства может быть оценена сверху:

 

г<к ril-k

 

 

 

2

°т 1-т

;3ехр [—е2 (Z — 1)],

 

 

 

к

 

СЬ

 

 

 

 

 

 

 

 

 

т к

 

Ч

І

т

I

> е } .

Таким образом,

 

 

 

Р {|ѵ (А, Ху, ...,

Xi)

V

(А,

Хі+у, ..., х%і) I

 

 

 

 

>

е} < 3 ехр [— е2 (I — 1)].

Вероятность того, что хотя бы для одного события А, из числа выбранных, окажетсяI

I V (А, Ху, ..., Xi)

V (А, Хі+у, ..., х2і) I

6,

§ 6. ВЫВОД ДОСТАТОЧНЫХ УСЛОВИЙ

225

по теореме о сложении вероятностей оценивается:

Р {sup IV7 (Л; х1:.. .,xt) — ѵ" (А; х м , ..., х2І) | >

е} <

ASS

 

< 3AS { x i

, х2І) е”£'(г' 1).

В свою очередь по определению функции роста

As (%, Х21) < ms (21)

и, таким образом,

Р {sup I ѵ'; хъ ..., х2і) — ѵ"(Л; хиъ ..., жаг)| > е}<

AeS

< 2ms (21)

Очевидно, что если функция ms (Г) растет лишь степенным образом, то правая часть неравенства стремится к нулю при I —*■оо. Это и дает достаточные условия равномерной сходимости (по вероятности).

Перейдем к строгой формулировке и доказательству достаточных условий.

Теорема 10.2. Вероятность того, что частоты всех событий класса S уклонятся от соответствующих вероят­

ностей в эксперименте длины I более чем на

е,

удовлетво­

ряет неравенству

 

 

 

 

P{ns (хг, ..., Хі)

е}

bms (21)е

4

. (10.19)

Следствие. Для того чтобы частоты событий клас­ са S сходились (по вероятности) к соответствующим ве­ роятностям равномерно по классу S, достаточно сущест­ вования такого конечного п, что

ms (п) Ф 2п.

Д о к а з а т е л ь с т в о .

В силу с основной леммы

достаточно оценить величину

Р jps (* !,..., х2і) > - х } = ^

ѳ (Ps (хъ • • •. Чі) — r ) dP ^ 2^'

x m

 

Рассмотрим отображение пространства X (21) на себя, получаемое некоторой перестановкой Гг элементов

8 В. Н. Вапник, А. Я. Червоненкис

226

г л . X. д о с т а т о ч н е й :

у с л о в и я р а в н о м е р н о й с х о д и м о с т и

последовательности X 21.

В

силу симметрии определения

продукт-меры имеет место следующее равенство;

 

 

J j ( X 2l)dP (X21) =

J f(TiX*l)d P (X 21)

 

 

X Іи)

 

 

хш)

 

для любой интегрируемой функции / (ж).

 

 

Поэтому

 

 

 

 

i5 |pS (л?!, . . .,Х2і ) У ~ I =

 

 

 

 

(21)!

’ (T.X21) - - | -

 

 

 

i=l

 

 

 

 

dP(X2!),

(10.20)

 

-

j

 

 

1 Щ

 

 

 

x m

 

 

 

где сумма берется по всем (2/)! перестановкам.

 

 

Заметим, прежде всего, что

 

Ѳ^Ps (X2) ---- |- j

==

 

 

 

=

ѲИ р I ѵ' (А;

хъ ..., xt) — v" ('a ; хм , . . ,,x 2l) | > — j =

 

= sup Ѳ(J v' (Л; xu ..., Xj) — v" [A; xl+1, ..., x2l) | —

*

 

Aes

 

 

\

Очевидно, что если два множества А ±и А 2 индуцируют на выборке xlt . . . , Х і , жг+1, . . . , x2i одну и ту же подвыборку, то справедливо

V' (Лі;

TtX 2‘) =

V' (Л2;

ГгХ20,

ѵ" (Лі;

ГгХ2‘) =

ѵ" (Л2;

ТіХ 21)

и, следовательно,

 

 

 

РM X « ) = р Аг ( Т і Х 2' )

для любой перестановки Tt.

Иными словами, если два события эквивалентны отно­ сительно выборки Хі , ..., х21, то уклонение частот для этих событий одинаковы при всех перестановках Tt. Поэтому, если из каждого класса эквивалентности взять по одному

i g. ВЫВОД ДОСТАТОЧНЫХ УСЛОВИЙ

227

Множеству й Образовать конечную систему S ' , то

sup рд (Т{Х 21) = sup рА (Т{Х 21).

А.S S

А {=Я'

Число событий в системе S' конечно и было обозначено As ( хг , . . . , х ц ). Поэтому, заменяя операцию sup суммиро­ ванием, получаем

supO \ул ІТ,Х'! ) — A j = sup Ѳ\уА [І\Х*1) —

. у

< 2

 

A<=S' '

'

Эти соотношения позволяют оценить подынтегральное выражение в (10.20):

(20!

(2(|! 2 e [ p W ” ) - - f ] =

Ш

7=1

г (2()!

 

РA

( ^ ) - - f ]

і=1

 

< 2

(20!

AeS'

 

Выражение в квадратных скобках означает отношение числа порядков в выборке (при фиксированном составе), для которых

| ѵ '( Л ) - Ѵ И ) | > _ £ - ,

к общему числу перестановок. Легко видеть, что оно рав­ но

где тп равно числу элементов выборки хг, ..., х2і, принад­ лежащих А.

8*

228ГЛ. X. ДОСТАТОЧНЫЕ УСЛОВИЯ РАВНОМЕРНОЙ с х о д и м о с т и

Вприложении к этой главе показано, что

 

 

 

 

 

6* Д-Р

 

 

 

 

 

 

 

 

Г < 3 е

4 .

 

 

 

 

 

т'

Таким образом,

 

A 2S S '

 

 

=

 

 

 

(21)1

 

'

^

е» (1-1)

 

 

 

я' г i2= l

вL[р» (Г,Xм) - - ! - J] <

з г

)*

_

Ea (l-1)

 

 

 

= 3AS (Xi, ..., хг{) e

sa(i- l)

3ms (21) e

 

 

 

 

 

 

 

 

4

Подставляя эту оценку в интеграл (10.20), имеем

 

 

 

 

 

 

,

 

-1

3ms (21) е

г2(1~1)

 

 

 

 

Р jps (хи .. ., х2і) > - |- | <

4

,

 

 

откуда в силу основной леммы

 

 

 

 

 

 

 

 

 

Р (ns (хг, . . ., xt) )> е} ^

6ms (21) е

еаД -р

 

 

 

 

 

 

4

 

 

 

 

Теорема доказана.

 

с л е д с т в и я . Пусть

су­

 

Д о к а з а т е л ь с т в о

ществует такое п, что

 

 

 

 

 

 

 

 

 

 

 

 

ms (п) ф 2” .

 

 

 

 

 

Как было доказано в § 4, если только

функция

ms(n) не

равна 2”,

то при І'ф п справедливо:

 

 

 

 

 

 

 

 

^ Х

 

;(«-1)

 

 

 

 

 

Поэтому:

^ т Ь т у г

 

 

 

 

 

 

lim Р (я5 (хъ ..., х,) >

е} <

 

/олп- і __ÜiLiL

= 0 ,

 

9 lim у -—.-гг е

4

 

т. е. имеет место равномерная сходимостц по вероятности. Полученное достаточное условие не зависит от свойств распределения (единственное требование — это измери­ мость функций я и р), а зависит от внутренних свойств

системы S.

Соседние файлы в папке книги из ГПНТБ