книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения
.pdfI 3. ДОКАЗАТЕЛЬСТВО ДОСТАТОЧНОСТИ |
249 |
ется, что для этого необходимо и достаточно, чтобы энтро пия на символ последовательности стремилась к нулю с
ростом длины |
выборки. |
|
что функции ns (хг, ..., x t), |
||||
Теорема 11.1. Допустим, |
|||||||
ps (хг, |
..., |
x t) |
и As (хх, |
..., Xi) измеримы при всех I. Тогда |
|||
, |
если |
т |
|
Hs (l) |
= |
л |
то имеет место равномерная |
а) |
lim — |
U, |
|||||
|
|
I—>оо |
1 |
|
|
|
сходимость частот к вероятностям с вероятностью 1;
S /j\
б) если lim — |
= с ]> 0, то существует число б (с)Ъ- О, |
оо |
такое, что |
не зависящее от I, |
lim Р {я^ (хі, . . ж, )> 6} = 1,
1-+0О
т. е. вероятность того, что максимальное по классу S уклонение частоты от вероятности превзойдет б, стре мится к 1.
Таким образом, необходимым и достаточным условием равномерной сходимости частот к вероятностям по классу событий в этом смысле является условие
Д о к а з а т е л ь с т в о д о с т а т о ч н о с т и (ут
в е р ж д е н и я а)). Это доказательство |
аналогично вы |
|
воду достаточных условий главы X. |
2 Л З |
|
Итак, пусть |
HS {1) = 0. |
|
lim |
|
|
1-*ОО |
I |
|
Оценим величину
Р {sup IV(И; хъ ..., Хі) — Р (И) I > е} = Р {я? > е}.
A<=S
В силу основной леммы (§ 5 главы X)
Р {л? > 8} < 2Р {pS(^, . . ., X , ) > -£-} .
В свою очередь, как было показано при доказательстве
теоремы 10.2, |
С*Р.£& £~' |
/>{p8-(*1. - . ^ |
) > - f b w Ü 2 ѳ[р8(ГіХ2,)“ т ] ^ ^ 2г)> |
|
А(го і |
250 ГЛ. X I. НЕОБХОДИМ Ы Е И ДОСТАТОЧНЫЕ УСЛОВИЯ
где Ti |
— всевозможные перестановки последовательности |
хх, ..., |
х2І. Кроме того, € у, , j ■; |
к = |
Р8 ( П Х 2г) |
6 |
|
г'(1-1) |
|
< 3AS (хх, . . х21)е |
4 |
||
2 |
Очевидно также, что к ^ |
і. |
|
|
на область |
где |
Разобьем область интегрирования |
|||||
]g 2 A s (агі, |
. . , , x 2\) |
^ |
8 2 |
|
|
21 |
|
|
|
|
|
и область Х 2, где |
|
|
|
|
|
lg 2 А Ь (а:і> . . ., X ,) |
> |
е 2 |
|
|
|
21 |
|
8 |
' |
|
Тогда, заменяя к мажорирующими выражениями, по лучим
|
£*Z |
|
Р{р!і > -г} < $ 2AS (*i. • |
• •> хп) е~ ~ |
dP {X21) + \ d P {X21). |
Л’і |
|
х% |
|
|
( 11. 12) |
В обозначениях леммы 2 предыдущего параграфа |
||
$ dP (X21) = Р+ |
21) , |
|
поскольку |
|
|
lim |
H s ( I ) = 0. |
|
I—*оо |
.1 |
|
Учтем также, что в области Х г
іЧ
А- (хѵ ..., х2і)<^ 2 4 .
Тогда
g2jr g2^
Р {pfi > 4-} < 2 ■2_Ге” “ + Р+(4 - ’ 21) ■ (И-13)
Первый член суммы стремится при I -> оо к нулю экспо ненциально, второй член также стремится к нулю соглас но лемме 2. Более того, поскольку в соответствии с этой
$ 4. До к а з а т е л ь с т в о н е о б х о д и м о с т и |
251 |
леммой
ос
2 Р+ (е, Z)< ОО,
г=і
то и
ОО
2 Wps(*ь ■••.*«)> 44 <<*,
г=і 1 |
J |
а следовательно, и
2 Р {Jts (хъ . . ж2() > е} < оо.
і=і
Отсюда следует равномерная сходимость частот к ве роятностям почти наверное.
Утверждение а) доказано (заметим, что в оценке (11.13) только член Р +(е, I) зависит от распределения).
§ 4. Доказательство необходимости условий равномерной сходимости
Пусть теперь |
IIs (О = с > 0. |
|
lim |
|
|
1-*00 |
I |
|
В силу основной леммы (§5, гл. X), если только |
|
|
lim P{ps (x1( . ..,* „)> 2 6 } = 1, |
(11.14) |
|
I—wo |
|
|
ТО И
lim Р {ля (жх, ..., х21) > 6} = 1.
ОО
Таким образом, достаточно показать справедливость (11.14) при некотором б (с) > 0.
1. Рассмотрим сначала для пояснения общего доказа тельства частный случай, когда
l i m ^ i ^ l .
і—оо 1
В этом случае, как было указано в замечании 2 § 2,
252 ГЛ. X I. НЕОБХОДИМ Ы Е И ДОСТАТОЧНЫЕ УСЛОВИЯ
HSII)
и, поскольку — есть математическое ожидание вели
чины
lga ÄS(*і. • • •. *()
---------- 1.---------- |
^ |
ТО
lg As (xi, . . xt)
Следовательно, для всякого I с вероятностью 1
As (ж^ ж,) = 2',
т. е. с вероятностью 1 всякая выборка такова, что на ней
индуцируются |
системой S |
все |
возможные подвыборки. |
||||
В частности, для выборки жх, ..., х2І |
можно найти такое |
||||||
А* (ЕЕ S, что |
s i i S i * для |
і = |
1, ..., |
I и жг |
Л* |
для |
|
і = I + 1, |
..., |
21. Тогда ѵ' (Л*) |
= 1 , |
ѵ" (Л*) = |
0 и, |
сле |
|
довательно, |
с вероятностью |
1 |
|
|
|
|
|
|
|
sup I v' (Л) — ѵ" (Л) I = |
1. |
|
|
||
|
|
A e S |
|
|
|
|
|
Тогда и подавно для всех б < 0,5
lim Р {sup I v' (Л) — ѵ"(Л) I > 26} = 1.
l-*-oo |
A e S |
Идея доказательства утверждения б) в общем случае основана на том, что при
4 « - * С> 0
почти из всякой выборки длины I можно выделить подвы борку, на которой индуцированы все подвыборки и дли на которой растет пропорционально I.
2. Для этого нам понадобится следующая
Лемма 3. Если при некотором а (0 <С а ^ 1) и Г^> А-
для некоторой выборки жх, ..., жг оказывается, что
As (жх, ..., ж,) > 2аі,
то найдется подвыборка
хи, ..., хіг
§ |
4. ДОКАЗАТЕЛЬСТВО НЕОВХОДЙМОСТЙ |
253 |
|
длины г — [grZ], zdeq(a) = |
(в — основание натуральных |
||
логарифмов), |
такая, что |
|
|
As (*„ -м xtr) = 2'.
Д о к а з а т е л ь с т в о . В силу леммы § 4 главы X требуемая подвыборка заведомо существует, если
|
г—1 |
As |
2 c j = 0(Z, г). |
|
і=0 |
Чтобы убедиться в последнем, достаточно проверить нера венство
2а1 > Ф (Z, |
г). |
(11.15) |
||
Поскольку при наших |
условиях |
г 2 и Z |
г + |
1, то |
можно воспользоваться |
оценкой функции Ф (г, |
Z), |
полу |
ченной в замечании 1 § 4 главы X:
Ф(г, г)< Ф (г, Z )< 1 ,5 ^ -.
Всвою очередь это неравенство можно усилить, применяя формулу Стирлинга:
|
Ф(г, Z)< |
1,5f e r |
еГ . |
|
|
У 2яг г2 |
|
Нетрудно убедиться, что функция |
монотонно воз |
||
растает по X при X < Z. Следовательно, |
справедливо так |
||
же |
неравенство |
|
|
|
® (г. о <(■*-)-. |
|
|
так |
как |
[g-, Z] < ql. |
|
|
г = |
|
Поэтому отношение (11.15) будет установлено, если спра ведливо неравенство
254 Гл. JCI. НЕОБХОДИМ Ы Е И ДОСТАТОЧНЫЕ УСЛОВИЙ
Логарифмированием и сокращением на I это неравенство преобразуется к следующему виду:
a > q l g 2 [ ~ y |
(11.16) |
При z )> 0 справедливо неравенство
lg2Z< 2 lg ! е / і .
Оно непосредственно следует из того, что функция — ■
V Z
достигает максимума в точке z = е2 и равна при этом
. Поэтому (11.16) следует из неравенства
а > V eq 2 ]g2 е
Подставляя сюда значение q = |
, непосредственно убеж |
|
даемся в справедливости выражения |
||
а > |
2 1 g 2 e а. |
|
3 |
|
|
Лемма доказана. |
|
|
Напомним, что, согласно лемме 2 § 2, при |
||
Hs (l) |
с > |
О |
I
оказывается, что с ростом I
lg A s (ал, . . . , х {)
c — 6
стремится к единице (6 )> 0). Следовательно, при доста точно больших I с вероятностью, сколь угодно близкой к единице,
1?2 As (хъ . . |
., xt) > 2* 1 |
(11.17) |
и, согласно только что доказанной лемме, в каждой выбор ке, удовлетворяющей условию (11.17), найдется подвы борка длины
г = [? (тг)-‘ ]'
|
S 4. ДОКАЗАТЕЛЬСТВО НЕОБХОДИМОСТИ |
255 |
на которой система S индуцирует все подвыборки. |
Длина |
|
этой подвыборки возрастает пропорционально I. |
|
|
3. |
С х е м а д о к а з а т е л ь с т в а ( у т в е р ж д е |
|
н и я |
б)). Сравнение частот выпадения событий |
в двух |
полувыборках может вестись следующим образом: берет ся выборка длины 21 и случайным образом делится на две полувыборки равной длины, после чего подсчитывается и сравнивается число появления каждого события клас са S на первой и второй полувыборках.
Рассмотрим несколько измененную схему. Допустим, что выборка двойной длины хг, ..., х2і удовлетворяет усло вию (11.17), т. е.
As (хѵ ..., x2; ) > 2 cI.
Тогда в ней можно указать подвыборку Х г длины
W ü ' l '
на которой индуцированы все подвыборки. Теперь разде лим случайно на две полувыборки сначала подвыборку
Х г, а затем (независимо) |
остаток |
ХЧХГ. Пусть Х[ и |
|
Х2 — две полувыборки, на |
которые |
распалась Х г. По |
|
построению найдется событие А* |
S |
такое, что все эле |
менты ХІ принадлежат А*, а все элементы Х2 не принад лежат А*. Для этого события «разбаланс» частот достига ет наибольшего значения. Допустим, что в оставшейся части последовательности элементы из А* встречаются т раз. При случайном разбиении остатка примерно тІ2 из них попадет в первую полувыборку и столько же во вторую. Тогда
I ѵ' (Л*) — ѵ" (Л*) I |
г |
т |
т |
г |
ІГ + ДГ |
21 |
|
||
|
|
и, следовательно,
sup I ѵ' (Л) — ѵ" (Л) I Д> q. A^S
Поскольку число q Д> 0 не зависит от длины выборки, то равномерной сходимости нет.
Измененная схема не вполне эквивалентна исходной, так как в действительности подвыборка Х Т и остаток не
256 ГЛ. XI. НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ
обязательно делятся точно пополам при делении полной выборки X 1, но при достаточно больших I (а значит, и г) это условие почти всегда выполняется достаточно точно. Приводимое дальше формальное доказательство позволя ет строго учесть все сделанные здесь допущения и прибли жения.
4. |
Д о к а з а т е л ь с т в оу т в е р ж д е н и я б). |
|||
Итак, |
пусть |
я5 (I) |
|
|
|
Н т |
с > 0. |
||
|
1—>СО |
I |
|
|
При доказательстве достаточных условий (§ 6 главы X) |
||||
было установлено, что |
|
|
|
|
Р{рЯ(п1, . . . , Жгг)> 2 0 } = |
1і уг |
$ |
[ S e ^ x V s ö j d P C X 2'), |
|
|
|
‘ |
xW |
1 |
|
|
|
|
(11.18) |
где Ті — всевозможные перестановки последовательности
Ху, |
..., х21. Обозначив |
через К (хг, |
..., х2І) подынтеграль |
|||
ное выражение, сократим область интегрирования: |
||||||
P |p s (x1, . . ., х2і) > -|- j |
> |
|
|
|
|
|
|
> Щ і - |
5 |
|
|
|
K ( x y , . . . , x 2l)dP(X21). |
|
1Ң2A®(x,t . |
. |
^ |
c |
|
|
|
|
21 |
|
^ |
Y |
|
Оценим величину К, полагая, что |
|
|||||
|
lga As (xi,. . . , |
ж2г) |
^ |
с |
||
т. |
е. |
21 |
|
|
' >~2' |
|
|
|
|
|
|
||
|
As {ху, ..., |
х21) > |
|
2е'. |
||
|
При этом выберем -ft Д> Q(с) |
|
0 так, чтобы в соот |
ветствии с леммой 3 при достаточно больших I существо вала подвыборка Хп длины п ]> ql, на которой система S индуцирует все возможные подвыборки (т. е. As (Ху, ...
..., хп) =2"), и положим б (с) = • Примем, что п |
I, |
и заметим, что числа q и б не зависят от I.
s 4. ДОКАЗАТЕЛЬСТВО НЕОБХОДИМОСТИ |
257 |
Сгруппируем перестановки Tt так, что в каждую груп пу Rs входят перестановки, соответствующие одному и тому же разбиению на первую и вторую^ полувыборку. Очевидно, что
Р ® (7Ѵ *і, • • -I *8|) =
=sup |v '(4 ; Tr xu ..., xt) — V(A\ Тѵ хь ..., x2l)\ Aes
зависит только от Rs и в пределах [каждой группы постоян на. Поэтому
К = —(—2® ІР8 (^s’ жі» • • •>*az) — 26]. °аг. s
Сумма берется по всем возможным разбиениям хѵ . . .
. . ., Xzi на первую и вторую полувыборки.
Пусть, далее, Х п — та самая подвыборка длины п, на
которой S |
индуцирует все возможные подвыборки. Обоз |
|||
начим ее |
дополнение в |
X 21 через |
X (длина X |
равна |
21 — п). |
|
полностью |
задано, если |
заданы |
Разбиение Rs будет |
||||
разбиение |
R h подвыборки Х п на часть, попадающуюся |
первую полувыборку, и часть, попадающую во вторую полувыборку, и соответствующие разбиение R j подвы борки X .
Обозначим для данного разбиения число элементов из Х п, попадающее в первую полувыборку, через г и пред ставим К (X1) в следующей форме:
К = —^21 г к і |
І Р { R k R j '* х ъ •••> х ы ) — 26]. |
|
|
Здесь суммирование'по г ведется в пределах 0 |
г |
п. |
Суммирование по к ведется по всем разбиениям Хп6таким, что к первой полувыборке]^относится точно г элементов из"Х", суммирование по / — по всем разбиениям X таким, что к первой полувыборке относится I — г элементов из X .
Для фиксированного к, т. |
е. разбиения подвыборки |
Х п, иайдется^такое А (к) е* S, |
что все элементы хи отно |
симые этим разбиением к первой полувыборке, принадле жат А (к), а все элементы x t, отнесенные ко второй полувыборке, не принадлежат А (к). Это следует из того,
9 В. Ң. Вапник, А. Я. Червонещщс
258 ГЛ. XI. НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ
что |
S индуцирует |
на Х п все |
подвыборки. При этом |
|||
ps (RhRj; X lf |
. . ., |
X 2l) > ps (A |
(k); R hRj; хг , |
. . . ,x2l) |
||
и, |
следовательно, |
|
|
|
|
|
|
к > - i - S |
S |
2 |
Ѳ[ps (А (к); В Д ; ^ , ..., x2l) - |
25]. |
|
|
^ 2 1 r |
Je |
j |
|
|
|
Пусть, далее, P (к) — число элементов подвыборки X, принадлежащих"^ г(к), и t — число элементов подвыборки X, принадлежащих А (к) и отнесенных разбиением R j к первой полувыборке. Тогда для фиксированных г, к, j
\'(А(к)і хъ ..., xt) = |
, |
|
||
у"{А (к); хиі, ..., x2l) = |
, |
|
||
I ѵ' (А (к); хъ ..., хі) — ѵ"(А (к); хм , ..., х21) | = 1г + 2*— — |
||||
Соответственно |
|
|
I г -j- 21—р [ |
|
|
1, |
если |
> 2 5 , |
|
Ѳ[ps (А (к); хъ ..., х2{) — 25] |
|
|
► № |
|
л |
если |
I **“Ь 2^ — Р I |
о ч |
|
|
О, |
■—2__— — |
25. |
Наконец, сгруппируем разбиения Rj, соответствующие одному и тому же t (при фиксированных г л к). Число
таких |
разбиений равно |
а |
|
|
|
|
|
|
|
f\t |
/nl—T—t |
|
|
|
|
|
|
|
*Wl-n-p(/c)« |
|
|
|
|
Тогда оценка для К примет вид |
|
|
|
||||
|
V |
^ ^ |
XI XI |
(il—T—t |
|
|
|
|
л |
|
2л Za |
*^2г-п-р(*с). |
|
|
|
|
|
°2І г к t |
|
|
|
|
|
После |
элементарных преобразований получим |
|
|||||
|
V |
/^Г /-г/-Г |
V 1 |
/і( |
f t l - r - t |
|
|
|
°n°2!-n |
V |
ril—2 |
’ |
(11.19) |
||
|
71 ^ Z l |
^2? |
Z j |
Z i |
|||
|
r |
й |
t |
° 2f-n |
|
|
где суммирование по t ведется в пределах, задаваемых выражением
| / + 2 t - p l |
(11.20) |
|