книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения
.pdf§ 2. ОПРЕДЕЛЕНИЕ РАВНОМЕРНОЙ СХОДИМОСТИ |
209 |
ствѳ S рассматривать более узкие (не полные) системы со бытий.
Примеры систем S, для которых выполняются условия равномерной сходимости частот к вероятностям, будут приведены ниже. Отметим лишь то, что для конечных сис тем S, содержащих N событий, равномерная сходимость всегда имеет место. В самом деле, из усиленного закона больших чисел известно, что для каждого А последова тельность
л (А; хх, ..., х г) = I Р (А) — V 1 (А) |
стремится к нулю с вероятностью единица при I -> оо. Поскольку число событий в S конечно,
ns (xj., ..., Xi) = max я (Лг; хх, ..., ,гг) Аі, ..., АJY
и также стремится к нулю с вероятностью 1. Выведем оценку вероятности
Р {ля (%, ..., Хі) > е}
для случая конечной системы S. Величина ѵ (А) распре делена по биномиальному закону
Р(ѵ (Л)) = CfP (Л)*Л>г (1 — Р (Л ))й-^»г.
Поэтому
р {IV (А) - Р (А) I > 8} = 2 ' С\Рк (А) (1 - Р (A ) f \
к
где штрих у суммы означает, что к пробегает значения, удовлетворяющие неравенству
к_
т - Р ( А ) > е .
Событие ns (Z)^>e означает, что по крайней мере для одного из событий А ц ..., A N справедливо |ѵ (А) — Р (А) |^>
е. Поэтому по теореме о сложении вероятностей
Р {sup IV (Л) — р (А) I > |
с} < N 2' С\р* (Л) ( 1 - Р (Л))!Л |
лев |
к |
|
( 10.6) |
210ГД. X. ДОСТАТОЧНЫЕ у с л о в и я р а в н о м е р н о й СХОДИМОСТИ
Всилу интегральной теоремы Муавра — Лапласа правая часть неравенства (10.6) при больших I может быть оценена так:
|
|
X 9 |
|
|
іЧ |
|
|
2N |
і‘ |
|
|
20, |
|
У2лІвл |
і |
V 2лІе |
|
|
||
где |
А |
£ |
|
|
|
|
|
|
|
|
|
|
|
|
|
са ^ Ѵ Р ( А ) { і - Р ( А ) ) . |
|
|
||
Величина |
достигает максимального |
значения при |
||||
Р (А ) = -J |
и равна в этом случае Ѵ2. Поэтому |
|
||||
Р {sup IV (Л) — Р (Л) I |
е}^ |
N |
е~геЧ . |
|
||
|
|
|||||
|
A s s |
|
|
У 2лІг |
|
|
П Р И 1 > |
2;Ѣ ~ |
П 0Д УЧаеМ |
|
|
|
|
|
Р {sup IV(Л) — Р (А) I > 8}< Ne~2tH. |
(10.7) |
||||
|
ASS |
|
|
|
|
Таким образом, остается выяснить, для каких беско нечных систем S выполняется равномерная сходимость частот к вероятностям.
Основная идея выводимых ниже условий равномерной сходимости связана с тем, что и в том случае, когда систе ма S бесконечна, лишь конечное число групп событий раз личимо на конечной выборке *). Правда, это число не по стоянно и зависит от выборки. Грубо говоря, идея состоит в том, чтобы подставить в оценку (10.7) переменное число N, зависящее от выборки. Если при этом N возрастает с длиной выборки достаточно медленно (медленнее любой показательной функции), то правая часть оценки (10.7) при Z-> оо стремится к нулю при любом в > 0 и , следова тельно, равномерная сходимость частот к вероятностям имеет место.
*) Два события считаются различными на выборке хх, . . ., жг, если в этой выборке найдется элемент хх, принадлежащий одному и не принадлежащий другому.
§ 3. ОПРЕДЕЛЕНИЕ ФУНКЦИИ РОСТА |
211 |
§3. Определение функции роста
Вэтом параграфе будет введена характеристика клас са событий, достаточная для выяснения факта равномер ной сходимости.
Пусть X — множество, S — некоторая система его подмножеств, X 1 = хг, ..., жг — последовательность эле ментов X длины I. Каждое множество 4 g S определя ет подпоследовательность Х а этой последовательности, состоящую из тех и только тех элементов, которые принад лежат А. Будем говорить, что А индуцирует Х а на после довательности X 1. Обозначим через
As (жІ5 ..., ж,)
число различных подпоследовательностей Х а , индуциро ванных множествами А ЕЕ S. Очевидно, что
As (хи ..., ж,) < 21.
Число As (xj, ..., Ж;) будем называть индексом системы S относительно выборки хг, ..., жг.
Определение индекса системы можно сформулировать
и иначе. Будем считать, что 4 хе |
5 эквивалентно 4 2 е 5 |
относительно выборки жъ ..., х ь |
если Х а, = Х ау Тогда |
индекс As (Ж], ..., х г) есть число классов эквивалентности, на которые система S разбивается этим отношением экви валентности.
Очевидно, что эти два определения равносильны.
Функцию |
(10.8) |
ms (I) = max As (жІ5 ..., жг), |
|
......хі |
|
где максимум берется по всем последовательностям дли ны Z, назовем функцией роста системы S. Здесь максимум всегда достигается, так как индекс As (жх,, ..., ж г) принима ет лишь целые значения. Используя функцию роста, сфор мулируем ниже достаточные условия равномерной схо димости частот к вероятностям по классу событий и дадим
соответствующие |
оценки. |
приведем |
несколь |
В заключение |
этого параграфа |
||
ко примеров функций роста для |
различных |
классов |
|
событий. |
Пусть X — прямая, a S — множество |
||
П р и м е р 1. |
|||
всех лучей вида ж |
а. Найдем функцию роста. |
|
212 г л . X. ДОСТАТОЧНЫЕ УСЛОВИЯ РАВНОМЕРНОЙ с х о д и м о с т и
Пусть дана последовательность точек xlf ..., Xi без пов торений. Изменив порядок последовательности, можно добиться того, что
|
|
|
|
хг < XZ< |
... < Хі. |
|
Очевидно, что каждое множество А вида |
||||||
|
|
|
|
{ х : X |
|
а } |
при |
хх |
а |
Хі |
индуцирует |
подпоследовательность |
|
|
|
|
|
/у* /у |
/V* , |
|
|
|
|
|
^17 ^2» *•*? |
|
|
такую, что Хі ^ |
а <і ж|+1. |
|
пустая подпоследователь |
|||
При |
а < |
индуцируется |
||||
ность, а при а > |
Хі — вся последовательность ж1т ..., Ж/. |
|||||
Ясно, |
что число различных последовательностей, индуци |
|||||
руемых множествами А £ S, |
равно I + 1. Таким образом, |
А8 (жх, ..., хі) = I + 1.
Если в последовательности есть повторения, то индекс Дв (хх, ..., Хі) разве лишь уменьшается.
Поэтому
ms (l) |
= 1 + 1. |
(10.9) |
П р и м е р 2. Пусть X |
— сегмент [0, 1],а S |
состоит |
из всех множеств, каждое из которых представляет собой объединение конечного числа непересекающихся сегмен
тов с рациональными концами. Если |
X 1 = |
х1, ..., Хі — |
— последовательность точек из сегмента [0, |
1] без повто |
|
рений, то для всякой подпоследовательности X 1найдется |
||
множество из S, включающее только те точки X 1, кото |
||
рые входят в Х {. Для этого достаточно |
покрыть точки X 1 |
достаточно малыми сегментами с рациональными концами и взять их объединение. Поэтому в данном случае
т8 (I) = 21
(отметим, что система S содержит лишь счетное число эле ментов).
П р и м е р З . Пусть X — п-мерное (п >= 1) евклидово пространство, S — система всех подмножеств вида
{X : (ж, ф) > 0 } (ф *= 0).
§ 4. |
СВОЙСТВА ФУНКЦИИ РОСТА |
213 |
||
Тогда индекс |
As (х1, ..., х {) |
определяет число различ |
||
ных разбиений I |
векторов хг,...,х і |
на два класса с помо |
||
щью гиперплоскостей, проходящих |
через начало |
коор |
||
динат. Как было показано в главе V, |
|
|||
|
|
п—г |
|
|
А {хі,..., xt) |
2 2 |
C-i» |
|
|
откуда следует |
|
i—l |
|
|
n—1 |
|
|
|
|
|
Cli- |
|
( 10.10) |
|
|
ms (Z)<2 2 |
|
||
|
І~1 |
|
|
|
Можно показать, что в действительности |
|
|||
|
п—1 |
|
|
|
|
ms (l) = 2 2 |
CU. |
|
|
|
і=1 |
|
|
Аналогично показывается, что если X — «-мерное евкли дово пространство, а S — система подмножеств вида
{х : (х, ер) > с},
где ф — произвольный вектор, а с — произвольная ска
лярная величина, то
П
ms (l) = 2 2 CU-
|
|
|
i—l |
|
|
|
§ 4. Свойства функции роста |
||
|
Функция роста класса событий S обладает следующим |
|||
замечательным свойством. |
|
|||
на |
Теорема 10.1. Функция роста либо тождественно рав |
|||
21, |
либо, если это |
не так, |
мажорируется функцией |
|
п— 1 |
|
|
|
|
2 |
С), |
где п — минимальное число I, при котором |
||
і=0 |
|
ms (I) 2l. |
||
|
|
|||
Иначе говоря, |
■либо ~ 2 l, |
|||
|
|
|
||
|
|
ms (I) = |
|
п—1 |
|
|
либо ^ |
2 С\. |
і=0
214 ГЛ. X. ДОСТАТОЧНЫЕ УСЛОВИЯ РАВНОМЕРНОЙ СХОДИМОСТИ
Для доказательства этого утверждения нам понадо бится следующая лемма.
Лемма. Если для некоторой последовательности хъ ...
..., хі и некоторого п !> 1
|
п— 1 |
Д (xlf ..., Хі) |
2 Сь |
|
і=0 |
то существует подпоследовательность Х п длины п такая, что
As (Хп) = 2”.
Д о к а з а т е л ь с т в о . Обозначим П—1
2 сі = Ф к о
О
(здесь и дальше считаем, что при і^> I С\ = 0). Для этой функции, как легко убедиться, выполняются соотно шения
Ф(1, l) = 1, |
|
Ф (п, I) = 2' при I < п - 1, |
(10.11) |
Ф (п, Г) = Ф (п, I — 1) + Ф (п — 1, I ~ 1) |
п )> 1 ,Z 1. |
при |
Эти соотношения в свою очередь однозначно определяют функцию Ф (п, I) при Z> 0 и п > 0.
Будем доказывать лемму индукцией по I и п. Для п — І и любого I > 0 утверждение леммы очевидно. Дей ствительно, в этом случае из
As (х1ѵ ..., г,) > 1
следует, что существует элемент последовательности х , такой, что для некоторого А х ЕЕ S выполняется ij е 4 і, а для некоторого другого А 2 ЕЕ S выполняется х ( ф. А 2 и, следовательно,
А3 {хі) = 2.
Для / < п утверждение леммы верно ввиду ложности посылки. Действительно, в этом случае посылка есть
As (хи ..., хі) > 21,
|
§ 4. |
Св о й с тв а ф у н й ц й и |
ро ста |
|
|
215 |
||
что невозможно, так как |
|
|
|
|
|
|
||
|
|
As {хг, ..., |
®,) < |
2г. |
|
|
|
|
Наконец, допустим, что лемма верна для п |
п0 (п0 ^ » |
|||||||
]> 1) при всех I. |
Рассмотрим теперь случай п = гс0 |
1. |
||||||
Покажем, что лемма верна и в этом случае для всех I. |
||||||||
Зафиксируем п = п0 + 1 |
и проведем индукцию по Z. |
|||||||
Для I < |
га0 + 1, |
как указывалось, лемма верна. Предпо |
||||||
ложим, что она верна при I <1 10, и покажем, что она спра |
||||||||
ведлива для I = |
10 + 1. Действительно, пусть для некото |
|||||||
рой последовательности |
|
|
|
|
|
|
||
|
|
X±j |
|
|
|
|
|
|
справедливо условие леммы: |
|
|
|
|
|
|
||
|
Л® (%, •••, хш ) > Ф («„ + |
1, |
/0 |
+ 1). |
|
|||
Найдем подпоследовательность длины п0 + |
1; |
|
||||||
такую, |
что |
Х"о+1 = Жі, |
..., хПо+1 |
|
|
|
|
|
As (%, •••, Хпо+і) = 2”0+1. |
|
|
|
|||||
|
|
|
|
|
||||
Рассмотрим |
подпоследовательность |
Х?о = |
ж1; ..., |
х |
||||
Возможны два случая; |
|
|
|
|
|
|
||
а) |
As (х1; ..., :г/о) Д> Ф (ге0 |
1, |
10), |
|
|
|||
б) |
|
As (ж2, ..., хІ0) < Ф (/г„ + |
1,Z0). |
|
|
В случае а) в силу предположения индукции существует подпоследовательность длины п0-\-1 такая, что As (Xn»+1)= = 2П°+1, что и требуется.
Для случая б) разделим подпоследовательности после довательности Х 1°, индуцируемые множествами из S , на два типа. К первому типу отнесем такие подпоследова тельности Х г, что на полной последовательности Х 1о+1
индуцируется как Х т, так и Х г, х гаП. |
Ко второму — такие |
|||
Х г, |
что на последовательности Хг°+1 |
индуцируется либо |
||
Х т, |
либо |
Х т, ж/0+1. Обозначим |
число подпоследова |
|
тельностей |
первого типа Кг, а |
второго типа К 2■Легко |
||
видеть, что |
|
|
|
|
As (жх, |
х и) = К х + К2, As (хѵ |
х ш ) = 2Кі + К г, |
216 ГЛ. X. ДОСТАТОЧНЫЕ УСЛОВИЯ РАВНОМЕРНОЙ сходимости
и следовательно,
As fa , ..., х ш ) = As (xx, ..., x lo) + К г. |
(10.12) |
Обозначим через S' систему всех подмножеств А Е S таких, что на последовательности Х !о они индуцируют подпоследовательности первого типа. Тогда, если
б') Кг = А«' (хг, ..., хі0) > Ф (п0, 10),
то в силу предположения индукции существует подпосле довательность Х ‘п* = хи, ..., Хі такая, что
Д5(жг„ ...,ж ч ) = 2П° и Xn°CZX\
Но тогда для последовательности xilt ..., ж,- , х ш имеем
А8(Хіі, . . . , хІщ, х ш ) = 2"0+1,
так как для каждой подпоследовательности X 9, индуциро
ванной на последовательности X |
найдутся две подпо |
||
следовательности, индуцированные |
на Х 7^, |
Ж/0+1, а имен |
|
но X 9 и X q, ХіоП. Таким образом, в случае б') |
искомая под |
||
последовательность найдена. |
|
|
|
Если же |
|
|
|
б*) |
Кг = As' (хг, ..., x h) < |
Ф (п0, 10), |
|
то получим в силу (10.12) и б) |
|
|
|
As (хг, |
..., жго+1) < Ф ( п 0 + 1, 10) + ф (п0, 10), |
||
откуда в силу свойств (10.11) функции Ф (п, I) |
|||
As (xlt ..., ж,0+1) < Ф (п0 + |
1, 10 + |
1) |
в противоречии с предположением, т. е. б") невозможно. Лемма доказана.
Теперь докажем теорему. Как уже отмечалось, ms (I) ^ 21. Пусть ms (Г) не равно тождественно 21и пусть п —
первое значение I, при котором ms (I) ф 21.
Тогда для любой выборки длины I, большей п, спра ведливо
As (xlt ..., хі) < Ф (п, I).
§ 4. СВОЙСТВА ФУНКЦИИ РОСТА |
217 |
Действительно, в противном случае на основании утверж дения леммы нашлась бы такая подвыборка хг, ..., х п, что
As (хі, ■■■, хп) = 2”.
Ыо это равенство невозможно, так как по допущению
ms (п) Ф 2”.
Таким образом, функция ms (I) либо тождественно рав
на 2г, либо мажорируется Ф (п, Г). |
|
|
|
Теорема доказана. |
может |
бытъ оценена |
|
Замечание 1. Функция Ф (п, I) |
|||
сверху при п > 1 и I Д> п следующим образом: |
|||
п—1 |
|
п_^ |
|
Ф ( М )= 2 c l < l , 5 TJ ^ ITr. |
(10.18) |
||
і=0 |
' |
' |
|
Поскольку для функции Ф (п, I) выполняются соотно шения (10.11), для доказательства (10.13) достаточно убе
диться, что при |
п > 1 |
и |
1^> п справедливо неравенство |
||||
|
г"'1 |
, |
£_ |
(I + 1)п |
(10.14) |
||
|
(га — 1)! |
' |
га! ^ |
га! |
’ |
||
|
|
|
|||||
и проверить (10.13) на границе, т. е. при п = і, I = п |
і. |
||||||
Неравенство (10.14), очевидно, равносильно неравен |
|||||||
ству |
|
|
|
|
|
|
|
Г - i ( „ + I ) — ( I + i f |
< 0 , |
|
|
||||
справедливость |
которого |
следует |
из формулы бинома |
||||
Ньютона. |
|
|
|
|
|
|
|
Остается проверить соотношение (10.13) на границе. При п = 1 оно проверяется непосредственно. Далее про
верим оценку |
при малых п и I: |
|
|
|
|
|
Z= га + 1 |
1 |
2 |
3 |
4 |
5 |
|
|
Ф(га, 1) |
1 |
4 |
И |
26 |
57 |
, |
с I"*1 |
1,5 |
4 |
12 |
|
81 |
4
218 ГЛ. X. ДОСТАТОЧНЫЕ УСЛОВИЯ РАВНОМЕРНОЙ СХОДИМОСТИ
Теперь, чтобы проверить (10.13) при п |
5, |
восполь |
|||||||
зуемся формулой Стирлинга для оценки сверху Л; |
|
||||||||
|
1\ < |
/ 2 л |
11+ 2 е 1+12і , |
|
|
|
|
||
откуда при I = п |
1 |
|
|
|
|
|
|
|
|
Г-1 |
|
(г |
|
(г- і ) |
|
|
|
|
|
(я— і)і |
|
и |
^ |
ѴШі |
|
|
|
||
и, далее, при |
6 |
|
|
|
|
|
|
|
|
|
|
Г-1 |
> 0,8 |
V 2лі |
|
|
|
|
|
|
(п - 1 ) ! |
|
|
|
|
|
|||
С другой стороны, всегда |
|
|
|
|
|
|
|||
|
|
Ф (п, V) < |
2'. |
|
|
|
|
|
|
Поэтому достаточно проверить, |
что при I |
6 |
|
|
|||||
|
|
21< 1 ,2 - 7 4 = - |
|
|
|
|
|
||
С ростом I (при I > |
2) это неравенство усиливается и по |
||||||||
этому достаточно его проверить при I = |
6, |
в чем и убеж |
|||||||
|
|
|
даемся |
непосредственно. |
|||||
|
|
|
|
Итак, оказывается, что |
|||||
|
|
|
|
функция роста либо тож |
|||||
|
|
|
|
дественно равна 2г, либо |
|||||
|
|
|
при |
некотором п впервые |
|||||
|
|
|
нарушается равенство, т.е. |
||||||
|
|
|
ms (Г) |
21, |
и тогда |
при |
|||
|
|
|
|
I > |
п функция роста |
ма |
|||
|
|
|
жорируется |
степенной |
|||||
|
|
|
|
функцией |
|
|
|
||
|
|
|
|
|
1,5 |
t■П-1 |
(10.15) |
||
|
|
|
|
|
(«-1)1 • |
Это положение проиллюстрировано на рис. 21, где сплошной линией изображен график 1g2 ms (l) для случая, когда ms (I) = 2г, а пунктирными — мажорирующие функции для различных «,