книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения
.pdf$ 6. УСЛОВИЯ РАВНОМЕРНОЙ сходимости |
99 |
§ 6. Условия равномерной сходимости частот появления событий к их вероятностям
Обобщение теоремы Гливенко и построение теории равномерной сходимости частот появления событий к их вероятностям стали возможны благодаря введению более тонкой меры разнообразия класса функций, чем число функций в классе. Вот как она определяется.
Пусть задана система Q решающих функций F (ж, а). Рассмотрим класс событий
А (а) = {ж : F (ж, а) = 1}.
Рассмотрим, далее, выборку жх, . . ., жг. Известно, что, вообще говоря, эта выборка может быть разделена на два класса 2' способами. Однако нас будут интересовать толь ко те способы разделения выборки, которые могут быть реализованы с помощью решающих правил F (ж, а). Чдсло таких разделений зависит как от класса решающих правил, так и от состава выборки. Будем обозначать это число
As (жх, . . ., х{).
Так как хъ . . ., жг — случайная и независимая вы борка, то число разделений — величина случайная, т. е. случайной величиной будет As (жх, . . ., жг).
Разнообразие класса решающих правил будем изме нять величиной математического ожидания lg2 As (жІ5 ...
. . ., жi). Эту величину будем называть энтропией класса S
решающих правил на выборках длины I и обозначать
HS(l) = М {lg2 А« (ж,, . . ., ж,)}. |
(5.8) |
Оказывается, что для существования равномерной сходимости частот ѵ (а) появления событий к их вероят ностям Р (а) по классу событий S необходимо и доста точно, чтобы последовательность
H s (1) |
Н s (2) |
H s (Z) |
1 > |
2 ’ ' • • ’ |
I ’ ' " |
стремилась к нулю при неограниченном увеличении длины
выборки I. Стремление к нулю отношения Н ^ означа
ет, что класс решающих правил состоит из «не слишком
4#
100 ГЛ. V. МИНИМИЗАЦИЯ ЭМПИРИЧЕСКОГО РИСКА
разнообразного множества функций». Доказательство этих утверждений дано в главах X и XI.
Как и всякие исчерпывающие условия, приведенные необходимые и достаточные условия равномерной сходи мости частот появления событий к их вероятностям ис пользуют довольно тонкие понятия. На практике проверка таких условий представляет значительные трудности. В нашем случае трудности связаны с тем, что характер распределения неизвестен, в то время как проверке под вергается свойство энтропии, которая конструктируется с помощью распределения Р (х).
Поэтому для использования на практике условий равномерной сходимости целесообразно из данных усло вий получить более грубые достаточные условия, которые не зависели бы от свойств распределения Р (х). Такие условия могут быть получены абстрагированием от свойств распределения. Иначе говоря, на практике нас будут ин тересовать те условия, которым должен удовлетворять класс решающих правил, чтобы при любой функции рас пределения можно было гарантировать существование равномерной сходимости.
Огрубление необходимых и достаточных условий за ключается в том, что вместо энтропии функции F (х , а) рассматривается логарифм функции
ms (I) = max As (хи .. ., xt),
Xi....
где максимум определяется по всем возможным выборкам длины I. Функцию ms (I) назовем функцией роста класса
F (х, а).
Функция роста построена так, что она не зависит от распределения Р (х), и, кроме того, всегда выполняется неравенство
lg2 ms (I) > Hs (l).
Теперь, если окажется, что величина
i g a m s (l)
I
стремится к нулю с ростом /, то отношение
HS(l)
I
I 7. СЙОЙСТВА ФУНКЦИИ POCfA |
101 |
и подавно устремится к нулю. Поэтому условие
lim > - 7 S(I) = О г-*=о L
является достаточным условием существования равно мерной сходимости. Это условие может быть легко про верено для различных классов решающих правил.
§ 7. Свойства функции роста
Функция роста класса решающих правил имеет про стой смысл: она равна максимальному числу способов разделения I точек на два класса с помощью решающих правил F (X, а).
В главе X будет показано, что функция роста обладает одним замечательным свойством, которое дает возмож
ность ее легко оценивать: она либо тождественно равна 21,
Іп~
либо мажорируется степенной функцией 1,5 —-----т-т-, где |
|
( П |
1)1 |
п — минимальное число, при котором нарушается равен-
ство ms (I) = 21.
В первом случае для любого I найдется комбинация точек хг, . . ., Хі такая, что ее можно разбить всеми воз можными способами на два класса с помощью решающих правил F (х, а).
Во втором случае это не всегда возможно. Существует максимальное число точек п — 1, которое еще разбива ется всеми возможными способами с помощью правил F (X, а), но уже никакие п точек этим свойством не обла дают. Оказывается, что при этом функция роста мажори руется степенной функцией с показателем роста п — 1.
Число п — 1, таким образом, может служить мерой разнообразия решающих правил в классе Q. Мы будем называть его емкостью класса £2 (при ms (I) = 2' считаем емкость бесконечной).
Нетрудно убедиться, что, если емкость класса конечна) всегда имеет место равномерная сходимость частот к ве роятностям. В самом деле, при этом
lim |
i g ^ - < |
l i m |
(" - |>lg, ^ 1'5 = О |
г-*» |
1 |
I—юо |
1 |
и достаточное условие выполнено.
1Ö2 |
ГЛ. V. МИНИМИЗАЦИЯ ЭМПИРИЧЕСКОГО РИСКА |
Найдем функцию роста для класса линейных решаю щих функций. Для этого достаточно определить макси мальное число точек в пространстве размерности т, ко торые с помощью гиперплоскости можно разбить всеми возможными способами на два класса. Известно, что это число равно т + 1. Поэтому
,т+1
Тот факт, что емкость класса линейных правил конеч на (равна т + 1), доказывает обобщенную теорему Гливенко. Отметим, что для гиперплоскостей, проходящих через начало координат, более точная оценка функции роста фактически была выведена в предыдущем параграфе.
§ 8. Оценка уклонения эмпирически оптимального решающего правила
В главе X будет получена оценка скорости равномер ной сходимости. Оказывается, что
0 ( 1- 1)
Р {sup IР (а) — V (а) I > е} < Sms (21) е |
4 • |
(5-9) |
а |
|
|
Оценка имеет тот же вид, что и для конечной системы событий, но вместо числа событий N в правой части нера венства стоит функция роста. Таким образом, функция роста служит мерой разнообразия класса событий.
Если емкость класса бесконечна (ms (I) = 2г), оценка (5.9) тривиальна, так как правая часть неравенства боль; ше единицы при всех I.
Если же емкость г конечна, оценка |
приобретает вид |
|||
г |
|
0(1-1) |
|
|
P {sup|P (a) — V(a) I > е} < 4 ,5 - у |
е |
4 |
• |
(5.10) |
Правая часть неравенства стремится |
к |
нулю |
при |
|
I -> оо и притом тем быстрее, чем меньше г. |
Можно по |
|||
требовать, чтобы вероятность Р {sup | Р (а)—v (a) | |
е} |
|||
a |
|
|
|
|
не превышала заданное значение тгр
§ 8. ОЦЕНКА УКЛОНЕНИЯ |
103 |
Это во всяком случае произойдет, если
|
ЕгР-1) |
|
4,5 |
4 |
= 11- |
Это равенство можно разрешить относительно е. Таким образом, справедливо утверждение: с вероятностью, не превышающей 1 — р, максимальное по классу S укло нение частоты выпадения событий от вероятности не пре восходит
8 = 2 |
+ |
' |
(5.11) |
Отсюда, в силу сказанного в § 2, непосредственно сле дует, что с вероятностью, превышающей 1 — р, качество эмпирически оптимального решающего правила отлича ется от качества истинно оптимального не более чем на Л — 2е, т. е.
где I — длина обучающей выборки, а г — емкость класса решающих правил, из которого осуществляется выбор. В частности, для линейных решающих правил в простран стве размерности т
А = 4 / |
И + 1) |
21 |
- ln д5 |
|
|||
|
|
|
Таким образом, при заданной длине обучающей вы борки качество решающего правила, выбранного алго ритмом, тем ближе к наилучшему в классе, чем меньше емкость класса £2. Но следует помнить, что качество наи лучшего в классе Q решающего правила, вообще говоря, напротив, тем выше, чем шире класс Q.
Разрешая равенство (5.11) относительно I, можно оценить для фиксированной точности и надежности до статочную длину обучающей последовательности (см. главу XIII). Оказывается, что качество эмпирически оптимального решающего правила с вероятностью,
104 |
ГЛ. V. МИНИМИЗАЦИЯ ЭМПИРИЧЕСКОГО РИСКА |
превышающей 1—ц, отличается от наилучшего в классе Q не более чем на е, если только длина обучающей выборки достигает
гДос-г~с^ |
— • |
(5.12) |
Следовательно, достаточная длина выборки пропор циональна емкости класса решающих функций. В част ности, для линейных решающих функций в т-мерном спрямляющем пространстве достаточная длина пропор циональна размерности т.
§9. Метод минимизации эмпирического риска
вдетерминистской постановке задачи обучения
распознаванию образов
До сих пор при исследовании методов минимизации эмпирического риска в задаче обучения распознаванию образов не возникала необходимость различать две по становки — детерминистскую и стохастическую, как при исследовании методов стохастической аппроксимации.
Однако, вообще говоря, применение методов мини мизации эмпирического риска в детерминистском вариан те задачи обучения распознаванию образов дает более эффективные результаты. Во всяком случае, оценки ско рости равномерной сходимости указывают на более быст рую сходимость. Чтобы выяснить, почему это происходит,
вернемся |
сначала к частному |
случаю, рассмотренному |
||
в § 4. |
пусть класс решающих правил состоит из конеч |
|||
. * Итак, |
||||
ного числа |
N элементов {F (х, ос*)} (і = |
1, 2, . . ., N). |
||
Особенность |
детерминистской |
постановки |
заключается |
в том, что по предположению среди этих решающих пра вил есть то, которое идеально решает задачу. Его-то или близкое к нему правило и предлагается найти, используя
вы борку Хх, . . ., Ж(.
!-й Искать такое решающее правило будем'методом мини мизации эмпирического риска. Так как среди функций {F (х, а,})} есть та, которая идеально решает задачу, то заведомо ясно, что на любой выборке хх, . . ., xt зна чение минимума эмпирического риска будет равно нулю.
Однако этот минимум может достигаться на многих функциях. Поэтому возникает необходимость оценить ве-
§ 9. МИНИМИЗАЦИЯ РИСКА В ДЕТЕРМИНИСТСКОЙ ЗАДАЧЕ Ю5
роятность того, что при выборе любой функции, достав- ^ ляющей нуль величине эмпирического риска, можно га рантировать, что выбрана функция, качество которой не хуже заданного е.
Введем функцию
Ѳ>) = |
1 , |
если z = |
О, |
О, |
если z |
0 . |
Тогда формально оценка скорости равномерной схо димости частот к вероятностям по множеству правил, для которых частота ошибок равна нулю, связана с оценкой вероятности следующего события:
{sup I V* — Р і І-Ѳ (ѵj) > е}.
г
Так как число функций, на которых достигается нуль величины эмпирического риска, не превосходит N числа всех элементов в классе, то справедливо неравен ство
Р {sup I Ѵі — Рі I • Ѳ(v;) > e} < NP[, |
(5.13) |
І |
|
где P[ — вероятность того, что решающее правило, для которого вероятность совершить ошибку есть величина, большая е, правильно классифицирует все векторы обу чающей последовательности. Эту вероятность легко оце нить:
РІ < (1 - б)'.
Подставляя оценку РІ в (5.13), получим
Р {sup [ ѵ4 — Рі I -Ѳ (Vj) > e} < N (1 — e)'.
І
Для того чтобы вероятность Р {sup [ ѵг— Р і |-Ѳ(ѵг) Д> е} i
не превосходила величину Г|, достаточно выполнения
условия |
|
тр |
(5.14) |
|
N (1 — е)г = |
||||
Разрешая относительно I это |
равенство, |
получим |
||
. |
ln N — ln |
|
(5.15) |
|
f " - l n (1 - е ) • |
||||
|
106 ГЛ. V. МИНИМИЗАЦИЯ ЭМПИРИЧЕСКОГО РИСКА
Так как для малых г справедливо |
—ln (1 — е) да е, |
||
то формула (5.15) может быть представлена в виде |
|||
I |
ln N — ln Ti |
(5.16) |
|
е |
|||
|
|
Вотличие от оценки (5.6) здесь знаменатель равен е,
ане е2. Разрешая (5.14) относительно е, аналогично
получим
е = |
ln N — ln г] |
(5.17) |
|
І |
|
Таким образом, справедлива следующая теорема.
Теорема 5.2. Если из множества, состоящего из N ре шающих правил, выбирается такое правило, которое ни обучающей последовательности не совершает ни одной ошибки, то с вероятностью 1 — ц можно утверждать, что вероятность ошибочной классификации с помощью выбранного правила составит величину, меньшую г, если длина обучающей последовательности не меньше
і_ ln N —ln г]
—ln (1 — е)
Вобщем случае, когда класс решающих правил S состоит из бесконечного числа элементов, оценка скорости равномерной сходимости для тех правил, на которых частота равна нулю, имеет ту же структуру, что
и(5.6) (см. главу XIII):
|
Р (sup |P(ct) — V (а) I-Ѳ(ѵ (а)) |
— |
£* |
|
е} <^ms (2l)-e |
2 , (5.18) |
|
|
Gt |
|
|
где ms (I) — функция роста |
класса решающих правил S. |
||
В |
(5.18) величина ms (I) играет роль «числа |
элементов» |
|
в |
классе. |
|
|
|
Если объем класса ограничен: |
|
mS(Z)< 1,5
т. е. выполнены достаточные условия равномерной
9 10. ЗАМЕЧАНИЕ ОБ ОЦЕНКЕ СКОРОСТИ СХОДИМОСТИ Ю7
сходимости, то можно потребовать, чтобы вероятность
Р {sup I Р (а) — V(а) I • Ѳ(ѵ(а)) )> е}
а
не превосходила заданное значение г). |
I, г, г\, г |
|
Это заведомо произойдет, если величины |
||
будут связаны соотношением |
|
|
|
е/ |
|
1,5 |
~2 = л- |
|
Разрешая это равенство относительно I, можно получить |
||
(см. главу XIII) |
г — ІП Г] |
|
Iд о с т --- с |
(5.19) |
|
|
8 |
|
(в отличие от (5.12) здесь знаменатель не с2, а е). Разре шим еще это же равенство относительно е. Заменяя г! по формуле Стирлинга, получаем
|
|
21 |
I |
-ІП - |
|
|
|
In — • |
(5.19') |
||
8 = |
2 - |
Г |
|
|
|
|
|
|
|
Таким образом, в детерминистском варианте поста новки задачи оценки оказываются лучше, чем в общем случае.
§10. Замечание об оценке скорости равномерной сходимости частот появления событий
ких вероятностям
Почему же оценки, полученные для детерминистского и стохастического вариантов постановки задачи, так сильно различаются
Объяснение этому частично дано в предыдущем пара графе, где формулы (5.3), (5.10) и (5.13), (5.18) определяют скорости равномерной сходимости частот появления событий к их вероятностям по различным классам событий S.
В детерминистском варианте постановки учитывают ся только те события исходного множества событий S, частоты которых равны нулю. Обозначим эт от подкласс
108 |
ГЛ. V- МИНИМИЗАЦИЯ ЭМПИРИЧЕСКОГО РИСКА |
S 0. В стохастическом варианте задачи уклонение оцени валось для всех событий исходного класса событий S.
Формально этот факт находит свое отражение в струк туре формул, задающих оценку равномерной сходимости, (5.10), (5.18). Правая часть неравенств (5.10), (5.18) со стоит из двух сомножителей. Первый сомножитель ха рактеризует емкость класса событий (он идентичен, как в случае (5.10), так и в (5.18)), второй сомножитель оцени вает вероятность уложиться в заданное уклонение е частоты от вероятности для любого события заданного класса (в детерминистской постановке этот класс есть S 0, в стохастической — этот класс совпадает с S).
Оказывается, удается существенно по-разному оценить этот второй сомножитель. Так как при стохастическом варианте постановки априори не известны никакие ха рактеристики вероятностей событий класса S, то оценка уклонения частоты от вероятности для любого события А, принадлежащего S, производится в условиях наиболее
неблагоприятного |
случая, |
когда |
Р (^4) |
= |
Поэтому |
|
возможна лишь оценка (5.10). |
|
|
|
|||
Для детерминистского |
варианта постановки наиболее |
|||||
неблагоприятное |
событие |
в |
классе |
S то, |
для |
которого |
Р (А) = е. Для оценки уклонения частоты от вероятно сти этого события возможна более тонкая оценка (5.14).
Таким образом, оценки, полученные для детерминист ского и стохастического вариантов постановки задачи, различаются так, как различаются оценки уклонения частот от вероятностей в двух событиях: в событии А, для которого Р (А) близко к нулю, и в событии А', для которого Р (A') близко к г/2.
Это обстоятельство заставляет внимательно отнестись к тем требованиям, которые предъявляются к величинам уклонения частот от вероятностей.
В задаче обучения распознаванию образов можно ослабить требования к характеру сходимости: разумно требовать не равномерного отклонения частот от вероят ностей для всех событий, а разрешить большее уклонение для тех событий, которым соответствует вероятность, близкая к Ѵ2 , и меньшее для событий с вероятностями,
близкими |
к нулю. Рассмотрим снова функции Р (а) и |
V (а) (рис. |
12), где Р (а) — вероятность ошибки для рѳ- |