Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения

.pdf
Скачиваний:
39
Добавлен:
25.10.2023
Размер:
12.29 Mб
Скачать

§ 6. О К РИ ТЕРИ Я Х ВЫ БОРА

129

бранных решающих правил выбирается то, которое ми­ нимизирует заданный критерий выбора*).

Для конструктивного задания алгоритмов метода упо­ рядоченной минимизации риска необходимо определить:

1.Каков критерий выбора решающего правила (т. е. задать алгоритм второго уровня).

2.Как вводить упорядочение класса решающих пра­ вил S.

Теория метода упорядоченной минимизации риска должна ответить на вопрос, какова эффективность мето­ да (например, по сравнению с методом минимизации эм­ пирического риска).

§ 6 . О критериях выбора

Известны две процедуры второго уровня. Обе они существенно используют то, что на втором уровне выбор решающего правила производится из небольшого числа правил (порядка десятков или сотен) и поэтому пробле­ ма равномерной сходимости здесь пе стоит остро. Первая идея связана с использованием оценки качества, полу­ ченной в главе V, (5.11)

^*(0 ^ Рэмп (і) 4" 2

ni (ln 21 ln и{ + 1) — ln т)/5

 

(6 .3 )

Г2Г1

 

где Рэмп (г) — величина

минимума эмпирического

рис­

ка в классе S t, nt — показатель емкости класса £ г.

 

Величина

 

 

 

 

 

ni (ln 21 — ln а. 4~ 1) — ln т|/5

 

 

 

е (г) = 2

 

 

 

 

задает

доверительный интервал для

класса S г

и

моно­

тонно

растет с номером

і. Напротив,

величина

Р 8МП(і)

не возрастает с ростом і, поскольку эмпирически опти­

мальное правило из Si содеряштся

во всех Sj

(/ )> і).

В качестве критерия выбора может

быть взята

правая

*) Разумеется, в практических реализациях метода упорядо­ ченной минимизации риска эти два этапа могут сливаться, что, однако, не меняет существа дела.

5 В. Н. Вапник, А. Я. Червонешшс

130 ГЛ. VI. МЕТОДЫ УПОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА

часть оценки, т. е.

 

к (а) -

(а) + 2

. (6.4)

Правило, минимизирующее (6.4), обеспечивает мини­ мальную гарантированную величину вероятности оши­ бочной классификации.

Второй способ выбора решающего правила основан на использовании следующего приема оценивания, кото­ рый получил название скользящий контроль*). Идея этого приема такова: для того чтобы оценить качество работы каждого алгоритма низшего уровня, процедура второго уровня выделяет из обучающей последователь­ ности один элемент и предлагает каждому из алгоритмов обучиться на оставшейся части последовательности и классифицировать выделенный элемент, затем выде­ ляется другой элемент (а первый возвращается) и снова проводится обучение и экзамен на этом одном элементе; и так поочередно перебираются все элементы обучающей последовательности. После этого подсчитывается, сколь­ ко раз каждый алгоритм ошибался при классификации выделенных элементов. Отношение числа ошибочных классификаций к числу примеров, выделенных для обу­ чения, и оценивает качество решающего правила, вы­ бранного каждым из N алгоритмов.

§ 7. Несмещенность оценки скользящего контроля

Покажем, что оценки скользящего контроля являют­ ся несмещенными, т. е. математическое ожидание ре­ зультата контроля равно истинной величине качества. Для удобства обозначим через

F (X; хъ (ох; . . . ; х и сог)

решающее правило, найденное по выборке длины I, через

Р ( ^ і і а>1, • • • ) (üi)

= § (сі ”- Fl(*г, *^1»eij, . . • , Xj, сог))а dP (x, со)

*) Процедура скользящего контроля, вероятно, впервые была предложена М. Н. Вайнцвайгом.

I 1. НЕСМЕЩЕННОСТЬ ОЦЕНКИ СКОЛЬЗЯЩЕГО КОНТРОЛЯ 131

качество

решающего

правила,

найденного

по

выборке

 

CÉ>1> • • • > ®Z* (Bz-

 

 

 

 

 

 

 

 

 

Кроме того, введем обозначения

 

 

 

Рі

= И ••• I Р («1, <йі; •

• •;

х и

(oz) d P (arlf

(Bi)...

 

 

 

 

I

 

 

 

 

 

 

...

oz),

 

 

 

 

 

 

 

 

 

 

 

 

 

p =

4

" 2

К — P(*w *i.

 

• • •; хц « 6

• • •; *ii «г))2-

 

 

 

i=l

 

 

 

 

 

 

 

 

 

Здесь

a:lf

а>ц . .;

i,,

со,;

. . . ;

x h o ,

выборка, по­

лученная

из

хг, свх;

. . .;

ат|,

со,

исключением

элемента

Х і ,

(Of -

 

 

показать,

что

 

 

 

 

 

 

Нам надо

 

 

 

 

 

Мр = Рі-ь

где М — символ математического ожидания. Доказатель­ ством этого утверждения является следующая цепочка преобразований:

Мр =

ÜÜ • • • ÜТ" 2

К — F (*iJ хъ «К . . .

 

 

 

г—1

 

 

..

.; xit сві; ...;

x lt со,))2dP (xlt cox) . . . dP (xh со,) =

 

 

г

 

 

 

= ^

J -

2

Р (* ІІ *1»

®1» • • м Х і , (В$, . . . , X i , CB,)) X

 

X dP (Xi, со,)dP (zcj, (Bx). .. dP (xt, св,) =

 

z

 

 

 

= ^

7 - 2

P (жі> ®і» • • •;

• • •; */> ®z)

1 »®i) • • •

 

 

 

 

 

z

•. • dp (*,_1, CBj_i)dP (xi+1, CBi+x)... d.P(7 , CB,) =

J- 2Pi-i=*Pi-i*

Однако свойство несмещенности оценки недостаточно пол­ но характеризует оценку. Необходимо знать еще и дис­ персию оценки р. В случае, когда известна дисперсия оценки скользящего контроля, можно оценить сверху качество решающего правила:

р < ѵ с + 8 (rj),

(6.5)

5*

132 гл. VI. МЕТОДЫ УПОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА

где ѵс — оценка скользящего контроля, е (ц) = у (ц) Y А D — дисперсия оценки, у (rj) — константа, зависящая от надежности, с которой требуется выполнение (6.5).

Есть основания полагать (и многочисленные экспери­ менты это подтверждают), что для большинства практи­ чески важных случаев дисперсия оценки «скользящий контроль» стремится к нулю с ростом I примерно так же быстро, как дисперсия «экзамена», но строгого доказа­ тельства этого утверждения не известно. Любопытно, что существуют примеры алгоритмов обучения, когда оно не­ верно [45], хотя, видимо, для всех «разумных» алгорит­ мов обучения это утверждение справедливо.

Таким образом, алгоритмы выбора лучшего решающе­ го правила по критерию «скользящего контроля» в настоя­ щее время являются эвристическими и будут оставаться таковыми до тех пор, пока не удастся получить оценку дисперсии «скользящего контроля». Отыскание диспер­ сии оценки метода «скользящего контроля» является од­ ной из наиболее актуальных задач не только теории обу­ чения распознаванию образов, но и теоретической ста­ тистики. Знание этой оценки позволит выбрать на­ стоящее правило, минимизирующее верхнюю оценку ве­ личины р, и тем самым позволит гарантировать опре­ деленное качество выбранному решающему правилу. В дальнейшем будут рассмотрены алгоритмы второго уровня, использующие лишь оценки типа (6.4).

Для того чтобы задать алгоритмы упорядоченной минимизации риска, нам осталось определить способы упорядочения классов решающих правил. Ограничимся исследованием принципов упорядочения линейных ре­ шающих правил.

§ 8 . Упорядочение по размерностям

Наиболее простым принципом упорядочения класса линейных решающих правил является принцип упоря­ дочения по размерностям.

Рассмотрим класс линейных решающих правил

§ 8. УПОРЯДОЧЕНИЕ ПО РАЗМЕРНОСТЯМ

133

Выстроим признаки ф* (х) в порядке уменьшения ап­ риорной вероятности того, что этот признак понадобится при классификации. Упорядоченная система линейных решающих правил

 

 

... с snс

s

строится

так:

в класс S x попадут

решающие правила,

где все

А,г =

0 , за исключением

в

класс S 2 — такие,

что только к‘ 1 и К2 могут быть отличны от нуля, и т. д. Такое упорядочение имеет следующий смысл. В первый класс попадают решающие правила, которые при распоз­ навании используют только первый признак, во второй класс те, что используют первый и второй признаки и т. д. Показатель емкости каждого из этих классов, как было установлено в предыдущей главе, равен т + 1 ,

где т — число используемых признаков.

Процедура высшего уровня в алгоритме упорядочен­ ной минимизации риска в данном случае будет выбирать решающее правило, минимизирующее критерий

К(т) = Р « Ы + 2 y ^ + O W a - y + O + D - l.l/S

(6.6).

Рассмотренный выше способ упорядочения класса линейных решающих правил страдает одним недостат­ ком — он требует априорной ранжировки признаков.

В том случае, когда такой ранжировки нет, можно ввести другой принцип упорядочения по размерностям: в класс включать все линейные решающие правила, ис­ пользующие не более т признаков. Функция роста та­ кого класса решающих правил, как нетрудно убедиться,

оценивается величиной

jim+1)

т 8» ( і ) < і , 5 - С О»+ 1)1 j

где п — размерность исходного пространства, откуда следует, что процедура высшего уровня должна мини­

мизировать

критерий

 

 

К (т) = Рэма (а,„) +

 

 

+ 2 ] /

-f 1) (In 21 ln + 1) + 1) — ln т]/5

- ь С

(6.7)

I

 

134 ГЛ. VI. МЕТОДЫ УПОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА

Трудность реализации такого алгоритма состоит в том, что при больших т не известно эффективных мето­ дов минимизации риска в S m.

Как уже указывалось в главе V, оценка доверитель­ ного интервала (5.11) является пессимистической и до­ стигается лишь в случае, когда вероятность ошибок близка к Ѵ2. Для решающих правил, оценки вероятно­ стей ошибок которых малы (—0 ,1 , 0 ,2 ), лучше пользо­ ваться более тонким критерием (5.23):

 

( тп + 1 ) (ln - 2{ і "+

1) — ІиійГ

К ( т ) - 2

--------- L _ £ L ±li-----

1------

f L X

^^эмп (am) ^

X 1 + 1/ 1 +

(to+ 1)1 In m + i + 1 J — In 24

~ Ь P Э М П ( d m )

вместо оценки (6 .6 ) и аналогичным критерием

" Ь Р Э М П ( ® і п )

вместо (6.7). Эти критерии не столь наглядны, но зато более точны.

§ 9. Упорядочение по относительным расстояниям

Приведенные выше метод упорядочения по размерно­ стям и вытекающие из него рекомендации для построе­ ния оптимального алгоритма представляются достаточно грубыми: они учитывают только внешнюю характерис­ тику задачи — размерность и никак не принимают во внимание более тонкие ее характеристики, например геометрию расположения разделяемых множеств. О су­

i 9. УПОРЯДОЧЕНИЕ ПО 0ТН0СИТЕЛЬНЫМ2.РАССТ0ЯНИЯМ 135

ществовании иных и, возможно, более эффективных ме­ тодов упорядочения свидетельствуют также и оценки качества решающего правила, которые могут быть по­ лучены для персептрона, использующего многократно обучающую последовательность. Рассмотрим такие оцен­ ки качества.

В главе I была доказана теорема Новикова, утверж­ дающая, что если в спрямляющем пространстве два мно­ жества векторов разделимы гиперплоскостью, расстоя­ ние от начала координат до выпуклой оболочки множеств {х}, {Ж} больше р = ро 0, а максимальная длина век­ тора не превосходит D, то персептрон разделит обучаю­ щую последовательность (при циклическом ее повторе­ нии), сделав не более (D/р)2 исправлений. При этом он реализует один из алгоритмов минимизации эмпиричес­ кого риска. Оценим качество персептронного алгоритма с многократным просмотром последовательности, иду­ щим до полного разделения, для задач с известными величинами р и D. Качество R (А, Т) алгоритма А для данной задачи Т было определено как математическое ожидание относительного числа ошибок на экзамене после обучения на обучающей последовательности дли­ ны I. Справедлива следующая теорема.

Теорема 6.1. Качество персептронного алгоритма А с многократным повторением обучающей последователь­ ности для задачи Т с фиксированными D u р0 оценивается неравенством

л ^ К - ігЬ у

Д о к а з а т е л ь с т в о . Доказательство этой теоре­ мы основывается на доказанном в § 7 утверждении о не­ смещенности оценок, полученных с помощью процедуры «скользящий контроль». Поэтому вместо оценки качест­ ва нам достаточно оценить математическое ожидание частоты ошибок при скользящем контроле. При сколь­ зящем контроле из обучающей последовательности вы­ деляется один элемент, на оставшейся части проводится обучение, строится решающее правило и затем прове­ ряется классификация выделенного элемента этим ре­ шающим правилом. Эта операция проделывается с каж­ дым элементом.!

136 гл . VI. МЕТОДЫ УПОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА

Если при использовании полной обучающей после­ довательности в ходе обучения персептрон всегда пра­

вильно опознает элемент x h , т.

е.

ни

одно исправление

не

происходит при просмотре

x h ,

то

работа

алгоритма

на

последовательности, из которой

элемент

x h выделен,

ничем не отличается от обучения по полной последова­ тельности. Следовательно, этот элемент будет правильно опознан при контроле. Таким образом, число ошибочно опознанных элементов при скользящем контроле не пре­ восходит число 10 таких элементов, на которых проис­ ходит хоть одно исправление при обучении по полной последовательности. В свою очередь общее число ис­ правлений, согласно теореме Новикова, не превосходит

величины

іг- л

а значит, и

Іо< D2

LP?

Итак, для любой обучающей последовательности число

Г D2 1

ошибок при скользящем контроле не превосходит —+

L Po J

Следовательно, математическое ожидание частоты оши­ бок в этом случае оценивается

D2 R (И, 7’) < т + 1 LPJ

Теорема доказана.' Теорема может быть несколько усилена. Рассмотрим

выпуклые оболочки К 1 и К 2 точек из обучающей] после­ довательности длины I, принадлежащих соответственно первому и второму классам. Обозначим через

М

L Р? J

математическое

ожидание] отношения

т

, где D,—диа-

метр множеств

 

Рг

К\ и К 2, а р , — расстояние между ними.

По существу, не меняя доказательства,

убеждаемся, что

R ( A , T ) < - ± —

1+ 1

§ 9. УПОРЯДОЧЕНИЕ

ПО ОТНОСИТЕЛЬНЫМ РАССТОЯНИЯМ

13^

Аналогичные

утверждения справедливы и для

не­

которых других (но не для любых!) алгоритмов построе­ ния разделяющей гиперплоскости, основанных на ми­ нимизации эмпирического риска, в частности, для ме­ тода обобщенного портрета (см. главу XIV).

Доказанное здесь утверждение показывает, что эф­ фективность обучения тем выше, чем больше относитель­

ное расстояние между классами.

и Е 2 ис­

Рассмотрим теперь два подпространства E t

ходного пространства Е. Пусть

в этих подпространствах

обучающая последовательность

может быть

разделена

 

D (ЕЛ

гиперплоскостью и, кроме того, отношения

^^,у под­

чинены следующему неравенству:

 

 

ГД2(Ді)1 ^

\ Е Ш Л

 

L Р(£і) J ^

І р Ц Е г) J •

Согласно теореме2, качество решения задачи в первом

подпространстве

оценивается

величиной

 

1

' £>2( Е і ) -

Я(АЕі, Г )< l + l

Lr2(£2) ..

в то время как

качество решения во втором — вели­

чиной

 

 

Ц(ЛЕ„ г Х щ

Поскольку никаких иных сведений о качестве решаю­ щих правил нет, то, очевидно, следует предпочесть то

правило,

для которого отношение

Р ( Е ) меньше 1

Таким

образом, критерий

Р ( Е )

р ( Е )

позволяет оцени­

Р( Е )

 

 

 

вать качество подпространств при построении линейных решающих правил. На практике же пользоваться этим критерием трудно: как правило, нам не известны вели­ чины D (Е) и р (Е).

Конечно, можно их оценить по выборке и с помощью соответствующих оценок вычислять качество 'подпрост­ ранств. Однако такой прием будет уже эвристическим.

Теорема

6.1 справедлива

не для оценок величин D (Е)

и р (Е),

а для точных их

значений.

158 ГЛVT. МЕТОДЫ УПОРЯДОЧЕННОЙ МИНИМИЗАЦИЙ РИСКА

Хотелось бы построить метод, который позволял бы оценивать качества подпространств не по величинам D (Е) и р (Е), а по их оценкам.

Такому методу будут посвящены следующие параг­ рафы. В них будет приведен метод, позволяющий эф­ фективно выделять экстремальные подпространства. Однако подобные алгоритмы решения задачи обучения распознаванию образов возможны лишь в постановке, отличной от той, которую мы рассматривали до сих пор.

В заключение этого параграфа обратим внимание читателя на интересную аналогию, которая может быть проведена между рассматриваемым здесь] критерием упорядочения и хорошо изученным в классическом диск­ риминантном анализе понятием — расстоянием Махаланобиса [62].

Пусть требуется построить гиперплоскость, разде­ ляющую два множества векторов {х} и {£}, каждое из которых подчиняется нормальному распределению с па­ раметрами рх, 2 и р2, 2 (ковариационные матрицы рав­ ны). Тогда, как указывалось в главе III, оптимальным решающим правилом (т. е. правилом, минимизирующим вероятность ошибки) является линейная дискриминант­ ная функция.

Расстояние Махаланобиса

 

Д2 = (|хх — р2)т 2 - 1 (рх — р2)

(6.8)

позволяет вычислить вероятность правильной класси­ фикации оптимального решающего правила

2

—со

Геометрически расстояние Махаланобиса выражает от­ ношение расстояния между математическими ожидания­ ми векторов двух различных классов к дисперсии ве­ личины проекции векторов каждого класса на направ­ ляющий вектор разделяющей гиперплоскости:

Д2 _ (М — Мі)2

(6.9)

 

Соседние файлы в папке книги из ГПНТБ