Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения

.pdf
Скачиваний:
47
Добавлен:
25.10.2023
Размер:
12.29 Mб
Скачать

i 10. УПОРЯДОЧЕНИЕ ПО ЭМПИРИЧЕСКИМ ОЦЕНКАМ

139

Структура расстояния Махаланобиса (6.8),

(6.9)

очень напоминает структуру ранее исследованного отно­ шения

И расстояние Махаланобиса

и число V характери­

зуют

взаимное

расположение

множеств

с помощью

относительного

расстояния.

В первом случае это

относи­

тельное расстояние между

«центрами»

множеств, во

втором

случае — относительное

расстояние

между

выпуклыми оболочками ненересекающихся множеств. Однако, в отличие от характеристики «разделимости»

Махаланобиса, характеристика V с уменьшением раз­ мерности пространства может расти, а вместе с ним (сог­ ласно теореме) растет и оценка математического ожида­ ния вероятности правильной классификации с помощью гиперплоскости, построенной по выборке фиксирован­ ного объема.

Характеристика разделимости Махаланобиса уменьша­ ется с уменьшением размерности пространства и вместе с ней уменьшается вероятность правильной класси­ фикации с помощью оптимального в этом подпространст­ ве линейного решающего правила.

Заметим, что расстояние Махаланобиса характери­ зует нижнюю оценку качества решающего правила, по­ строенного по выборкам фиксированного объема, а чис­ ло V — верхнюю оценку этого качества. То, что оценки по своей структуре близки, свидетельствует об эффек­ тивности полученного критерия оптимизации.

§ 10. Упорядочение по эмпирическим оценкам относительного расстояния и задача минимизации суммарного риска

В этом параграфе мы рассмотрим постановку задачи обучения распознаванию образов, которая отличается от рассматриваемой до сих пор, но которая для многих случаев, встречающихся на практике, может оказаться более естественной. Для этой постановки задачи будут построены некоторые априори упорядоченные классы

140 ГЛ. VI. МЕТОДЫ УПОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА

решающих правил и применен метод упорядоченной ми­ нимизации риска.

Итак, до сих пор исследовалась постановка задачи обучения распознаванию образов, согласно которой в классе характеристических функций F (х , а) нужно было найти функцию, доставляющую минимум функцио­ налу

Р(а)= I (со — F (х, а))2 dP (х, со),

если функция Р (со, х) неизвестна, но зато дана случай­ ная и независимая выборка пар (обучающая последова­ тельность)

•TljCOj,. • - ,

Величина со могла быть равна либо нулю, либо единице. Особенность рассматриваемой здесь постановки со­ стоит в том, что наряду с обучающей последовательно­

стью задается выборка векторов

х\ ,. . ., Хр“,

которую будем называть рабочей выборкой. Рабочая вы­ борка получена из выборки пар, найденной при случай­ ных и независимых испытаниях, согласно распределе­ нию Р {х, со):

ч©1 ) • • •? ) 0)р •

(Из этой выборки пар отбираются только элементы х*, элементы со* считаются неизвестными). Задача состоит

втом, чтобы, используя обучающую последовательность

ирабочую выборку, найти в классе характеристических функций F (х, а) такую функцию, которая минимизи­ ровала бы функционал

V

Р раб(°0 = 2 (ШІ —F (ж*>°0)2-

і — 1

Таким образом, разница в постановках состоит в том, что в одном случае требуется найти функцию F (х, а), минимизирующую средний риск, а в другом случае ищет­ ся функция, минимизирующая суммарный риск класси­ фикации элементов рабочей выборки.

§ 10. УПОРЯДОЧЕНИЕ ПО ЭМПИРИЧЕСКИМ ОЦЕНКАМ

141

Если наша цель состоит в том, чтобы классифициро­ вать некоторые векторы (а не в том, чтобы найти общее решающее правило!), предлагаемая постановка кажется более разумной.

Итак, будем решать задачу обучения распознаванию образов в постановке, которая требует с помощью правил из класса S' минимизировать суммарный риск па элемен­ тах рабочей выборки.

В этой постановке задачи обучения распознаванию об­ разов также будем различать два варианта постановок — детерминистскую и стохастическую. Детерминистская по­ становка предполагает, что решающее правило F (х , а) должно быть выбрано из правил, безошибочно разделяю­ щих множество векторов первого и второго классов обу­ чающей последовательности. Стохастическая постанов­ ка предполагает, что может быть выбрано правило, не обязательно безошибочно делящее элементы обучающей последовательности.

Замечательная особенность задачи минимизации сум­ марного риска состоит в том, что можно считать, что до начала обучения (до начала поиска решающего правила) множество F (х , а) распадается на конечное число классов эквивалентных с точки зрения обучающей и рабочей вы­ борок разделяющих гиперплоскостей (эквивалентными разделяющими гиперплоскостями называются гиперплос­ кости, одинаково разделяющие элементы обучающей и рабочей выборок).

Нетрудно понять, что число классов эквивалентных

разделяющих гиперплоскостей

для I векторов совпадает

с числом способов разделения

I векторов и оценивается

величиной

* к г(т+1)

1,0 ( т + 1)! ’

где т — размерность пространства.

В нашем случае число классов эквивалентных гипер­ плоскостей оценивается величиной

1,5 (l + P)m +t

- f - 1 ) ! ’

где I — длина обучающей, а р — рабочей выборок.

142 ГЛ. VI. МЕТОДЫ УПОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА

В дальнейшем для упрощения выкладок будем считать,

что

длины обучающей

и

рабочей

выборок равны, т.

ѳ.

р = I.

 

 

 

 

Итак, путь дана выборка длины 21

 

%1,.

• • )

%U

• • I %21і

 

состоящая из векторов х, принадлежащих обучающей по­ следовательности и рабочей выборке. Определим диаметр этой выборки как наибольшее расстояние между ее эле­ ментами

D — шах IХі Xj ||. i, J

Упорядочим теперь класс линейных решающих пра­ вил по следующему принципу. К первому классу S x отнесем такие решающие правила, для которых выпол­ няется равенств)

где р — расстояние от гиперплоскости до ближайшей из точек разделяемых множеств. К классу St — те гипер­ плоскости, для которых

Заметим, что упорядочение решающих правил прово­

дится по известным значениям x t (1 ^

г ^ 21),

но

без

учета соответствующих значений сог.

 

 

 

Справедливы

следующие две теоремы.

хотя

бы

для

Теорема 6.2.

Вероятность того, что

одного решающего правила из S t частоты ошибок на обу­ чающей и рабочей*выборках отклонятся более чем на е, не превосходит

Р <

4,5 Ä

в-«*-«,

(6.10)

где

 

 

 

d =

min (t +

2, п 4-1) ,

 

п размерность пространства.

Теорема 6.3. Вероятность того, что найдется решаю­ щее правило из Su безошибочно делящее обучающую выбор­

$ 10. УПОРЯДОЧЕНИЕ ПО ЭМПИРИЧЕСКИМ ОЦЕНКАМ

143

ку и ошибающееся на рабочей с частотой, превосходящей е, меньше

d

(6.11)

P < l , 5 ^ L

e \

где

d = min (t -f- 2, п 4- 1) .

Д о к а з а т е л ь с т в о . Число различных разбие­ ний выборки хъ . . . , х2і с помощью правил из S t конечно. Обозначим его числом N it значение которого оценим ни­ же. Вероятность того, что для фиксированного решающе­ го правила частота ошибок на обучающей и рабочей вы­ борках уклонится более чем на е, в условиях теоремы равна

rtk

V I Ь т *Ь 2І-т

где к пробегает значения,

 

удовлетворяющие неравен-

ству

т к

 

I

> s;

I1

 

здесь т — число ошибок на полной выборке, к — число

ошибок на

обучающей выборке, т к — число ошибок

на рабочей

выборке,

к

т к

отклонение частот

1

I

ошибок в двух нолувыборках.

Как показано в приложении к главе X, при любом

От 21 имеет место оценка

гік f t l —к

кC2l

Поэтому вероятность Р (г) того, что хотя бы для одного решающего правила из S t частоты ошибок уклонятся бо­ лее чем на е, оценивается величиной

Р(е)<ЗіѴ г <г1Ѵ-і>.

ШГЛ. VI. МЕТОДЫ УПОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА

Аналогично для теоремы 0.3 показывается, что для фиксированного решающего правила вероятность Р того, что на обучающей последовательности ошибок не будет, а на рабочей частота их превзойдет е, равна

С? при m eZ,

Ь21

0 при m ^ e l ,

где т — число ошибок на полной выборке. В свою оче­ редь

С’Г

(21т ) . . . (I т + 1) ^ -{л

т \ 1

С £ -

21... (1 + 1)

 

~ 2 l )

и соответственно при

m еі

 

 

 

 

 

гІ_

 

 

 

 

2

 

 

'21 <

И

< е

 

 

 

 

Тогда вероятность Р (е) того, что найдется решающее правило из S (, безошибочно делящее обучающую выбор­ ку и ошибающееся на рабочей с частотой, превосходящей

е, оценивается как

_ _ЕІ_

P ( e ) < N r e \

Для доказательства теорем остается оценить число N t. Оно равно числу разбиений точек выборки хъ . . . , х2і на два класса таких, что расстояние между их выпуклыми

D

оболочками больше или равно 2р, = -у=- (условие /). Как

V t

показано в главе X, это число не превосходит

mS( 2 Z ) < l,5 i§

где d — максимальное число точек выборки, для которых любое разбиение на два класса удовлетворяет условию I. Отметим, что если условие I выполняется, то разбиение заведомо осуществимо с помощью гиперплоскости; поэтому заведомо d ^ п -f- 1, где п размерность прост­ ранства.

5 10. УПОРЯДОЧЕНИИ ПО ЭМПИРИЧЕСКИМ ОЦЕНКАМ

145

Пусть теперь дано к точек хъ . . . , x k и Ти . . . , Т

всевозможные разбиения этих точек на два класса; р (ГЛ)— расстояние между выпуклыми оболочками классов при разбиении Th.

Тот факт, что условие I выполняется для всякого Tit можно записать так:

min р і) > 2р/.

І

Тогда число d не превосходит максимальное число к (к ^

п + 1 ),

при котором еще

выполняется

неравенство:

I (к) =

шах

min р (71*)

2р =

D

(6.12)

Ѵ Г

 

 

Х и ...,Х^

І

 

 

 

 

 

 

 

\X i\< D ß .

 

 

Из соображения симметрии ясно, что

 

 

 

 

I (к) =

max

m inp^i),

 

 

 

 

Xj,..., Xfc

і

 

 

 

 

 

I

Х}\

< D / 2

 

 

достигается, когда xt, . . . ,

хк располагаются в вершинах

правильного (к—1)-мерного

симплекса, вписанного в шар

радиуса DI2,

а Т — разбиение на два подсимплекса раз-

мерности

к---- 1 для четных к и два подсимплекса размер-

fe_ I

Д._ß

 

 

 

 

 

 

ности —Г)— и

для нечетных к. При этом путем эле-

dt

 

dt

 

 

 

 

 

 

ментарных расчетов может быть найдено, что

 

В

 

 

 

для четных к,

 

/(*) =

/ к — 1

 

 

 

 

(6.13)

 

 

 

 

 

 

 

в —------- -

 

для нечетных

kß> 1.

 

 

к — і

У к + І

 

 

 

 

Начиная с к

2, для всех к справедливо

 

 

 

/

(к) < D

1

 

(6.14)

 

 

Ѵк=Ъ '

 

146 Гл. VI. МЕТОДЫ УПОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА

Из (6.12) и (6.14) следует, что г не превосходит величины

<3 <

£ +

2.

 

(6.15)

Окончательно, учитывая,

что

разбиение осуществляется

гиперплоскостью, имеем

 

 

 

 

d-< min

г +

2, п +

1

(6.16)

и соответственно

 

 

 

 

TV<

1,5

I L

 

 

 

 

d\

 

 

Оценка величины TV завершает

доказательство

обеих

теорем.

 

 

 

 

Эти теоремы дают возможность вычислить доверитель­ ные интервалы оценок качества правила класса S t при решении задачи обучения распознаванию образов в общей детерминистской постановке.

Приравнивая правые части (6.10) и (6.11) к величине

т] и разрешая соответствующие

уравнения

относительно

е, найдем

d (ln 21 — ln d -|- 1) — ln T)/5

 

 

(6.17)

 

 

I

 

 

 

для общего случая и

 

 

0

d (ln 21 — ln d +

1) — ln T)/2

(6.18)

ß -- Li

... .... _

- - ............

для детерминистского случая. В формулах (6.17) и (6.18) d равно минимальному значению двух величин: п + 1 и

[ І И + 2= 1+ 2-

Таким образом, с вероятностью 1 т] для всех ре­ шающих правил F (X, а) класса S t справедливы соотно­ шения

Р (а) < Раыа(а) + 2 У d (1п 2/-" I * * + * > -ln

(6.19)

при решении задачи в общей постановке и

Р (а) < 2 d*1п 21~ 1аd + ^ ~ ln

(6.20)

в детерминистской постановке.

§ 11.

О Б ОПТИМАЛЬНОЙ СОВОКУПНОСТИ ПРИЗНАКОВ

147

Существование

оценок

(6.19) и

(6.20) позволяет

построить у

упорядоченную

процедуру 4 минимизации

риска.

 

 

 

 

 

 

Для детерминистской постановки задача состоит в том,

чтобы

так

отнести

элементы рабочей

выборки

к пер­

вому и второму классам, чтобы, во-первых, разделение множества векторов первого и второго классов, со­ стоящих из элементов обучающей и рабочей последова­ тельностей, было возможно, а во-вторых, расстояние ме­ жду выпуклыми оболочками объединенных множеств бы­ ло бы максимальным (по сравнению с другими варианта­ ми разделения рабочей выборки на два класса). При этом качество полученного решающего правила оценивается

спомощью функционала (6.20).

Вобщем случае проводится индексация не только ра­ бочей выборки, но и переиндексация элементов обучаю­ щей последовательности. При этом количество переиндексированных векторов задает число ошибочных классифи­ каций материала обучения. Задача состоит в том, чтобы так индексировать рабочую выборку и переиндексировать обучающую последовательность, чтобы минимизировать функционал (6.19).

§ 11. О выборе оптимальной совокупности признаков

Соображения предыдущего параграфа указывают на то, что при построении конечно-оптимальных решающих правил следует учитывать не только число ошибок на обучающей последовательности и размерность выбирае­ мого подпространства, но и относительное расстояние ме­ жду проекциями классов на подпространство.

Для того чтобы учесть все эти особенности, рассмот­ рим двухступенчатую схему упорядочения класса решаю­ щих правил. Пусть сначала задана ранжировка системы признаков. Как и ранее, разобъем класс S линейных ре­ шающих правил на вложенные подклассы S t так, что в подкласс S t попадают правила, использующие только первые і признаков, т. е. работающие в подпростран­ стве E t.

Рассмотрим сначала задачу в детерминистской поста­ новке. Пусть дана обучающая выборка хѵ . . . , Х{. Алго­ ритмы первого уровня, используя упорядоченный поиск,

148 ГЛ. VI. МЕТОДЫ УПОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА

выберут каждый в своем классе Si из числа безошибочных решающих правил правило F (х, а) (если оно есть) с мак­ симальным р. Процедура второго уровня должна выбрать наилучшее из предложенных первым уровнем решающих правил.

Теперь естественно принять в качестве критерия выбо­ ра величину доверительного интервала

d (Е.) (In 21 — la d (ЕЛ + 1) — ln rj/2

(6.20')

8 = 2 — -

1

------- — ,

где

/ D(E.)

 

\

 

d (Ei) =

+

 

min ( 4p ^

2, i -f- 1 j .

 

Здесь как величина D (Ei) , так и р (Е{) зависят от под­ пространства E t, поскольку и расстояние между выпук­ лыми оболочками классов и их диаметры изменяются при проектировании в подпространство. Процедура вто­ рого уровня должна выбрать то решающее правило из числа предложенных первым уровнем, для которого оцен­ ка (6.20') минимальна.

Оценка доверительного интервала (6.20') меняется, вообще говоря, не монотонно с ростом размерности под­ пространства. Поэтому выбранное процедурой второго уровня подпространство может содержать больше при­ знаков, чем минимально необходимо для разделения классов.

Описанная процедура эквивалентна упорядоченному поиску при одноступенчатом упорядочении, определенном следующим образом.

К первому классу относятся либо все те решающие правила, которые либо производят разделение в подпро­ странстве, заданном первым признаком, либо такие, ко­ торые характеризуются числом

/Г Л*(Я,)

+ 2,

і - f - 1

< 2.

[ *Р2(Щ

 

 

 

Ко второму классу относятся разделяющие гиперплоско­ сти, которые либо производят разделение в подпрост­ ранстве, заданном первыми двумя признаками, либо

Соседние файлы в папке книги из ГПНТБ