Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения

.pdf
Скачиваний:
37
Добавлен:
25.10.2023
Размер:
12.29 Mб
Скачать

§ 11. ОБ ОПТИМАЛЬНОЙ СОВОКУПНОСТИ ПРИЗНАКОВ 149

характеризуются числом

2, i -f-1 I ^ 3

и т. д.

Иначе говоря, к d-му классу относятся такие гипер­ плоскости, для которых минимум двух величин равен d, т. е.

min

В общей постановке не требуется, чтобы выбираемое правило было безошибочным на материале обучающей по­ следовательности. Обозначим .Рэмп (а) частоту ошибок на материале обучения для решающего правила F (х , а). Пусть правила {F■(х , а,)} доставляют] минимум jP3Mn (а) в подклассе S t. Процедура высшего уровня выбирает наилучшее правило из {F (х, ссг)} по критерию

В том случае, когда априорная ранжировка признаков не задана, упорядочение класса линейных правил произ­ водится по следующему правилу: к г-му классу относятся гиперплоскости, заданные в подпространстве E t размер­ ности ТПі.

В случае детерминистской постановки задачи алгорит­ мы первого уровня выбирают каждый в своем классе ре­ шающее правило, которое правильно классифицирует материал обучения (если такое есть) и при этом доставляет максимум величине р (Et).

Алгоритм высшего уровня выбирает из числа предло­ женных алгоритмами первого уровня такое решающее правило, для которого минимальна величина

К{і) = 2

где

di = min

150ГЛ. ѴІ. МЕТОДЫ УПОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА

Вобщем случае алгоритмы первого уровня действуют так, как это было описано в конце предыдущего па­ раграфа, а на втором уровне выбор проводится по кри­ терию

„ ,Л , о 1

^ (ln 2i ln i + 1 )

ln Tj/5 + ln C™

К (l)

PЭ М П (&) "H 2 у

j J

При использовании некоторых алгоритмов построения линейных разделяющих гиперплоскостей (в частности, алгоритмов метода обобщенного портрета) можно ввести такой способ упорядочения, при котором достигается бо­ лее глубокий гарантированный минимум.

Идея этого способа упорядочения связана с тем, что в формуле (6.19') п можно понимать не как размерность координатного пространства, а как размерность линей­ ной оболочки множества векторов обучающей рабочей выборки. Размерность же линейной оболочки векторов может оказаться меньше размерности координатного про­ странства. Поэтому при введении порядка в классе ли­ нейных решающих правил можно учесть это обстоятель­ ство.

Рассмотрим следующий способ упорядочения: к d-му классу отнесем те правила, для которых выполняется ра­ венство

min([?w] + 2’ т + h + 4) = d'

т. е. минимум трех величин равен d. Здесь символ h опре­ деляет минимальное число векторов обучающей последо­ вательности, по которым раскладывается вектор направ­ ляющих косинусов разделяющей гиперплоскости.

При таком способе упорядочения оценка качества вы­ бранного решающего правила также определяется крите­ риями (6.19), (6.20).

Итак, рассмотрено три способа упорядочения класса линейных решающих правил. Каждый следующий способ позволял достичь, вообще говоря, более глубокого гаран­ тированного минимума. Это происходило за счет того, что разделяющая гиперплоскость строилась не в исходном пространстве признаков, а в некотором его подпростран­ стве, обладающем экстремальными свойствами.

5 11. АЛГОРИТМЫ МИНИМИЗАЦИИ СУММАРНОГО РИСКА

151

Таким образом, оказалось, что попытка построить по выборке фиксированного объема наилучшее решающее правило приводит к выбору того или иного набора призна­ ков из фиксированного множества признаков и построе­ нию в пространстве выбранных признаков разделяющей гиперплоскости.

Часто множество отобранных признаков называют ин­ формативным набором признаков. «Информативность» этого набора может быть оценена числом, равным мини­ мальной величине критерия (6.19'), которая достигается в пространстве этих признаков. Можно оценивать «вклад» каждого признака в информативность набора признаков как разность между величиной оценки набора признаков, из которого исключен данный признак, и информативно­ стью набора признаков.

Однако, вероятно, понятие «информативность набора

признаков» или «информативность данного

признака»

не несет достаточно глубокого содержания.

И вот по­

чему:

 

1)понятие «информативность пространства призна­ ков» определяется не само по себе, а в связи с конкретным алгоритмом опознания;

2)информативность набора признаков зависит от конк­ ретной обучающей последовательности.

Ясно, что чем больше объем выборки, тем большим бу­ дет, вообще говоря, информативный набор признаков. Тем не менее можно привести примеры задач, когда информа­ тивный набор признаков, найденный по выборке мень­ шего объема, и информативный набор признаков, най­ денный по обучающей последовательности большего объ­

ема, не имеют ни одного общего элемента.

§ 12. Алгоритмы упорядоченной минимизации суммарного риска

Итак, рекомендации метода упорядоченной минимиза­ ции суммарного риска состояли в том, чтобы так индекси­ ровать точки рабочей выборки и выбрать такое подпро­ странство исходного пространства, чтобы для построенной разделяющей гиперплоскости оценка качества (6.19') принимала минимальное значение.

152 ГЛ. VI. МЕТОДЫ УПОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА

При детерминистской постановке задачи предлагалось так индексировать точки рабочей выборки и отыскать такое подпространство, чтобы точки обучающей и рабочей выборок, индексированные первым классом, и точки обучающей и рабочей выборок, индексированные вторым классом, были разделимы гиперплоскостью и при этом достигал минимума функционал (6.20").

Разницу в решениях детерминистской задачи мини­ мизации суммарного риска методом минимизации эмпири­ ческого риска и методом упорядоченной минимизации ил­ люстрирует следующий пример (рис. 15).

Рис. 15.

Пусть требуется, используя обучающую последователь­ ность (на рисунке векторы, принадлежащие первому клас­ су, обозначены крестиками, а векторы, принадлежащие второму классу,— кружками), построить гиперплоскость, минимизирующую число ошибок на векторах рабочей вы­ борки (на рисунке соответствующие векторы обозначены черными точками).

Решение этой задачи методом минимизации эмпири­ ческого риска заключается в том, чтобы построить гипер­ плоскость, разделяющую векторы первого и второго клас­ сов с минимальным числом ошибок, а затем классифици­ ровать с помощью построенной гиперплоскости точки ра­ бочей выборки. В нашем случае возможно безошибочное разделение векторов обучающей последовательности, по­ этому существует целое семейство разделяющих гипер-

$ 12. АЛГОРИТМЫ МИНИМИЗАЦИИ СУММАРНОГО РИСКА 153

плоскостей. Выберем среди них оптимальную Г0 (см. главу XIV). Теперь те векторы рабочей выборки, которые ле­ жат по разные стороны гиперплоскости, отнесем различ­ ным классам. Таково решение методом минимизации эм­ пирического риска.

Для решения этой задачи методом упорядоченной ми­ нимизации следует ввести априорное упорядочение клас­ са линейных решающих правил. Рассмотрим упорядоче­ ние по критерию Dlр. Поскольку диаметр множества для всех подклассов при таком упорядочении окажется одним и тем же, то решение задачи заключается в том, чтобы так индексировать точки рабочей выборки первым и вторым классом, чтобы точки первого класса обучающей

и

рабочей

выборок

и точки второго

класса обучающей

и

рабочей

выборок

были разделимы

гиперплоскостью,

наиболее удаленной от ближайшего из разделяемых классов.

Решением этой задачи является построение гиперплос­ кости Гх. (Гиперплоскость Гх обеспечивает расстояние до ближайшего из разделяемых классов рх, в то время как гиперплоскость Г0 — лишь р0.) Как видно из рисунка, полученные решения могут достаточно сильно различать­ ся между собой.

Основные трудности в решении задачи распознавания методом упорядоченной минимизации риска связаны с проведением перебора по способам индексации рабочей выборки. (В случае, когда упорядочение ведется по кри­

терию 1перебор проводится еще и по подпростран­

ствам.) Однако чем меньше элементов в рабочей выбор­ ке, тем меньше перебор и в пределе; когда рабочая выбор­ ка состоит из одного элемента, алгоритм метода упорядо­ ченной минимизации риска состоит в следующем:

1)элемент рабочей выборки присоединяется к первому классу и определяется расстояние рх между выпуклыми оболочками разделяемых множеств;

2)элемент рабочей выборки присоединяется ко второ­ му классу и определяется расстояние р2 между выпуклыми оболочками разделяемых множеств;

3)элемент рабочей выборки относится к первому

классу, если рх р2, и ко второму классу, если р2 Рі-

154 ГЛ. V I. МЕТОДЫ УПОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА

(Методы определения расстояния между выпуклыми оболочками рассмотрены в главе XIV.)

Теоретически для каждой обучающей последователь­

ности пространство

Е распадается на две области

такие,

 

•что если элемент рабочей

 

выборки взят из

первой

 

области, то он будет отне­

 

сен к первому классу, а

 

если взят из второй обла­

 

сти, то будет отнесен ко

 

второму классу. Таким об­

 

разом, метод

упорядочен-

 

, ной минимизации суммар-

----------------------------------------- Рис 16

«- ного риска в этом вырож-

денном случае приводит к

 

построению

поверхности,

 

разделяющей

элементы

обучающей] последовательности. Однако эти разделяющие поверхности уже не являются линейными. На рис. 16 приве­ дена разделяющая поверхность для случая, когда обуча­ ющая последовательность задана тремя точками. Для срав­ нения приведена (пунктиром) оптимальная разделяющая гиперплоскость.

Заметим, что если рабочая выборка состоит более чем из одного элемента, то алгоритмы метода упорядоченной минимизации риска не сводятся просто к построению по­ верхности, разделяющей обучающую последователь­ ность.

И еще одно замечание. При практической реализации метода упорядоченной минимизации риска вместо (6.19') лучше использовать критерий, полученный на основе

оценок

равномерного

относительного

уклонения

(5.23):

К(і)

 

■ - a X

 

 

 

 

I

 

 

 

X

1+ 1/

1+

« w o *

+ Р8мп(і).

(6.21)

 

 

 

* ( * з г + 1 - s i >

 

 

При

jP8Mn (i)

= 0

этот критерий близок к (6.20'), а

при Рзмп (0 =h 0

значительно тоньше,

чем (6.19').

 

§

13. ЭКСТРЕМАЛЬНЫЕ

КУСОЧНО-ЛИНЕЙНЫЕ ПРАВИЛА l5f,

 

§ 13. Алгоритмы построения экстремальных

 

кусочно-линейных решающих правил

 

В 50-х годах Фикс и Ходжес рассмотрели следующий

алгоритм построения

дискриминационного

решающего

правила [78].

 

 

 

Пусть заданы обучающая последовательность

 

*^1’

^l»1 ■■j 3*h

 

и рабочий элемент х. Пусть в пространстве X

определена

метрика р (х , у).

 

 

по

Упорядочим элементы обучающей последовательности

близости к вектору х в метрике р (х, у). Соответствую­

щим образом перенумеруем эти векторы. Затем рассмот­ рим первые к элементов перенумерованной последователь­ ности (к — параметр алгоритма; определение к и состав­ ляет предмет исследований теоретиков этого метода). Вектор X относится к первому классу, если среди к эле­ ментов преобладали элементы первого класса, и относит­ ся ко второму классу в противном случае.

Основная идея алгоритма Фикса — Ходжеса состоит в том, чтобы строить решающее правило не по всей выбор­ ке, а лишь но выборке, попадающей в окрестность дискри­ минируемой точки. Фикс и Ходжес рассмотрели самый простой тип «локального» решающего правила — кон­ станту и все внимание сконцентрировали на определении величины «окрестности».

Пользуясь оценками (6.19) и (6.21), можно определить величину экстремальной окрестности для локальных ли­ нейных решающих правил и тем самым строить не экстре­ мальные кусочно-постоянные решающие правила, а более содержательные экстремальные кусочно-линейные реша­ ющие правила. Вот как это можно сделать.

Упорядочим элементы обучающей последовательности по близости к элементу х. Затем последовательно рас­ смотрим I экстремальных гиперплоскостей, разделяющих соответственно 1, 2, . . ., I элементов упорядоченной обучающей последовательности. Качество каждой из I построенных разделяющих гиперплоскостей может быть оценено с помощью критериев (6.20') и (6.21) (соответст­ венно для детерминистского и стохастического вариантов задачи). Вектор х относится к тому классу, к которому

156 ГЛ. V I. МЕТОДЫ УПОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА

его относит гиперплоскость с наилучшей оценкой каче­ ства.

Таким образом, построение экстремальной кусочно­

линейной

разделяющей поверхности связано

не только

с минимизацией критериев (0.19), (6.21) по

параметрам

р, D, п, d,

по и с минимизацией по параметру I.

§ 14. Приложение к главе VI

Оценим снизу величину минимакса потерь в задачах обучения распознаванию образов.

Пусть задан класс решающих правил F (х , а), а £ S . Рас­

смотрим некоторый круг задач обучения Q, совокупность К ал­ горитмов, выбирающих по обучающей последовательности решаю­ щее правило вида F (х, а). Величина минимакса потерь М 0 опреде­ лена так:

Мо = min max л (Л, Т),

АТ

я(А, Т) = R (А, Т) — min R (а, Т),

aes

где R (А, Т)

— качество

алгоритма А

при

решении

задачи Т,

R

(а,

Т) — качество решающего

правила F (х, а) для задачи Т.

т.

Примем что алгоритм А 0 оптимален в смысле минимакса потерь,

е.

 

М о = max я (Ло, Т).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

т е

Q

 

 

 

 

 

 

Пусть теперь известно, что

задачи

Ті,

. .

.,

TN из Q могут

появиться с

вероятностью Р і,

. . ., PN (2 Р г-

=

1) и

алгоритм

Лі £

К оптимален в смысле средней величины потерь при решении

этих

задач,

т. е.

 

 

 

 

 

 

 

 

 

 

N

 

N

 

 

 

 

 

 

 

 

Ah = min 2

Р р И , T’i) = 2

рія

 

 

7'і>-

 

 

 

 

І=1

 

І—1

 

 

 

 

Нетрудно убедиться, что

 

 

 

 

 

 

 

 

 

 

 

Мі <

М 0.

 

 

 

 

(П.1)

 

В

самом

деле,

 

 

 

 

 

 

 

М 1 =

min 2

(/1і> Ті) < 2

ріп (Л°’ Ті><

2 р і

та,х л

т) = Мо-

 

 

А

 

 

 

 

 

X

 

 

Пусть, наконец, А2 — оптимальный по Байесу алгоритм для задач Ті, . . Тп, появляющихся с вероятностями рі, . . ., р п, и М2 — средние потери для этого алгоритма (алгоритм А2 не обязательно

§ 14. ПРИЛОЖ ЕНИЕ К ГЛАВЕ у і

157

принадлежит К). Тогда

 

М 2 < М і

(П.2)

(равенство достигается, если А2 е К).

 

Таким образом, из (П.1), (П.2) получаем

 

М0^ М 2

(П.3)

и для оценки снизу минимакса потерь достаточно рассмотреть некоторую совокупность задач с заданными вероятностями появ­ ления, построить оптимальный по Байесу алгоритм и найти в этом случае среднюю величину потерь Мг.

С л у ч а й 1. Оценим величину М0 для задач обучения в де­ терминистской постановке, когда допустимы только такие задачи,

что вклассе S есть безошибочное решающее правило (min Р (я, Т) = О aes

для любой задачи Т).

Пусть п характеризует емкость класса S ; тогда (см. главы V, X) существует п точек ад, . . ., хп таких, что правила из S разбивают их всеми возможными способами. Поставим каждому

разбиению Кі

точек ад, .

. ., хп в соответствие

задачу Г; (всего

2П задач) следующим образом.

 

Полагаем, что вероятностная мера Р (х) сосредоточена в точках

ад, . . ., хп, причем точка ад имеет вероятность і

р, а остальные

равновероятны

и имеют

Р

 

вероятности ^ ^ .

 

Точка а^ принадлежит первому классу, если разбиением Ri

она отнесена к первому

классу, и принадлежит второму классу,

если разбиением Рч она отнесена ко второму классу. Иными словами,

IР (ОI**)= О,

{1^(1 I*») = 1,

если хіі отнесена разбиением і?г- к первому классу;

Р(0 1**) = 1,

Р(1 I **) = О,

если хіі отнесена разбиением і?г- ко второму классу. Этими соотно­ шениями задача Tt задана полностью. Очевидно, что для каждой задачи Т( в классе S есть безошибочное решающее правило.

Предположим далее, что задачи Ті появляются с равной веро­ ятностью.

Можно убедиться, что оптимальный по Байесу алгоритм для этой совокупности задач таков.

Пусть дана обучающая .последовательность длины /; с вероят­ ностью 1 в ней встречаются только точки из набора ад, ..., хп. Точки из набора ад, . . ., хп, встретившиеся в обучающей последо-

15Ö Гл. ѵ і. МЕТОДЫ УПОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА

вательности, следует относить к тому классу, к которому они от­ несены в материале обучения. Классификация остальных точек безразлична. При этом средние потери равны

М2 (р) = 0,5 (1 - р ) р 1+ 0,5 (п _ 1) ( ^ ~ т ) (* - Т = т ) 1 >

 

> 0 ,5

(П-4)

Здесь

0,5 (1 — р) — средние потери при классификации

точки

Xi при

условии, что она не встретится в обучении; р 1 — вероят-

ность того, что она не встретится в обучении; аналогично 0,5 -

р

средние потери при классификации точки xt (і Ф 1) при условии,

что она не встретится обучении, а | і

j

— вероятность осу­

ществления

этого условия.

1),

при

котором выражение

Найдем

значение р (0 < р ^

 

 

 

0,5р

 

 

I

 

 

 

 

 

 

 

 

 

 

 

 

 

 

достигает

максимума.

Это

 

произойдет,

если

 

 

 

 

 

 

 

1

при І ^ . п — 2,

 

 

 

 

 

 

 

п — 1

 

 

 

 

 

 

Подставляя р

в (П. 4)

Іи тучитываяпри1>.З),п ~получаем2-

 

 

Мо = min max я (А , Т) >

 

 

 

 

 

 

 

 

 

А

 

 

 

 

 

 

 

 

 

 

 

 

>

 

 

 

0,5

(‘

 

п

при 2

п — 2,

 

п — 1

 

 

^0,2

1

 

 

 

 

 

 

 

 

 

 

0,5 7 + Т

 

1+ 1

7 + Т при 2 >

п — 2.

С л у ч а й

2. Пусть

теперь

задачи

Т

произвольны,

а

алгоритмы

А

выбирают по-прежнему

из

класса S емкости

п

(задача в вероятностной постановке).

Оценим величину минимакса

потерь ІИ0.

 

 

 

 

 

 

 

 

 

 

Пусть Xi, . . . , хп, как и ранее, совокупность точек, разби­ ваемых правилами из S всеми возможными способами. Поставим в соответствие каждому разбиению Ri задачу следующим об­ разом.

1. Вероятность Р (х) сосредоточена в точках ац, . . ., хп,

1

причем все точки равновероятны: Р (xj = -jp .

Соседние файлы в папке книги из ГПНТБ