Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения

.pdf
Скачиваний:
39
Добавлен:
25.10.2023
Размер:
12.29 Mб
Скачать

§ 3. НАДЕЖНОСТЬ ОБУЧЕНИЯ

37

ляется процент несовпадений в классификациях учителя и машины. Найденный процент характеризует качество ре­ шающего правила точно так же, как вычисленная по ко­ нечной выборке частота характеризует вероятность.

§ 3. Надежность обучения

Следующий вопрос о том, на каких примерах учить, т. е. как подбирать элементы обучающей последовательности. Ведь от того, какие элементы содержатся в материале обучения, зависит, насколько хорошо будет в дальней­ шем работать решающее правило, т. е. каково будет качество.

Чтобы обеспечить высокое качество решающего прави­ ла, надо предвидеть свойства среды, в которой предстоит работать устройству после обучения (т. е. какова функция Р (X)). Однако задача такова, что вероятность Р (х) неиз­ вестна. Существует поэтому единственная возможность — выбирать примеры для обучения случайно и независимо, согласно тому же распределению, при котором будет ра­ ботать обучившееся устройство. Так поступать целесооб­ разно еще и потому, что во многих задачах обучения нель­ зя конструировать примеры, а приходится довольство­ ваться только теми, которые уже существуют, т. е. фак­ тически случайной выборкой из множества возможных примеров.

Так, во многих задачах дифференциальной медицинской диагностики совокупность верифицированных случаев, представленных для обучения, часто есть случайная вы­ борка из множества всех случаев заболеваний.

Итак, в задаче обучения распознаванию образов при­ нято, что обучающая последовательность составлена из элементов, выбранных случайно и независимо из той среды, для которой будет оцениваться качество полученного ре­ шающего правила.

Однако при случайном подборе элементов обуча­ ющей последовательности уже нельзя требовать, чтобы

обучение было

безусловно

успешным; ведь не исключе­

на вероятность

того,

что

обучающая последователь­

ность будет составлена

только из «нетипичных» случаев.

Поэтому успех в обучении может быть гарантирован не на­ верняка, а лишь с некоторой вероятностью. Иначе говоря,

38 ГЛ. II. ОБУЧЕНИЕ МАШИН РАСПОЗНАВАНИЮ ОБРАЗОВ

так как элементы обучающей последовательности за­ даны случайно, то способность устройства обучаться опре­ деляется тем, как часто оно строит решающее правило с заданным качеством, т. е. надежностью получения решаю­ щего правила с заданным качеством.

Таким образом, способность к обучению характеризу­ ется двумя понятиями:

1)качеством полученного решающего правила (вероят­ ностью неправильных ответов; чем меньше эта вероятность, тем выше качество);

2)надежностью получения решающего правила с за­ данным качеством (вероятностью получения заданного ка­ чества; чем выше эта вероятность, тем выше надежность ус­ пешного обучения).

Задача сводится к созданию такого обучающегося уст­ ройства, которое по обучающей последовательности строи­ ло бы решающее правило, качество которого с заданной на­ дежностью было бы не ниже требуемого.

§ 4. Обучение — задача выбора

Но и в такой формулировке содержится некоторая не­ четкость: непонятно, что значит строить решающее прави­ ло по обучающей последовательности.

Слова «строить решающее правило» надо понимать так: задано (конструкцией устройства) множество решающих правил. Из этого множества правил выбирается то, кото­ рое удовлетворяет определенным требованиям. Условие, которому должно удовлетворять выбранное правило, и определяет алгоритм обучения.

В таком понимании обучения акцент делается на том, что множество возможных решающих правил определено заранее, а задача обучения заключается в том, чтобы уметь выбрать среди них, нужное. В персептроне, например, множество всех возможных правил задано структурой персептрона: коммутацией элементов S и элементов А. С помощью элементов А осуществляется отображение

У1 = Фі (х) (і = 1, 2, ..., т).

Множество возможных решающих правил персептрона

§ 5. ДВЕ ЗАДАЧИ КОНСТРУИРОВАНИЯ

39

может быть записано так:

т

 

/(* Д ) = ѳ ( 2 х іФі(;г)).

(2.1)

і=1

Символ Ѳ (z) в формуле означает, что

1, z > 0 ,

О, z < 0 .

В (2.1) значения параметров %t определяют конкретный вид решающего правила. Тот факт, что правила будут иметь вид (2.1), определен заранее коммутацией элементов персептрона.

§ 5. Две задачи конструирования обучающихся устройств

Итак, перед конструктором обучающихся устройств стоят две задачи:

какой набор решающих правил заложить в обучаю­ щееся устройство;

как среди множества решающих правил выбирать нужное.

Трудности при решении данных задач носят различный характер. Так, первая задача неформальная: класс функ­ ций определяется конструктором на основании имеющихся

вего распоряжении сведений о тех задачах, которые пред­ стоит решать обучающемуся устройству.54

Вторая, напротив, может быть формализована я имеет строгие схемы решения. По существу, то, что в настоящее время называется теорией обучения распознаванию обра­ зов,— это теоретические вопросы, связанные с решением второй задачи.

К сожалению, пока нет сколько-нибудь общих принци­ пов выбора класса решающих правил. Правда, иногда су­ ществует возможность «подсмотреть», каким классом реша­ ющих правил природа снабдила живые существа. Так, при изучении зрительного анализатора лягушки были обна­ ружены нейроны, которые возбуждаются при появлении отдельных геометрических фигур, таких как «прямая» или «угол».

40ГЛ. II. ОБУЧЕНИЕ МАШИН РАСПОЗНАВАНИЮ ОБРАЗОВ

Врамках схемы Розенблатта это значит, что существу­ ют элементы А, реагирующие на появление элементарных геометрических объектов. Такие «нейроны» можно предус­ мотреть в искусственном зрительном анализаторе.

Но как выяснить, какие решающие правила могут ока­ заться полезными при классификации абстрактных обра­

зов, например при постановке диагнозов?

Если методика поиска класса функции, предназначен­ ного для решения задач классификации зрительной или акустической информации, сводится к тому, чтобы по воз­ можности выяснить, какой класс функций используют жи­ вые существа, то для задач классификации абстрактной информации такой путь неприемлем. Ведь если умение классифицировать зрительные и акустические сигналы вы­ рабатывалось в процессе эволюции с момента появления первых живых существ и формирование нужных для этого классов функций проходило многие миллионы лет, то не­ обходимость классификации абстрактных понятий воз­ никла у человека всего лишь несколько тысяч лет назад и вряд ли за столь короткий период у человека произошли значительные эволюционные изменения. Поэтому при поис­ ке класса решающих правил, специализированных для ре­ шения задач классификации абстрактных образов, вряд ли стоит выяснять, какой класс решающих правил ис­ пользует человек. Скорее следует искать класс решающих правил, отличный от «человеческого».

Забегая вперед, отметим, что, как показали экспери­ менты, человек недостаточно хорошо справляется с клас­ сификацией абстрактной информации. Так, если при реше­ нии «человеческих» задач, таких как классификация гео­ метрических фигур, классификация мелодий, ни одна из существующих узнающих машин не может сравниваться с аппаратом восприятия человека, то при классификации абстрактной информации интуиция человека уступает машине.

Подобные примеры будут приведены ниже. Определение класса решающих правил выходит за пре­

делы статистического аспекта теории распознавания обра­ зов. В дальнейшем будем полагать, что класс решающих функций определен, а задача заключается в том, чтобы най­ ти в нем нужную функцию, используя обучающую после­ довательность фиксированной длины.

§ 7. ТРИ ПУТИ МИНИМИЗАЦИИ РИСКА

45

Однако следует заметить, что в этом случае решение сравнительно простой задачи — построение дискриминант­ ной функции — подменяется решением значительно более сложной задачи — задачи о восстановлении функции рас­ пределения. Ведь восстанавливаемые функции распределе­ ния вероятностей составляют исчерпывающие сведения о классах векторов, в то время как нужная нам дискрими­ нантная функция отражает только одну из характеристик взаимного расположения векторов различных классов.

Поэтому, вообще говоря, решать задачу обучения рас­ познаванию образов, восстанавливая неизвестные функ­ ции распределения вероятностей, нерационально. Исклю­ чения составляют случаи, когда задачи о восстановлении многомерных функций распределений сильно вырожда­ ются. Например, когда функция распределения такова, что координаты вектора х = ж1, ..., хп распределены не­ зависимо, т. е.

Р (х I ю) = Р (ж1 I со) ... Р (хп I ы).

В этом случае задача о восстановлении двух п-мерных функций распределения вероятностей вырождается в зада­ чу о восстановлении 2 п одномерных функций

Р (хі I о

= 0), Р (хі I (о = 1) (г = 1, 2, ..., п).

В т о р о й

п у т ь связан с организацией рекуррент­

ной процедуры поиска параметра а, доставляющего ми­ нимум функционалу (2.2).

Если бы функция распределения вероятностей Р (z) была известна, то при определенных условиях рекуррент­ ная процедура поиска минимума могла бы быть организо­ вана с помощью градиентного спуска по функции R (а). В данном случае градиент может быть найден так:

grada R (а) = § grada<? (z, а) dP (z).

Процедура спуска представляла бы собой следующее пра­ вило:

а (і + 1) = а (і) — у + 1) grad R (a (i)),

(2.5)

где y(i) — величина і-то шага.

Прямым обобщением градиентного метода поиска ми­ нимума функции R (а) на случай неизвестной функции

46 ГЛ. II. ОБ УЧКНИЕ МАШИН РАСПОЗНАВАНИЮ ОБРАЗОВ

распределения вероятностей Р (z) является процедура ме­ тода стохастической аппроксимации

а (і + 1) = а (0 — у + 1) q (а (i), zi+1),

(2.6)

где вектор-функцию q (а, z) можно понимать как градиент по а функции Q (z, а) в точке zl+1, а (і).

В (2.6) вектор д (а, z) определяет направление движе­ ния. В отличие от (2.5) направление, вдоль которого будет происходить изменение вектора а, зависит не только от предыдущего значения а (і), но и от случайной величины z*+1. Таким образом, вектор q (а, z) определяет стохастичес­ кий градиент — направление, случайное вследствие влия­ ния переменной z. В этой процедуре сходимость к мини­ муму обеспечивает такая последовательность величин ша­ гов у (і) )> 0, что

оо

2 т(0 = оо. З г Ч г Х 00

(эти условия обеспечивают возможность, во-первых, по­ дойти к точке минимума из сколь угодно «далекой» точки пространства а, а во-вторых, приблизиться к точке мини­ мума как угодно близко).

Теория таких итерационных методов поиска минимума направлена на то, чтобы выяснить, каким условиям долж­ ны подчиняться функция двух групп переменных Q (z, а), вектор-функция q (а, z) и константы у (і), чтобы с помощью процедуры (2.6) можно было обеспечить сходимость после­ довательности а (і) к значению а 0, на котором достигается минимум функционала R (а). Используя эту теорию, мож­ но для определенных (не для любых!) функций потерь Q (z, а) строить рекуррентную процедуру поиска нужных значений вектора параметров а.

Второй путь как раз и связан с построением итерационной^роцедуры (2.6) для поиска минимума R (а).

Наконец, т р е т и й п у т ь связан с идеей замены неизвестного функционала

R (а) =

(z, а) âP (z)

§ 8. РАСПОЗНАВАНИЕ ОБРАЗОВ И МИНИМИЗАЦИЯ РИСКА 47

функцией

I

Rmn (а) = ~т~ 2 Q (^і? а)і

L i-1

построенной по случайной и независимой выборке zlf ...

. . . , Zi.

Функция R BMn (а) получила название функции, исчис­ ляющей величину эмпирического риска. Для каждого фиксированного значения параметра а она определяет среднюю величину потерь на выборке z1? ... ,z;.

Идея метода состоит в том, чтобы найти значение пара­ метров а — а э*, обеспечивающих минимум функции эмпи­ рического риска, а затем в качестве решения задачи о ми­ нимизации среднего риска предложить функцию с этими значениями параметров, т. е. Q (z, а э*).

Такой метод решения задачи называется методом мини­ мизации эмпирического риска. Теория метода минимиза­ ции эмпирического риска призвана ответить на вопросы, когда (для каких функций Q (z, а)) такая подмена возмож­ на и какая при этом совершается ошибка.

Развитие методов обучения распознаванию образов пошло по всем трем путям минимизации среднего риска.

§8. Задача обучения распознаванию образов

иметоды минимизации среднего риска

Итак, задача обучения распознаванию образов сводится к задаче о минимизации среднего риска и существуют три традиционных пути решения этой задачи.

Казалось бы, чтобы получить соответствующие алго­ ритмы обучения распознаванию образов, достаточно в этом частном случае применить общие методы минимиза­ ции риска.

Однако на самом деле ситуация не такая уж простая. Методы минимизации риска недостаточно разработаны.

Первый путь приводит к необходимости восстанавли­ вать многомерную функцию. Эффективные методы восста­ новления функции разработаны лишь для случая, когда функция задана с точностью до значения небольшого числа параметров. Восстановить функцию значит определить значения параметров.

48 ГД- И- ОБУЧЕНИЕ МАШИН РАСПОЗНАВАНИЮ ОБРАЗОВ

Два других метода минимизации риска могут быть при­ менены не для всяких функций потерь Q (z, а).

Теоретические исследования этих методов минимиза­ ции риска как раз и направлены на то, чтобы установить классы функций Q (z, а), для которых эти методы при­ менимы. Специфика задачи обучения распознаванию образов состоит в том, что функции F (х, а) характери­ стические. Оказалось, что для таких функций теория ми­ нимизации риска не могла гарантировать успех примене­ ния методов минимизации.

По существу, задача обучения распознаванию образов есть теория минимизации среднего риска специального вида функций потерь. Ниже, в главах III, IV, V, примени­ тельно к задаче обучения машин распознаванию образов будут рассмотрены все три пути минимизации риска.

Г л а в а Д И

М Е Т О Д Ы О Б У Ч Е Н И Я , О С Н О В А Н Н Ы Е Н А В О С С Т А Н О В Л Е Н И И

Р А С П Р Е Д Е Л Е Н И Я В Е Р О Я Т Н О С Т Е Й

§1. О восстановлении распределения вероятностей

Взадачах математической статистики чрезвычайно важным является случай, когда функция распределения вероятностей известна с точностью до значения параме­ тров. В этом случае восстановление распределения веро­ ятностей сводится к установлению значений параметров на основе имеющейся выборки. Методы исследования, разработанные здесь, получили название методов пара­ метрической статистики.

Выше было указано, что задача обучения распозна­ ванию образов может быть решена путем построения дис­ криминантной функции по восстановленным функциям распределения вероятностей различных классов объек­ тов. В этой главе будут рассмотрены такие параметриче­ ские методы решения задачи. Как уже указывалось, идея решения задачи обучения распознаванию путем вос­ становления распределения вероятностей, вообще гово­ ря, кажется малопривлекательной и реальных успехов на этом пути можно ждать лишь для вырожденных

случаев.

Параметрические методы решения задач обучения рас­ познаванию связаны с двумя классами функций распре­

деления.

к л а с с

р а с п р е д е л е н и й .

Рас­

П е р в ы й

пределение вероятностей

для каждого

класса векторов

Р (х, р), зависящее от вектора

параметров р,

таково,

что координаты

вектора

х = (ж1,

, .

хп) распределены

50 г л . Ш . МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ

независимо, т. е.

 

Р (X, р ) ^ Р (х\ р1) X . . . X Р (хп, рп),

(3.1)

и, кроме того, каждая координата хг вектора х может принимать лишь фиксированное число значений. Для определенности будем считать, что каждая координата хі принимает тj значений с* ( 1 ) , ... , сг (и)-

Таким образом, рассматривается случай, когда распре­ деление вероятностей для каждого класса объектов задано выражением (3.1), где функция Р (хх, р*) может быть записана так:

р1(1),

если

X* =

с* (1),

Р (х1, р1) =

 

 

(ЗЛ')

р1(т4),

если

хх=

é (tj),

2 Р' (/) = !•

 

 

Здесь рх (к) есть вероятность того,

что хх примет значение

с* (к). Восстановить распределение вероятностей (3.1')

значит найти значения параметров р* (к) (к = 1, 2, .

. ., т*).

В т о р о й к л а с с р а с п р е д е л е н и й .

Плот­

ность распределения вероятностей для каждого класса

объектов задана нормальным

законом

Р

Д) = (2п)и^|Ѵ |‘~г ехр [ ~

4 " “ ^ ТА_1 (Х - »*)]• М

Восстановить плотности распределения вероятностей зна­ чит найти вектор средних р, и ковариационную матрицу А для каждого класса объектов. Однако часто решение такой задачи на выборках ограниченного объема оказы­ вается недостаточно точным и поэтому рассматриваются еще более узкие постановки, где наложены ограничения на свойства ковариационных матриц А (например, счита­ ется, что ковариационные матрицы различных классов равны либо являются диагональными или даже единич­ ными). Согласно формуле (2.4) знание плотностей распре­ деления вероятностей векторов для различных классов объектов и вероятностей появления представителя каж­ дого класса дают возможность немедленно определить оптимальное решающее правило.

Соседние файлы в папке книги из ГПНТБ