Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения

.pdf
Скачиваний:
86
Добавлен:
25.10.2023
Размер:
12.29 Mб
Скачать

КОММКНТАРИИ

399

деления. На Практике Почти все исследования проводятся для слу­ чая, когда плотности распределения вероятностей векторов каждого класса заданы нормальным законом. Проблемы, которые подыма­ лись дискриминантным анализом, в основном концентрировались вокруг построения линейной дискриминантной функции. Поста­ новка такой задачи впервые была дана Р. Фишером [77], который для решения ее предложил минимизировать некоторую функцию (функцию Фишера). В 1962 году задача построении линейной ди­ скриминантной функции для нормальных распределений была решена Т. В. Андерсоном и Р. Р. Бахадуром [74, 2].

Другие исследования связаны с попыткой сформулировать функционал, минимизация которого приводила бы к построению линейной дискриминантной функции (не только для нормальных распределений). Сначала в качестве такого функционала использо­ вали функцию Фишера, а затем рассматривались и другие функции [62]. Подробный обзор литературы по дискриминантному анализу приведен в [63].

Случай независимо распределенных дискретных признаков так­ же известен в дискриминантном анализе. В 1952 году А. М. Аттли [93] построил на этом принципе веротностный дискриминантный автомат, алгоритм которого, по существу, мало чем отличается от сов­ местных алгоритмов, использующих гипотезу о независимости дис­ кретных признаков.

В общем, различая работы по классическому дискриминантно­ му анализу и параметрическим методам обучения распознаванию образов, вероятно, можно указать на то, что в последних как-то больше акцентируется внимание на восстановлении параметров распределения с учетом ограниченности объема выборки.

К главе IV

Идея метода стохастической аппроксимации возникла, по-види­ мому, давно, но в четкой форме была сформулирована в 1951 году Г. Роббинсом и С. Монро [89]. Они указали итеративную процедуру, позволяющую определять корень уравнения регрессии. В 1952 году Е. Кифер и Дж. Вольфовиц применили этот метод для поиска минимума функционала [82]. Начиная с этого времени ведутся рабо­ ты по определению условий сходимости метода. Подробно с библио­ графией метода стохастической аппроксимации можно ознако­ миться в обзоре [42]. В 1965 году Я. 3. Цыпкин указал на связь метода стохастической аппроксимации с рекуррентными алгоритма­ ми обучения распознаванию образов [67, 68]. Эти работы стимули­ ровали исследования по теории метода стохастической аппрокси­ мации.

С 1964 года М. А. Айзерман, Э. М. Браверман, Л. И. Розоноэр разрабатывали теорию метода потенциальных функций, которая оказалась чрезвычайно близкой теории стохастической аппрокси­ мации. Этими учеными получены достаточно тонкие условия сходи­ мости процедур стохастической аппроксимации [1]. Дальнейшие

обобщения были получены недавно Б. Т.

Поляком и Я.

3. Цыпки-

ным [52].

рекуррентные

алгоритмы

исследовал

Конечно-сходящиеся

В. А. Якубович [70, 71].

Ему же принадлежит и сам термин.

400

КОММЕНТАРИИ

К главе V

Построение алгоритмов обучения распознаванию образов на основе методов минимизации эмпирического риска началось сразу же с появлением первых работ Ф. Розенблатта. За границей — это работы О. Селфриджа [91], система программ Г. С. Себастиана [58], в СССР работы [9—19]. Однако наиболее четко идеология минимизации эмпирического риска проявились у В. Хайлимена [81]. Хайлимен предлагал различные алгоритмы построения линей­ ного решающего правила, минимизирующего число ошибок. Он оценивал вероятность ошибок на экзамене по частоте ошибок на обучении и применял сглаживание функции штрафа для по­ строения эффективного алгоритма минимизации. Обобщение этой постановки на произвольные классы решающих правил было дано

вработе [41].

Впервые идея о связи равномерной близости частот к вероят­

ностям по классу событий с оценкой качества алгоритма, миними­ зирующего эмпирический риск, была высказана в работе [16]. Од­ нако в этой работе был исследован лишь случай конечного числа событий. Затем удалось получить условие равномерной сходимости для случая, когда частоты равны нулю [17]. И, наконец, были по­ лучены исчерпывающие необходимые и достаточные условия равно­ мерной сходимости частот появления событийк их вероятностям [18].

Несмотря на то, что условия равномерной сходимости частот к вероятностям не были известны, многие авторы понимали, что ем­ кость класса решающих правил влияет на экстраполяционную способность алгоритма. Такие идеи можно проследить у М. М. Бонгарда [4]. Н. Нильсон в своей монографии [49] приводит оценку числа линейных решающих правил, разделяющих в и-мерном про­ странстве I векторов.

Что же касается конструктивных идей построения алгоритмов обучения распознаванию образов, реализующих метод минимизации эмпирического риска, то они много разнообразней идей, основанных на реализации других методов минимизации среднего риска. Во всяком случае методы минимизации эмпирического риска позволяют эффективно искать решающие правила не только в классе линейных или кусочно-линейных правил, но и в иных классах решающих правил, например в классе логических функций определенного вида [4, 9, 10].

К главе V I

Одной из наиболее важных особенностей в исследованиях обуче­ ния распознаванию образов является стремление строить конструк­ тивные методы обучения более эффективные, чем те, которые выте­ кают из стандартных приемов минимизации риска, принятых в мате­ матической статистике. Здесь существует два возможных направле­ ния исследования, идя по которым можно надеяться достигнуть успеха.

Первое направление связано с определением класса решающих правил, внутри которого ищется нужное. Классическая статистика игнорирует такую проблему, отмечая, что априори нет никаких формальных способов определить, какой класс решающих правил окажется предпочтительнее, и поэтому определение класса решаю­

КОММЕНТАРИИ

401

щих правил считается внешним моментом в постановке

задачи.

В теории же обучения распознаванию образов допускаются нефор­ мальные методологические соображения.

Второе направление связано с созданием конструктивных квазибайесовых процедур, использующих некоторые априорные гипотезы о характере тех задач, которые предстоит решать.

Первые работы по теории обучения распознаванию образов во многом были посвящены исследованию этих двух особенностей за­ дачи. Именно поэтому период «распознавательной романтики» так богат гипотезами о структуре «разумных» задач. В этом отношении, вероятно, наиболее интересной работой остается монография М. М. Бонгарда [4]. Гипотеза о структуре «разумных» задач, по су­ ществу, содержится и в алгоритмах Браиловского — Лунца [5], [6], и в идеях раздвигающей метрики Себастиана — Неймарка [48], [58], и во многих других алгоритмах. Наконец, следует отметить работу Н. В. Загоруйко [30], который явно высказал гипотезу о структуре «разумных» задач в терминах сложности. Во всех этих ра­ ботах гипотеза о структуре «разумных» задач нужна была для того, чтобы ввести априорное упорядочение возможных задач и искать решение не в классе всех возможных задач, а в некотором подклассе, т. е., по существу, для того, чтобы провести идею упорядочения минимизации риска.

Следует отметить, что идея упорядоченной минимизации риска не является новой в математике. Она появлялась каждый раз, когда метод минимизации эмпирического риска приводил к абсурд­ ным результатам. Впервые, вероятно, эта идея возникла при иссле­ довании задачи об определении степени полиномиальной регрессии. Известно, что если априори задана степень полиномиальной регрес­ сии, то метод наименьших квадратов является, вообще говоря, эф­ фективным средством построения регрессии [43]. Другое дело, если заранее степень регрессии неизвестна и предлагается, используя выборку фиксированной длины, определить и степень регрессии и значение ее параметров. В этом случае заранее известно, что мини­ мум эмпирического риска будет достигнут, если степень полинома равна длине выборки. Однако такое решение является абсурдным. Поэтому в свое время К. Ф. Гаусс предложил минимизировать не

величину эмпирического риска Нэмп (а), а величину р і — Дэмп (а),

где I — объем выборки, а п — степень полинома. По существу, эта процедура поиска полиномиальной регрессии является двухуровне­ вой процедурой. На нервом уровне методом наименьших квадратов строится I — 1 оценка регрессии различной степени, а на втором уровне выбирается то решение, которое минимизирует приведен­

ную оценку.

С тех пор предлагалось много идей поиска полиномиальной ре­ грессии, однако все они касались лишь критерия выбора второго уровня, оставляя неизменной двухуровневую схему упорядоченной

минимизации риска.

Идея упорядоченной минимизации появилась и в связи с реше­ нием некорректных задач математической физики. Согласно А. Н. Тихонову [60], решение уравнения

Ах = у

402

КОММЕНТАРИИ

называется корректным, если оно существует, единственно и если малой вариации у соответствует малое изменение х. Однако уже для простейших задач (таких как решение некоторых типов линей­ ных интегральных уравнений) последнее условие не имеет места: достаточно малому изменению у может соответствовать большое изменение х. Такая неустойчивость решения делает организацию поиска решения невозможной. Поэтому А. Н. Тихонов предложил искать решение не путем минимизации

I = II У -

А х И2,

(*)

а минимизируя функционал

И2 + а II ж II2,

(* * )

h = \ \ У — А х

где а — есть некоторая константа.

Последний метод носит название метода регуляризации Тихо­ нова [61]. Заметим, что регуляризация по Тихонову есть тоже про­ явление метода упорядоченной минимизации. В самом деле, вве­ дем сначала априорный порядок в классе возможных решений

II * І К Си ■ • •> II ж І К с „ (Сі < с2 < . . . < с „),

на первом уровне в каждом классе найдем решение х, доставляющее условный минимум I, а затем из найденных решений отберем то, которое удовлетворит критерию выбора второго уровня. Такая про­ цедура поиска решения эквивалентна минимизации функционала

/ь причем значение а определяет правило выбора второго уровня.

Всамом деле, минимизация (*) при условии || х || ^ С{ эквивалентна минимизации (**), где а — множитель Лагранжа.

Таким образом, оказывается, что идея упорядоченной минимиза­

ции риска уже встречалась в математике. Однако ни для одной из проблем, к решению которой она привлекалась, так и не удалось до конца ответить на вопросы: как вводить априорное упорядочение

икаков должен быть критерий выбора второго уровня.

Взадаче обучения распознаванию образов были рассмот­ рены две процедуры выбора второго уровня: процедура метода

скользящего

контроля [45]

и

процедуры

выбора

правила

с наилучшим

гарантированным

качеством. Что

же касается спо­

собов введения порядка, то, как

оказалось, в

задаче

обучения

распознаванию образов они далеко не безразличны даже с фор­ мальной точки зрения.

К главе VII

Применение методов обучения распознаванию образов началось одновременно с появлением первых работ по теории обучения. В на­ стоящее время установилась хорошая традиция, согласно которой каждый вновь предложенный алгоритм обучения немедленно опробывается на решении тех или иных задач практики. Установились и свои традиционные сферы приложения методов обучения к реше­ нию задач практики.

 

 

КОММЕНТАРИИ

403

Это

прежде

всего — геология,

метеорология,

контроль каче­

ства, медицина,

криминалистика. Большие работы ведутся по соз­

данию

буквочитающих автоматов,

автоматов

воспринимающих

речь.

 

 

 

 

В главе VII приведены результаты практического применения алгоритмов метода обобщенного портрета. Эти результаты могли быть получены только благодаря работам больших коллективов уче­ ных. Так, задача о различении водоносных и нефтеносных пластов в скважине была поставлена в Московском институте нефтехимиче­ ской и газовой промышленности под руководством Щ. А. Губерма­ на [25] и была успешно решена также группой М. М. Бонгарда, ра­ боты по криминалистике поставлены в Институте судебных экспер­ тиз под руководством Л. Г. Эджубова [28], работы по контролю качества электронных приборов были поставлены В. С. Морозовым [47], работы по применению методов обучения распознаванию обра­ зов в метеорологии ведутся в Гидрометцентре СССР под руковод­ ством А. И. Снитковского [3] и в ВЦСО АН СССР под руководством Л. Н. Романова [56]; наконец, работы по применению методов обуче­ ния в медицине ведутся в Институте экспериментальной и клиниче­ ской онкологии под руководством Т. Г. Глазковой и К. Н. Гурария [23] и в I Московском медицинском институте под руководством Л. Д. Линденбратена. Благодаря этим коллективам была отрабо­ тана стандартная методика использования алгоритмов метода обоб­ щенного портрета, найдены оптимальные параметры алгоритмов, словом, сделано все, что необходимо для того, чтобы алгоритмы превратить в рабочий инструмент для решения практических задач.

Кроме названных, существует большое количество других кол­ лективов, которые успешно применяют современные методы обуче­ ния распознавания образов для решения задач практики. В Москве это — группы С. Н. Брайнеса, П. Е. Кунина, которые применяют методы распознавания в медицине [7, 38]; коллектив, возглавляемый Ю. И. Журавлевым, который ведет большие работы по применению распознавания в геологии [29]. В Ленинграде коллектив сотрудни­ ков, возглавляемый В. А. Якубовичем, провел значительные иссле­ дования в криминалистике [35]. В Горьком большая группа сотруд­ ников под руководством Ю. И. Неймарка весьма успешно применя­ ет методы обучения распознаванию образов в медицине [48]. В Ново­ сибирске коллектив, возглавляемый Н. Г. Загоруйко [30], применяет методы распознавания в социологии и другие. В настоящее время идея применения методов обучения распознаванию образов весьма популярна и эти методы привлекаются для решения самых различ­ ных задач практики.

Особое место в практическом применении методов обучения рас­ познаванию образов занимают работы по созданию читающих ав­ томатов и автоматов, воспринимающих речь. Эти задачи явились первыми объектами приложения методов обучения распознаванию образов.

Однако, несмотря на это, проблема создания читающих автоматов и автоматов, воспринимающих речь, до сих пор далека от завершения. Эти две задачи сейчас составляют самостоятельные направления исследований [30, 31].

404

КОММЕНТАРИИ

 

К главе V III

Применение методов обучения распознаванию образов для решения задач практики принесло свои неожиданности: прежде всего, оказалось, что результаты, полученные при использовании различных алгоритмов обучения распознаванию образов для реше­ ния одной и той же задачи, не слишком сильно различаются между собой (конечно, речь идет об алгоритмах обучения, имеющих разум­ ное статистическое обоснование). Неожиданным оказался тот факт, что метод минимизации эмпирического риска в, казалось бы, раз­ ных классах решающих правил позволяет отыскивать решающие правила, обладающие примерно одинаковыми качествами.

Такое утверждение с формальной точки зрения не выдерживает никакой критики: нетрудно представить себе два различных класса решающих правил таких, что для одних задач в первом классе есть удовлетворительные решающие правила и нет удовлетворительных правил во втором классе, а для других задач, напротив, предпочти­ тельней второй класс.

Создатели алгоритмов обучения распознаванию образов рассчи­ тывали именно на такую ситуацию. Однако оказалось, что классы задач, которые приходится решать, и классы конструктивных решаю­ щих правил, которыми пользуются, таковы, что если некоторую за­ дачу решает один алгоритм, то близкое качество решения может быть получено и с помощью другого.

Этому факту не может быть дано объяснения, если не привлечь гипотезу о семиотической структуре мира, который мы пытаемся познать. Такая гипотеза пока не сформулирована, хотя на необхо­ димость ее указывали представители самых разных отраслей знаний, цель исследования которых состоит в познании законов природы.

Так,

свое понимание семиотической структуры мира И. Ньютон

высказал

в «Правилах умозаключения в физике»,

изложенных

в третьей части знаменитой книги «Математические

начала нату­

ральной философии». И первое правило таково: «Не должно прини­ мать в природе иных причин, сверх тех, которые истинны и доста­ точны для объяснения явлений. По этому поводу философы утверж­ дают, что природа ничего не делает напрасно, а было бы напрасным совершать многим то, что может быть сделано меньшим. Природа проста и не роскошествует излишними причинами ве­ щей». Этот принцип был сформулирован около трехсот лет назад. С тех пор было предложено много различных гипотез о структуре мира. И все они как-то оказывались связанными с понятием «слож­ ность».

В последнее время (особенно в связи с появлением вычислитель­ ной техники) понятие сложность стало предметом исследования ма­ тематиков: по разным причинам хотелось бы иметь возможность оценить меру сложности различных математических объектов и в частности функций. Оказалось, что понятие простоты или сложности функций вовсе не так просто, как могло показаться с первого взгля­ да. Во всяком случае, до сих пор не удалось построить критерий слож­ ности функции, который удовлетворил бы всех исследователей. Для тех же объектов, для которых удается ввести естественный критерий сложности, неожиданно обнаруживаются любопытные факты. Так, если ввести понятие сложности для классификации логических

КОММЕНТАРИИ

405

функций п переменных в зависимости от того, с помощью

какого

числа базисных (например, пороговых) элементов эти функции мо­ гут быть реализованы, то окажется, что из всех 22” возможных функ­

ций

подавляющее большинство составляют наиболее сложные,

т. е.

те, которые могут быть реализованы лишь с помощью

2п

элементов, и лишь ничтожная часть функций имеет малую слож­ ность (число функций, реализуемых одним пороговым элементом,

меньше 2™2). Но самое интересное заключается в том, что, хотя поч­ ти все функции сложные, построить (просто выписать в виде табли­ цы значения во всех 2п точках) сложную функцию чрезвычайно трудно. Во всяком случае, уже для п = 7 нет примеров сложной функции.

Еще пример. Можно ввести естественное определение сложно­ сти числа такое, что алгебраические числа будут проще трансцендент­ ных. И опять здесь оказывается, что трансцендентных чисел на чис­ ловой оси подавляющее большинство, и, несмотря на это, нам из­ вестно чрезвычайно мало трансцендентных чисел, а известные способы конструирования трансцендентных чисел позволяют по­ лучить лишь ничтожное меньшинство всех имеющихся трансцендент­ ных чисел.

Если при любом «разумном» определении сложности окажется, что сложные функции составляют подавляющее большинство всех функций, то гипотеза «мир. прост» становится чрезвычайно содержа­ тельной. Вопросы исследования сложности математических объек­ тов в настоящее время являются чрезвычайно актуальными [20, 37].

Кглаве IX

Внастоящее время существуют достаточно тонкие критерии, позволяющие судить о сходимости процессов, полученных с по­ мощью процедуры стохастической аппроксимации. В этой главе изложены условия, при которых процедура стохастической аппрок­

симации применена для минимизации функционала

с выпуклыми по а при любом фиксированном z функциями потерь Q (z, а). Результаты для этого частного случая могут быть полу­ чены из общих теорем о сходимости процессов процедуры стохасти­ ческой аппроксимации. Однако здесь приведены доказатель­ ства сходимости для этого частного процесса процедуры стохасти­ ческой аппроксимации непосредственно в том виде, в каком они были получены Б. М. Литваковым [44]. Аналогичные резуль­ таты получены и Ю. М. Ермольевым [27]. Вообще же для рас­ смотренного случая известно [26], что если Q (z, а) — одноэкстре­ мальная функция, то при определенных условиях процедура стоха­

стической

аппроксимации приведет к

глобальному

минимуму,

если же

Q (z, а) — многоэкстремальная

функция, то

процедура

стохастической аппроксимации гарантирует достижение лишь ло­ кального минимума.

406

КОММЕНТАРИИ

 

К главам X, X I, X II

Задача

восстановления вероятностной меры по эмпирическим

данным является одной из основных задач статистики. Известные методы решения этой задачи распадаются на два типа: параметри­ ческие и непараметрические методы.

Параметрические методы основаны на том, что предполагается вид распределения, зависящий от конечного числа параметров. В этом случае восстановление распределения эквивалентно оценке этих параметров по эмпирическим данным.

Непараметрические методы не связаны с предположением о виде функции распределения. Они основаны на реализации одной из двух идей:

1) восстановление плотности распределения вероятностей (в этом случае достаточна гипотеза о гладкости функции плотности распределения вероятностей);

2) восстановление вероятностей определенного множества со­ бытий.

Методы восстановления функции плотности распределения ве­ роятностей предлагались Е. Парзеном [88], Н. Н. Ченцовым [69], М. А. Айзерманом, Э. М. Браверманом, Л. И. Розоноэром [1]. По­ следние авторы рассматривали эту задачу в связи с проблемой обу­ чения распознаванию образов в вероятностной постановке. Однако восстановление плотности распределения вероятностей требует зна­ чительного объема выборки. Это особенно существенно в многомер­ ном случае, когда для восстановления плотности распределения часто необходима длина выборки во много раз большая, чем 2П, где п — размерность пространства.

Вторая идея связана с восстановлением вероятностей класса событий. Вероятностная мера будет восстановлена, если восстано­ вить сразу вероятности всех событий полной а-алгебры. Однако, как показано в книге, вообще говоря, это сделать невозможно. Этот метод применим в том случае, когда требуется определить ве­ роятности определенного, сравнительно узкого класса событий.

Если класс состоит всего из одного события, то вопрос стоит о сходимости частоты к вероятности для одного фиксированного со­ бытия. Ответ на этот вопрос был получен еще в XVIII веке Яковом Бернулли (сходимость почти наверное установлена Э. Борелем одно­ временно с введением этого понятия).

Случай конечного числа событий принципиального интереса не представляет, так как равномерная сходимость частот к вероятностям здесь легко следует из закона Бернулли.

В 30-е годы особое внимание уделялось равномерной сходимости эмпирических кривых распределения к функциям распределения. В 1933 году В. И. Гливенко доказал [79], что имеет место равномер­ ная сходимость эмпирических кривых к функциям распределения для произвольной функции распределения. В том же году А. Н. Кол­ могоров для непрерывной функции распределения F(x) установил следующую асимптотическую оценку [83]:

КОММЕНТАРИЙ

407

где ?і (х) = V1 {I: | < ж} — эмпирическая кривая распределения,

ОО

К ( в ) = 2

( - l ) m <T2£2m\

Дальнейшие уточнения были получены II. В. Смирновым [59]. Он исследовал также уклонение эмпирических кривых, построен­ ных по двум независимым выборкам, при неизменном распределе­ нии [59]. Как сказано в основном тексте, исследование близости эмпирических кривых к функциям распределения равносильно исследованию равномерной близости частот к вероятностям по классу событий вида

{£ : I < *}■

Разумеется, из равномерной близости эмпирических кривых к функциям распределения следует равномерная близость частот к вероятностям и в более широких классах событий (но не для всех событий!).

Таким образом, интерес исследований 30—40-х годов к равно­ мерной сходимости ограничивался одномерным случаем, что, види­ мо, связано с ограниченностью вычислительных возможностей того времени. После появления быстродействующих вычислительных машин стали возможными новые методы обработки статистических данных, например, такие, которые применяются в задачах обучения распознаванию. В связи с этим возникла необходимость предельно обобщить теорему Гливепко и выяснить, насколько широк может быть класс событий, чтобы еще имела место равномерная сходимость частот к вероятностям, и как изменяется скорость такой сходимо­ сти с расширением класса. Ответы на эти вопросы получены нами в работах [18, 19] и составляют предмет изложения глав X, XI и XII. Полученные оценки не так точны, как оценки Колмогоро­ ва — Смирнова для близости эмпирических кривых к функциям распределения. Вопрос получения асимптотически точных оце­ нок остается пока открытым.

Отметим, что необходимые и достаточные условия равномерной сходимости частот к вероятностям оказались связанными с опреде­ ленным образом введенной энтропией класса событий относительно выборок конечной длины. Эта энтропия во многом аналогична шенноновской энтропии, рассматриваемой в теории информации.

К главе XIII

Начиная с первых работ по распознаванию указывалось, что эффективное обучение возможно только в том случае, когда на класс задач наложено заранее достаточно жесткое ограничение (априор­ ная гипотеза). Однако оценки достаточной длины обучающей после­ довательности в зависимости от той или иной гипотезы были полу­ чены не сразу. К числу первых, безусловно, относится оценка Нови­ кова для персептрона, хотя в первоначальном варианте она оцени­ вала число исправлений, а не длину обучения. Длину обучения легко оценить, если теорему Новикова дополнить условием останова.

408

КОММЕНТАРИИ

Вряде работ оценивается достаточная длина выборки в случае гипотезы о нормальном распределении классов [55].

Вработе [16] мы исходим из предположения, что классы заведо­ мо безошибочно разделимы одним из N заданных решающих правил.

При этом оказалось, что достаточная длина обучающей выборки оце­ нивается сверху:

^ ln N — ln Г|

^дост ^ _ in (1 _ е) >

где е — точность, 1 — т] — надежность выбора решающего правила. Этот результат немедленно прилагается к задаче нахождения линей­ ного решающего правила для дискретных ограниченных множеств.

Случай, когда разделяемые множества могут быть заключены в параллелепипед с гранями, параллельными осям координат, рас­ сматривал Б. М. Курилов [39].

У. Хайлимен [81] предлагал для оценки достаточной длины обучения в классе линейных решающих правил вспользоваться обычным биномиальным распределением. Этот путь является лож­ ным, так как при этом не учитывается требование равномерной бли­ зости оценок риска к их истинному значению по всему классу решаю­ щих правил. Этим путем можно вывести конечные оценки длины обучения для сколь угодно емких классов решающих правил, что неверно.

В работе [17] мы ввели в рассмотрение функцию роста и получи­ ли оценки достаточной длины в детерминированной постановке зада­ чи обучения распознаванию, а в статье [18], уже опираясь на общие результаты по равномерной сходимости частот событий к их вероят­ ностям, получили оценки и в общем случае. В этой книге оценки несколько уточнены.

Отметим, что приводимые оценки достаточной длины обучения завышены, во-первых, потому, что они рассчитаны на наихудший случай, и, во-вторых, поскольку при их выводе был сделан ряд огрублений. Но существенно, что они позволяют увидеть качествен­ ную зависимость требуемой длины обучения от параметров класса решающих правил и устанавливают, что существуют не слишком «страшные» оценки, не зависящие от распределения.

Вопрос о равномерной по параметру сходимости средних к ма­ тематическим ожиданиям возник в связи с исследованием эффектив­ ности оценок максимального правдоподобия. Упомянутый резуль­ тат Л. Ле-Кама [85] получен им на основе идей А. Вальда [96]. Ре­ зультат, основанный на сведении к равномерной сходимости частот к вероятностям, получен в [19]. Оба условия являются лишь доста­ точными и не перекрывают друг друга. Необходимых и достаточных условий равномерной сходимости средних к математическим ожида­ ниям пока нет.

К главе XIV

Метод обобщенного портрета был предложен в 1963 году в ра­ ботах [13, 15]. Позже [17] было показано, что построение обобщенно­ го портрета эквивалентно отысканию максимума неположительно определенной квадратичной формы в положительном квадранте, а

Соседние файлы в папке книги из ГПНТБ