Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения

.pdf
Скачиваний:
39
Добавлен:
25.10.2023
Размер:
12.29 Mб
Скачать

§ 1. ВОССТАНОВЛЕНИЕ АСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ 51

Представим, как это часто принято в теории обучения распознаванию образов, п-мерный вектор х, каждая ко­ ордината которого может принимать лишь тг значений,

как бинарный вектор х = (ж1, . . х') размерности

П

т = 2

хі-

Это делается так. Каждой

координате

х{ ста-

і=1

в

соответствие вектор

£{,

координаты которого

вится

хі, . . ., хі1 определяются следующим образом:

 

 

 

X?

0,

если

X1ф с1(к),

 

 

 

1,

если

х1 = с1(к).

 

 

 

 

 

Например, если координата ж» может принимать че­

тыре значения и имеет значение

с*

(3), то соответствую­

щий вектор Хі равен (0, 0, 1, 0).

1,

2,

. . ., п) записыва­

Координаты векторов

i t (i

=

ются подряд, образуя новый

вектор

X = (ж1, . .

ж*),

так что первые тх координат

этого вектора совпадают

с Х\, следующие т2 — образуют £2 и т. д.

Тогда для первого класса функций, согласно (2.4), оптимальным решающим правилом является линейная

дискриминантная

функция

 

 

 

 

 

Ч=г

Р\

рп '

где р\

и

рп — соответственно вероятности появления

векторов

первого

и второго

классов; р\ — вероятность

того,

что

хч = 1 для векторов 4

первого класса; р\

вероятности того,

что жк =

V

для векторов второго

класса.

 

■;**$«**

 

Для нормальных распределений оптимальное решаю­ щее правило, согласно (2.4), оказывается, вообще говоря, квадратичной дискриминантной функцией

F (х) = Ѳ[ix — |х2)т А;1 {х р2) — {х ~ Р'і)тАІ1 {х — Рі) —

- l n

52 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ

где (д.Аи Aj — параметры плотности распределения векто­ ров первого класса, а ц2 и Д2 — векторов второго класса.

Таким образом, задача построения решающего прави­ ла сводится к нахождению соответствующих параметров плотностей распределения вероятностей.

Среди параметрических методов восстановления плот­ ности распределения вероятностей наиболее эффективны­ ми являются метод максимума правдоподобия и методы, основанные на байесовой оценке. Применение этих двух методов для восстановления плотностей распределения вероятностей в описанных классах и составляет содержа­ ние теории параметрических методов обучения распозна­ ванию образов. Прежде чем перейти к изложению этой теории, напомним некоторые понятия статистической теории оценивания.

§ 2. Классификация оценок

Итак, задача состоит в том, чтобы, используя случай­ ную и независимую выборку хи . . ., жг фиксированной длины I, полученную согласно плотности распределения вероятностей Р (х, а 0), восстановить значение векторапараметров а 0.

Иначе говоря, задача заключается в том, чтобы найти функцию, которая по каждой выборке векторов хг, . . ., х х

вычисляла бы вектор а (жх, . . ., x t), который мы

примем

за приближение вектора-параметров а,

т. е.

найти

функцию

 

 

а = а (хъ . . ., x t).

 

(3.3)

Функция (3.3) получила название оценки параме­ тров а 0. Так как векторы xlt ... , x t случайны, то оцен­ ка а (хг, . . ., хі) является случайной величиной, обла­ дающей такими характеристиками случайной величины, как функция плотности распределения h (а), математи­ ческое ожидание

дисперсия

!2. КЛАССИФИКАЦИЯ ОЦЕНОК

53

В математической статистике приняты следующие характеристики оценок.

Несмещенной называется такая оценка, для которой математическое ожидание оценки равно самой определяе­ мой величине.

Эффективной оценкой называется несмещенная оценка с минимальной дисперсией т. е. наиболее точная из всех

а)

Оценки

 

Асимптотически

Асимптотически

смешенные

несмещенные

Несостоятельные I

Состоятельные

Оценки с

асимпто­

Асимптотически

тической. эффек­

эффективнь/е

тивностью

0 < е < і

б)

Рис. 4.

несмещенных оценок. Для остальных (неэффективных оценок) вводится количественная мера точности оценки е < 1, называемая эффективностью оценки, которая опре­ деляется отношением дисперсии эффективной оценки к дис­ персии данной оценки. Очевидно, что эффективность эф­ фективной оценки равна 1, а для остальных оценок е < 1. На основе этих определений можно ввести первоначальную классификацию оценок (рис. 4, а).

54 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ

Эта классификация предназначена для характеристик оценок, полученных на выборках малого объема. Для выборок большого объема предлагается несколько иная система классификации, в которую введены понятия асимптотически несмещенных, состоятельных и эффектив­

ных

оценок.

 

 

 

 

 

 

 

 

 

Асимптотически несмещенной называется оценка, для

которой

 

 

 

 

 

 

 

 

 

 

а (хи . .

Хі)

 

а 0 при

I ->■

оо.

 

Состоятельной называется

оценка,

для

которой

Р (I а — а„ I

е) —>- 0 при

I ->- оо

для всех г

0.

Асимптотически

эффективной

называется

оценка,

для

которой

е -> 1

при

I

 

оо.

Такая

классификация

оценок представлена

на

рис.

4,

б.

 

 

 

§ 3. Метод максимума правдоподобия

Метод максимума правдоподобия в задаче о восстанов­ лении плотности распределения вероятностей в классе функций Р (х, а) связан с исследованием так называемой функции правдоподобия Фишера. Функция правдопо­ добия задается на выборке хг, . . ., х х и имеет вид

 

 

 

I

 

 

 

 

 

 

L (хъ ...,

хі I а) = П

Р (sj, а).

 

(3.4)

 

 

 

г = 1

 

 

 

 

Если величины х

дискретны, то функция L

(хг, . ..

. . . , Хі I а) для каждого

а

определяет

вероятность

случайной и

независимой

выборки

образовать

после­

довательность

хг, . . .,

хі. Если

же

х1,

. . .,

х г — непре­

рывные величины, то

функция

L (хг, .

. ., х х \ а)

может

быть истолкована как плотность совместного распределе­ ния величин xt, . . ., хі.\

Таким образом, каждой выборке может быть поставле­ на в соответствие функция правдоподобия (рис. 5). Метод максимума правдоподобия состоит в том, чтобы в качестве

восстановленного

значения

параметра

а

выбирать

то, которое доставляет максимум

функции

правдопо­

добия. Наряду с

функцией L

(хх,

. . .,

хг| а)] принято

4, БАЙЕСОВ ПРИНЦИП ВОССТАНОВЛЕНИЯ

55

рассматривать функцию

 

I

 

ln L (хъ ..., x t I а) = 2 Ій Р to» а)>

(3.4')

г— 1

Максимум функций (3.4) и (3.4') совпадают и, следова-

•гельно, оценки максимума правдоподобия могут быть найдены как корни урав­ нения

ÖL (хі,

I а) _

 

да?

 

 

{j = 1, 2,

 

 

или уравнения

 

3ln L (*1, s c , ia)

n

da?

~~ VI

 

Теория метода призвана оценить, насколько «хорош» пред­ лагаемый способ оценивания параметров. Эта теория до­ статочно полно разработана. Подробное исследование свойств оценки максимума правдоподобия можно найти в работах [2, 621.

Основное содержание теории заключается в том, что для определенных функций Р (х, а) (которым заведомо принадлежат оба класса рассматриваемых распределе­ ний вероятностей) метод максимума правдоподобия! обеспечивает асимптотическую несмещенность и асимп-І тотическую эффективность оценки.

§ 4. Байесов принцип восстановления

Байесов принцип восстановления плотности распреде­ ления основан на использовании формулы Байеса:

P (ajx ) =

Р (х I а) Р (а)

Р{х)

 

Пусть известна априорная плотность распределения вероятностей Р (а) вектора параметров а, которая харак­ теризует предполагаемую возможность осуществления различных значений а до того как проведен эксперимент

56 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ

(дана выборка). Апостериорная вероятность Р (а | хх, . . .

. . хі) характеризует возможность осуществления раз­ личных значений а после того, как к априорному знанию добавлено знание, извлеченное из экспериментальных данных хх, . . ., х х. В этом случае формула Байеса ут­ верждает, что апостериорная вероятность параметра а получается умножением априорной вероятности на функ­

цию правдоподобия

I

Ь(хх, ..., ж,Iа) = П * ( * И І—1

и делением на вероятность

данного эксперимента

 

Р (хх, . . ., Хі ) .

Иначе говоря, справедлива формула

Р (а I хх, ..., Хі)

L (ал,..., Xj I <х) .Р (а)

.....

где

 

 

Р ( х ъ ...,

х-і) =

•••’ x t Iа ) P (а ) d a ,

если параметры а

непрерывны, и

Р(хъ ..., хі) = '21Ь(хі, ..., хі I ак) Р (afc),

если значения параметра а дискретны.

Таким образом, с помощью формулы Байеса по апри­ орному распределению вероятностей параметров а и ре­ зультатам эксперимента может быть вычислена плотность апостериорного распределения вероятностей Р (а \ хх, . . .

• • •» ®і)*

Теперь задача заключается в том, чтобы, зная плот­ ность Р (a I хх, . . ., Ж(), определить искомый параметр.

Здесь может быть несколько идей оценивания.

1. В качестве искомого значения вектора параметро выбирается такое а, которое доставляет максимум функ­ ции Р (а \ х1, . . ., хі).

É2. В качестве искомого значения вектора параметров выбирается математическое ожидание значения а, т. е.

a = § aP(ajxl t ..., xt) da.

§ 4. БАЙЕСОВ ПРИНЦИП ВОССТАНОВЛЕНИЯ

57

3. Принята и такая идея восстановления, когда с по­ мощью плотности распределения Р (а | хх, . . ., хі) кон­ струируется плотность Р (X) по правилу

Р (х) = § Р (х I а) Р (а I хъ ..., xt)da =

 

I Р (х I а) р (Х1' ••■>хі I

5

J Р (хі, ..., х{I а) Р (а) da

 

т. е. в качестве оценки выбирается математическое ожи­ дание плотности Р (х I а). Вообще говоря, полученная

в результате восстановления (3.5) плотность Р (х) вовсе не должна принадлежать рассматриваемому параметри­ ческому семейству Р (х , а). Поэтому, строго говоря,

рассматриваемый метод конструирования плотности Р (х) нельзя называть восстановлением функции в классе Р (X, а), тем не менее он получил название байесовой стра­

тегии восстановления функции Р (х).

Байесова оценка плотности распределения вероят­ ностей обладает замечательной особенностью, делающей получение ее крайне желательной. Она реализует опти­ мальную стратегию в следующей игре с «природой». Игра состоит в том, чтобы «угадать» ход, сделанный при­ родой. Функция Р (а) задает вероятность того, что при­ рода назначит вектор а = а0 в качестве параметра плот­ ности распределения Р (х, а). Пусть теперь дана выборка

длины I

из генеральной

совокупности

с

плотностью

Р (х, а 0).

Стратегия игрока

заключается

в

том, чтобы

задать такую функцию я (х; х^, . . ., хі), которая была бы как можно «ближе» к Р (х, а 0). «Партия» в такой игре определяется стратегией природы а = а0, стратегией

игрока я (х; хІ7 . . ., хі) и случайной выборкой хх, . .

.,

Величина проигрыша в этой игре

 

D(a\ Хі, ..., Хі) = §(Р(ж|а) — я(х; хъ ..., x,)fdx.

(3.6)

Средний проигрыш игрока в игре определяется выраже­ нием

\ I = §D (а; хъ ..., х,) Р (а) Р (хъ ..., Хі\а)йхъ ..., dxt da, (3.7)

58 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ

т. е. (3.7) получается усреднением (3.6) по стратегиям природы и всевозможным реализациям выборки.

Замечательное свойство байесовой оценки заключается в том, что она минимизирует средний проигрыш игрока, который знает смешанную стратегию природы Р (а). Иначе говоря, оптимальная стратегия игрока определя­ ется как

ГР (х I а) Р(жі,.... X

I а) Р (а) da

Л ( я ; Х и . . . , X, ) = ■-— : -------------------------------------------------

.

£ Р (х!, .... xt I а) Р (а) da

Докажем это важное для понимания значения байесо­ вых оценок утверждение.

Итак, требуется найти такое я (х ; хг, . . ., хі), которое минимизирует функционал

I = § ... \(Р(х\а) — л (x' хъ ..., Х[))2Р (хх,..., х,]а)Р (а) х

X dadxdxx... dxt. (3.8)

Обозначим

Ф(ж; Жц..., хі) = 5(Р(ж|о) — я(х; хх, ..., xt) f Р{хъ ..., ж ,[а)х

X P(a)da

и изменим порядок интегрирования, после чего (3.8) примет вид

/ = У. . . УФ (х; хг, . . ., Xi) dx dx1 dx2 . . . dxt.

Преобразуем теперь функцию Ф (х\ х1, . . ., жг)Г

Ф (x', хі) = УР2 (ж| <х)Р (жІ5 . . ., хі \ а)Р(а) da

—2я (х; х1г . . ., хі) УР (х\ а)Р (хг, . . ., х г | а)Р (а) da + + я 2 (х; % , . . . , хі) УР(хи . . ., Xi I а)Р (а) da.

Обозначим

с (тх, . . ., хі) =s УР {хх, . . ., х г\ а)Р (а) da,

г (*) = т г *г,т .; xt) 5

'Iа) р %Х і' •••’ I а) Р (а) йа-

§ 5. СРАВНЕНИЕ МЕТОДОВ ОЦЕНИВАНИЯ

 

59

Справедливо

равенство

 

 

 

 

 

Ф (ж; хи . .

Xi)

= I Р2 (ж] а)Р (х1, . . ., жг | а) Р (а) da

—Р2 (х)с (ж1( . .

хі) + [Р {х) — я (ж; жх, . .

хі)]2 х

 

 

 

 

 

X с (жх, . .

хі).

Таким образом, функционал I распадается на

два

сла­

гаемых

 

/ = / і

+

/ „

 

 

 

где

 

 

 

 

 

 

 

 

 

 

 

/ х = J [J Р2 (ж I а)Р (жх, . .

Хі I а)Р (а) da —

 

 

 

 

— с (ж1?

. .

жг)Р2

(ж)] dx dxx . . . dxi,

/ 2 і [Р (ж)

— я (ж; жІ5 . .

ж,)12 с (ж15

. . хі)

dx dxx ...

 

 

 

 

 

 

. . . dxh

Первое слагаемое не зависит от функции я (ж; ж1( . .

x t).

Поэтому минимизация I эквивалентна минимизации вто­

рого слагаемого

/ 2.

 

 

 

 

 

Минимум этого слагаемого равен нулю и достигается тогда, когда

я (ж; жх, . . ., хі) = Р (ж).

§5. Сравнение байесова метода оценивания

иоценивания методом максимума правдоподобия

Рассмотренные методы оценивания не являются рав­ нозначными ни по сложности их реализации, ни по эф­ фекту, который может быть с их помощью получен. Наи­ большую трудность в реализации метода максимума прав­ доподобия представляет отыскание решения системы уравнений

dL (хі,.... X, I a)

da*

V

'

Хотя система уравнений, вообще говоря, не является линейной, численное решение ее не составляет принци­ пиальной трудности, тем более что для широкого класса функций существует лишь единственное решение (3.9).

Реализация байесовой стратегии — задача значитель- „ но более трудная. Как правило, эта стратегия может быть реализована лишь тогда, когда удается провести

60 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ

аналитическое интегрирование выражения

Р

L {хх,

..., x l I а) Р (х I а) Р (а) ^

(3.10)

 

с (ад......*,)

аа

 

 

 

Численное интегрирование (3.10) — задача чрезвы­

чайно трудоемкая из-за

высокой

кратности интеграла

(вектор а обычно имеет большую размерность).

В свою очередь метод максимума правдоподобия менее привлекателен чем байесов: теория гарантирует лишь асимптотическую эффективность метода.

Байесова процедура имеет интерпретацию оптимальной стратегии в игре с известной смешанной стратегией про­ тивника. Правда, при ее реализации требуются сведения о плотности априорного распределения параметров а, что не всегда имеется у исследователя. Однако известно (теорема С. Н. Бернштейна), что влияние априорных сведений на получение апостериорной плотности распре­ деления вероятностей падает с ростом объема выборки. В случае, когда нет никаких иных сведений, обычно поль­ зуются равномерным законом априорных распределений параметров а. Таким образом, ситуация такова, что при оценивании плотности распределения желательно полу­ чить байесову оценку, хотя найти ее часто бывает крайне трудно. Когда получение байесовой оценки невозможно, используются оценки метода максимума правдоподобия.

Ниже, для первого класса распределений будут при­ ведены оценки параметров методом максимума правдо­ подобия и байесовы оценки. Для второго класса распре­ делений будут приведены оценки параметров методом максимума правдоподобия; будет показано, в чем состоят трудности при получении байесовых оценок, и, наконец, будут найдены байесовы оценки для некоторых специ­ альных видов ковариационных матриц Д.

§ 6. Оценка параметров распределения дискретных независимых признаков

Итак, пусть координаты вектора х распределены не­ зависимо и, кроме того, каждая координата х* вектора х может принимать тг значений, т. е. известно, что

П

Р(х, р) = ПР р1),

г=*1

Соседние файлы в папке книги из ГПНТБ