Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Математические методы принятия решений

..pdf
Скачиваний:
2
Добавлен:
13.11.2023
Размер:
22.94 Mб
Скачать

Рис. 6.1. Составляющие вероятности ошибки:

1— апостериорная

вероятность

состояния

природы

<oi,

равная

P(a)i)p(x | a>i);

2 апостериорная

вероятность

состояния

природы

ог,

равная

Р(о>2)р(х \о)г);

3 область, определяющая вероятность ошибки (вся заштрихованная область); 4 область (покрытая клетками), определяющая величину, за счет которой можно уменьшать вероятность ошибки

Возможны два типа ошибок классификации: когда наблюдаемое значение х попадает в область R 2, в то время как истинным состо­ янием природы является о>ь либо когда х попадает в область Д ь а истинным состоянием природы является 6)2• Поскольку эти собы­ тия несовместные и составляют полное множество событий, то ве­ роятность ошибки е вычислим по формуле

Р(е) = Р(х G R 2 I coi) 4- Р(х е R\ | <02) =

= J

р(х | (0i)P((0i)dx + J р(х | С02)Р(<02)dx.

Ri

R\

Если объект относится к классу соi, а его считают объектом класса <s>2, то совершается ошибка первого рода

а = Jp(xlo>i)P(coi)dx.

R i

Наоборот, если объект относится к классу (02, а его считают объек­ том класса а>ь то совершается ошибка второго рода

P = J р(х | со2)Р(^г) dx.

я.

Разность 1 — р называется мощностью критерия. Решение сле­ дует выбирать так, чтобы мощность критерия была максимальной.

Пусть заданы функции потерь, образующие платежную матрицу

СП

С\2 А

С21

С22 )

где с\\ и С22 — потери, связанные

с правильным выбором реше­

ния, a ci2 и С21 — потери, связанные с ошибками первого и второго рода соответственно. Тогда средние потери (средний риск) р при многократном распознавании неизвестных объектов определяются по формуле

р = Р(б)0 си I

р(х | coi)d x + С12 J* р(х | o>i)dx

+

Я1

я2

-I

 

+ Р(<*>2) С22 ! р(х | (0 2 ) dx + С21 Jр(х 10)2 ) dx

 

я2

я,

Чтобы найти значение х, при котором средний риск минимален, продифференцируем р по х, приравняем производную нулю и по­ лучим

р(х

| 0 )2 )

=

P (0 )l)(C l2

- C l l )

р{х

| o)i )

 

P(o)2)(c2i

с22) *

Отношение условных плотностей распределения

р (х | 0>2)

= Ц х )

p ( x |0 ) i)

называется коэффициентом правдоподобия, или отношением прав­ доподобия.

Пусть границей области решений является вертикальная пря­ мая А В (см. рис. 6.1). Ясно, что, смещая границу области реше­ ний А В влево, можно уменьшить вероятность ошибки за счет сужения области 4. Именно таким образом уменьшают ошибку распознавания при разработке оптимальных критериев принятия решений.

В теории принятия решений рассматриваются три различных пространства:

1) пространство наблюдений X , содержащее все возможные наблюдения х = \, х г , ..., хп);

2)пространство параметров Çl, содержащее все возможные значения параметров со = (coi,сог, . ..,сор) (возможные значения со часто называют состояниями природы);

3)пространство решений D, которое содержит всевозможные значения решений d.

Правило решения 8 (или процедура решения, или решающая функция) указывает, какое решение d необходимо принять, если по­ лучены наблюдения х = (xi, х г , ..., хп), т. е. d = Ь(х).

Для выбора правила решений вводится функция потерь L(co, d), значение которой равно величине потери, связанной с выбором ре­ шения d, а со рассматривается как истинное значение параметра. Значения функции потерь L(co, 8(ж)) являются случайными величи­ нами и зависят от переменной х. Именно учет потерь отличает тео­ рию принятия решений от теории статистической проверки гипотез.

Решение принимают по усредненным величинам. К ним, в част­ ности, относится функция риска.

Функция риска р§(со) для правила решения 8 определяется сле­ дующим образом:

p6(co) = M{L(co,8(x))},

где М(х) — математическое ожидание случайной величины х, т. е. функция риска pg(co) определяет среднюю потерю по всем воз­ можным наблюдениям.

Согласно теории Байеса, когда любой параметр со является случайной величиной с плотностью вероятности к(со), ожидаемый риск, усредненный по всем значениям со:

\ Р5(со)к(со) d(ù,

а

называется апостериорным риском использования правила реше­ ния 8 при заданной априорной плотности к(со). Апостериорный риск рД8) можно записать в виде

Рп(Ь) = М„ {М* {L(co, 8(х)) | со}} = М* {М* Щсо, 8(х)) | х }}.

Индекс оператора математического ожидания указывает перемен­ ную, по которой производится усреднение. Величина

M<0{L(co, 8(х)) | х}

называется апостериорной потерей при заданных наблюдениях х. Она соответствует среднему значению потерь, связанному с при­ нятием решения 8(х). Усреднение проводится по апостериорной плотности р(со | х ).

Классический подход к выбору правила решения 8 основан на использовании функции риска р$(со). Наилучшим правилом ре­ шения является решение 8, которое минимизирует функцию риска для всех со. Правило решения 8' называется допустимым, если не существует правила 8 такого, что неравенство р$(со) < ps/(co) справедливо для всех значений со.

Байесовский подход к выбору правила решения 8 для извест­ ной априорной плотности к(со) основан на использовании функции апостериорного риска ря(8). Наилучшим правилом решения в таком случае является то правило 8, которое дает наименьший апостери­ орный риск, т. е. рк(8) ^ рл(8') для любого 8'. При довольно общих предположениях можно доказать, что все допустимые решения яв­ ляются байесовскими решениями, т. е. если 8 — допустимое правило решения, то существует некоторая априорная плотность тс(со) такая, что правило 8 является байесовским решением для х(со). Если зада­ но правило решения, то существует байесовское правило, которое эквивалентно ему или является более предпочтительным.

Класс байесовских правил является полным классом. Если 8в — байесовское правило, то не существует правила, которое лучше, чем 8 в , для всех со. В то же время 8 в не всегда может быть до­ пустимым (например, если соответствующее априорное распреде­ ление тс(со) равно нулю для некоторых со).

Для выбора правила решения используется метод минимакса Неймана, согласно которому необходимо выбирать правило, мини­ мизирующее максимальный риск. Метод минимакса Неймана при­ водит к наиболее пессимистическому решению.

Пусть D пространство решений d; R пространство дохо­ дов г, которые можно получить в результате решения d и исхода эксперимента о; О, пространство возможных исходов эксперимен­ та со. Считаем заданной функцию распределения вероятности Р(со) на пространстве исходов ÇÎ. На множестве R задана функция по­ лезности и. Тогда для любой функции распределения вероятно­ сти Pair), для которой функция и интегрируема, средняя полезность

вычисляется по формуле

M {u|Pd} = J u ( r ) d P d(r) = | и(ы, d) dP(co).

R П

Следует выбрать решение d, максимизирующее M{u | Pd). Обыч­ но в задачах решения каждому доходу r e R принято сопоставлять не полезность, а ущерб, имеющий смысл отрицательной полезно­ сти: для всех исходов со е О, и всех решений d e D ущерб (потери) равен по величине функции потерь L(co, d), т. е. L(iо, d) = —и(и>, d). Вещественная функция потерь L((ù,d) задается на произведении П х D пространств. При любом (со, d) е П х D значение L(co, d) представляет собой ущерб от принятия решения d в случае исхода о.

Пусть Р(о>) — заданная функция распределения вероятности па­ раметра to. При всяком решении d e D средний ущерб р(Р, d), назы­ ваемый риском, определяется формулой

L(u>, d) dP(oi).

Выбирается такое решение d, при котором минимизируется функция риска р(Р, d).

Пусть О — параметрическое пространство с параметром, прини­ мающим значения со. Для всякого распределения Р(со) параметра со байесовский риск р*(Р) определяется как точная нижняя грань рис­ ков р(Р(со), d) по всем решениям d e D:

р*(Р) = inf р(Р(со), d).

Каждое решение d*, риск которого равен байесовскому риску, называется байесовским решением при распределении Р(со), т. е. р*(Р) = р(Р(со), d*). В ряде случаев байесовское решение мо­ жет не достигаться.

Во многих задачах удобно использовать неотрицательные функ­ ции потерь. Оказывается, любую функцию потерь можно заменить неотрицательным ее аналогом. Рассмотрим новую функцию потерь L Q ( CO, d), определяемую по начальной функции потерь следующим

образом:

L Q((Ù, d) = оiL(o), d) + Х(о>), to £ f2, d £ D,

где а — числовой коэффициент, Х(б>) — некоторая функция. Исходной функции L(o), d) соответствует риск р(Р(ы), d), а функ­

ции Lo(w, d) — риск po(P(w), d). Тогда для любых значений d \e D

и d2 £ D соотношения ро(Р(а>), d\) < ро(Р(ы), d2) и р(Р(о>), d\) < < р(Р(м), di) равносильны. В частности, решение d* тогда и только тогда является байесовским при распределении Р(оз) для исходной задачи, когда оно является байесовским решением при Р(ы) для новой задачи с функцией потерь L Q((Ù, d). Выбирая функцию Х(<о) и ее знак, можно получить Lo(co, d)~^0 при всех о>eÇl, d e D. Тогда inf L(w, d) = 0.

В любой задаче принятия решения байесовский риск р*(Р(со)) является вогнутой функцией от распределения Р(ы) параметра о>, т. е. для любых распределений Pi (со) и Р2(ы) параметра со и для любого числа а такого, что 0 ^ а ^ 1, выполнено неравенство

P*[otP 1(со) + (1 - <х)Р2(со)] ^ ар*(Р,(со)) + (1 - а)р*(Р2(со)).

В общем случае байесовский риск мало чувствителен к ошибке (приращению) в выборе значения распределения Р(со) параметра со; если функция р*(Р(со)) кусочно линейна, то приращение Др*(Р(со)) равно нулю, когда приращение ДР(со) содержится в интервале ли­ нейности функции р*(Р(со)).

Критерии выбора стратегии решений

Критерий Байеса — правило, в соответствии с которым стра­ тегия решений выбирается таким образом, чтобы обеспечить ми­ нимум среднего риска. Стратегию, основанную на этом правиле, называют байесовской стратегией, а минимальный средний риск —

байесовским риском.

Байесовский подход состоит в вычислении условных апостери­ орных вероятностей и принятии решений на основе их сравнения.

Если число классов равно т , а значение признака, получен­ ное в опыте, рассматриваемого объекта равно хо, то апостериорная

вероятность события, состоящего в том, что объект относится к клас­ су (x>i, вычисляется по формуле

 

P((Oi)p(a;o | Oj)

P(toj | х = яо) = 771

£

P(ui)p(zo I toi)

i= l

Или, в другой трактовке, при

с\\ = с22 = 0 объект относится

к классу toi, если

C nP (tol)

р(х 1to2)

p ( x |t o j )

C2lP (to2)'

Минимаксный критерий используется, если априорные вероят­ ности появления объектов to*, г = 1 ,2 , неизвестны. Мини­ максная стратегия состоит в том, что решение о принадлежности неизвестного объекта соответствующему классу toi принимается на основе байесовской стратегии, соответствующей такому значе­ нию P(toj), при котором средний риск минимален. При наличии классов ц и ы 2 средний риск с учетом того, что

P(to2) = 1 - P(toi),

Cl 1= С22 =

о,

определяется по формуле

 

 

Р = P(<*>l)Cl2 J р(ж I U>\)dx + [1 —P(toi)]C21

Jр(ж I 2)dx.

Ri

 

Ri

dp

нулю, в некоторой точке XQ

Приравнивая производную

5[P (to,)]

 

получим

 

 

C12 I p(x | toi)dx = C21

J p(x | to2) dx

Ri

# i

 

Если измеренное значение признака х меньше XQ, то объект принадлежит классу toi, или если х > хо , то объект принадлежит классу to2. Данный подход приводит к следующему пороговому зна­ чению коэффициента правдоподобия:

W _

£12

P l(to i)

0

С21

1 - P l ( t o , ) ’

где Pi (toi) —точка максимума функции р = p(P(toi)).

Тогда объект принадлежит классу toi, если Х(х) < Хд, и объект принадлежит классу to2, если X(æ) > XQ.

Критерий Неймана—Пирсона используется, если неизвестны априорные вероятности появления объектов соответствующих клас­ сов и платежная матрица ||с||.

Для построения алгоритма классификации задается допустимое значение условной вероятности ошибки первого рода а, затем опре­ деляется такая граница между классами, придерживаясь которой, удается добиться минимума условной вероятности ошибки второго рода р.

Пусть принято, что допустимая условная вероятность ошиб­ ки первого рода не должна превышать постоянной величины А, т. е. а ^ А. Требуется определить решение хо задачи

 

 

X

min В = min

p(z | <02) dz

X

X

J

 

 

—0 0

при ограничении вида

+о о

а= J p(z I <ù\)dz < А.

X

Очевидно, что решение хо удовлетворяет уравнению

+ о о

J p(x\<ù\)dx = А.

Хо

Для решения задачи строят рабочую характеристику функ­ цию 1 —р, зависящую от а. Если а = 0, то р = 1 и 1 —р = 0; если а = 1 , т о р = 0 и 1 —р = 1. Вычислим

д(1 ~Р) _

д(1 -Р )/д х 0 _

р(хо | о>2) _

да

да/дхо

р(хо I wi)

Поскольку тангенс угла наклона касательной к рабочей харак­ теристике равен Хо, то для определения а и 1 —р найдем точку на рабочей характеристике, в которой

_ С12Р(ш )

°с21Р(со2)-

Ордината этой точки определяет условную вероятность правиль­ ного решения, а абсцисса — условную вероятность ошибки первого

рода. Причем надо учесть, что производная от среднего риска р по априорной вероятности P(G)I ) в точке его максимума равна ну­ лю, т. е.

=

С ц ( 1

- а ) +

С 1

- С22(1 -

P) - c2iP = 0 .

В координатах

а и

1 —р

это

уравнение

прямой линии. При

с\\ = С22 уравнение прямой имеет вид

1 —р = а Cil -С12 + 1

С21 “ С22

с угловым коэффициентом

, _ Cil — С12

С21 — С22

Координаты точки пересечения этой прямой с рабочей характери­ стикой определяют вероятности а и 1 —р в условиях применения минимаксного критерия. Тангенс угла наклона касательной в точке пересечения равен Хо.

Связь между статистической проверкой гипотез, теорией принятия решений и математическим программированием

На простом примере покажем связь между статистической про­ веркой гипотез, теорией принятия решений и математическим про­ граммированием. Пусть необходимо проверить выполнимость ги­ потезы Но при конкурирующей гипотезе Hi относительно значений параметра ы. В математической статистике для проверки гипотез задается уровень значимости а (вероятность события, состоящего в выборе гипотезы Н \, когда верна гипотеза Но), определяется зна­ чение р (вероятность события, состоящего в выборе гипотезы Щ , когда верна гипотеза Н \) и находится такое решение, при котором значение р минимально. В теории принятия решений для каждого правила решения 8 существует конечная вероятность а(8) выбо­ ра гипотезы Н \, когда верна гипотеза Щ , и вероятность р(8) вы­ бора гипотезы H Q, когда верна гипотеза Hi (табл. 6.1).

Для выбора решения определим функцию потерь, полагая, что она равна нулю для правильного решения (табл. 6.2).

11 — 4077

 

 

Таблица 6.1

 

Таблица 6.2

Вероятности Р(Но | со) и Р(Н\ | со)

Функция потерь

Гипотеза

Решение

Гипотеза

Решение

Но

Я,

Но

я ,

 

 

Н о

1 -<х(8)

«(8)

Н о

0

H i

(3(&)

1 —Р(8)

H i

h

0

В рамках байесовского подхода каждой из гипотез Щ и Н\ за­ дадим априорные вероятности и 1 —(i соответственно. Теперь необходимо выбрать такое правило принятия решения 5, которое минимизирует функцию

г ^ ь ) = ф ) 10[1 + т ш - \ 1).

Таким образом получена задача математического программирова­ ния: минимизировать линейную целевую функцию 7^(8) на области допустимых значений [а(8), (3(8)]. Можно доказать, что область до­ пустимых значений [а(8), (3(8)] выпукла, и тогда минимум функции г^(8) определяется координатами точки касания прямой г = lo\ia + -Hi(l —р)(3 с нижней границей допустимой области [а(8), (3(8)].

Оптимальное решение получается, если рассмотреть апосте­ риорную потерю при заданных наблюдениях х и соответственно условных вероятностях р(х \ Но) и р(х \ Н\). Ожидаемая потеря при выборе гипотезы Щ вычисляется по формуле

hP(H] \x) = h ( \ - y . ) p ( x \ H l),

ожидаемая потеря при выборе гипотезы Н\ по формуле

ZoP(#o | х) = 1о\хр(х | Но).

Здесь Р(Яо | х) и P (# i | х) соответственно апостериорные вероят­ ности того, что верны гипотезы Но и Hi при наблюдаемых значе­ ниях х.

Таким образом, правило решения с минимальным риском сле­ дующее: выбирается гипотеза Но, если выполнено неравенство

Ii(l - Ц)р(я I H i) < ky.p(x I Но),

Соседние файлы в папке книги