Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Сирл, С. Матричная алгебра в экономике

.pdf
Скачиваний:
20
Добавлен:
22.10.2023
Размер:
13.54 Mб
Скачать

и мы найдем, что х'5— х ’2, хё = хз, х\ =

 

х[ и т. д.

Таким образом,

даже принимая во внимание, что вектор х

'

=

Г

^

1

1

1 1

удовлетво­

 

 

 

^

 

ряет уравнению х' = х'Р, нельзя сказать, что стационарные вероят­

ности равны каждая так как состояние системы в любой будущий

период можно точно предсказать, если известно начальное состояние. Начав с состояния 1 в нулевой период, система попадает в него же в пе­ риоды 3, 6, 9, ..., в состояние 2 — в периоды 1, 4, 7, ..., в состояние 3 — в периоды 2, 5, 8...... Такая система называется периодической. Вектор х ', удовлетворяющий уравнению (1) в периодической системе, можно рассматривать как вектор вероятностей лишь в случае, когда начальное состояние системы неизвестно. В этом случае, если вероят­ ности каждого состояния системы в начальный момент равны, то ве­ роятность пребывания в любом из конкретных состояний в любой будущий период дается элементами х'1.

в) ПЕРИОДИЧЕСКИЕ МНОЖЕСТВА И ЭРГОДИЧЕСКИЕ СИСТЕМЫ

Даже если марковская цепь имеет одно или более переходных сос­ тояний, из этого не следует существования поглощающего состояния (или состояний). Но, предположим, система имеет такое множество состояний, что, однажды попав в него, она может делать переходы только внутри множества и никогда не покинет его. Такое множество называется периодическим множеством. Например, если система имеет матрицу Р,

~0,3

0,7

0

0

"

0,6

0,4

0

0

 

0

0,2

0,3

0,5

 

0,1

0,2

0,4

0,3

 

то, однажды достигнув того или другого из первых двух состояний,

*система будет оставаться в одном из них. Вероятность покинуть ка­

кое-либо из этих состояний равна нулю. Таким образом состояния 1 и 2 образуют периодическое множество.

Периодическое множество, которое имеет только одно состояние, является поглощающим состоянием. Это простейший случай периоди­ ческого множества. Так, в системе, имеющей матрицу Р,

Р = 0,2 0,8'

0 1

1Вектор вероятностей х' , рассматриваемый в этом примере, имеет и другую интерпретацию: это ожидаемая частота пребывания в каждом из состояний за долгий период временй. Система будет находиться в каждом из состояний в тече­ ние трети общего времени (если оно достаточно велико). Следовательно, если известно начальное состояние, но неизвестно число периодов, истекших с началь­ ного момента до настоящего времени, то элементы вектора х' можно рассмат­ ривать как вероятности, соответствующие различным состояниям.

210

рассмотренную раньше, состояние 2 есть периодическое множество (состоящее из одного состояния). Периодическое множество, содер­ жащее более чем одно состояние, иногда называется обобщенным поглощающим состоянием.

Система в целом может быть периодическим множеством. Говорят, что система является эргодтеской, если переход из произвольного состояния в любое другое состояние возможен за конечное число ша­ гов. Таким образом, если марковская цепь эргодична, полное мно­ жество состояний есть периодическое множество, если же эргодич­ ности нет, тогда в системе может быть более чем одно периодическое множество. Интерес представляют системы, содержащие более чем одно периодическое множество, потому что в этом случае стационарные вероятности не существуют, так как поведение системы по прошествии достаточно большого количества времени зависит от начального сос­ тояния.

Пример. Рассмотрим систему с матрицей Р.-

”0

1

0

0

1

0

0

0

0

0,3

0

0,7

0

0

0

1

Состояния 1 и 2 образуют периодическое множество, состояние 3 есть переходное состояние, а состояние 4 — второе периодическое мно­ жество (или другими словами, поглощающее состояние). При доста­ точно больших п вероятности пребывания в тех или иных состояниях зависят от начального состояния системы. Например, если начальным было состояние 1 или 2, то система будет как бы описывать цикл из этих двух состояний; если начать с состояния 4, то система навсег­ да останется в нем; если начальным будет состояние 3, то в 30% слу­

чаев

система будет переходить

в первое периодическое

множество

и в

70%

случаев — во

второе

периодическое

множество.

Элементы

вектора

вероятностей

%', удовлетворяющие

уравнению

х = х'Р

и равные

соответственно

 

 

 

в данном случае не имеют осмысленной интерпретации.

г) СУЩЕСТВОВАНИЕ СТАЦИОНАРНЫХ ВЕРОЯТНОСТЕЙ

Как установлено раньше, если система содержит более чем одно периодическое множество, то стационарных вероятностей не сущест­ вует. Однако даже если система эргодична, стационарные вероятности не всегда существуют, как, например, в периодической системе, рас­ смотренной в разделе б параграфа 3. Эта система была эргодической, тем не менее вероятности удаленных по времени состояний зависели от начального состояния.

211

Марковская цепь регулярна, если существует некоторое целое поло­ жительное число п, такое, что любой элемент матрицы Рп, исключая элементы, относящиеся к переходным состояниям, больше нуля. Если цепь регулярна, тогда можно показать, что при больших п матрица Рп стремится к предельной (назовем ее Р*), в которой все строки равны между собой и элементы которой совпадают с соответст­ вующими элементами вектора стационарных вероятностей х '. Стацио­ нарные вероятности существуют тогда и только тогда, когда система регулярна.

При проверке системы на регулярность переходные состояния не рассматриваются. Например, в системе с матрицей Р,

-0,6 0 0,4"

Р ^ 0,3 0,5 0,2 _0,7 0 0,3

состояние 2 есть переходное состояние с предельной вероятностью, рав­ ной нулю. Тогда система (вероятности, относящиеся к состоянию 2 исключаются из рассмотрения) удовлетворяет определению регуляр­ ной системы, и стационарные вероятности для состояний 1 и 3 дей­ ствительно существуют. Читатель может проверить, что с ростом п матрица Рп стремится к

7

4

11

0

11

7

4

 

0

11

И

7

4

 

0

11

11

матрице, у которой все строки одинаковы и совпадают с вектором стационарных вероятностей х ', удовлетворяющим равенству х' =

= х'Р.

Пример. Рассмотрим систему с матрицей

ГО,7

0,3

0 1

Р , . 0

0,8

0,2

0,4

0,3

0,3

Здесь нет переходных состояний. Чтобы проверить систему на регуляр­ ность, вычислим Рп для увеличивающихся значений п. Для п = 2

“0,49 0,45 0,06" Р2 0,08 0,70 0,22 .

0,40 0,45 0,15

каждый элемент больше 0. Таким образом, стационарные вероятности для этой системы будут существовать.

212

4. М А Р К О В С К И Е Ц ЕП И С В О З Н А Г Р А Ж Д Е Н И Е М

До сих пор мы рассматривали лишь вероятность пребывания в раз­ личных состояниях в различные периоды времени. Теперь добавим информацию, касающуюся вознаграждения, или выплаты, которые могут быть получены при переходах. Пусть ri} — вознаграждение, соответствующее переходу из состояния i в состояние /'; его можно интерпретировать как вознаграждение непосредственно за переход, либо как вознаграждение за пребывание в состоянии i (либо в состоя­ нии /) в течение одного периода времени. Первая интерпретация соот­ ветствует, например, такому случаю, когда состояниями являются места города, а переходами — перевозки пассажиров такси; Гц будет тогда прибылью, входящей в плату за проезд из места i в место /. Вторая интерпретация соответствует, например, случаю, когда состоя­ ниями являются альтернативные состояния некоторой машины; r i} может быть, например, прибылью, полученной при пребывании в состоянии i за период времени, предшествовавший переходу.

Теперь рассмотрим общее вознаграждение, которого можно ожи­ дать после я переходов, от периода 0 до периода я. Для этого пред­ положим, что в системе имеется N состояний, и обозначим через R матрицу вознаграждений:

~г1г

г12

... гш

R = г?

 

2N

г

•**

Г

L 7 .VI

f N N - l

Предположим, что система начинает функционировать с состояния i\ пусть Vi (я) — суммарное ожидаемое вознаграждение после я пере­

ходов, начинающихся с состояния г. Тогда

[v (я)]' [ох (я) и2 (я)...

. . . V n (n)] — вектор суммарного ожидаемого

вознаграждения

за я

переходов для каждого из N возможных начальных состояний

систе­

мы. Теперь предположим, что за первый переход система переходит в состояние /. Вознаграждение за этот переход равно гц. Кроме того, когда система достигла состояния /, ожидаемое вознаграждение после всех п переходов можно выразить как гц + Vj (п — 1), где слагаемое

V] (я —•

1)

представляет

ожидаемое

вознаграждение за

оставшиеся

(я — 1)

переходы, когда система начинает с состояния /.

Однако ве­

роятность

перехода из

состояния /

в состояние i равна

рц. Таким

образом, суммарное ожидаемое вознаграждение за я переходов, начи­ нающихся с состояния г, может быть записано как

Vi ( п) = V Р и [ г и Vj ( я —

1)] ==

v Р и г и

+ 2 Р и VJ (« — !)•

(8 )

J=i

 

/ = 1

/ = 1

 

Теперь запишем

N

 

 

 

 

 

 

 

4 i

= 2

P i l ГИ ' '

 

(9)

 

/= 1

 

 

213

так что qt представляет ожидаемое вознаграждение за следующий пере­ ход при условии, что г — текущее состояние. Тогда

Щ (п) = Яг +

2lPijV] (п— 1).

( 10)

 

/

i = 1,

Теперь в силу того,что уравнения (9) и (10) справедливы для

2, ..., N, уравнение (10) может быть записано в векторной форме:

v (п) =

q + Pv (п — 1),

(11)

где q' — [q1q2 ... q^-]. Из уравнения (9) видно, что qt является i-м диа­ гональным элементом матрицы PR' и, следовательно, q' есть векторстрока, состоящая из диагональных элементов матрицы P R '.

Если марковская цепь регулярна, тогда существуют стационарные вероятности. Стационарное ожидаемое вознаграждение за период дли­ ной g, может быть записано как сумма взвешенных ожидаемых воз­ награждений <7г, полученных при переходах из состояния i, при этом весами служат я г — стационарные вероятности пребывания в состоя­ нии i:

8 = i

или в векторной форме

8 = х'<7.

(12)

где вектор х — Тлу n2...njV] представляет собой вектор стационарных вероятностей.

Пример. Предположим, что R есть матрица вознаграждений (в дол­ ларах) для примера с машиной, приведенного в начале главы:

 

. 1

— 1.

 

Это означает, что в случаях, когда

машина

нормально работает

до и после перехода,

прибыль равна 2 долларам; в тех случаях, когда

она начинает работу

в нормальном состоянии,

но затем требует регу­

лировки после перехода (либо наоборот), прибыль равна 1 доллару; наконец, если машина не отрегулирована ни до, ни после перехода, то

потери равны 1 доллару. Пусть,

как это было задано ранее,

 

р __ Г 0,7

0,3“

 

 

 

" [0,6

0,4

 

 

и

 

 

 

 

 

0,7

0,3

'2

1 '

1,7

0,4-

0,6

0,4

1

— 1

.1,6

0,2

Тогда из (9) имеем

 

 

 

 

 

 

q' =

11,7

0,2].

 

 

2 1 4

Следовательно, в уравнении (11)

v (я) ~1,7

4_

0,2

пг

о

о СО

0,6 0,4

v(n — 1),

где мы полагаем v (0) = 0.

Тогда

 

о(1)

= ^1(1) '

1,7

0,2

 

_»а(1).

т. е. если машина начинает с рабочего состояния, ожидаемая прибыль за один период времени равна 1,70 доллара; если она начинает с сос­ тояния, требующего ремонта, ожидаемая прибыль равна 20 центам.

Ожидаемая прибыль за два периода может быть вычислена подоб­ ным же образом с помощью формулы (11) при я = 2:

 

v(2) = q + Pv(l)

1,7

__L

0,7

0,3"

' 1,7 '

"2,95"

 

0,2

t

0,6

0,4

_0,2

1,30

Заметим, что применение уравнения (11)

при я =

2 требует зна­

ния

величины и (1), а

при я = 3 для

этого уравнения необходимо

v (2).

Таким образом,

вектор

v (я) может быть вычислен для любого

я на

основе v (1) путем рекурсивного

применения уравнения (11).

Стационарное ожидаемое вознаграждение g вычисляется из урав­

нения (12):

 

 

 

 

g = x'q =

'2

1 ■ U

'

1, 2 0 .

_3

3 . .0,2.

Таким образом, если система работала

в

течение многих периодов

и неизвестно ее текущее состояние, то ожидаемая прибыль за следую­ щий (и любой последующий) период равна 1,20 доллара.

5.ОПТИМАЛЬНЫЕ СТРАТЕГИИ В МАРКОВСКИХ ЦЕПЯХ

Впредыдущем параграфе матрицу вознаграждений R мы брали

всочетании с матрицей вероятностей переходов Р для задания марков­ ской цепи с вознаграждениями, и было показано, как вычислить век­ торы и (я), элементы которых описывают ожидаемое вознаграждение, выдаваемое системой за п периодов, как функцию исходного состоя­ ния системы. Вплоть до этого момента в рассмотрение не включались никакие решения; модель просто описывала систему, которая не пре­ доставляла никаких альтернатив. Теперь предположим, что введены некоторые альтернативные решения, касающиеся поведения системы.

Внашем примере с машиной рассмотрим правило, определяющее некоторое решение: всегда ремонтируйте машину, если она этого тре­ бует. Если в качестве матрицы вознаграждений по-прежнему взять матрицу, приведенную ранее, и если стоимость ремонта машины равна

215

0,90 доллара, то важно ответить на такой вопрос: этому ли правилу

нужно следовать или

целесообразнее предпочесть правило «ничего

не делать». (Напомним,

что с вероятностью 0,6 машина регулируется

сама.)

 

Общий подход к решению этой проблемы состоит в рассмотрении

К

различных правил, определяющих соответствующие решения.

В

общем случае альтернативные решения могут воздействовать как

на матрицу вознаграждений, так и на матрицу переходных вероятно­

стей. В соответствии с этим положим, что р(ц , Р (к\

, q{kP иqW

представляют соответствующие символы в случае, когда

выбрано £-е

решающее правило.

 

Заметим, что верхний индекс (£) в данном случае указывает, что выбрано £-е решение; он не означает возведения в степень. Теперь под vt (я) мы будем подразумевать максимальное ожидаемое вознагражде­ ние за п переходов при условии, что система находится в настоящее время в состоянии i и в каждом из последующих периодов принимаются оптимальные решения. Теперь щ (п) можно записать в следующем виде:

пг (я) = Max

v

р<*> [r\f + V j ( n

1)], г = 1, 2,

..., N.

W

j—i

 

 

 

Символ Мах указывает,

что производится максимизация по множеству

{k}

£ = 1 , 2 ,...,

К-

В матричных

обозначениях:

возможных решений,

v (я) = Мах {qW +

Р(/г) v (п — 1)}>

(13)

 

 

{*}

 

 

 

где прободятся N независимых максимизаций в уравнении (13) по од­

ной для каждого из

элементов v (я),

т. е. по одной для каждого

из возможных начальных состояний.

 

 

Решение проблемы выбора решений происходит следующим обра­ зом. Вначале решают все уравнения (13) при я = 1, находя для каждого начального состояния i оптимальное решение, т. е. то значе­ ние £, которое максимизирует правую часть соответствующего из урав­ нений (13)1. Пусть вектор оптимальных решений для случая, когда должны пройти я периодов, обозначается

d (я) = Ыг (я) d2(n) ... dN (я)]'.

Тогда dt (я) есть оптимальное решение для случая, когда система на­ ходится в состоянии г и должно пройти я периодов. Решение уравне­ ний (13) получается непосредственно, поскольку v (0) = 0, и уравне­ ния преобразуются к виду:

v (1) = Мах {<7(ft)}.

(14)

{*}

 

Максимизирующее значение k может быть найдено полным перебором.

2 1 6

Как только уравнения (13) решены для каждого элемента v (1), оп­ тимальные решения записываются в виде вектораd(\), где i-й элемент di (1) есть целое число в диапазоне от 1 до К, которое максимизирует ожидаемое вознаграждение за один переход при условии, что система

начинает с состояния i.

Затем уравнения (13) решают при п = 2,

записывая

оптимальные

решения в вектор й (2). Далее переходят

к п = 3, 4,

... и так далее до тех пор, пока не будет достигнуто желае­

мое число периодов. Затем рассматривают множество векторов опти­ мальных решений {d (n), d (п —■1), ..., d (1)}, задающее оптимальную стратегию. Оптимальная стратегия используется следующим обра­ зом: если должно пройти п периодов и система находится в состоянии г, то применяют решение k = di (/г). Затем после перехода система по­ падает в некоторое новое состояние (назовем его /'). Теперь остался (п — 1) период, и оптимальное решение есть k = dj (п — 1). Подоб­ ным образом векторы оптимальных решений позволяют нам принимать оптимальные решения безотносительно к тому, в какие состояния пе­ реходит система; как уже упоминалось, для случая, когда система, начинает с состояния i, максимальное ожидаемое вознаграждение за п периодов задается величиной vt (п).

Пример. В нашем примере с машиной положим в качестве решаю­ щего правила для k — 1 правило «не делать ничего», а для k = 2 — правило «всегда ремонтировать машину, если она этого требует». Пусть стоимость ремонта равна 0,90 доллара. При действии по пра­

вилу 1 (не делать ничего)

матрицы Р и R остаются такими же, как

и раньше:

 

 

 

 

р( 1)

0,7

0,3"

£<!)=:

2

0,6

0,4J ’

1

 

 

При действии по правилу 2 (всегда ремонтировать машину, если она этого требует) матрицы Р и R будут такими:

р (2 ) =

О V)

о со

Р<2> = Г

2

1 '

 

 

 

 

1

0 J

/ h —0,9

— 1 _

Мы видим, что в этих матрицах зафиксированы безусловный пе­ реход из состояния 2 в состояние 1 и стоимость ремонта (0,90 долла­ ра), связанного с этим переходом.

Зная Р(к) и R W , мы можем получить q(k\ воспользовавшись урав­ нениями (9):

?< Ч 1,7

1,7

 

 

 

 

7(2) =

 

 

 

 

L 0,2

0,1

 

 

 

 

Теперь мы запишем уравнения (13) для п =

1:

 

 

 

v (1) =^Мах{<7<*)} ^M ax ^ O ,

q(2)} =:Мах I

1,7

»

1,7

(15)

(А)

( .0,2

 

.0 ,1 .

 

2 1 7

где максимизация выполняется отдельно для двух элементов а(1). Для элемента уг (1) имеет место совпадение двух величин, и мы про­ извольно выбираем правило 2 как оптимальное решение. Для элемен­ та v2 (1) правило 1 (ничего не делать) максимизирует выражение. Таким образом, вектор оптимальных решений d (1) имеет вид:

d ( 1) = Ыг (\) 4 (1 )]' = [2 1]'.

(16)

Если следовать вектору оптимальных решений, то уравнение (15) будет таким:

 

 

 

у(1)

' 1,7

'

 

 

 

(17)

 

 

 

°,2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Теперь рассмотрим

уравнение

(13)

при

п = 2:

 

о(2) - Мах {?<*> Д Я<*» о (1)} = Max {<?<1) +

Р<1>v (1),

qW +

pw v (1)} =

W

 

 

 

 

 

 

 

 

 

 

= Max.

1,7

0,7

0,3'

1,7

>

1,7'

1

0,7

0,3

1,7'

0,2

0,6

0,4

.0,2

 

п

 

0

0,2

 

.0,1.

 

 

 

 

—Мах |

2,95'

)

2,95

1

 

 

(18)

 

 

 

 

1,30

1,80

Г

 

 

Для элемента v1 (2) снова имеет место совпадение, и мы опять про­ извольно выбираем правило 2 в качестве оптимального решения1. Для элемента о2 (2) оптимальным решением будет правило 2 (всегда ремонтировать машину, если она этого требует). Вектор оптимальных решений для периода 2 имеет вид:

d (2) = Ыг (2) dt (2)]' = [2 2]',

(19)

и если следовать оптимальным решениям в течение обоих периодов,

•то уравнение (19) будет таким:

о(2)

'2,95'

(20)

1,80

 

 

Эта процедура может быть повторена при п = 3, 4, ... до тех пор, пока не будет пройдено нужное количество периодов.

Для п — 3

v (3) = Мах {д(/г) -|- Р</г) v (2)} =

 

 

{h}

 

 

 

 

 

 

 

Мах "1,7'

1

"0,7

0,3

2,95

'

1,7

0,7

0,3"

"2,95"

0,2.

0,6

0,4

1,80

)

.0,1

+ 1

0

1,80

 

 

 

'4,305

5

"4,305"

4,305'

 

(21)

 

 

 

2,69

3,05

Г

3,05

 

 

 

 

 

 

 

1 Для первого элемента v(n) всегда будет иметь место совпадение, поскольку оба решающих правила идентичны для состояния 1 (ничего не делать).

2 1 8

при этом

d (3) = [2 2]'.

Заметим, что если до конца остался лишь один период времени, то неоптимально ремонтировать машину, а если до конца осталось два или три периода, то будет оптимально ее отремонтировать, если она находится в состоянии 2 (требует регулировки)1.

а) ОПТИМАЛЬНЫЕ СТАЦИОНАРНЫЕ СТРАТЕГИИ

Только что рассмотренный метод решения позволяет нам получить оптимальные решающие правила для случая, когда до конца осталось п переходов. Предположим, что мы заинтересованы в прибыльности системы в течение большого срока времени и хотели бы максимизиро­ вать ожидаемое вознаграждение g за период. Эта задача может быть решена повторным применением методов, описанных в параграфе 4, т. е. мы можем взять по очереди все решающие правила, вычислить соответствующие матрицы Р и R, вектор стационарных вероятностей х', вектор ожидаемого вознаграждения за следующий период q и ожи­ даемое стационарное вознаграждение g = x'q. Тогда простое сравне­ ние величин g для различных решающих правил определит оптималь­ ную стационарную стратегию, т. е. то решающее правило, которое максимизирует стационарное ожидаемое вознаграждение,? за период2. Например, стационарной стратегией для примера из предыдущего параграфа, максимизирующей ожидаемое вознаграждение, является «ремонтировать машину, если она этого требует», и ожидаемое вознаг­ раждение равно 1,33 доллара за период (см. упражнение 13).

б) ОПТИМАЛЬНЫЕ СТРАТЕГИИ С ДИСКОНТОМ

Во многих проблемах экономики при рассмотрении денежных потоков в различные моменты времени следует принимать во внима­ ние изменение стоимости денег с течением времени. По этой причине было бы весьма желательным иметь возможность дисконтирования будущих доходов; ктомуже привлечение соображений, связанных сдисконтированием, к нашей проблеме выбора решения приведет к тому, что полученная оптимальная стратегия будет быстрее сходиться к опти­ мальной стационарной стратегии при п, стремящемся к бесконечности.

Дисконтирование непосредственно дополняет рассмотренную на-

ми схему; пусть а = ^ 1 ^ — дисконтный множитель, соответствую­

1Общее применение рекурсивной оптимизации, которую мы только что опи­ сали, называется динамическим программированием. Для предварительного ознакомления см. [3], а для более полного изучения см. [1] или [2 ].

Существуют другие методы, которые обеспечивают систематический поиск оптимальной стационарной стратегии без анализа всех возможностей, см. [5].

2 1 9

Соседние файлы в папке книги из ГПНТБ