Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

практикум по математике часть 3

.pdf
Скачиваний:
121
Добавлен:
15.02.2015
Размер:
4.76 Mб
Скачать

5. СЛУЧАЙНЫЕ ПРОЦЕССЫ. ЭЛЕМЕНТЫ ТЕОРИИ ИГР

5.1. Краткие сведения из теории

Марковские случайные процессы.

В общем виде случайный, или стохастический, процесс определяется просто как некая упорядоченная совокупность случайных величин. Большинство случайных процессов представлены в виде математических моделей: простое случайное блуждание, рекуррентные события, цепи Маркова, Пуассоновский процесс, процессы восстановления, Броуновское движение (или процесс Винера). Модель простого случайного блуждания используется для описания движения «дырок» в молекулярных структурах кристаллов. Первые три процесса являются дискретными во времени, другие же модели, описывают процессы, проистекающие во времени непрерывно.

Цепью Маркова называют последовательность испытаний, в каждом из которых появляется только одно из k несовместных событий A1, A2, …, Ak, если условная вероятность pij(s) того, что в s-м испытании наступит Aj (j = 1, 2, …, k) зависит только от того, каким было событие, произошедшее в (s – 1)- м испытании и не зависит от результатов предшествующих событий. Заметим, что независимые испытания являются частным случаем цепей Маркова. Далее будем использовать терминологию, применяемую при изучении цепей Маркова.

Рассмотрим некую систему S. Говорят, что в системе происходит случайный процесс, если она под влиянием случайных факторов переходит из одного состояния в другое. Цепью Маркова с дискретным временем

называют цепь, изменение состояний которой происходит в определенные фиксированные моменты времени. Цепью Маркова с непрерывным временем

называют цепь, изменение состояний которой происходит в любые случайные возможные моменты времени.

Однородной называют цепь Маркова, если условная вероятность не зависит от номера испытания. Переходной вероятностью pij называют условную вероятность того, что из состояния i (в котором система оказалась в результате некоторого, безразлично какого номера испытания) в итоге следующего испытания перейдет в состояние j. Матрицей перехода системы называют матрицу, которая содержит все переходные вероятности этой системы:

 

p

 

p

K p

 

 

 

11

p

12

K p

1k

 

P1

p

21

22

 

,

=

 

 

 

2k

 

 

L

L

L L

 

 

p

k1

p

k2

K p

 

 

 

 

 

 

 

kk

 

80

k

 

причем pij

=1 (i =1, 2,K, k).

j=1

 

Пусть в результате n шагов вероятность перехода системы из состояния i в состояние j равна Pij(n) . Введем в рассмотрение промежуточное состояние r, в которое переходит система за m шагов с вероятностью Pjr (m), после чего за оставшиеся (n–m) из промежуточного состояния r она перейдет в конечное состояние j с вероятностью Prj (n–m). По формуле полной вероятности,

k

Pjr (m) = Pir (m)Prj (n m).

r=1

Эту формулу называют равенством Маркова.

Основные понятия теории игр

В лекциях по теории оптимизации рассматривались такие задачи принятия решений, когда выбор решения осуществлялся одним лицом. В подобных задачах рационального ведения хозяйства решение выбирается при предположении о том, что известны целевая функция, различные способы действия и ограничения.

В данной случае рассматриваются задачи принятия решений в ситуациях с несколькими участниками, когда значение целевой функции для каждого из субъектов зависит и от решений, принимаемых всеми остальными участниками. Предметом теории игр являются такие ситуации в которых важную роль играют конфликты и совместные действия.

Одна из характерных черт всякого общественного, социальноэкономического явления состоит в множественности, многосторонности интересов и наличии сторон, выражающих эти интересы. Классическими примерами здесь являются ситуации, где, с одной стороны, имеется один покупатель, с другой — продавец (ситуация монополия-монопсония), когда на рынок выходят несколько производителей, обладающих достаточной силой для воздействия на цену товара (ситуация олигополии, в том числе дуополии, если число таких участников равно двум). Более сложные ситуации подобного рода возникают , если имеется объединения или коалиции лиц, участвующих в столкновении интересов, например, в случае , когда ставки заработной платы определяются союзами или объединениями рабочих и предпринимателей, при анализе результатов голосования в парламенте и т.п.

Конфликт может возникнуть из различия целей, которые отражают не только несовпадающие интересы различных сторон, но и многосторонние интересы одного и того же лица. Например, разработчик экономической политики обычно преследует разнообразные цели, согласуя противоречивые требования, предъявляемые к ситуации (рост объемов производства, повышение доходов, снижение экологической нагрузки и т.п.) Конфликт

81

может проявляться не только в результате сознательных действий различных участников, но и как результат действия тех или иных «стихийных сил» (случай так называемых «игр с природой»). Множество подобных примеров можно встретить в биологии, социологии, психологии, политологии, военном деле и т.д.

И, наконец, примерами игр являются обычные игры: салонные, спортивные, карточные и др. Именно с анализа подобных игр начиналась математическая теория игр; они и по сей день служат прекрасным материалом для иллюстрации положений и выводов этой теории.

Витоге, всякая претендующая на адекватность математическая модель социально-экономического явления должна отражать присущие ему черты конфликта, т.е. описывать:

a)множество заинтересованных сторон (мы будем называть их игроками; в литературе по теории игр они именуются также субъектами, лицами, сторонами, участниками). В случае, если число игроков конечно, они различаются по своим номерам (1-й игрок и 2-й игрок в игре в орлянку или в случае двуполий) или по присваиваемым им именам (например Продавец и Покупатель в ситуации монополия-монопсония);

b)возможные действия каждой из сторон, именуемые также

стратегиями или ходами;

c)интересы сторон, представленные функциями выигрыша (платежа) для каждого из игроков.

Втеории игр предполагается, что функции выигрыша и множество стратегий, доступных каждому из игроков, общеизвестны, т.е. каждый игрок знает свою функцию выигрыша и набор имеющихся в его распоряжении стратегий, а также функции выигрыша и стратегии всех остальных игроков, и

всоответствии с этой информацией организует свое поведение. Формализация содержательного описания конфликта представляет

собой его математическую модель, которую называют игрой.

Теория игр впервые была систематически изложена Дж. фон Нейманом и О. Монгенштерном в 1944 г., хотя отдельные результаты были опубликованы еще в 20-х годах. Нейман и Моргенштерн написали оригинальную книгу, которая содержала главным образом экономические примеры, поскольку экономическому конфликту легче придать численную форму. Во время второй мировой войны и сразу после нее теорией игр серьезно заинтересовались военные, которые увидели в ней аппарат для исследования стратегических решений. Затем главное внимание снова стало уделяется экономическим проблемам. Сейчас ведется большая работа, направленная на расширение сферы применения теории игр.

Теория игр

В теории матричных игр рассматриваются вопросы поведения и вырабатываются оптимальные правила (стратегии) поведения для каждого

82

из участников конфликтной или состязательной ситуации. В матричных играх источником неопределенности является отсутствие информации о действиях противника, о его стратегии. Для решения задач теории матричных игр недостаточно аппарата классической оптимизации функций. За последние годы были развиты новые математические методы теории игр

— методы нахождения оптимальных минимаксных решений.

Изучение методов теории игр и их применение в народнохозяйственной деятельности оказывает большую помощь в практической деятельности людей: в совершенствовании подготовки и принятия решений, в управлении сложными системами.

Классификация игр

Различные виды игр можно классифицировать, основываясь на том или ином принципе: по числу игроков, по числу стратегий, по свойствам функций выигрыша, по возможности предварительных переговоров и взаимодействия между игроками в ходе игры.

В зависимости от числа игроков различают с двумя, тремя и более участниками. Весь материал, представленный в теории оптимизации, можно рассматривать как теорию игр с одним игроком. В принципе возможны игры с бесконечным числом игроков.

Согласно другому принципу классификации – по количеству стратегий – различают конечные и бесконечные игры. В конечных играх игроки располагают конечным числом возможных стратегий, например, и игре в орлянку игроки имеют по два возможных хода – они могут выбрать «орел» или «решку».

Сами стратегии в конечных играх нередко называются чистыми стратегиями смысл этого названия будет ясен далее . Соответственно, в бесконечных играх игроки имеют бесконечное число возможных стратегий – так, в ситуации Продавец –Покупатель каждый из игроков может назвать любую устраивающую его цену и количество продаваемого (покупаемого) товара.

Третий способ классификации игр – по свойствам функций выигрыша (платежных функций). Важным случаем в теории игр является ситуация, когда выигрыш одного из игроков равен проигрышу другого, т.е. налицо прямой конфликт между игроками. Подобные игры называются играми с нулевой суммой, или антагонистическими играми. Игры в орлянку или в очко – типичные примеры антагонистических игр. Прямой противоположностью играм такого типа являются игры с постоянной разностью, в которых игроки и выигрывают, и проигрывают одновременно , так что им выгодно действовать сообща . Между этими крайними случаями имеется множество игр с ненулевой суммой, где имеются и конфликты ,и согласованные действия игроков.

83

В зависимости от возможности предварительных переговоров между игроками различают кооперативные и некооперативные игры. Игра называется кооперативной, если до начала игроки образуют коалиции и принимают взаимообязывающие соглашения о своих стратегиях. Игра, в которой игроки не могут координировать свои стратегии подобным образом, называется некооперативной. Очевидно, что все антагонистические игры могут служить примером некооперативных игр. Примером кооперативной игры может служить ситуация образований коалиций в парламенте для принятия путем голосования решения, так или иначе затрагивающего интересы участников голосования.

Формальное представление игр

Дадим формальное описание перечисленных элементов конфликта. Множество всех игроков, обозначаемое I, в случае конечного их числа может задаваться простым перечислением игроков. Например, I ={1,2} при игре в

орлянку, I ={Продавец, Покупатель} в ситуации монополия-монопсония, I ={1,2,K,n} в случае анализа результатов голосования в парламенте.

Множество стратегий игрока i обозначим через Xi. При игре в орлянку каждый игрок располагает двумя стратегиями: Xi ={Орел, Решка}; каждый

участник голосования имеет выбор на множестве стратегий {За, Против}. В

случае взаимодействия на рынке как Продавец, так и Покупатель могут назначить некоторую неотрицательную цену на продаваемый (покупаемый)

товар, те множество стратегий каждого из них

Xi : Pi > 0 .

стратегию xi X i

В

каждой партии

игрок выбирает

некоторую свою

в

результате чего

складывается

набор

стратегий

x ={x1, x2 ,K, xn },

называемый ситуацией. Так, ситуацию в Парламенте описывает список {За, За, Против, ЗаK}, полученный в итоге проведенного голосования.

Заинтересованность игроков в ситуациях проявляется в том, что каждому игроку i в каждой ситуации x приписывается число. выражающее степень удовлетворения его интересов в данной ситуации. Это число называется выигрышем игрока i и обозначается через hi (x), а соответствие

между набором ситуаций и выигрышем игрока i называется функцией выигрыша (платежной функцией) этого игрока Hi .

В случае конечной игры двух лиц функции выигрыша каждого из игроков удобно представлять в виде матрицы выигрышей, где строки представляют стратегии одного игрока, столбцы – стратегии другого игрока, а в клетках матрицы указываются выигрыши каждого из игроков в каждой из образующихся ситуаций. (Данная форма представления к конченых игр двух лиц объясняет общее для них название – матричные игры).

84

Например, в случае игры в орлянку каждый из игроков имеет по две стратегии, именуемые Орел и Решка. Если игроки выбирают одинаковые стратегии, т.е. в случаях, если оба говорят «Орел» или оба говорят «Решка», 1-й игрок выигрывает 1 рубль, а второй игрок проигрывает 1 рубль. В ситуациях, когда оба игрока выбирают различные стратегии, 1-й игрок проигрывает 1 рубль, а 2-й игрок соответственно этот 1 рубль выигрывает.

В итоге матрица выигрышей 1-го игрока H1 выглядит следующим образом:

 

 

Стратегия 2-го игрока

Стратегии 1-го игрока

Орел

Орел

 

Решка

 

1

1

 

 

 

 

 

 

Решка

 

1

 

 

 

1

Соответственно матрица выигрышей 2-го игрока H2 , имеет вид:

 

 

Стратегия 2-го игрока

Стратегии 1-го игрока

Орел

Орел

 

Решка

1

1

 

 

 

 

 

 

Решка

 

1

 

 

 

1

Для антагонистических игр, в которых выигрыш одного игрока равен проигрышу другого (игр с нулевой суммой), выполняется соотношение H1 = −H2 . Игра в орлянку, очевидно, является примером такой игры.

Часто для наглядности матрицы выигрышей для обоих игроков совмещают в одну, которая дает полное представление о всей игре:

 

 

Стратегия 2-го игрока

Стратегии 1-го игрока

Орел

Орел

Решка

(1;1)

(1;1)

 

 

 

 

 

Решка

 

 

 

(1;1)

(1;1)

В каждой клетке этой матрицы слева указаны значения выигрыша 1-го игрока, справа – значения выигрыша 2-го игрока.

Рассмотрим пример задания матрицы выигрышей для игры с ненулевой суммой, называемой в литературе по теории игр Дилемма Заключенного. Содержание игры следующее: два преступника ожидают приговора суда за совершенное злодеяние. Адвокат конфиденциально стремится каждому из преступников облегчить его участь (или даже освободить!), если он сознается и даст показания против сообщника, которому грозит угодить в тюрьму за совершенное преступление на 10 лет. Если никто не сознается, то обоим угрожает заключение на определенный срок (скажем ,1 год) по обвинению в незначительном преступлении. Если сознаются оба преступника, то, с учетом чистосердечного признания, им грозит попасть в

85

i =1, 2, 3,K,m

тюрьму на 5 лет. Каждый заключенный имеет на выбор 2 стратегии: не сознаваться или сознаваться, выдав при этом сообщника. В итоге можно получить следующую матрицу «выигрышей» для обоих игроков:

 

 

Стратегия 2-го игрока

Стратегии 1-го игрока

Сознаться

Сознаться

Не сознаться

 

(5;5)

(0;10)

 

 

 

 

 

 

Не

 

(10;0)

 

 

 

(1;1)

 

сознаться

 

 

 

Приведем, наконец, пример записи функции выигрыша для бесконечной игры. В случае дуополии каждый из игроков может объявить цену pi, по которой он хотел бы продать некоторое количество товара. При этом предполагается, что потребители приобретают товар у фирмы, объявившей меньшую цену, или распределяют свой спрос поровну между фирмами в случае, если они назначали одинаковую цену. Если функцию спроса в зависимости от цены товара обозначить как d(p), то функция

выигрыша 1-й фирмы П1(p1,p2) будет иметь вид

 

 

 

 

 

 

p1d(p1 ),

 

если

p1

< p2

,

 

 

 

 

d(p

)

 

 

 

 

 

 

П

(p1,p2) =

 

p

1

 

,

если

p

= p

2

,

 

 

1

 

1

2

 

 

 

1

 

 

 

 

 

 

 

 

если

p1

> p2 .

 

 

0,

 

 

 

Аналогично выглядит функция выигрыша 2-й фирмы П2(p1,p2).

Игры с нулевой суммой (антагонистические игры).

Простейшим видом матричной игры является парная игра двух лиц I и II с нулевой суммой (сумма выигрышей сторон I и II равна нулю).

Пусть каждый из игроков располагает некоторой совокупностью согласованных с правилами игры способов поведения, отнесенных к одноразовой реализации игры. Эти способы поведения назовем стратегиями (или чистыми стратегиями). Перенумеруем стратегии первого игрока индексом , второго — индексом j =1, 2, 3,K,n .

Предположим, что если I игрок выбирает i ю стратегию, а II — j ю

стратегию, то этим определяется результат игры, характеризующийся скалярной величиной aij , интерпретируемой как плата первому игроку

вторым (если aij < 0, то игрок I платит игроку II сумму aij ).

Следовательно, игра задается матрицей

 

a

a

K a

 

11

12

1n

a21

a22

K a2n

K

K K K

 

 

 

 

 

 

 

 

am1

am2 K amn

86

Строки матрицы соответствуют стратегиям i игрока I, столбцы — стратегиям j игрока II. Матрица называется матрицей игры или платежной

матрицей. Элемент aij матрицы есть выигрыш первого игрока, если он выбрал стратегию i , а второй игрок выбрал стратегию j . Если игрок I

выбирает стратегию i , то в наихудшем случае он получит выигрыш, равный

min aij . Поэтому игрок I должен выбрать такую стратегию, чтобы

j

максимизировать свой минимальный выигрышα — нижняя цена игры.

 

 

α = max min aij = ai

j

 

 

 

i

j

0

0

 

Стратегия i0 , обеспечивающая получение нижней цены игры,

называется максиминной.

 

 

j

 

Игрок II при выборе некоторой стратегии

исходит из того, чтобы его

проигрыш

не

превосходил максимального

из

значений j -го столбца

матрицы,

т.е.

был меньше или равен

max aij . Игрок II будет стремиться

 

 

 

 

i

 

 

выбрать такую стратегию j , при которой его максимальный проигрыш β

(верхняя цена игры) был бы минимален:

α = minj maxi aij = ai1 j1

Стратегия j1 , обеспечивающая получение верхней цены игры,

называется минимаксной. При разумных действиях игроков выигрыш игрока I заключен между величинами α и β . Если α = β , то полученная величина v называется значением (ценой) игры. Элемент ai0 j0 называется седловым

элементом, а пара (i0 , j0 ) стратегий — седловой точкой. Игры, имеющие цену, называются играми с седловой точкой. Седловая точка (i0 , j0 )

определяет оптимальные стратегии игроков, являющиеся решением игры. Итак, если матрица игры имеет седловой элемент, то оптимальное решение игры определяется этим седловым элементом.

Решение игры в смешанной стратегии.

Рассмотрим вопрос о нахождении решений для игр, матрицы которых не содержат седлового элемента (α < β). Расширим понятие чистой стратегии и ведем понятие смешанной стратегии.

Смешанной стратегией игрока I будем называть неотрицательный вектор x = (x1,K, xm ) такой, что x1 +K+ xm =1. Здесь вектор x представляет собой набор вероятностей (x1,K, xm ), с которыми игрок применяет свои первоначальные стратегии. Аналогично смешанной стратегией игрока II будем называть неотрицательный вектор y = (y1,K, yn ), y1 +K+ yn =1.

87

При таком решении чистые стратегии игроков могут пониматься как xi = (0,K, xi =1,0,K0) i я чистая стратегия игрока I, y j = (0,K, y j =1,0,K0)j я чистая стратегия игрока II.

Под платежной функцией будет пониматься

E(x, y)= aij xi y j ,

так что

E(xi , y j )= E(i, j) = aij ,

Положим

Y ={y = (y1,K, yn )0 : y1 +K+ yn =1} X ={x = (x1,K, xm )0 : x1 +K+ xm =1}

Одна из естественных постановок игры диктуется следующими рассуждениями. Если игрок I выбирает стратегию x X , то он гарантирует

себе выигрыш min E(

 

,

 

), а поэтому может обеспечить и max min E(

 

,

 

)= v1 .

x

y

x

y

y Y

x X y Y

Аналогичный

подход с позиций игрока II приводит к

min max E(x, y)= v2 .

y Y x X

Цель игры можно теперь поставить в соответствии с задачей обеспечения игроками выигрыша, не меньшего v1 , и проигрыша, не

большего v2 , соответственно. Так сформулированные цели игроков непротиворечивы.

Смешанные стратегии x* и y* , для которых выполняются неравенства E(x , y* )E(x* , y* )E(x* , y ) для всех смешанных стратегий x и y ,

называются оптимальными смешанными стратегиями, а число E(x*, y* ) называется ценой (значением) игры для игрока I. Совокупность оптимальных стратегий (x*, y* ) называется оптимальным решением или просто решением

игры. Для оптимальных смешанных стратегий (x*, y* )имеет место равенство

v1 = v2 .

Теорема о минимаксе (фундаментальная теорема Неймана). Каждая конечная матричная игра с нулевой суммой имеет по крайней мере одно решение, возможно в области смешанных стратегий, причем цена игры v удовлетворяет условию

α v β .

Мы не будем останавливаться на строгом доказательстве этой теоремы.

Элементы теории статистических решений.

В рассмотренных выше матричных играх предполагалось, что в них принимают участие два игрока, интересы которых противоположны.

88

Поэтому действия каждого игрока направлены на увеличение выигрыша (уменьшение проигрыша). Однако, в некоторых задачах, приводимым к игровым, имеется неопределенность, вызванная отсутствием об условиях, в которых осуществляется действие (погода, покупательский спрос и т.д.) Эти условия зависят не только от сознательных действий другого игрока, а от объективной действительности. Такие игры называются играми с природой. Человек в играх с природой старается действовать осмотрительно, второй игрок (природа, покупательский спрос) действует случайно.

Принятие решений в условиях неопределенности и риска являются разделом, наиболее тесно связанным с исследованием операций как по своему духу, так и по постановкам вопросов.

Основной задачей теории статистических решений является основной выбор решений в условиях неопределенности, когда каждое действие приводит к одному из множества частных исходов, вероятности которых неизвестны или даже не имеют смысла. В условиях неопределенности человек или автомат, выбирающий то или иное решение, не располагает полной информацией о всех факторах, учет которых оказывает случайное влияние на этот выбор. В некоторых задачах для состояния природы может быть задано о распределении вероятностей. В этом случае принято говорить о выборе решений в условиях риска. Здесь каждый шаг решения приводит к одному из множества возможных частных исходов, каждый из которых имеет известную вероятность появления.

Теория статистических решений (игр с природой) тесно связана с теорией стратегических игр. Имеется ряд критериев, которые используются при выборе оптимальной стратегии. Рассмотрим некоторые из них.

1. Критерий Вальде. Рекомендуется применять максимальную стратегию. Она достигается из условия

max min a

ij ij

исовпадает с нижней ценой игры (т.е. гарантирует выигрыш, не менее, указанного числа). Критерий является пессимистическим, считается, что природа будет действовать наихудшим для человека образом.

2.Критерий максимума. Он выбирается из условия

max max aij

i j

Критерий является оптимистическим, считается, что природа будет благосклонна к человеку.

3. Критерий Гурвица. Критерий рекомендует стратегию, определяемую по формуле

max{α min aij + (1 α)max aij },

где α — степень оптимизма — изменяется в диапазоне [0.1].

Критерий придерживается некоторой промежуточной позиции, учитывающей возможность как наихудшего, так и наилучшего для человека

89