Добавил:

Mymnan Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Белорусский государственный университет информатики и радиоэлектроники

Предмет:

Теория принятия решений

Файл:

ТПР. Всё в 1 файле / Прикладные Инст сист.pdf

Скачиваний:

337

Добавлен:

15.09.2014

Размер:

1.43 Mб

Скачать

☆

<<< < Предыдущая 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 3132 / 3632 33 34 35 36 > Следующая >>>

Седловых точек в матричной игре может быть несколько, но все они имеют одно и то же значение.

Пример 20.2. Рассмотрим 3 х 3-игру, заданную матрицей

4	−1	−3
−2 1		3	.
0	2	−3

Применив рассмотренный алгоритм

4	–1	–3	–3
–2	1	3	–2
0	2	–3	–3
4	2	3

находим нижнюю α = –2 и верхнюю β = 2 цену игры и соответствующие стратегии А2 и В2. Пока игроки придерживаются этих стратегий, средний выигрыш при многократном

повторении игры будет равен 1. Он больше нижней цены игры, но меньше верхней цены. Однако, если игроку В станет известно, что игрок А придерживаются стратегии А2, он

немедленно ответит стратегией В1 и сведет его выигрыш к проигрышу –2. В свою очередь, на стратегию В1 у игрока А есть ответная стратегия А1, дающая ему выигрыш 4.

Тем самым, ситуация ( Ai0 , Вk 0 ) равновесной не является.

Лекция 21. Методы решения игр

21.1. Решение игры в чистых стратегиях

В том случае, когда нижняя цена игры равна верхней цене игры (α = β), игра имеет решение в чистых стратегиях. Минимаксные стратегии Ai0 , Вk 0 , соответствующие цене

игры, являются оптимальными чистыми стратегиями, а совокупность оптимальных стратегий и цена игры – решением матричной игры с седловой точкой.

Пример 21.1. Найти решение игры, заданной платежной матрицей

0,5		0,6 0,8
	0,9	0,7 0,8 .
	0,7 0,5 0,6
Определяем нижнюю и верхнюю цену игры.
Представим решение в виде таблицы:
				В1	В2	В3	αi
			А1	0,5	0,6	0,8	0,5
			А2	0,9	0,7	0,8	0,7
			А3	0,7	0,5	0,6	0,5
			βk	0,9	0,7	0,8	α = β = 0,7

В данном случае нижняя цена игры α = max αi= 0,7, верхняя цена игры β = min βk = 0,7.
i	k

Эти значения равны. Игра имеет решение в чистых стратегиях А2, В2, цена игры ν = 0,7.

21.2. Решение игры в смешанных стратегиях

Вслучае, когда нижняя цена игры α и верхняя цена игры β не совпадают (α < β), игрок

Аможет обеспечить себе выигрыш, не меньший α , а игрок В имеет возможность отдать ему

100

не больше, чем β. Существует механизм компромиссного распределения разности β – α между игроками. Он состоит в случайном чередовании чистых стратегий при многократном повторении игры. Такие стратегии, состоящие в случайном чередовании чистых стратегий, называются в теории игр смешанными.

Случайная величина, значениями которой являются стратегии игрока, называется его смешанной стратегией. Это означает, что задание смешанной стратегии игрока состоит в задании тех вероятностей, с которыми выбираются его первоначальные стратегии.

Рассмотрим произвольную т х п – игру, заданную т х п – матрицей А = (аik).

Так как игрок А имеет т чистых стратегий, то его смешанная стратегия может быть описана набором т неотрицательных чисел р1 ≥ 0, р2 ≥ 0, …, рт ≥ 0, сумма которых равна 1,

∑pi = 1. i=1

Смешанная стратегия игрока В, имеющего п чистых стратегий, описывается набором п

неотрицательных чисел q1 ≥ 0, q 2 ≥ 0, …, qn ≥ 0, сумма которых равна 1, ∑qi = 1.

i=1

Каждая чистая стратегия является частным случаем смешанной стратегии: например, чистая стратегия Аi является смешанной стратегией, описываемой набором чисел р1 , р2, …,

рт , в котором	pi = 1,	p j = 0 (i ≠ j).
Таким образом,		задав два набора Р = {р1, р2, …, рт }, Q = {q1 , q2, …, qn}, мы
оказываемся в ситуации смешанных стратегий.
Каждая ситуация (Аi, Вk) является случайным событием, которое реализуется с
вероятностью	pi qk.	Так как в этой ситуации игрок А получает выигрыш аik, то
математическое ожидание выигрыша в смешанных стратегиях {Р, Q} равно
	m n
Е(А, Р, Q) = ∑∑aik piqk .
	i=1k =1
Это число принимается за средний выигрыш игрока А в ситуации в смешанных
стратегиях {Р, Q}.
Стратегии

Ро = { р10 , р20 ,…, рт0 } и Q = { q10 , q20 ,…, qп0 }

называются оптимальными смешанными стратегиями игроков А и В соответственно, если

выполнено следующее соотношение:

Е(А, Р, Qо) ≤ Е(А, Ро, Qо) ≤ Е(А, Ро, Q).

Величина ν = Е(А, Ро, Qо) называется ценой игры.

Набор (Ро, Qо, ν), состоящий из оптимальных смешанных стратегий игроков А и В и

цены игры, называется решением матричной игры.

Известна так называемая основная теорема теории игр, связанная с существованием решения игры [5,28].

Теорема 1. (Дж. Фон Нейман). Каждая конечная игра имеет по крайней мере одно решение, возможно, в области смешанных стратегий.

Основные свойства оптимальных смешанных стратегий определяются с помощью Теоремы 2.

Теорема 2. Пусть Ро = { р10 , р20 ,…, рт0 } и Q = { q10 , q20 ,…, qп0 } – оптимальные смешанные стратегии и ν – цена игры. Оптимальная смешанная стратегия Ро игрока А

101

смешивается только из тех чистых стратегий Аi, i = 1, 2,..., m (т.е. только те

вероятности pi , i = 1, 2,..., m, могут быть отличны от нуля), для которых ∑aik qk0 = v. k =1

Аналогично, только те вероятности qk, k = 1, 2, …, п, могут быть отличны от нуля,

для которых ∑aik pi0 = v.

i=1

Чистая стратегия игрока называется активной, если она входит в оптимальную смешанную стратегию с ненулевой вероятностью.

Имеют место соотношения

v = min ∑aik pi0 =

1≤k ≤n i=1

max ∑aik qk0 .

1≤i≤m k =1

Для решения игры существенное значение имеет следующая теорема об активных стратегиях.

Теорема 3. Если один из игроков придерживается своей оптимальной смешанной стратегии, то выигрыш остается неизменным и равным цене игры v, если второй игрок не выходит за пределы своих активных стратегий.

21.3. Упрощение игр

Если (т х п)-игра не имеет седловой точки, то отыскание ее решения, особенно при большом числе т и п чистых стратегий игроков. Поэтому рекомендуется предварительно проанализировать игру, чтобы уменьшить размеры ее платежной матрицы. Число стратегий сокращается путем вычеркивания излишних стратегий, так как некоторые чистые стратегии не могут внести никакого вклада в искомые оптимальные стратегии. Излишние стратегии бывают двух видов: заведомо невыгодные и излишние.

Правило доминирования. Стратегия Аj игрока А доминирует стратегию Аi, если в платежной матрице элементы j-й строки не меньше соответствующих элементов i-й строки: a jk ≥aik (k = 1, 2, …, п). Если в матрице А одна из строк (j-я) доминирует другую строку (i-

ю), то число строк в матрице А можно уменьшить путем исключения доминируемой строки

(i-й).

Стратегия Bl игрока B доминирует стратегию Br, если в платежной матрице элементы l-го столбца не превышают соответствующих элементов r-го столбца: ail ≤air (i = 1, 2, …, т).

Если в матрице А один из столбцов (l-й) доминирует другой столбец (r-й), то число столбцов в матрице А можно уменьшить путем исключения доминируемого столбца (r -го).

Правило дублирования. Стратегия Аj (Bl) дублирует стратегию Аi (Br), если a jk = aik ,

k = 1, 2, …, п, ( ail = air , i = 1, 2, …, т). Дублируемые стратегии, так же как и доминируемые, можно исключить из платежной матрицы.

21.4. Решение игры 2х2

Рассмотрим игру 2х2 с матрицей А = ( aij ), i, j = 1, 2. Здесь могут встретиться два

случая: 1) игра имеет седловую точку; 2) игра не имеет седловой точки. В первом случае решением игры является пара чистых стратегий, соответствующих седловой точке.

Если седловая точка отсутствует (нижняя цена игры не равна верхней цене игры α ≠ β),

то решение определяется парой смешанных стратегий Ро = { р10 , р20 } и Q0 = { q10 , q20 }.

Согласно теореме 3 об активных стратегиях, средний выигрыш игрока А равен цене игры v при использовании им любой из стратегий А1 и А2:

102

а11р1+ а21р2 = v,															(21.1)
а12р1+ а22р2 = v.
Учитывая, что р1 + р2 = 1, из уравнений (21.1) получим:
р1 =		а22		−а21			, р2 =		а11		−а12			.	(21.2)
р1 =	а	+ а	22	−а	−а	21	, р2 =	а	+ а	22	−а	−а	21	.	(21.2)
11			22	12		21	11			22	12		21

Цену игры v найдем, подставляя значения р1, р2 в любое из уравнений (21.1):

v =

а22а11 −а12а21

+ а

−а

Аналогично для игрока В имеем:

а11 q1+ а21q2 = v,

а12q1+ а22q2 = v.

q1 =

а22 −а12

, q2 = 1 – q1.

а + а

−а −а

(21.3)

(21.4)

(21.5)

21.5. Графический метод решения (2х2)-игр

Пусть имеется игра 2х2 с матрицей А = ( aij ), i, j = 1, 2. Дадим геометрическую

интерпретацию решения этой игры [5].

Возьмем участок оси абсцисс длиной единица (рис. 21.1). Левый конец участка (точка с абсциссой х = 0) конец участка (точка с абсциссой х = 0) будет изображать стратегию А1, правый конец участка (точка с абсциссой х = 1) – стратегию А2. Все промежуточные точки участка будут изображать смешанные стратегии игрока А. Вероятность р1 стратегии А1 будет равна расстоянию от точки SA до правого конца участка, а вероятность р2 стратегии А2 – расстоянию до левого конца. Проведем через точки, являющиеся концами участка, два перпендикуляра к оси абсцисс: ось I – I и ось II – II. На оси I – I будем откладывать выигрыш при стратегии А1, а на оси II – II – выигрыш при стратегии А2.

Пусть игрок В применяет стратегию В1, она дает на осях I – I и II – II соответственно точки с координатами а11 и а21. Проведем через точки прямую В1В1. При любой смешанной стратегии Р = {р1, р2} выигрыш игрока А выразится точкой на прямой В1В1, соответствующей точке на оси абсцисс, делящей отрезок в отношении р2 : р1. Прямую В1В1 будем называть стратегией В1. Таким же способом может быть построена и стратегия В2 (рис. 21.1).

I	II
B2	B1
	B1

a12

B1	v

a11

a12

a22


o	p2	P 0	1 x
I	p2	p1	II

Рис. 21.1. Нижняя граница выигрыша игрока А при стратегиях В1, В2

Нам нужно найти оптимальную стратегию Ро. При этой стратегии наш минимальный выигрыш будет максимальным. Для этого построим нижнюю границу выигрыша при

103

<<< < Предыдущая 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 3132 / 3632 33 34 35 36 > Следующая >>>

Соседние файлы в папке ТПР. Всё в 1 файле

#
15.09.2014150.53 Кб45Контрольная работа!!!!!!.doc
#
15.09.201428.24 Кб40Контрольная работа.docx
#
15.09.2014409.73 Кб103Математ_методы_диагностики_в_м.pdf
#
15.09.20142.15 Mб219Нейрокомпьютеры.pdf
#
15.09.20141.43 Mб337Прикладные Инст сист.pdf
#
15.09.2014125.44 Кб38Рабочая программа ТПР заочное 2010.doc