Теоретическая часть Платёжная матрица Нижняя и верхняя цена игры

Рассмотрим парную конечную игру. Пусть игрок А располагает m личными стратегиями, которые обозначим А₁, А₂, …, А_m . Пусть у игрока В имеется n личных стратегий, обозначим их B₁, B₂, …, В_n. Говорят, что игра имеет размерность m×n. В результате выбора игроками любой пары стратегий

А_i и В_j (i = 1, 2, …, m; j = 1, 2, …, n)

однозначно определяется исход игры, т.е. выигрыш а_ij игрока А (положительный или отрицательный) и проигрыш (-а_ij) игрока В. Предположим, что значения а_ij известны для любой пары стратегий (А_i, B_j). Матрица Р = (а_ij), i = 1, 2, …, m; j = 1, 2, …, n, элементами которой являются выигрыши, соответствующие стратегиям А_i и В_j, называется платёжной матрицей или матрицей игры. Общий вид такой матрицы представлен в табл. 1

Таблица 1

B_i А_j	В₁	В₂	…	В_n
А₁	а₁₁	а₁₂	…	а₁_n
А₂	а₂₁	а₂₂	…	а_2n
…	…	…	…	…
А_m	а_m1	а_m2	…	а_mn

Строки этой таблицы соответствуют стратегиям игрока А, а столбцы – стратегиям игрока В.

Рассмотрим игру m×n с матрицей Р = (а_ij), i = 1, 2, …, m; j = 1, 2, … ,n и определим наилучшую среди стратегий А₁, А₂, …, А_m. Выбирая стратегию А_i, игрок А должен рассчитывать, что игрок В ответит на неё той из стратегий В_j, для которой выигрыш для игрока А минимален (игрок В стремится “навредить” игроку А).

Обозначим через _i наименьший выигрыш игрока А при выборе им стратегии А_i для всех возможных стратегий игрока В (наименьшее число в i-й строчке платёжной матрицы), т.е.

Среди всех чисел _i (i = 1, 2, …,m) выберем наибольшее:.

Назовём  нижней ценой игры, или максимальным выигрышем (максимином). Это гарантированный выигрыш игрока А при любой стратегии игрока В. Следовательно,

Стратегия, соответствующая максимину, называется максиминной стратегией. Игрок В заинтересован в том, чтобы уменьшить выигрыш игрока А; выбирая стратегию В_j, он учитывает максимально возможный при этом выигрыш для А. Обозначим

Среди всех чисел _j выберем наименьшее и назовём  верхней ценой игры или минимаксным выигрышем (минимаксом). Это гарантированный проигрыш игрока В. Следовательно,

Стратегия, соответствующая минимаксу, называется минимаксной стратегией.

Принцип, диктующий игрокам выбор наиболее «осторожных» минимаксной и максиминной стратегий, называется принципом минимакса. Этот принцип следует из разумного предположения, что каждый игрок стремится достичь цели, противоположной цели противника.

Любая стратегия игрока В является минимаксной. Дополнив таблицу 1 строкой _j и столбцом _i, получим таблицу 2. На пересечении дополнительных строки и столбца будем записывать верхнюю и нижнюю цены игр.

Таблица 2

B_i A_j	B₁	B₂	_i
A₁	- 1	1	- 1
A₂	1	- 1	- 1
_j	1	1	 = -1  = 1

Если верхняя и нижняя цены игры совпадают, то общее значение верхней и нижней цены игры  =  =  называется чистой ценой игры, или ценой игры. Минимаксные стратегии, соответствующие цене игры, являются оптимальными стратегиями, а их совокупность – оптимальным решением, или решением игры. В этом случае игрок А получает максимальный гарантированный (не зависящий от поведения игрока В) выигрыш , а игрок В добивается минимального гарантированного (вне зависимости от поведения игрока А) проигрыша . Говорят, что решение игры обладает устойчивостью, т.е. если один из игроков придерживается своей оптимальной стратегии, то для другого не может быть выгодным отклоняться от своей оптимальной стратегии.

Пара чистых стратегии A_i и B_j даёт оптимальное решение игры тогда и только тогда, когда соответствующий ей элемент a_ij является одновременно наибольшим в своём столбце и наименьшим в своей строке. Такая ситуация, если она существует, называется седловой точкой (по аналогии с поверхностью седла, которая искривляется вверх в одном направлении и вниз – в другом).

Обозначим А^* и В^* - пару чистых стратегий, на которых достигается решение игры в задаче с седловой точкой. Введём функцию выигрыша первого игрока на каждой паре стратегий: P(A_i, B_j) = a_ij. Тогда из условия оптимальности в седловой точке выполняется двойное неравенство: P(A_i, B^*)  P(A^*, B^*) P(A^*, B_j), которое справедливо для всех i = 1,…,m; j = 1, …, n. Действительно, выбор стратегии А^* первым игроком при оптимальной стратегии В^* второго игрока максимизирует минимальный возможный выигрыш: P(A^*, B^*)  P(A_i, B^*), а выбор стратегии В^* вторым игроком при оптимальной стратегии первого минимизирует максимальный проигрыш: P(A^*, B^*)  P(A^*, B).

<<< < Предыдущая 12 / 42 3 4 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
28.09.2019904.7 Кб96курс_лекций Психология конфликта.doc
#
19.11.201844.64 Кб8Лекции_СППЛ.docx
#
24.02.20163.57 Mб168Лечение по Оганян с комментариями.doc
#
24.02.2016686.4 Кб126Лечение шейки матки народными средствами.docx
#
24.02.201638.44 Кб7Лунный календарь зачатия.docx
#
20.12.201876.58 Кб16матем реферат теория игр.docx
#
16.11.2018107.01 Кб4Метод Рекомендации УОП.doc
#
30.09.2019104.45 Кб3Метод. рекомендации производств. практика (2).doc
#
10.09.2019392.7 Кб3Наглядные пособия и опись.doc
#
24.02.20163 Mб16Наука о жизни.docx
#
23.04.201916.35 Mб47Нейрофизиология - Алейникова Т.В. - Физиология....doc