Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
UP_2.doc
Скачиваний:
10
Добавлен:
01.04.2025
Размер:
4.78 Mб
Скачать

4.3. Решение игр 2 х n графическим способом

Рассмотрим игру 2 х 4 , заданную матрицей . Проверим, имеет ли эта игра седловую точку:

Так как то игра не содержит седловой точки. Решение игры нужно искать в смешанных стратегиях:

Решаем игру за игрока А. Найдем средний выигрыш игрока А, при условии, что игрок В применяет только одну из стратегий :

Построим прямые ,…, (рис. 4.3).

.

Выделенная ломаная характеризует гарантированный средний выигрыш игрока А. Максимума он достигает в точке С – точке пересечения прямых и . Найдём координаты точки С (рис. 4.3):

.

Отсюда, оптимальная смешанная стратегия игрока А:

.

Найдем решение за игрока В. При решении игры за игрока А мы учитывали лучшую игру игрока В и получили решение на пересечении и Это означает, что оптимальная смешанная стратегия игрока В должна содержать только стратегии и которые называются активными; стратегии игроку В применять невыгодно. Тогда можно записать:

Для нахождения y составим одно уравнение, например, найдем средний проигрыш В, если А применит только стратегию

,т.к. ,то

Ответ:

Аналогично решаются игры 2 х n.

4.4. Решение игры n х 2 графическим способом

Решение таких игр рассмотрим на примере игры 4 х 2, заданной матрицей . Игра не содержит седловой точки, так как. Следовательно, решение игры нужно искать в смешанных стратегиях:

Решаем игру за игрока В. Найдем средний проигрыш игрока В, если игрок А придерживается только одной из своих стратегий:

.

Выделенная ломаная характеризует средний проигрыш игрока В, минимальный гарантированный проигрыш в точке D – точке пересечения прямых и (рис. 4.4). Найдём координаты точки D:

Следовательно, оптимальная смешанная стратегия игрока В:

y

Найдем решение за игрока А. Активными стратегиями игрока А являются стратегии и .

Таким образом, имеем Для нахождения составим одно из уравнений для игрока А, например, найдем средний выигрыш игрока А, если игрок В применяет только стратегию и, учитывая, что , получим:

З

начит, оптимальная смешанная стратегия для игрока А:

Ответ:

4.5. Сведение матричной игры m X n к задаче линейного программирования (решение любой матричной игры)

Рассмотрим игру m x n, определенную матрицей

.

Пусть игра не содержит седловой точки, тогда решение игры нужно искать в смешанных стратегиях, а именно:

,

где V – цена игры, т. е. максимальный гарантированный средний выигрыш игрока А и одновременно минимальный гарантированный средний проигрыш игрока В;

– оптимальная смешанная стратегия игрока А;

– оптимальная смешанная стратегия игрока В.

Решаем за игрока А. Оптимальная смешанная стратегия должна обеспечивать игроку А максимальный гарантированный выигрыш, равный V, при любых действиях игрока В.

Следовательно: (4.1)

Решаем за игрока В. Оптимальная смешанная стратегия должна обеспечить игроку В минимальный гарантированный проигрыш V, при любых действиях игрока A, т. е.

(4.2)

Предположим, что Это условие выполняется, если все элементы платежной матрицы положительны. В противном случае прибавим ко всем элементам платежной матрицы некоторое положительное число. При этом цена игры увеличится на добавленное число, а оптимальные стратегии не изменятся. Разделим все неравенства системы (4.1) и (4.2) на и обозначим:

В результате получим пару взаимно двойственных задач ЛП. Используя двойственный симплекс-метод, решаем одну из них (удобнее для игрока В), затем находим решение другой задачи.

Для игрока А Для игрока В

Пример. Применение матричных игр в маркетинговых исследованиях. Торговая фирма разработала несколько вариантов планов продажи товаров на предстоящей ярмарке с учетом меняющейся конъюнктуры рынка и спроса покупателей. Получающиеся от их возможных сочетаний экономические показатели представлены в табл. 4.1.

Определить оптимальный план продажи товаров.

Таблица 4.1

Экономические показатели

План

продажи

Величина доходов, ден ед.

К1

К2

К3

П1

1

–1

1

П2

0

3

2

П3

1

2

–1

Решение. Введем двух игроков. Игрок П – это торговая фирма со стратегиями Пi (i=13) – вариантами планов продажи. Игрок К – конъюнктура рынка и спрос покупателей со стратегиями Kj (j=13).

Тогда матрица является платежной матрицей игры, а решение этой игры является решением данной задачи. Определим нижнюю и верхнюю цены игры: VH = 0; VB = 1, так как , то седловая точка отсутствует и решение следует искать в смешанных стратегиях.

Прибавим ко всем элементам матрицы Q единицу, чтобы все элементы матрицы стали неотрицательными. Тогда новая цена игры увеличится на единицу а оптимальные стратегии игроков не изменятся. Получим:

Пусть – частота использования игроком П(торговой фирмой) соответственно стратегий П1, П2, П3, а y1, y2, y3 – частота использования соответственно стратегий К1, К2, К3 игроком К. Тогда

Для игрока П математическая модель задачи имеет вид:

Для игрока К (конъюнктура рынка и спрос покупателей) математическая модель задачи имеет вид:

Разделим все неравенства и уравнения в полученных моделях на и обозначим:

Тогда получим следующую пару двойственных задач:

для игрока А для игрока В

Решим задачи двойственным симплекс-методом. При этом первая симплекс-таблица имеет вид (табл. 4.2)

Таблица 4.2

Первая таблица для игрока В

БП – базисные переменные

СП – свободные переменные

Свободные

члены

–u1

– u2

– u3

u4

2

0

2

1

u5

1

4

3

1

u6

2

3

0

1

W

–1

–1

–1

0

По последней таблице (табл. 4.3), соответствующей оптимальному решению исходной задачи, находим решение двойственной задачи, используя соответствия переменных двойственных задач:

Таблица 4.3

Последняя таблица для игрока В

СП

БП

Z3

Z2

Z1

СП

БП

–u6

– u5

– u4

Z6

u3

3/28

Z5

u2

1/14

Z4

u1

11/28

W

1/7

1/7

2/7

4/7

Оптимальное решение исходной задачи:

Оптимальное решение двойственной задачи:

Тогда

Ответ: Оптимальные стратегии торговой фирмы и конъюнктуры рынка соответственно имеют вид: и . При этом максимальный гарантированный доход составит ¾ ден. ед. Следовательно, торговая фирма на предстоящей ярмарке для получения максимальной прибыли в ¾ ден. ед. в 50% случаев должна использовать первый вариант плана продаж, в 25% – второй и в 25% – третий.

В заключении этой главы отметим, что для упрощения решения конечной игры m n можно исключить из платежной матрицы заведомо невыгодные стратегии. Такими стратегиями для игрока А (игрока В) являются те, которым соответствуют строки (столбцы) с элементами, заведомо меньшими (большими) по сравнению с элементами других строк (столбцов).

4.6. Вопросы для самопроверки

  1. Что такое игра с нулевой суммой?

  2. Что такое платежная матрица?

  3. Что такое цена игры?

  4. Какая игра называется игрой с седловой точкой?

  5. Что такое чистые и смешанные стратегии?

  6. Любую ли игру 2 х 2, 2 х n, n х 2 можно решить графическим методом?

  7. Как свести игру m х n к задаче линейного программирования?

5. ДИНАМИЧЕСКОЕ ПРОГРАММИРОВАНИЕ

5.1. Постановка задачи динамического программирования

В задачах линейного программирования рассматривались задачи оптимизации, в которых принятие решения осуществлялось в один этап, зависимость которого от прошлого и его влияние на будущее не учитывается.

Динамическое программирование (ДП) – это математический аппарат, позволяющий осуществлять оптимальное планирование многошаговых управляемых процессов и процессов, зависящих от времени. Экономическая система, способная переходить из одного состояния к другому, называется динамической.

Процесс называется управляемым, если можно влиять на ход его развития. Управлением называется совокупность решений, принимаемых на каждом этапе для влияния на ход процесса.

В экономических процессах управление заключается, например, в распределении и перераспределении средств на каждом этапе развития системы; сохранении оборудования или замены его новым в определённые периоды его эксплуатации и т. п.

Рассмотрим общую постановку задачи ДП.

П усть некоторая динамическая управляемая система S находится в начальном состоянии S0. В результате некоторого управления Х система переходит из состояния S0 в конечное состояние . Предполагается, что управление Х можно разбить на пошаговых управлений , т. е. решения по изменению системы принимаются последовательно на каждом шаге (рис. 5.1).

Необходимо так организовать процесс изменения системы S, чтобы некоторый критерий эффективности (например, доход, затраты), зависящий от начального состояния S0 и управления Х, достиг оптимального значения (max, min), т. е. найти такое управление , чтобы целевая функция .

Обозначим:

– управление на -ом шаге . (Оно удовлетворяет определенным ограничениям и называется допустимым);

– состояние системы в конце -го шага.

Далее предполагается:

  1. Процесс развития системы длится конечное число шагов Состояние системы в конце -го шага зависит только от предшествующего состояния и управления , принимаемого на -ом шаге, т. е. развитие на -ом шаге не зависит от того, каким путем система приведена в это состояние. Это требование называется отсутствием последействия. Данное требование аналитически выражается в виде уравнений, которые называются уравнениями состояний:

(5.1)

  1. Каждый шаг связан с определенным значением показателя эффективности (например, доход), который зависит от текущего состояния системы и принятого решения:

(5.2)

  1. Общий эффект за шагов слагается из показателей эффективности на каждом шаге, т. е. целевая функция имеет вид:

(5.3)

Целевая функция, удовлетворяющая условию (5.3), называется аддитивной.

Таким образом, задача ДП состоит в следующем: имеется управляемая динамическая система с начальным состоянием , удовлетворяющая условиям 1–3. Требуется найти оптимальное управление , переводящее систему из состояния в состояние и доставляющее целевой функции (5.3).

5.2. Алгоритм решения задачи ДП

В основе решения задач динамического программирования лежит принцип оптимальности, сформулированный американским математиком Р. Э. Беллманом в 1953 году: на каждом этапе принимается такое управление, которое обеспечивает оптимальность с данного этапа до конца процесса, т. е. принимая решение на определенном этапе, всегда имеют ввиду конечную цель.

Другими словами, управление на каждом шаге нужно выбирать так, чтобы доход на этом шаге плюс максимальный доход на всех оставшихся шагах был бы наибольшим.

Далее условимся, что .

Обозначим условный максимум целевой функции, полученный при оптимальном управлении на шагах, начиная с -го шага и до конца. Согласно принципу оптимальности управление выбирается из условия

(5.4)

где вычисляется по формуле (5.1); максимум находится по всем возможным , т. е. .

Управление , на котором достигается максимум в (5.4), называется условным оптимальным управлением на -м шаге.

Уравнения (5.4) называют уравнениями Беллмана или реккурентными соотношениями ДП, позволяющими найти предыдущие значения функции , зная последующие.

Очевидно, что полагая в (5.4) , получим условный максимальный доход на n-ом шаге:

(5.5)

так как – отсутствует для последнего состояния системы = (за n-ым шагом нет последующих).

Управление на котором достигает максимума, называется условным оптимальным управлением на -ом шаге.

Процесс вычисления условных оптимальных доходов и соответствующих управлений называют условной оптимизацией.

Учитывая вышеизложенное, можно указать алгоритм решения задачи ДП.

Этап 1. Условная оптимизация.

    1. Вычислить используя соотношения (5.5).

Зная , найти

зная , найти и т. д.,

зная , найти с помощью соотношений (5.4) и (5.1).

Этап 2. Безусловная оптимизация.

2.1. Используя полученную последовательность условных оптимальных управлений и уравнения состояний (5.1), найти безусловные оптимальные управления по схеме:

где

2.2. Найти оптимальное значение целевой функции, учитывая, что по определению – это условный максимум целевой функции, полученный на первом шаге и до конца, т. е.

5.3. Задача оптимального распределения ресурса

Имеется очень много практически важных задач, которые вкладываются в общую схему решения задач ДП. Это задача о распределении ограниченного ресурса, задача о ранце, задача о замене оборудования и т. д. [6].

Трудоемкость решения задачи ДП определяется размерностью задачи, зависящей от числа параметров состояния системы и числа переменных управления на каждом шаге. Рассмотрим одномерную задачу распределения ресурса.

Пусть планируется распределение некоторого капитала (ден. ед.) между предприятиями. Известно, что выделенные -ому предприятию средства в объеме (ден. ед.), кратны числу , приносят доход , который не зависит от вложения средств в другие предприятия. При этом общий доход равен сумме доходов, полученных от распределения всех средств по всем предприятиям.

Определить, какое количество средств необходимо выделить каждому предприятию, чтобы суммарный доход был бы максимальным.

Решение

1. Составим математическую модель задачи:

(ден. ед.) – количество средств, выделенное -му предприятию ;

(ден. ед.) – доход -го предприятия от вложенных (ден. ед.) средств.

Требуется найти план распределения средств (ден. ед), доставляющий максимум целевой функции (суммарного дохода), т. е.

и удовлетворяющий условию:

.

  1. Покажем, что поставленная задача является задачей ДП (см. п.5.1) и может быть решена в два этапа по предложенному алгоритму (п. 5.2).

    1. (ден. ед.) – начальное состояние системы. Процесс распределения средств можно рассматривать как n-шаговый, если условиться, что сначала выделяются средства первому предприятию, затем второму и т. д.

Под управлением на -ом шаге будем понимать средства (ден. ед.), выделяемые -му предприятию. Очевидно, что развитие на -ом шаге зависит от того, какое состояние системы в начале этого шага, т. е. , и не зависит от того, как система пришла в это состояние (отсутствие последействия).

Уравнение состояний (5.1) имеют вид:

, (5.6)

    1. Эффективность каждого шага – доход от вложенных средств выражается величиной (ден. ед.).

    2. Целевая функция – суммарный доход

– аддитивная функция.

Таким образом, процесс распределения средств в поставленной задаче является управляемой динамической системой.

3. Решим задачу в два этапа.

I этап. Условная оптимизация.

Вычислим для каждого шага (начиная с последнего) – условный оптимальный доход, – условное оптимальное управление, используя уравнения состояний (5.6) и уравнения Беллмана (5.5), (5.4) в виде:

(5.7)

, (5.8)

При этом предполагается, что система может находиться в состоянии , удовлетворяющем условию .

На рис. 5.2 показана схема проведения условной оптимизации для .

II этап. Найти и безусловные оптимальные управления .

Пример. Для поставленной задачи принять , (тыс. усл. ден. ед.), (тыс. усл. ден. ед.).

Функции дохода заданы в табл. 5.1.

Таблица 5.1

Функции дохода

Решение. I этап: Условная оптимизация.

Расчет , проводим с конца, т.е. по формулам (5.7), (5.8).

20

12

16

9

15

40

26

21

17

25

60

40

36

35

51

80

60

49

51

62

100

72

63

65

76

Шаг 4. ,

где возможные значения (предполагается, что к началу 4-го шага принимает одно из возможных значений).

Так как функция дохода – возрастающая (чем больше вложение средств, тем больше доход), то максимум достигается при наибольшем значении , т. е. (табл. 5.1).

Получим ;

;

и т. д.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.

Полученные результаты запишем в итоговую табл. 5.3.

Шаг 3 – Шаг 1. Расчетные формулы.

; (5.9)

; (5.10)

; (5.11)

.

Расчет поместим в табл. 5.2, затем результаты столбцов 5, 6, 8, 9, 11, 12 запишем в итоговую табл. 5.3.

Пояснения к табл.5.2.

  1. В столбце 4 подчеркнуты максимальные значения , которые записывают затем в столбец 5, а соответствующие им значения записывают в столбец 6, т. е. это и .

  1. Столбцы (7, 8, 9), (10, 11, 12) заполняются аналогично столбцам (4, 5, 6). В столбце 7 первые слагаемые берутся из табл. 5.1 ( ), вторые слагаемые – из столбца 5 табл. 5.2 ( ). В столбце 10 первые слагаемые – из табл. 5.1 ( ), вторые слагаемые – из столбца 8 табл. 5.2 .( ).

Отметим, что расчеты в столбцах 10, 11, 12 можно было производить только для состояния , т. к. шаг 1 означает, что выделяют средства первому предприятию из имеющихся 100 тыс. усл. ден. ед. Однако полученные расчеты могут быть полезными для дополнительного анализа.

II этап. Безусловная оптимизация.

Полученные последовательности , запишем в сводную табл. 5.3.

Таблица 5.3

Результаты условной оптимизации

Шаг 4

Шаг 3

Шаг 2

Шаг 1

1

2

3

4

5

6

7

8

9

0

0

0

0

0

0

0

0

0

20

15

20

15

0

16

20

16

0

40

25

40

25

0

31

20

31

0

60

51

60

51

0

51

0

51

0

80

62

80

62

0

67

20

67

0

100

76

100

76

0

78

20

79

20

Из столбца 8 табл. 5.3 получаем , при соответствующем значении . Используя уравнения состояний (5.6) получим следующее состояние системы:

и соответствующее управление

(столбец 7, строка ; далее

, (столбец 5, строка ;

, .

(тыс. усл. лен. ед) – получена максимальная суммарная прибыль, при этом первому, второму предприятиям выделено по 20 тыс. усл. ден. ед., третьему – не выделено ничего, четвертому – выделено 60 тыс. усл. ден. ед., т. е. получено оптимальное управление Х(20, 20, 0, 60).

Примечание. Предложенная вычислительная схема позволяет проводить анализ при изменении начальных условий и .

  1. Пусть . Тогда из табл. 5.3 следует: , соответствующее управление .

Далее , ;

, ;

, .

  1. Пусть но (средства делятся между тремя предприятиями), тогда последним шагом в условной оптимизации будет шаг 2. В столбце 6 получено , соответствующее (столбец 7) и т. д. Получим оптимальное управление Х(20, 0, 80).

  2. Пусть но , т. е. добавилось еще одно предприятие с известными значениями функции дохода .

20

40

60

80

100

17

26

48

60

80

В этом случае, чтобы использовать результаты табл. 5.3, необходимо добавить к ней шаг 0 и рассчитать и , причем только для . Затем найти и оптимальное управление. Предлагаем провести эти рассуждения самостоятельно.

В заключение отметим, что, рассматривая метод решения задач ДП на примере задачи малой размерности, мы лишь иллюстрировали сущность метода. Даже при реализации метода на компьютере практически можно решать задачи небольшой размерности. Из других экономических задач, которые решаются методами ДП, но более сложных, чем рассмотренная, являются задача о распределении средств между n предприятиями на n лет, задача о замене оборудования. Подробное решение этих задач дано в [5].

5.4. Вопросы и задачи для самопроверки

  1. Сформируйте основную задачу ДП, дайте определение управляемой динамической системы.

  2. Дайте определение аддитивной целевой функции.

  3. В чем заключается принцип оптимальности Беллмана?

  4. Запишите уравнения состояний, реккурентные соотношения ДП.

  5. Укажите план решения задачи ДП со ссылкой на формулы данного раздела.

  6. Решите задачи.

6.1. Фирма имеет 3 торговые точки, 5 условных единиц капитала и для каждой точки известна величина прибыли от объема вложений – x единиц. Как распорядиться всем капиталом, чтобы прибыль была наибольшей (таб. 5.3).

Таблица 5.4

Зависимость прибыли от вложений

Вложения x

Прибыли торговых точек

1

2

3

1

0,28

0,25

0,15

2

0,45

0,41

0,25

3

0,65

0,55

0,4

4

0,78

0,65

0,5

5

0,9

0,75

0,62

6.2. Между четырьмя предприятиями распределяются 90 тыс. усл. ден. ед. в количествах, кратных 15 тыс. усл. ден. ед. Значения функций дохода предприятий даны в табл. 5.5. Определить план распределения средств между предприятиями, максимизирующий общий доход.

Таблица 5.5

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]