Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Шпора по ИСО.doc
Скачиваний:
3
Добавлен:
01.03.2025
Размер:
1.37 Mб
Скачать

2 Игрок. Пусть 2 игрок выбирает некоторую смешанную стратегию .

Если 1 игрок выбирает ход , то проигрыш второго будет

Делим эту систему на и вводим обозначение

(7)

(9)

Поскольку , (**)

, тогда

(8).

Приходим к задаче ЛП (8)-(10).

Сравниваем задачи (8)-(10) с (4)-(6) видим, что это пара взаимодвойственных задач. Т.о., решение игры в общем случае сводится к решению пары взаимодвойственных задач ЛП.

Задачу (8)-(10) удобно решать симплекс-методом, поскольку после сведения к каноническому виду строится начальный базисный план.

Метод Брауна-Робинсона.

В этом методе матричная игра разыгрывается искусственным образом: сначала первый игрок выбирает какой-то ход , в ответ ему второй игрок выбирает такой свой ход, который соответствовал бы наименьшему числу из выбираемой строки первого игрока.

При втором розыгрыше первый игрок выбирает такую строку, которой бы соответствовал наибольший элемент в столбце, который выбирает второй игрок на первом этапе. Элементы этой строки прибавляется к элементам строки первого шага. Получается накопленный выигрыш первого игрока. Затем, второй игрок выбирает такой столбец, который соответствовал бы наименьшему числу в накопленном выигрыше первого игрока. Элементы этого столбца прибавляются к столбцу на первом этапе. Получаем строку накопленного проигрыша второго игрока, и т.д.

После определенного количества итераций записывается ответ приближенно равный решению игры.

Для каждого подсчитывается частота выбора этого хода во всех розыгрышах, и делится на количество розыгрышей и это будет . Для второго игрока для каждого подсчитывается частота выбора этого хода, и делится на количество розыгрышей и это будет .

Одновременно на каждом шаге вычисляется приближенно .

Упрощение матричных игр.

Если в некоторой игре элементы строки больше либо равны соответствующим элементам строки ( ), то очевидно строку первому игроку не следует выбирать, т.е. доминирует над ходом . Строку можно исключить из матрицы. Аналогично для второго игрока. Если элементы столбца не превосходят элементы столбца ( , ), то очевидно, что второму игроку невыгодно выбирать столбец , и его можно исключить из рассмотрения.

1.16-1.18 Игры с природой. Примеры. Матрица риска. Критерий Байеса. Критерий Лапласа. Критерий Сэдвиджа. Критерий Вальда. Убывающей арифметической прогрессии.

Рассмотрим часть матричных игр, в которой одна из сторон (2 игрок) безразличен к своему проигрышу. Этот игрок представляет из себя комплекс внешних условий, при котором протекает операция. В дальнейшем его будем называть природой. Вторая сторона игры активный (1 игрок), который заинтересован в своем выигрыше называется статистикам. Розыгрыш производится один раз и статистику нужно выбрать такой чистый ход, чтобы ожидаемый выигрыш (средний) при случайном поведении 2 игрока был наибольшим. Игра описывается матрицей А , – ходы статистика ( ), , – возможные состояния природы. – выигрыш статистика, если он выберет свой ход , а природа реализует состояние .

При выборе оптимальной стратегии в играх с природой иногда используется матрица риска. В каждом столбце находится элемент , , , называется риском статистика, если он выберет свой ход и ожиданием сост. природы . .

Пример. Гидроэнергетика. Количество выпускаемой на некоторой гидроэлектростанции энергии существенным образом зависит от количества осадков, выпадаемых в бассейне соответствующей реки на планируемый период. Поэтому в качестве - состояния природы и принимается количество осадков в некотором промежутке, который возможно осуществится.

до 100 см

от 100 до 200 см

от 200 до 400 см

более 1500 см.

В качестве выступает выбор той или иной политики управления работой ГЭС, который включает в себя использование определенного количества трубен, объем сбрасывания воды в водохранилища.

Если статистик выбирает ход , а природа реализует ход , то в качестве принимается количество электроэнергии полученное за год.

Критерий Байеса. Предположим, что известны числа , - вероятность наступления состояния . Тогда для каждого хода - средний ожидаемый выигрыш статистика. Затем находятся . Ход и будет оптимальным по базису.

Критерий Лапласа. Предположим, что реальные статистики, реальные состояния природы не известны. Но есть основание считать состояния природы равновероятными. Полагаем , и применяем тот же подход, как и в критерии Байеса.

Критерий убывающей арифметической прогрессии.

Пусть реальное состояние не известно. Известно лишь, что их можно упорядочить по убыванию . Не ограничивая общности будем считать , в противном случае состояния природы можно пронумеровать.

Тогда получим , . Затем осуществляется подход критерия Байеса.

Критерий Вальда (критерий крайнего пессимизма).

Пусть – нижняя цена игры. Выбирается соответствующий ход.

Критерий Сэдвиджа (минимаксного риска). Пусть . Выбир. ход, соотв. .

1.19-1.20 Динамическое программирование. Постановка. Примеры. Общая схема (идея) метода.

Методом динамического программирования исследуется определенный тип операций, который носит характер многошаговых, многоэтапных процессов, т.е. процессов развивающихся во времени. Отсюда слово “динамический”.

Особенности операций:

- предполагается, что модель операций состоит из m этапов, это могут быть временные промежутки, либо технологические промежутки. Разбитие модели на этапы может быть и естественным и искусственным.

- на каждом из этапов осуществляется отдельное управление операциями . А общее управление , предполагается, что известно - множество допустимых операций.

- на каждом этапе в результате управления мы получаем выигрыш и в результате для таких операций приходим к задаче оптимизации: .

Пример1. планируется деятельность группы предприятий на период лет. При этом в начале каждого года суммарные оставшиеся средства заново перераспределяются. Ставится задача: определить количество средств в начале каждого года , которые нужно выделить каждому предприятию, чтобы максимизировать суммарный доход за лет, т.е. .

Пример 2. владелец машины эксплуатирует машину в течение лет. В начале каждого -ого года он может принять решение: 1) продать; 2) ремонтировать; 3) дальше эксплуатировать. Причем решения принимаются таким образом, чтобы сумма расходов на покупку, ремонт или эксплуатацию машины была минимальной, т.е. .

1.21-1.22. Задача о прокладке пути. Задача о наборе скорости и высоты самолетом. Метод динамического программирования для задач.

Задача о прокладке пути.

Имеется 2 пункта А и В, между ними требуется проложить путь так, чтобы суммарные затраты были минимальные. Путь прокладывается по пересеченной местности, который может содержать различные препятствия.

При этом могут быть рассчитаны затраты на прокладку пути в зависимости от местности на 1 км. В этой задаче отсутствует естественная разбивка на m этапов. Один из способов разбивки:

АВ делим на m равных частей. Проводим перпендикулярную линию к отрезку AB. В качестве управления берем угол - направление движения трассы, между параллельными линиями по сравнению с отрезком АВ. .

. Затраты предполагаются известны. Ясно, что чем больше m, тем точнее модель. После того как рассчитан оптимальный маршрут, путь между отрезками отдельных этапов должен скругляться.

Для решения методом динамического программирования на плоскости вводим решетку. Для этого каждый отрезок [0,a] и [0,b] разбиваем на некоторое количество равных отрезков и строим сеть. Каждый план будет представлять из себя некоторую ломаную. Для каждой горизонтали или вертикали отрезка этой решетки заданы положительные числа – стоимость прокладки пути по заданному отрезку. Требуется найти такой путь, чтобы суммарные затраты были минимальными. Расчет пути может быть произведен либо от А к В либо наоборот.

Будем прокладывать путь от В к А. Метод динамического программирования включает в себя инвариантное погружение:

1) сведением функции Беллмана;

2) составление и расчет значения для функции Беллмана;

3) решение уравнения Беллмана и построение О.П.

Для нашей задачи инвариантное погружение – это задача прокладки пути из любого узла решетки в В.

1 этап. Функция Беллмана – эта стоимость (мин.) прокладки пути из любого узла в В.

2 этап. Для расчета функции Беллмана мы из каждого узла решетки перебором находим наиболее экономичный путь (условно – оптимальный путь) и его минимальную стоимость. Движение производится от В по всем узлам решетки пока не попадем в А.

3 этап. Значением функции для точки А будет оптимальные расходы на прокладку пути.