
книги из ГПНТБ / Лебедкин, В. Ф. Проектирование систем управления обогатительными производствами
.pdfвремени практически обеспечивается статическая оптимизация тех
нологического |
процесса. |
|
|
|
F(X), |
|
|
|
||||
Оценивая решение игры, при известной стратегии |
видим, |
|||||||||||
что алгоритм ее чрезвычайно прост. И для случая платежной |
функ |
|||||||||||
ции К(Х, |
Y) |
в виде полинома второй степени, не |
включающего |
|||||||||
произведения различных аргументов из группы {у}, |
решение |
со |
||||||||||
стоит в максимизации соответствующих квадратных |
трехчленов, |
|||||||||||
так как функция (III.228) для |
этого случая представляет |
собой |
||||||||||
сумму трехчленов от аргументов |
{у}. |
у\, |
..., |
|
у0), |
|||||||
Таким |
образом, для |
нахождения точки Уо=(«/°, |
|
|||||||||
в которой |
J (Y) принимает |
наибольшее значение, достаточно |
опре |
|||||||||
делить точки |
у°, |
у\, |
..., |
у0 |
, в |
которых максимальны |
соответст |
|||||
вующие квадратные трехчлены. Эти значения у0^ |
|
гД, |
..., |
у°т |
||||||||
определяются |
с учетом равенства |
(III.16). |
|
|
|
|
|
|||||
Рис. 111.34. Структурная схема |
си |
2 |
|
|
3 |
|
|
|||||
стемы управления с полной информа |
|
|
|
|
|
|
||||||
|
|
цией: |
|
|
|
|
|
|
|
|
|
|
1 — о б ъ е к т |
у п р а в л е н и я ; 2 — с и с т е м а |
конт |
|
|
|
|
|
|
||||
р о л я ; 3 — в ы ч и с л и т е л ь н о е у с т р о й с т в о ; 4 — |
- |
|
|
|
|
|
||||||
к о м а н д н о е у с т р о й с т в о ; 5 — р е г у л я т о р ы по |
|
|
4 |
|
|
|||||||
5 |
|
|
|
|
||||||||
|
д а ч и р е а г е н т о в |
|
|
|
|
|
|
|
||||
Игра и схема |
управления |
с полной информацией. |
Схемы управ |
ления, рассмотренные ранее, обладают тем достоинством, что част ный выбор стратегий производится без каких-либо специальных расчетов или логических операций, проводимых, как правило, в вычислительных устройствах современных систем управления на основании вновь полученной информации в темпе с процессом.
Схемы, обеспечивающие оптимизацию как решение игры с пол ной информацией, лишены этого достоинства, но выигрыш с их применением будет максимальным. Иначе говоря, нет достаточных
оснований считать ситуацию определения режимов у^>, у^>, |
у® |
(при известных х^, xf, ..., х^) игровой. Тем не менее этот |
пример |
часто употребляется, так как практически задача состоит в отыс кании некоторой альтернативы (технологического режима), даю щей максимум эффективности. Такого рода решения обычно назы вают «выбором без риска» [271].
Вернемся к полиному |
(III.218). При известных значениях Хі, |
|||
Xz, |
Xu задача отыскания оптимальной стратегии Y=(yi, |
у2, ... |
||
|
ут), соответствующей |
тахК{х, |
у), состоит в решении |
равен |
ства |
(III.218) на максимум, так как каждый из многочленов |
РГ(Х) |
||
превращается в число. |
|
|
|
Таким образом, алгоритм управления для системы с полной информацией, как и предыдущий, также очень прост, а структур ная схема системы управления представляет собой обычную схему (рис. 111.34).
13 З а к а з № 510 |
193 |
Информация об измеренных с помощью системы контроля зна чениях параметров xf, х®, ..., х®, характеризующих состояние
объекта, поступает в вычислительное устройство, которое опреде ляет максимум функции К{х, у} путем отыскания соответствующей стратегии Yi = (уW, у®, уѴУ). Очевидно, прежде чем проводить
счетные операции по отысканию Yi, нужно убедиться, что значения
всех аргументов находятся |
в пределах, разрешаемых равенством |
|
(III.214), т. е. üi^Xi^bi- |
i = |
T7k. |
Результат выбора Yi посредством командного устройства дово дится до регуляторов подачи реагентов. Рассчитанный режим под держивается в течение AT до следующего цикла опроса датчиков информации о параметрах {д;}.
Схемы управления с неполной информацией. Как уже неодно
кратно подчеркивалось, для разделительных процессов вообще и для флотационных в особенности характерно то, что некоторые технологические параметры не могут быть измерены с достаточ ной частотой для того, чтобы текущую информацию о них можно
было использовать для выработки управляющей |
информации. |
||||||||||||
Практически все современные схемы управления |
разделительными |
||||||||||||
процессами — схемы с |
неполной |
информацией. |
Естественно |
по |
|||||||||
этому, что наибольший |
практический интерес |
представляют |
во |
||||||||||
просы, связанные с построением именно таких систем. |
|
|
|||||||||||
Пусть, |
например, |
имеется |
процесс, |
описываемый |
функцией |
||||||||
(Ш.217) или (III.218), |
что одно |
и то же. Система |
контроля |
спо |
|||||||||
собна обеспечить |
измерения |
параметров |
хи |
хг, |
• -, хк из всего на |
||||||||
бора |
ХІ, хг, |
• • -, |
Хн, Xh+u |
• •., |
Xh. |
При этом |
измерение |
параметров |
|||||
{у}, |
задающих технологические |
режимы, |
всегда |
обязательно. Тре |
|||||||||
буется построить алгоритм (и соответствующую схему) |
управления |
||||||||||||
разделительным |
процессом. |
|
|
|
|
|
|
|
|
||||
Очевидно, задачу можно решить с привлечением |
ранее получен |
ных результатов. В самом деле, наличие информации о /-ом наборе xfP, X®, X® означает, что игрок X применил стратегию, обяза тельно включающую этот набор. Но вместе с этим набором в мо
мент получения информации мог быть любой набор |
(конечно, по |
|||
отношению к игроку У, но не к |
игроку X, |
который, |
безусловно, |
|
знает, что он выбрал в качестве своей чистой стратегии) |
хи+и . •-, Хь. |
|||
из параллелепипеда Rk-h'- a^Xi^bi, |
i—(h+l) |
в случае |
игры без |
|
информации и набор (чистая стратегия) из того же |
параллелепи |
педа R(k-h), подчиненный какому-то априорному распределению, из
вестному игроку У заранее. |
|
|
Рассмотрим оба эти случая. |
|
|
Случай 1. Игра с неполной информацией в смешанных |
стра |
|
тегиях. |
|
РГ{Х) |
Всякий раз при получении информации |
все многочлены |
|
в платежной функции (III.218) становятся |
независящими |
от хі, |
-у
Хг, ..., хн, а следовательно, изменяются координаты точек и. Это
194
приводит, в свою очередь, к изменению вида множества V*: полу чение информации о х№>\ i=l,h означает наличие одноступенчатой
функции распределения параметра х,; i=l,h |
со скачком, равным |
единице, в точке ti = x^. |
|
Соответственно этому по получении информации должны быть проведены все действия'по программе, изложенной выше для слу чая отсутствия информации. Результатом решения окажется неко торое распределение частот чистых стратегий игрока Y из паралле лепипеда Sm. Таким образом, игроку Y придется теперь (если, конечно, он захочет получить больше, чем дает) не только рассчи тывать оптимальные стратегии после каждого выбора игрока X, но и уметь формировать нужные распределения Р®.
Структурная схема системы управления для рассматриваемого случая показана на рис. III.35.
Рис. |
I I 1.35. |
Структурная |
схема |
системы |
|
|
||||
управления |
с |
неполной |
информацией для |
|
|
|||||
|
игры |
в |
смешанных |
стратегиях: |
|
|
||||
/ — объект |
управления; |
2 — система |
контроля; |
|
|
|||||
3 — вычислительное |
устройство; |
4 — случайный |
I ß 1 < |
1 <5[ |
||||||
механизм, вырабатывающий распределения частот |
||||||||||
Pj(О; |
5 — командное |
устройство; |
ff —регуляторы |
— |
|
подачи реагентов
Назначение каждого из элементов схемы ясно из характерис тики схем, показанных на рис. III.33 и III.34. От обычных схем управления данная схема отличается лишь наличием случайного механизма, на который возложена задача формирования всех рас пределений, найденных после расчета игр в вычислительном уст ройстве.
Работа системы по такой схеме чрезвычайно сложна. Ей при сущи все недостатки, отмеченные ранее для систем без информа ции при решении игр в смешанных стратегиях. Кроме того, созда ние универсального случайного механизма, каким должен быть элемент 4 схемы, технически сложная проблема. Поэтому данная схема рассматривается лишь как одна из теоретических возмож
ностей, но не в качестве варианта для |
практических приложений. |
|||
Случай 2. Игра с неполной информацией при известных рас |
||||
пределениях неизмеряемых |
параметров. |
|
Y известны |
|
В отличии от предыдущего случая, |
игроку |
априор |
||
ные распределения F(xh+i), |
..., F(xk), |
но, как |
и в первом |
случае, |
всякий раз при получении информации о Хі, х2 , ..., х„, он должен решать игру заново.
Действительно, если распределения параметров хЛ + і, ..., хи оста
ются неизменными на протяжении всей игры |
(t^oo), |
то |
распреде |
|||
ления |
параметров хі, |
х%, ..хь, |
при каждом |
измерении |
меняются |
|
(как было указано ранее, получение информации о xf; |
i—\,h озна |
|||||
чает |
существование |
одноступенчатой функции |
распределения |
13* |
195 |
параметра ХІ со скачком в точке ti = xf. Следовательно, после
всякого измерения меняется априорное распределение стратегий игрока X, и решением игры для Y будет выбор соответствующей чи стой стратегии.
Таким образом, схема управления разделительной установкой
для рассматриваемого |
случая будет такой же, как и в случае |
игры |
с полной информацией |
(см. рис. 111.34), а алгоритм расчета |
опти |
мальных технологических режимов соответствует алгоритму для игры с известным априорным распределением природы. По-види мому, это наиболее перспективное предложение для построения иг ровых систем управления с неполной информацией [121], так как алгоритм расчета режимов очень прост, а схема управления не отличается от существующих схем.
Построение систем управления при решении дискретных игр
При решении непрерывных игр были отмечены трудности по строения алгоритмов оптимизации разделительных процессов для игр без информации и с неполной информацией в смешанных стра тегиях; то же можно сказать и о построении соответствующих управляющих систем, использующих эти алгоритмы. Большинство из указанных выше проблем, связанных с решением этих типов игр и построением соответствующих систем управления, снимается с преобразованием непрерывных игр в дискретные (правда, в пол ной мере это относится лишь к играм с платежными матрицами небольшой размерности). Построение и решение дискретных игр представляет также практический интерес.
Вернемся к многочлену
|
К\х,у)= |
|
2 |
|
|
|
|
|
|
|
|
• • |
xïk> |
УІ'> |
• • У 1 ™ - |
|
|
Он непрерывен на компакте |
(ограниченность |
и замкнутость об |
||||||
ласти |
Ѳ гарантирует |
компактность), и, следовательно, |
по теореме |
|||||
Кантора для любого |
е > 0 |
всегда |
найдутся о і > 0 , ..., |
ô\->0, . . . |
||||
. . . , о ь > 0 , Я і > 0 , ..., %j>0, ..., Кп>0 |
такие, при которых |
|
||||||
|
\К(х?\ |
. . . . |
у Р \ |
. . . . уЯ)-К(х?\ |
. . . |
|
||
|
|
. . . . х?\ |
у?\ |
|
у%)\<е, |
|
(ІІІ.229) |
|
как только |
|
|
|
|
|
|
|
|
I x P ' - x P ' k S b |
...ЛхР-хПкЪ,, |
|
. . . . |
\хУ-хР\<Ълі |
||||
\ У І 1 |
) - У \ 2 ) \ < К |
|
|
|
|
•••• |
I ^ - ^ |
' K ^ - |
196
Таким образом, задаваясь из технологических или каких-либо других соображений величиной 8, можно определить ôi, ..., б^, .. .
..., ой, КІ, ..., Àj, ..., КТ и разбить область Ѳ на прямоугольные окрестности, ребра которых равны ôi, ôh, Я,і, ..., Кт. Это га рантирует то, что для любых точек области Ѳ, принадлежащих одной окрестности, значения функции К{х, у} будут отличаться не более, чем на область е. Поэтому область в можно представить
h m
в виде фактор-множества, состоящего из Ц Ц At-Aj классов, причем согласно условиям уравнений (III.214) и (III.215)
|
|
|
|
**=[ |
|
b \ t a i |
] ; |
i=TTk, |
|
(Ш.230) |
||
|
|
|
A |
j = |
\ - ^ L \ |
; |
j=X~ik. |
|
(И1.231) |
|||
Каждая |
точка |
одного |
класса |
является полноправным его пред- |
||||||||
|
|
|
|
|
|
h |
|
|
|
|
|
|
ставителем. Поэтому |
имеется Д |
П ^ |
і точек. Подставляя |
их ко- |
||||||||
|
|
|
|
|
|
І-Іj=l |
|
|
К {х, |
у} для |
||
ординаты в выражение |
(III.218), получим значение |
|||||||||||
данного класса с ошибкой, не более чем Sä, подсчитанной по фор |
||||||||||||
муле (III.216). |
|
|
|
|
|
|
|
|
|
|
||
Физически величины |
ôj и Х3- представляют шаги квантования по |
|||||||||||
уровню параметров ХІ\ І |
= |
\ , k и у у, |
/ = 1 , m в интервалах |
измене |
||||||||
ния аі^Хі^Ьі |
|
и |
Cj^yj^dj |
|
[условия |
равенств |
(III.214) |
и |
||||
(III.215)]. Таким образом, |
имеется Д* значений параметра |
хі, |
А2— |
|||||||||
параметра |
х2, |
..., |
Ak |
параметра |
хк, |
M — параметра |
у и |
Ат |
— |
|||
|
|
|
|
|
|
|
|
ft |
|
|
|
|
параметра |
у т |
, т. е. игрок X обладает Д А * |
стратегиями, а |
игрок |
||||||||
|
|
|
|
|
|
|
|
г = 1 |
|
|
|
|
m
Y— J\Aj стратегиями. Как и ранее, стратегии игрока X — это на-
3 = 1
боры значений параметров {х}, а стратегии игрока Y — режимы по реагентам {у}.
Составим платежную матрицу ||аі ; || возможных значений К для всех режимов. Количество строк в этой матрице і = 1, ѵ:
|
k |
|
ѵ = |
П Aj, |
(III.232) |
a количество столбцов / = 1, n |
|
|
|
k |
|
n= |
П |
(111.233) |
197
Матрица примет вид
ш |
1 |
2 |
n |
|
1 |
а п |
« 1 2 |
« 1 « |
|
2 |
« 2 1 |
« 2 2 |
« 2 л |
(ІІІ.234) |
« v i |
а ѵ 2 |
« ѵ л |
Иначе говоря, столбцы матрицы (III.233) пронумерованы по номерам, всех возможных наборов параметров {х} (каждый набор состоит из k значений), а строки — по номерам всех возможных режимов.
Схема управления для игры с полной информацией. Игрок Y
стремится всегда получать max К для любого численного набора параметров {х}. Поэтому в каждом столбце матрицы (III.234) выбираем максимальное значение функции К и считаем, что для данного набора значений Х і , х2, ..., хк оптимальным является ре жим, которому соответствует max ац [123]. Таким образом, множе ство классов оказывается в однозначном соответствии с множест вом режимов, т. е. каждому столбцу матрицы (III.234) соответст вует единственный оптимальный режим (но не наоборот).
ѵ<п, |
следовательно, |
одному |
оптимальному режиму могут |
со |
||||||
ответствовать |
несколько |
наборов |
хі, |
хо, ..., |
х&. Объединим |
все |
на |
|||
боры |
Х і , |
Х 2 |
, .. ., |
X f t , |
отвечающие |
одному оптимальному режиму, |
||||
запишем их в одну строку новой матрицы. Строки этой |
матрицы |
|||||||||
пронумерованы по |
множеству возможных |
оптимальных |
режимов |
|||||||
1, ѵо |
( ѵ о ^ ѵ ) , а количество столбцов |
равно максимальному |
количе |
ству наборов, отвечающих одному оптимальному режиму. В стро ках новой матрицы, где количество наборов меньше максималь
ного, поставим нули. |
|
|
|
|
|
|
Пусть, например, |
режиму і = 1 |
матрицы |
(ІІІ.234) |
соответство |
||
вали |
наборы (чистые |
стратегии) с номерами |
/ = 1 , 10, |
100, |
120; ре |
|
жиму |
і = 2 — наборы |
/ = 2, 9, 90, |
101, 115 и т. д. Причем |
режиму |
||
і = 5 |
соответствует максимальное |
количество |
наборов |
/ = 3, 7, 36, |
1 Часто можно уменьшить размеры матрицы (III.234), применяя неравно мерное квантование по уровню параметров {х} и {у} в соответствии с их функ циями распределения.
198
85, 32, 121. Для этого примера новая матрица примет вид
1 |
1 |
10 |
100 |
120 |
0 |
0 |
0 |
|
2 |
2 |
9 |
30 |
101 |
115 |
О |
О |
|
|
|
|
21 |
36 |
85 |
32 |
131 |
(III.235) |
ѵ0 |
13 |
20 |
0 |
0 |
0 |
0 |
0 |
|
Итак, если поступила информация о |
том, |
что |
ХІ = Х ^ , |
ХІ~ |
|||
=х®, |
Xh = x& |
соответствуют набору |
№ |
36, |
то |
оптимальным |
|
режимом для такой ситуации будет режим под № 5. |
|
|
|
||||
Рис. III.36. Схема управления для дискрет |
|
|
|
3 h**T~^" |
|
||
ных |
игр с полной информацией: |
| / |
|-»-ГТ~ТЧ |
|
|||
/ — о б ъ е к т у п р а в л е н и я ; 2 — с и с т е м а к о н т р о л я ; S — |
|
|
|
|
|
||
у с т р о й с т в о к в а н т о в а н и я ; |
4 — м а т р и ц а з н а ч е н и й ; |
і |
|
|
|
|
|
5 — к о м а н д н о е у с т р о й с т в о ; 6 — р е г у л я т о р п о д а ч и |
I—2—Г™ |
|
I—£—I |
|
|||
|
р е а г е н т о в |
|
|
|
|
|
Изложенное выше показывает, насколько прост алгоритм уп равления в случае игры с полной информацией.
Матрицу вида (ІІІ.235) можно легко представить матрицей значений [249]: наборы параметров {х} всегда можно коммутиро вать через проводимости на шины режимов. Снабдив такую мат рицу на входе устройством, переключающим вертикальные шины на источник питания в соответствии с квантованными значениями набора {х}, наблюдаемого в текущий момент времени, а на вы ходе—устройством-искателем максимального тока с указанием номера режима, можно применить ее в системе управления техно логическим контуром как устройство выработки управляющей ин формации.
Схема управления для этого случая показана на рис. III.36. Сигналы об измеренных системой контроля значениях параметров Х\, хг, • •., Хи поступают на вход устройства квантования, а затем — в матрицу значений. Командное устройство вырабатывает опти мальный режим для поступившей в матрицу ситуации и команд ную информацию для регуляторов подачи реагентов. Как и ранее, задание на регуляторы остается постоянным на промежутке вре мени Л7Л
Схема управления для дискретных игр с неполной информацией.
Предположим, что |
получена |
информация |
о наборе |
х°±, х°2, ... |
6 5 х°п. Это значит, |
что игрок |
X применил |
стратегию, |
включаю |
щую этот набор. Поскольку все остальные неизмеряемые |
параметры |
199
xh+i, ..., |
Xk, из всей группы xiy |
функции |
времени, то в момент |
..., хк, ..., |
xh — есть |
случайные |
получения |
информации |
игрок X |
мог применить стратегию с любым |
из |
Ц |
Л* оставшихся |
наборов. |
|||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
г = /н-1 |
|
|
|
|
|
|
|
|
|
Следовательно, задача максимизирующего игрока Y состоит в том, |
|||||||||||||||||||||
чтобы |
определить |
свою |
оптимальную |
стратегию, если ему изве |
|||||||||||||||||
стно, |
что |
игрок А' |
применил |
стратегию |
вида |
|
(#°, |
х°2, |
..., |
х° , |
|||||||||||
xlh+i |
, |
..., |
X*) и |
|
|
|
|
|
|
|
|
|
|
|
|
|
k |
|
|
|
|
неизвестно, какой |
из |
возможных |
JJ |
Aj |
наборов |
||||||||||||||||
применил X в этой стратегии. |
|
|
|
|
|
|
|
i-h+i |
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
В создавшейся ситуации игрок Y может рассуждать |
следующим |
||||||||||||||||||||
образом. Игрок X не применяет в данный момент стратегии с на |
|||||||||||||||||||||
борами, |
не включающими |
х^, |
х°, |
|
x°h . Поэтому можно, |
вы |
|||||||||||||||
черкнув столбцы матрицы (III.234), |
отвечающие |
этим |
стратегиям, |
||||||||||||||||||
получить новую |
матрицу |
игры |
\\ац\\ |
[назовем |
ее подматрицей |
мат |
|||||||||||||||
рицы |
(III.234)] и найти ее решение. |
|
|
|
|
|
|
|
|
|
|
||||||||||
Задача |
состоит, |
таким |
образом, |
в решении |
игры |
(ѵХг), где |
|||||||||||||||
|
|
|
|
|
|
|
|
|
|
k |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
г= |
|
П А г < д . |
|
|
|
|
|
|
(III.236) |
||||
|
|
|
|
|
|
|
|
|
/ = |
й + |
1 |
|
|
|
|
|
|
|
|
|
|
Здесь возможны три случая |
[124]. |
|
|
|
|
|
|
|
|
|
|||||||||||
Случай 1. Решение игры лежит |
в |
области |
чистых |
стратегий. |
|||||||||||||||||
Для |
решения |
отыскивается |
седловая точка |
|
[146], для |
чего |
на |
||||||||||||||
ходятся |
min max а0.* |
по столбцам |
и max min а0.^ |
по строкам. Если |
|||||||||||||||||
|
|
|
|
|
|
min max a%=max |
min а%, |
|
|
|
|
|
(III.237) |
||||||||
то игра (ѵ Х'1 имеет седловую |
точку: игрок Y имеет |
единственную |
|||||||||||||||||||
(чистую) |
оптимальную |
|
стратегию, |
которой |
|
соответствует |
|||||||||||||||
max mina0 |
и всегда |
будет |
получать не менее этой |
величины. |
|
||||||||||||||||
Таким образом, для рассматриваемого случая при поступлении |
|||||||||||||||||||||
информации о наборе |
х°, |
х°2, |
..., |
x°h игрок |
Y будет |
иметь |
единст |
||||||||||||||
венную |
оптимальную |
(чистую) |
стратегию, т. е. набору х°, |
х°, ... |
|||||||||||||||||
..., |
x°h |
соответствует |
единственный |
оптимальный |
режим. |
|
|
||||||||||||||
Всего подматриц |
(ѵХг) |
|
будет столько, сколько |
возможно набо- |
|||||||||||||||||
|
Хі, |
хг, |
•. -, Хн, |
|
|
|
h |
|
|
|
|
|
|
|
|
|
|
|
|
||
ров |
т. е. |
Ц А*. Поступая |
аналогичным |
образом |
|||||||||||||||||
|
|
|
|
|
|
|
|
І=І |
|
|
|
|
|
|
|
|
|
|
|
|
|
с каждой из подматриц, находим |
оптимальную |
стратегию |
для |
лю- |
|||||||||||||||||
|
|
набора х®, |
х№, |
..., |
х® {1=1, |
|
|
h |
|
|
|
|
|
|
|||||||
бого |
|
2, |
..., |
JJ |
А^). При этом |
по- |
лучим, что множество технологических ситуаций, определяемых информацией о параметрах хи х%, . .., хп, находится в однозначном соответствии с множеством технологических режимов. Отсюда оче видно, что структура и работа системы управления с неполной ин-
200
формацией для игры с седловой точкой аналогичны структуре и работе системы с полной информацией, показанной на рис. III.36.
Случай 2. Решение игры лежит в области смешанных страте гий, когда
л
max min a'j < min max а^, / = 1 , 2, . . ., П Аг. |
(III.238) |
і = \
В этом случае выигрыш игрока Y определяется как математи ческое ожидание
ЪаіъРіЯі, |
(Ш.239) |
где РІ и qi — частоты применения чистых стратегий соответственно игрокам Y и X, отвечающие условиям
|
|
V |
г |
|
1- |
(ш-240) |
/ 7 г > 0 ; |
? е > 0 ; |
2 А = 2 ^= |
||||
|
|
і=\ |
5=1 |
|
|
|
Задача состоит в отыскании оптимальных смешанных страте |
||||||
гий игрока У. |
|
|
|
|
|
|
Пусть у — цена игры (ѵ Хг), тогда: |
|
|
|
|||
апр\+022^2+ |
• • • |
+ < W v > 7 ; |
|
(III.241) |
||
|
|
|
|
|
|
|
О і , А + о 2 г А + • • • + а ѵ г Л > Y- |
|
|
||||
Разделим правые |
и левые |
части |
неравенств |
(III.241) на у и |
||
положим |
|
|
|
|
|
|
|
|
|
|
|
|
(ІІІ.242) |
Тогда неравенства |
(III.241) |
примут вид |
|
|
|
|
« 1 ^ 1 + 0 2 1 ^ 2 + • • • |
> і ; |
|
|
|||
аі2?і + о2 2?2+ - • - +аѵ 2?ѵ > |
1; |
|
|
|||
« 1 ^ 1 + ^ 2 + |
- • - + a , r £ , > |
1. |
|
(III.243) |
||
Преобразуем систему неравенств |
(III.243) |
в систему |
уравнений, |
|||
введя фиктивную переменную Z | ^ 0 : |
|
|
|
|
||
аи5і + « 2 і 5 2 + • • • + о ѵ і ^ - 2 , = 1; |
|
|||||
Оі2Іі + о 2 2 ?2 + - • • + a v 2 Ê , — z 2 |
= l ; |
|
|
|||
|
|
|
|
|
|
(III.244) |
201
Положим, что
Ф = 6 Ж , + . • . + 6 , = * + |
»+1'~+Р. |
(ІІІ.245) |
||
Необходимо |
отыскать такие | І и Z|, чтобы они отвечали min Ф |
|||
(/ = 1, ѵ; | = 1 , |
г). Для этого |
решим |
систему |
уравнений (III.244) |
относительно | : |
|
|
|
|
|
% 2 ~ C 2 \ Z \ ~\~C22Z2 |
~\~ • • • |
~f~ C2TZT ~T~ |
k-2\ |
|
|
|
|
(III.246) |
Просуммируем правые и левые части равенств (III.246):
2V |
\і = Ф=гх |
V2 c n + z 2 |
V2 с ' 2 + • • |
V2 ^;r +const. |
|
( = 1 |
|
1 = 1 |
|
i = l |
i = l |
|
|
|
|
|
(III.247) |
Задача отыскания |
Z | ^ 0 |
( | = 1, г), при которых |
Ф обращается |
в минимум, решается как вариационная задача отыскания услов
ного экстремума (min) равенства |
(111.247) при условии |
£^=0 [247]. |
|
Найденные значения z\ подставляем в систему |
равенств |
||
(III.246) и определяем |
Затем |
по формуле (III.242) |
подсчиты |
ваем значения частот рФ (і = 1, ѵ).
Таким образом, если игрок Y применяет смешанную стратегию с найденным оптимальным распределением рФ, то он всегда будет
получать выигрыш не меньше у, какую бы стратегию не применил
игрок |
X. |
|
|
игрок Y |
|
|
|
|
|
|
Описанным |
образом |
должен |
провести |
решение |
всех |
|||||
h |
|
(ѵХг) |
|
|
|
|
|
|
|
|
Д А І |
игр |
и для |
каждой |
из |
них |
определить |
оптимальное |
|||
І=І |
|
|
|
|
|
h - |
|
|
|
|
распределение частот рФ ( / = 1 , 2 , . . . , |
|
|
|
|
||||||
П ^ І ) - |
|
|
|
|||||||
|
|
|
|
|
|
t - i |
|
|
|
|
В соответствии с этим система управления разделительной ус |
||||||||||
тановкой |
должна включать в себя |
случайный механизм, |
выраба- |
|||||||
тывающий |
h |
|
|
|
|
|
|
управ- |
||
П А І распределений р ф . Схематически система |
||||||||||
|
|
г = 1 |
|
|
|
|
|
|
|
|
ления показана на рис. III.37. |
|
|
|
|
|
|
||||
Информация о текущей ситуации поступает на устройство срав |
||||||||||
нения |
ситуаций, |
которое |
вырабатывает команду случайному |
меха |
низму на выработку соответствующего этой ситуации распределе ния частот чистых стратегий рФ. Последний информирует команд-
202