книги из ГПНТБ / Шахнович, А. Р. Математические методы в исследовании биологических систем регулирования
.pdfтимальнои траектории этим итерационным методом производится следующим образом (Шапиро, 1966).
Динамика системы описывается уравнением
-%- = A(t)x + B(t)U(t),
причем решается оно по формуле Коши:
|
|
|
:{t) = |
|
|
X{t){x0+^Y(i)U{T)dx}, |
|
||
где |
|
|
|
|
|
|
|
|
|
|
|
|
X (0)== I — единичная матрица. |
|
|||||
и |
|
|
|
|
|
|
|
|
|
|
|
|
Y(t) |
= |
X-i(t)B{t). |
|
|
||
Необходимо |
найти управление |
£/(*о,о такое, |
чтобы |
|
|||||
|
|
|
x(t,U[0,t)) |
= |
z(t) |
|
(1-2-5) |
||
при наименьшем возможном |
t |
(z (t) — вектор |
цели). |
|
|||||
Известно, что |
|
|
|
|
|
|
|||
|
|
|
V(t, U{ù>i) |
= |
^Y(x)U(x)dx |
|
|
||
|
|
|
|
|
|
о |
|
|
|
|
|
|
g(t) = |
|
X-i(t)z(t)~x0. |
|
|
||
Выражение |
оптимального |
управления имеет вид |
|
||||||
|
|
|
U'{x) |
= |
sign { У (т) іі}. |
|
|
||
Здесь |
Y' |
(т) — транспонированное |
значение |
матрицы |
Y (т) и |
||||
0 < т < |
t°. |
|
|
|
|
|
|
|
|
На каждом т-м шаге итерационный процесс состоит из |
двух эта |
||||||||
пов: |
|
|
|
|
|
|
|
|
|
— поиск следующего момента времени |
tm+1, |
|
|||||||
— поиск следующего значения вектора |
r | m + 1 . |
|
|||||||
На |
первом шаге m = 1 соответствующее значение вектора т)1 |
||||||||
определяется как |
|
|
|
|
|
|
|||
|
|
|
|
n |
- |
g ( 0 |
) |
|
|
|
|
|
|
11 |
|
U (0) I ' |
|
|
а значение момента времени tx есть первое значение времени t ^> 0, для которого выполняется условие
П і > = о,
где функция ошибки
30
На втором шаге m -(- 1 = |
2 (и последующих) значения вектора |
|||||
ï]m+i определяются по формуле |
|
|
|
|
||
|
„ |
, |
КрЕ{ітцт) |
|
|
|
|
_ |
|
1тЧг\\КрЕ(іпПт)\\ |
|
||
+ 1 |
IL |
I |
КрЕ(ітГ]т) |
|f |
|
|
|
Чт "Г і |
|
|
|
||
Полученное значение т ) т |
+ 1 должно |
удовлетворять |
условию |
|||
|
|
|
m+l |
|
|
|
где е ^> О заранее выбрано. |
|
|
|
|
|
|
Если это условие выполняется, то осуществляется |
этап опреде |
|||||
ления следующего значения времени |
tm+v |
|
|
При невыполнении этого условия производится новое опре
деление |
значения вектора ï | m + 1 , |
причем в формуле значение Кр |
|
заменяется значением |
Кр+Х. |
|
|
Для |
ускорения сходимости |
этого этапа целесообразно опре |
|
делять |
значение Кр+1 |
соотношением |
|
|
|
л р + 1 |
- 2 р . |
Этот этап продолжается до тех пор, пока не удовлетворится условие. Затем осуществляется этап определения значения вре мени tm+1, которое представляет собой первое значение t ^> tm, удовлетворяющее условию
где функция ошибки есть |
|
Е (tm+1, T J m + 1 ) = g (tm+1) — V {tm+1, |
J\m+1). |
Заканчивается итерационная процедура выполнением соотно шения (1-2-5).
Данная итерационная процедура была применена к решению ряда конкретных задач определения оптимального управления аналитическим путем и с помощью ЦВМ.
Ниже приведены результаты решения двух простейших за дач.
а) і" = |
17; |
|t7|<l ; |
a (і) = |
0; |
*„ = [ J ] Î |
|
Л = |
[ о о ] ; |
|
X |
( |
^ [ o î ] ; |
|
б) Ï = |
U; |
| * 7 | < 1 ; |
z{t) |
= |
a 2 |
i 2 ' |
|
|
31
1 а
+1
\
2 t, сек.
V/1 ^
-i-:r.-.=h-
Рпс. 1. Фазовый портрет
О б ъ я с н е н и я в тексте
|
2 |
(,оек. |
|
— J J L J |
|
Рис. 2. |
Фазовый портрот |
|
О б ъ я с н е н и я в тексте |
|
|
Графики U(t) |
и фазовый портрет для этих задач приведены |
соот |
ветственно на рис. 1 и 2. |
|
Преимущественной областью применения динамического про граммирования являются дискретные, нелинейные и стохасти ческие системы.
Однако в настоящее время трудами советских ученых развито применение принципа максимума к стохастическим (Стратонович, 1966; Хазен, 1968; Фельдбаум, 1963; Шапиро, 1968), нелинейным
(Болтянский, |
1969) и |
дискретным (Пропой, |
1972) |
системам. |
|
||||||
|
|
|
|
|
Л И Т Е Р А Т У Р А |
|
|
|
|
|
|
Беллман |
Р. |
Динамическое |
программирование. М., |
ИЛ, |
1960. |
|
М., |
||||
Болтянский, |
В. Г. Математические методы оптимального |
управления. |
|||||||||
«Наука», |
1969. |
|
|
|
|
|
|
|
|
||
Гродинз |
Ф. |
Теория |
регулирования и |
биологические |
системы. М., |
«Мир», |
|||||
1966. |
|
|
|
|
|
|
|
|
|
|
|
Понтрягин |
Л. |
С, |
Гамкрелидзе Р. В., |
Болтянский |
В. |
Г., |
Мищенко |
Е. |
Ф. |
||
Математическая |
теория оптимальных процессов. М., |
Физматгиз, |
1961. |
Пропой А. И. О задачах дискретного управления с фазовыми ограничения ми.— Ж. вычислит, математики и математической физ., 1972, № 4.
32
Стратонавт Р. Условные |
марковские |
процессы и их применение к теории |
|||||||||
оптимального управления. Изд-во |
МГУ, 1966. |
|
|
||||||||
Фельдбаум |
А. А. |
Основы |
теории |
оптимальных |
автоматических |
систем. М., |
|||||
Фызматгпз, |
1963. |
|
|
|
|
|
|
|
|
|
|
Хазеп 9. М. Методы |
оптимальных |
статистических |
решений |
и задачи опти |
|||||||
мального управления. М., «Сов. радио», |
1968. |
|
|
||||||||
Шапиро Д. И. Об одном итерационном |
методе |
оптимального |
управления.— |
||||||||
Труды Всес. заочи. энергетич. ин-та.— |
Автоматика н |
телемеханика, |
|||||||||
1966, |
31. |
|
|
|
|
|
|
|
|
|
|
Шапиро Д. И. Об одной |
стохастической |
задаче |
оптимального |
синтеза.— |
|||||||
Труды |
IV Всес. |
совещ. по автомат, |
упр. Тбилиси, 1968. |
|
Глава 1-3 ТЕОРИЯ ИГР
Теория игр есть теория математических моделей принятия оп тимальных решений в условиях конфликтов или неопределенно сти (Воробьев, 1968).
В соответствии с приведенной формулировкой основным объ ектом изучения теории игр являются модели принятия оптималь ных решений в условиях конфликта. Подобные модели назы ваются играми (Фон Нейман, Моргенштерн, 1970).
Введем некоторые определения. Стороны, участвующие в кон фликте и принимающие решение, называются коалициями дей
ствия; |
|
|
|
|
Множество подобных коалиций — Rg. |
|
|||
Возможность каждой из К ЕВ Rg |
коалиций действия назы |
|||
ваются стратегиями. Множество |
всех |
стратегий — SK- |
||
Стороны, отстаивающие общие интересы, есть коалиции инте |
||||
ресов. |
|
|
|
|
Множество подобных коалиций — Ru. |
|
|||
Система, обозначающая правила-игры, —Г. |
|
|||
Отношение предпочтения для каждой коалиции > |
к характе |
|||
ризует в определенной ситуации цели участников конфликта. |
||||
Учитывая изложенное, игра формально может быть определена |
||||
следующим образом. |
|
|
|
|
Игрой |
называется система |
|
|
|
|
г = <і?а, {SK}KERA, |
s , |
Ru,{>K}KeRu>, |
|
где Rg, Ru, |
S к {К ЕЕ Rg)— произвольные множества; S |
акеіідП8к, |
||
^>к {К ЕЕ. Ru) — произвольные |
бинарные отношения |
на S. Это |
выражение формально характеризует все элементы коалиции, их возможности, правила игры и цели игры.
2 А. Р. Шахиович |
33 |
Очевидно, что наиболее характерным признаком игры является множественность коалиции интересов. Если это множество пусто, то его игровая сущность вырождается. Исследование тогда про изводится иными математическими методами.
В основу классификации игровых задач могут быть положены различные признаки:
— множественность или единственность коалиций действия;
—тип моделей, характеризующий взаимосвязи (вероятностнологические модели, дифференциальные модели, графы); '
—цели игры («уничтожение противника» или нахождение ком промисса) и т. д.
Достаточно полной классификации игр в настоящее время еще не существует. Пусть і?а и Ru — семейства подмножеств некоторого множества / , элементы которого называются игроками. Можно считать, что всякое подмножество коалиции действия само яв ляется коалицией действия. Практически это предположение ни как не умаляет общности рассмотрений.
Пусть каждому игроку і ЕЕ / поставлено в соответствие мно жество ST (множество индивидуальных стратегий игрока і). По ложим для каждого К ЕЕ і?э
|
S к |
= П |
Si |
|
|
|
|
|
|
|
|
І6К |
|
|
|
|
|
и |
|
|
|
|
|
|
|
|
|
S ЕЕ П Si. |
|
|
|
|
|||
Здесь S не задано явно в виде подмножества Л S к. Но всякая си- |
||||||||
|
|
|
|
|
|
деі?а |
|
|
туация S, понимаемая как элемент Д £ ; , определяет (в виде своих |
||||||||
|
|
|
|
іег |
|
|
|
|
проекций на множества вида nSt) |
коалиционные стратегии каждой |
|||||||
из коалиций действия К. Набор же всех таких S к {К ЕЕ Rd) |
есте |
|||||||
ственно понимать как элемент Л S к. |
|
|
|
|
|
|||
Введем, наконец, для каждого К |
ЕЕ Ru |
на множестве всех |
си |
|||||
туаций S принимающую вещественные |
значения функцию Лк |
(эта |
||||||
функция Лк называется функцией |
выигрыша коалиции |
интере |
||||||
сов К). Будем считать, что S1 |
]> |
KS2 |
для К |
ЕЕ Rd, если Лк |
(SJ ^> |
|||
> # * ( £ а ) . |
игры можно |
|
назвать |
коалиционными |
играми |
|||
Полученные |
|
|||||||
с запрещенными ситуациями. |
Пусть Г — бескоалиционная |
игра |
||||||
с запрещенными ситуациями (7?э — Ru |
= |
Л- Введем в рассмотре |
||||||
ние множества |
X, элементы которого будем называть позициями, |
и множество Т, элементы которого обычно можно интерпретиро вать как моменты времени, и фиксируем отображение
f:S->2TxX
34
(т. е. / ставит в соответствие каждой ситуации игры функцию, за данную за Т со значениями в X). /-образы ситуаций называются партиями, и на каждой партии fs (где s Œ S) задаются численные выигрыши hi (/s ) каждого из игроков і еЕ / . Так, заданные вы игрыши определяют функцию выигрыша игроков:
Ht (s) = hi (f.).
Конкретизированную описанным образом бескоалиционную игру
можно назвать общей позиционной игрой. |
|
||||
Пусть |
Г — общая |
позиционная игра |
в смысле предыдущего |
||
примера, |
X — конечномерное евклидово |
пространство с |
элемен |
||
тами X, |
Т — множество |
вещественных |
чисел, а cp: S |
X X X |
|
X Т ->• X. Будем считать, что S состоит из всех ситуаций а, для |
|||||
которых система дифференциальных уравнений |
|
||||
(это равенство понимается как векторное) |
имеет при данных на |
||||
чальных |
условиях (х0, |
t0) |
единственное решение. Тогда |
каждая |
ситуация определяет некоторую партию, которую в данном случае принято называть траекторией. Определяемые через ср траектории /s: Т ->- X оказываются однозначными функциями.
Так, определенная игра Г называется дифференциальной иг рой. Задача теории дифференциальных игр может быть сформули рована следующим образом (Айзеке, 1967).
В некотором векторном пространстве задано дифференциальное
уравнение |
|
|
dz |
. |
. |
dt |
=<P(z,u,v), |
правая часть которого зависит от двух управляющих параметров и ж v. Кроме того, в пространстве R задано многообразие M про извольной размерности.
Игра состоит в том, что определенным образом задается изме нение во времени управляющего параметра ѵ, а значения управ ляющего параметра и выбираются так, чтобы некоторый функцио нал (в теории игр называемый платой)
J=\G{z,u,v)-dt+R{T)
о
принимал экстремальное значение. Игра считается законченной, когда
z e M .
Динамика игры рассматривается в фазовом пространстве коор динат (см. главу 1-2). Вид функционала определяется конкретной задачей. Большинство практических случаев охватывается двумя
2* 35
типами функционалов: при G "= 0 игра имеет терминальную пла
ту, при |
R = 0 игра |
имеет интегральную плату. |
Вообще |
G (z, и, ѵ) |
характеризует |
требование к динамике, a R (Т) |
харак |
теризует состояние в конечный момент. Наиболее распространен ным классом дифференциальных игр являются игры преследо вания, т. е. перехваты одного управляемого объекта другим
(Красовский, 1970). Одним из основных |
положений теории игр |
|||||||
является теорема фон Неймана о минимаксе. |
|
|
|
|||||
Применительно к теории дифференциальных игр она может |
||||||||
быть записана |
в виде |
|
|
|
|
|
|
|
|
max |
min / (и, |
ѵ) — min max / |
(и, v) = |
/0. |
|
|
|
|
Ii |
и |
|
v u |
|
|
|
|
Здесь / 0 |
— цена платы |
или, иначе, / (и, ѵ*) <І / 0 |
= / |
(и*, ѵ*) |
||||
scC / (u*, v), где и*, v* — стратегии, характеризующие |
седловую |
|||||||
точку. |
Выбор |
решения в каждом возможном положении |
состоит |
|||||
в определении |
каждым |
игроком своего |
управления |
в |
функции |
|||
фазовых координат и* |
(х) или ѵ* (х). |
|
|
|
|
|||
С помощью |
теории |
дифференциальных игр решаются |
опреде |
|||||
ленные задачи из области военного дела, экономики и др. |
|
|||||||
В данном разделе монографии для'нас представляет |
больший |
|||||||
интерес методическая, |
а не прикладная |
сторона. |
|
|
|
|||
Рассмотрим |
возможность исследования системы |
управления |
с помощью теории дифференциальных игр. Впервые на это указал Я . 3. Цыпкин (1968).
Система управления:
+ |
x (t) = |
«(*); x(Q) = x0. |
Определим управление |
u*(t), |
минимизирующее функционал |
J(u(t),x0)=\\l-x(t)\dt.
о
Ограничения на управление
0 < и ( * ) < 1 ,
т
\о и (t) dt = T1.
Для перехода к игровой задаче введем очевидное тождество
|
11 — x J = max w(l |
— x), |
тогда |
| « М < 1 , |
|
|
т |
|
т |
|
|
min ^ 11 |
— x [t) I dt — min max |
\w(l—x(t))dt, |
ц о |
36
На основании теоремы о минимаксе |
|
|
||
|
т |
|
т |
|
min max \w (1 — x (t))dt = max min \ w (1 — x (t)) dt, |
||||
u | » | < 1 ; 0 |
IWI < i и 0 |
|
||
- Tr е. и* и u;* образуют седловую точку. |
|
|||
Если |
U — множество |
функций и, |
удовлетворяющих |
ограни |
чениям, |
а И7 — множество |
функций, |
удовлетворяющих |
условию |
\w\ ^ 1, то на основании теоремы о минимаксе
т
min max \w(l ueuwew о
т |
— x (t)) dt. |
— x (t)) dt — max min \ w(l |
|
wewueu о |
|
Таким образом, задача об оптимальном управлении сводится к не прерывной дифференциальной игре с функцией платы
т
J{u,w) = \w{i —x(t))dt.
о
Влияние асимметрий областей допустимых управлений на ди намику дифференциальной игры исследовал Шапиро (1971).
Весьма перспективным представляется применение игровых методов к анализу биологических процессов управления. В гене тике методы теории игр могут быть использованы при описании мутационного процесса. В физиологии высшей нервной деятель ности теоретико-игровые методы могут быть применены при ис следовании целенаправленных действий высших животных, â также коллективного поведения. Подобные исследования являются основным направлением применения теории игр автоматов (Цетлин, 1969).
|
|
|
|
Л И Т Е Р А Т У Р А |
|
Айзеке Р. Дифференциальные игры. М., «Мир», 1967. |
|
||||
Воробьев |
H. Н. Современное состояние теории игр.— Докл. на I Всес. конф. |
||||
по .теории игр. Ереван, 1968. |
|
||||
Красовский |
H. Н. Игровые |
задачи о встрече движений. М., «Наука», |
1970. |
||
Фон Волъферсдорф |
Л. Минимаксная задача в теории автоматического |
управ |
|||
ления.—Тезисы докл. I I Всес. конф. по теории игр. Вильнюс, |
1971. |
||||
Фон Нейман |
Док., |
Моргепиітерн О. Теория игр и экономическое поведение. |
|||
М., |
«Наука», |
1970. |
|
|
|
Цятлин |
М- Л. Исследования по теории автоматов и моделированию |
биоло |
|||
гических процессов. М., «Наука», 1969. |
|
||||
Цыпкин |
Я. |
3. Адаптация и обучение в автоматических системах. М., «Нау |
|||
ка», |
1968. |
|
|
|
|
Шапиро |
Д. И. Об одной задаче дифференциальных игр с асимметричными |
||||
стратегиями.— Тезисы |
докл. I I Всес. конф. по теории игр. Вильнюс, |
||||
1971. |
|
|
|
|
Глава 1-4
НЕЙРОННЫЕ СЕТИ И ПЕРСЕПТРОНЫ
Системы нейрорегуляции очень сложны и весьма разнородны по своему характеру. Приведенные в главах 1-1 ~ 1-3 математитические методы исследования сложных систем, как будет пока зано ниже, во многих случаях могут успешно применяться, однако описание всего многообразия математических моделей регуляторных функций нервной системы в терминах этих методов исследо вания не представляется возможным.
В частности, значительным шагом вперед в разработке аде кватного математического аппарата для моделирования функций мозга явилась разработанная Мак-Каллоком и Питтсом теория нейронных сетей.
Эта теория используется для исследований, связанных с изучением функционального состояния4 нервной системы, уже около 30 лет. По ней имеется значительная литература (Harmann, •Lewis, 1966). Представляется целесообразным изложить теорию здесь так, как она была предложена ве авторами в 1942 г.(МакКаллок, Питтс/1956).
Теория нейронных сетей основана на положении, что лервная система является сетью нейронов, каждый из которых имеет тело и аксон. Места контакта нейронов (синапсы) находятся всегда между аксоном одного и телом другого нейрона. В каждый момент нейрон имеет известный порог, который должен превзойти раз дражение, чтобы вызвать нервный импульс.
Подробнее физиологическая часть теории нейронных сетей изложена в разделе I I . Ниже приведены основные математические представления этой теории.
Примем следующие физические допущения.
1. Активность нейрона удовлетворяет принципу «все или ни чего».
2. Возбуждению нейрона в какой-либо момент времени должен
предшествовать |
латентный период |
накопления |
возбуждений |
|
определенного |
фиксированного числа синапсов. |
Это |
число не |
|
'зависит от предыдущей активности и от расположения |
синапсов |
|||
па нейроне. |
|
|
|
|
3. Единственным запаздыванием в нервной системе, имеющим |
||||
значение, является синаптическая |
задержка. |
|
|
|
4. Активность какого-либо тормозящего синапса |
абсолютно |
исключает возбуждение данного нейрона в рассматриваемый мо мент времени.
5. С течением времени структура сети не изменяется. |
Симво |
|
лизмом для изложения теории явился язык I I (Сагпар, 1938) |
с уче |
|
том обозначений (Russell, Whithead, |
1925). |
|
Функтор.. -Л1-- задан соотношением |
S (Р) (t)t = Р {Kx)t |
= х', |
8 ~"~
Под аргументом понимается ближайшее справа предикатное выра
жение (Рг). |
Здесь Р — некоторое |
|
свойство. Кроме того, |
запишем |
|||||||||||||
S%Pr |
вместо S |
{S |
(Рг)) |
и т. д. |
|
|
|
|
|
|
|
|
|
|
|||
Желающим основательно изучить математическую логику мо |
|||||||||||||||||
гут |
быть рекомендованы |
фундаментальные |
работы г . |
|
|
|
|
||||||||||
|
Обозначим нейроны данной сети N через сѵ |
... сп, |
|
а свойство |
|||||||||||||
чисел «нейрон ct |
возбуждается в некоторый момент» (равный числу |
||||||||||||||||
синаптических |
задержек |
от |
начала |
отсчета времени) |
|
— через N |
|||||||||||
с индексом |
і, |
так что Ni |
(t) означает утверждение: «ct |
|
возбужен |
||||||||||||
в момент t». Назовем Nt |
действием нейрона ct. |
Будем |
рассматри |
||||||||||||||
вать индексы при N как принадлежащие предметному |
языку. |
|
|||||||||||||||
Определим рецепторы сети N |
как |
такие |
нейроны из |
N, |
кото |
||||||||||||
рые не имеют на себе аксонов. Пусть действия этих нейронов |
суть |
||||||||||||||||
N± ... Np, |
действия же |
остальных |
нейронов |
Np+1, Np+2, |
|
... |
Nn. |
||||||||||
Тогда решением |
сети |
N |
будет |
класс высказываний |
|
вида |
St: |
||||||||||
Np+i (z i). = |
.Pi'i |
fflv |
••• Nv, |
zi)> |
г |
Д е |
РГІ |
и е |
содержит |
свобод |
|||||||
ных переменных, кроме zx, и описательных |
символов, |
|
кроме N в |
аргументе [Arg], и, возможыо, содержит еще постоянные высказы
вания [sa], причем каждое St |
верно |
для N. |
Обратно, пусть дано |
некоторое высказывание Рг1(1р11, |
р2г, |
... 1рР1, |
z v s), не содержащее |
свободных переменных, за исключением свободных переменных его аргумента. Оно реализуемо в узком смысле, если имеется такая
сеть N |
и в ней такая последовательность Ni, |
что JVX |
== Рг1 X |
X {Nx |
...Ni, zx, sax), где [saj имеет вид N |
(О). Такое |
высказы |
вание реализуемо в широком смысле или просто реализуемо, если
для некоторого п высказывание Sn |
(Ргх) (рѵ |
... рр, z1s) |
реали |
зуемо в вышеуказанном смысле. |
Нейрон ср+і |
является |
тогда |
реализующим нейроном. Два закона нервного возбуждения эк вивалентны в узком или широком смысле, если каждое S-, реали зуемое в каком-либо смысле при допущениях одного закона, реа лизуемо в соответствующем смысле другой сетью при допущениях другого закона.
Центральные проблемы теперь сформулируем так: во-первых, найти эффективный метод получения тех S, которые образуют решение заданной сети; во-вторых, охарактеризовать эффективным образом класс реализуемых S. Говоря на содержательном языке, проблемы заключаются в определении поведения произвольных
сетей и |
в нахождении |
сети, |
имеющей предписанное |
поведение, |
если таковая существует. |
|
|
||
Сеть |
называется циклической, если она содержит |
некоторую |
||
петлю, |
т. е. если в ней существует цепочка ct, с , + 1 ... нейронов, |
|||
каждый |
член которой |
имеет |
аксоны на следующем |
по порядку |
нейроне и начало которой совпадает с концом. Если система ней
ронов |
сх , ... |
Ср такова, что |
ее удаление превращает N в сеть без |
|
1 Г и л ь б е р т |
Д., А к к ѳ р м а н |
В. Осповытеоретической |
логики. М., ИЛ., |
|
1947. |
К л и н и |
С. К. Введение |
в математику. М., ИЛ., |
1957. |
39