Т3 Логика решения задач
.pdf
dk |
|
Нейронная сеть |
uk |
|
|
Ф(uk , yk) |
yk+1 |
|
|
|
Ф(uk , yk)-1 |
|
|
+ |
|
|
|
|
|
|
|
|
|
|
|
|
-
vk Нейронная сеть Ф(uk , yk)-1
Рис. 3.5.8. Схема непрямого (косвенного) обучения (обе НС идентичны и представляют обратную модель ОУ)
Однако эта схема может не работать по той причине, что НС может отображать большое количество различных входных сигналов dk на одно
и то же значение uk («вырожденное отображение»). Поэтому ошибка uk k , используемая для модификации синаптических весов, может оказаться нулевой, хотя общая ошибка dk yk 1 не равна нулю.
Обобщенная схема обучения (рис. 3.5.9) решает эту проблему путем непосредственной подачи сгенерированного управления uk на вход ОУ.
uk |
|
|
|
|
|
|
Ф(uk , yk ) |
|
|
|
yk+1 |
|
|
|
|
+ |
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
vk |
|
- |
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|||||
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
Нейронная сеть |
|
|
|
|||
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
Рис. 3.5.9. Обобщенная схема обучения НС
510. Схема специализированного обучения НС
В схеме специализированного обучения НС желаемый выход ОУ dk подается на вход НС, а выход сети uk подается на вход ОУ (рис. 3.5.10).
284
dk |
|
uk |
yk+1 |
|
Нейронная сеть |
|
Ф(uk , yk) |
|
|
|
+ |
|
|
|
- |
Рис. 3.5.10. Схема специализированного обучения НС
Разность реакции системы yk 1 и dk является информацией для
изменения весов НС. Нейросетевой регулятор, соответствующий этой схеме, может быть обучен во время работы системы. Однако для настройки его весов необходимо пропускать вектор ошибки dk yk 1
обратно через ОУ, что во многих случаях возможно лишь приближенно. Для этой задачи рекомендуют применять НС, эмулирующую ОУ. Нейросетевой эмулятор ОУ можно обучать в режиме тестирования объекта перед обучением нейросетевого регулятора в режиме работы системы, используя НС эмулятора с «замороженными» весами для обратного распространения ошибки.
Для управления динамическими ОУ схему специализированного обучения необходимо дополнять обратными связями по переменным состояния и их производным, которые подаются на вход НС. Поэтому в схеме обобщенного обучения (см. рис. 3.5.10) на вход НС можно подавать не только выходной сигнал ОУ, но и вектор переменных состояния и его производную.
_____________________________________
В заключение еще раз отметим, что рассмотренные в данном разделе НС служат для формирования нейросетевого представления знаний. Эти знания автоматически извлекаются из экспериментальных или статистических баз данных, предъявляемых НС в режиме обучения. После обучения НС аппроксимирует с требуемой точностью заранее неизвестные функциональные зависимости (интерполяция и экстраполяция функций), решающие правила (распознавание образов, диагностика состояний, прогнозирование ситуаций и т.п.) и другие «скрытые» закономерности. Таким образом, НС извлекает (в процессе обучения) знания из обучающих выборок данных и сохраняет их в своей архитектуре с настроенными синаптическими весами и связями.
285
3.6. Адаптация и самоорганизация
Свобода – преодоленная необходимость.
В. Гроссман
Свобода - основанное на познании необходимостей природы господство над нами самими и внешней реальностью.
К. Маркс
Человек стремится к достижению целей, и удивляется, что в конце не находит ничего, кроме достигнутого. Действительный же интерес представляет сам процесс.
Г. Гегель
10. В общенаучном плане логически полной ступенью развертывания научно-практической деятельности по решению сложных целевых задач является ступень активного развития (Ls.s). Активное развитие
представляет собой дуальный37 процесс, необходимыми моментами которого являются процессы реализации принятых решений (Ls.1) и
познания (Ls.2).
20. Развитие вначале выступает как свободное развитие (Ls.s.1), в
ходе которого цели деятельности без препятствий реализуются в действительности. Однако свободное развитие неизбежно сталкивается с ограничениями (Ls.s.2), препятствующими свободному развитию.
Стремление преодолеть указанные ограничения становится источником новых целей, которые порождают соответствующие процессы
37 Термин дуальный (от лат. dualis – двойственный) имеет несколько терминологических значений. Так, дуальный1 указывает на двойственную структуру целого, состоящего из двух противоположных частей. В теории управления термин дуальный используется, как правило, в этом значении. Термин дуальный2 в математике обозначает структуру, которая противоположно ориентирована другой структуре, в совокупности с которой она образует автодуальную структуру. В других дисциплинах термин дуальный может иметь иные, хотя и близкие, но, строго говоря, разные интерпретации. Вследствие междисциплинарного характера данной работы термин дуальный в ней используется в различных значениях. Это различие в значениях обычно ясно из контекста.
286
целенаправленной деятельности, приводящие к ее самоорганизации
(Ls.s.s).
30. В плане систем управления рассматриваемая ступень развития (Ls.s) характеризуется процессами адаптации и самоорганизации.
Под адаптацией обычно понимается процесс изменения параметров системы и управляющих воздействий на основе текущей информации с целью достижения заданного допустимого или оптимального состояния системы при начальной неопределенности и изменяющихся условиях.
Под самоорганизацией будем понимать процесс изменения локальных целей деятельности, соответствующего изменения структуры системы и законов управления, направленный на достижение глобальной целевой установки деятельности на основе преодоления ограниченности знаний при начальной структурной неопределенности и существенно изменяющихся условиях.
Таким образом, развитие процессов управления в сложных системах характеризуется тремя уровнями решения задач: управления, адаптации и самоорганизации.
3.6.1. Адаптация в технических системах
40. Рассмотрим решение задач адаптации в технических системах.
В технических системах нижний уровень управления, как уже было рассмотрено, в подавляющем большинстве случаев реализуется на основе отрицательной обратной связи, или другими словами – управления по отклонению. При этом ошибка управления содержит в себе следствия всех возможных отклонений и возмущений в объекте управления. Универсальным подходом к снижению ошибки управления является повышение коэффициента усиления в цепи прямой связи системы. Однако повышение коэффициента усиления встречает техническое ограничение, связанное со снижением устойчивости системы и соответствующим снижением эффективности управления. Большинство методов коррекции динамических характеристик систем управления, так или иначе, связано с устранением данного ограничения.
Ошибка управления предполагает, что заданы расчетные значения режимных параметров технологических операций, которые выполняет объект управления. Значения режимных параметров определяются на основе решения задачи исследования операций (в данном случае технологических) в соответствии с определенными критериями эффективности. Однако неопределенность информации о реальных характеристиках объекта управления снижает эффективность как собственно технологических операций, так и системы управления операциями. Задачей адаптивного управления является повышение общей
287
эффективности технологических операций за счет использования текущей информации о неопределенных характеристиках объекта управления.
50. Рассмотрим постановку задачи адаптивного управления в соответствии с работой38.
Предположим, поведение объекта управления описывается рекуррентным соотношением
|
xk f (xk 1, uk 1 ) , |
k 1, 2, ... |
(1.1) |
где x - вектор |
фазовых координат управляемого объекта, u - вектор |
||
управляющих |
воздействий, f ( ) - |
вектор-функция, |
описывающая |
динамические свойства объекта, в общем случае – неизвестная. Управляющие воздействия формируются в соответствии с законом
управления |
|
uk kR (xk ) , |
(1.2) |
где kR ( ) - вектор неизвестных функций.
На фазовые координаты и управляющие воздействия наложены
ограничения, например, в виде равенств и неравенств |
|
|||||||||||||
h (x |
k |
) 0, |
i I x ; |
|
h (x |
k |
) 0, |
i I x ; |
(1.3) |
|||||
i |
|
|
p |
|
i |
|
|
|
|
н |
|
|||
h (u |
k |
) 0, |
i I u ; |
|
h (u |
k |
) 0, |
i I u . |
(1.4) |
|||||
i |
|
|
p |
|
i |
|
|
|
|
|
н |
|
||
В качестве критерия оптимальности будем использовать функционал |
||||||||||||||
Q 0,5M |
(x |
p,k |
x |
k |
)т (x |
p,k |
x |
) , |
(1.5) |
|||||
|
|
E |
|
k |
|
|
|
|
|
k |
|
|||
где xp,k - текущее расчетное значение задающего воздействия; |
Mk {} - |
|||||||||||||
операция текущего усреднения по времени и по ансамблю случайных процессов.
Текущее усреднение по времени может осуществляться, например,
на основе рекуррентного соотношения |
|
|
|
|
|
|
|||||
М |
|
{x } |
N 1 |
М |
|
{x |
} |
1 |
x |
, |
(1.6) |
k |
|
k 1 |
|
||||||||
|
k |
N |
k 1 |
|
N |
k |
|
|
|||
|
|
|
|
|
|
|
|
|
|||
где N - длина усредняющей выборки.
60. Особенность данной задачи состоит в том, что уравнения управляемого объекта нам неизвестны и нет достаточной априорной информации для того, чтобы рассчитать оптимальный закон управления. Адаптивный подход указывает путь решения этой задачи, связанный одновременно с изучением и управлением объектом.
Недостаточность априорной информации не позволяет оптимально управлять объектом, но мы можем изучать объект, управляя им, тем самым иметь возможность улучшать управление, стремясь к оптимальному. В этой ситуации управляющие воздействия носят двойственный характер.
38Цыпкин, Я.З. Адаптация и обучение в автоматических системах / Я.З. Цыпкин.
–М.: Наука. Главная редакция физико-математической литературы, 1968. – С. 199-234.
288
Они служат с одной стороны – как средство изучения, познания объекта, с другой стороны – как средство направления его к желаемому (оптимальному) состоянию. Такое управление, при котором управляющие воздействия носят двойственный характер, называют дуальным управлением.
В системах дуального управления существует противоречие между познавательной и направляющей сторонами управления. Как подчеркивал К. Шеннон, двойственность знания и управления тесно связано с двойственностью прошлого и будущего. «Можно обладать знаниями о
прошлом, но нельзя управлять им, и можно управлять будущим, не зная его»39.
Дуальное управление было открыто и существенно развито А.А. Фельдбаумом40 на основе теории статистических решений. Решение задачи было выполнено при известной априорной информации о плотности распределения внешних воздействий и параметров управляемого объекта с использованием показателя качества в виде среднего риска. На основе адаптивного подхода решение может быть выполнено с меньшими ограничениями.
70. Рассмотрим более подробно алгоритм дуального управления. Сначала рассмотрим задачу изучения объекта, которая в теории
управления (см. раздел 3.5 настоящего очерка) называется задачей идентификации. Данная задача сводится к минимизации некоторого показателя точности при аппроксимации характеристик объекта.
Предположим, что уравнение динамики объекта записывается в общей форме
ˆ |
k 1, 2, ... |
(1.7) |
xk f (a; xk 1, uk 1 ) , |
||
где a - вектор структурных параметров уравнения объекта |
|
|
Уравнение (1.7) можно представить, например, в виде |
|
|
xk Φ(xk 1, uk 1 )a , |
(1.8) |
|
где Φ( ) - матрица, составленная из |
линейно-независимых |
функций |
ij (xk 1, uk 1 ) , которые выступают как координатные функции при
линейной аппроксимации правых частей f ( ) уравнения объекта (1.1).
Для определенности в роли показателя точности аппроксимации
будем использовать функционал |
|
|
|
|
|
|
|
|
|
|||||
Q (a) 0,5M |
x |
k |
Φ(x |
k 1 |
, u |
k 1 |
)a т x |
k |
Φ(x |
k 1 |
, u |
k 1 |
)a , |
(1.9) |
I |
k |
|
|
|
|
|
|
|
||||||
39 Цит. по – Цыпкин, Я.З. Адаптация и обучение в автоматических системах / Я.З. Цыпкин. – М.: Наука. Главная редакция физико-математической литературы, 1968.
– С. 203.
40 Фельдбаум, А.А. Теория дуального управления, части I-IV / А.А. Фельдбаум // Автоматика и телемеханика. – 1960. – Т.21. – №9, 11; 1961. – Т. 22. – № 1-2.
289
Минимизация показателя (1.9) достигается на основе рекуррентного
соотношения, реализующего градиентный метод поиска экстремума: |
|
ak ak 1 a,k Mk Φт (xk 1, uk 1 ) xk Φ(xk 1, uk 1 )ak 1 , |
(1.10) |
где a ,k - коэффициент релаксации.
В выражениях (1.9), (1.10) управляющее воздействие определяется законом управления, который принят в данный момент в системе. Этот закон управления можно записать в общей форме
ˆ |
(1.11) |
uk kR (b; xk ), |
|
где b - вектор структурных параметров закона управления. |
|
Функцию (1.11) можно представить, например, в виде |
|
uk Ψ(xk )b , |
(1.12) |
где Ψ( ) - матрица, составленная из линейно-независимых |
функций |
ij (xk ) , которые выступают как координатные функции при линейной аппроксимации закона управления kR ( ) .
При данных допущениях показатель точности управления (1.5)
можно записать в развернутом виде |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
, |
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
Q (a, b) 0,5M |
k |
|
x |
p,k |
Φ |
|
x |
k 1 |
, Ψ(x |
k 1 |
)b |
|
a |
|
т |
|
x |
p,k |
Φ |
|
x |
k 1 |
, Ψ(x |
k 1 |
)b |
|
a |
|
|
E |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
(1.13) |
|||
Рекуррентная процедура минимизации функционала (1.13) |
|
|
|
|
|
|
|||||||||||||||||||||||
|
bk = bk 1 b,k gradbQE (ak 1, bk 1 ) , |
|
|
|
|
|
|
(1.14) |
|||||||||||||||||||||
где gradbQ(ak 1, |
bk 1 ) |
- |
градиент функционала Q(ak 1, bk 1 ) |
по вектору b ; |
|||||||||||||||||||||||||
b,k - коэффициент релаксации.
Рекуррентные соотношения (1.10), (1.14) определяют соответственно процессы идентификации и управления, которые взаимосвязаны друг с другом соотношениями (1.12), (1.14). При этом выбор величины вектора параметров bk согласно (1.14) через закон управления (1.12)
непосредственно влияет на решение задачи идентификации (1.10). В свою очередь выбор величины вектора параметров ak согласно (1.10)
непосредственно влияет на решение задачи выбора структурных параметров закона управления (1.14).
Задачи идентификации и управления являются взаимно противоположными. Эта противоположность проявляется в частности в том, что для успешного решения задачи идентификации необходимо, чтобы управление играло роль зондирующего воздействия, которое «сканирует» определенным образом исследуемый объект с целью наиболее полного выявления его характеристик. Для эффективности «сканирования» закон зондирования объекта должен определять разнообразные вариации входных воздействий, например, как в полном
290
факторном эксперименте или, например, как белый шум в случайных процессах и т.п. Входное воздействие на объект будет обладать тем большим зондирующим эффектом, чем выше его энтропия. Собственно же управление решает противоположную задачу: выбор оптимального управления снимает энтропию входного воздействия и несет с собой соответствующую информацию. Эффективность решения задачи идентификации на оптимальных управляющих воздействиях минимальна. Соответственно справедливо и дуальное утверждение: эффективность управления, основанного на произвольной выборке из множества зондирующих воздействий, минимальна. Разрешение данного противоречия находится в дополнении собственно управления добавочным зондирующим воздействием:
uk Ψ(xk )b zk , |
(1.15) |
где zk - зондирующее воздействие.
Вобщем случае закон зондирующего воздействия может быть самым разнообразным. Это могут быть приращения управления, генерируемые случайным образом или на основе планирования эксперимента, здесь могут быть использованы и детерминированные функции, например, синусоидальные воздействия и др.
Выбор величины зондирующего воздействия противоречив. Чем меньше величина зондирующего воздействия, тем точнее решается задача управления, но при этом снижается точность решения задачи идентификации. И наоборот, чем больше величина зондирующего воздействия, тем точнее решается задача идентификации, но при этом снижается точность решения задачи управления. Очевидно, что при выборе величины зондирующего воздействия существует определенный технический компромисс.
Витоге рассматриваемая задача адаптивного управления решается на основе рекуррентных соотношений (1.10), (1.14) и (1.15). Если рекуррентные процессы сходятся, то они сходятся к оптимальному управлению по критерию минимума показателя среднеквадратической ошибки управления (1.5) при a priori неопределенных характеристиках
объекта (1.1).
80. Необходимо отметить, что процессы идентификации и собственно управления не обязательно совмещаются во времени. Задача идентификации может включаться периодически, и в этот период процесс управления может осуществляться по предыдущему состоянию. Далее, задачи идентификации и собственно управления могут чередоваться во времени. При использовании информационных баз данных история процессов управления и идентификации может накапливаться в базах данных для последующего использования при решении указанных задач. Далее, методы оптимизации, положенные в основу рекуррентных
291
соотношений процессов адаптации, также могут быть различными. Таким образом, в общем случае стратегии организации адаптивного управления могут быть самыми разнообразными.
90. Рассмотрим вопрос учета ограничений (1.3), (1.4) при решении задач адаптивного управления. Учет ограничений можно выполнить различными способами. Ниже будет рассмотрен метод штрафных функционалов.
С учетом (1.8), (1.12) ограничения (1.3), (1.4) могут быть представлены в следующем виде
h |
Φ(x |
k |
1 |
, u |
k 1 |
)a 0, |
i I x ; |
h |
Φ(x |
k 1 |
, u |
k 1 |
)a 0, |
i I x ; |
(1.16) |
|||
i |
|
|
|
|
|
p |
|
i |
|
|
|
н |
|
|||||
h |
Ψ(x |
k |
)b 0, |
i I u ; |
h |
Ψ(x |
k |
)b 0, |
i I u . |
|
(1.17) |
|||||||
i |
|
|
|
|
|
p |
i |
|
|
|
|
|
|
н |
|
|
||
Штрафной квадратичный функционал может быть построен следующим образом
|
|
Qш (a, b) QE (a, b) шQR (a, b) , |
|
|
|
|
(1.18) |
||||
|
2 |
|
|
|
|
|
|
|
|
||
|
|
hi |
Φ(xk 1, uk 1 )a hi Φ(xk 1, uk 1 )a |
2 |
|
|
|
||||
|
|
|
|
|
|||||||
|
x |
|
|
|
x |
|
|
|
|
||
QR |
(a, b) i Ip |
2 |
|
i Iн |
|
|
|
|
, |
||
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
hi |
Ψ(xk )b hi |
Ψ(xk )b |
|
|
|
|
|||
|
|
|
|
|
|
|
|||||
|
u |
|
|
u |
|
|
|
|
|
||
|
|
i Ip |
|
|
i Iн |
|
|
|
|
|
|
где QE (a, b) - |
функционал |
ошибки |
управления (1.13); |
QR (a, b) - |
|||||||
квадратичная функция невязки решения системы равенств и неравенств (1.16), (1.17); ( ) - операция выделения положительного значения функции; ш - штрафной коэффициент; Qш (a, b) - общая штрафная
функция.
В итоге рекуррентный процесс оптимизации закона управления с учетом наложенных ограничений может быть представлен в виде рекуррентного соотношения
bk = bk 1 b,k gradbQш (ak 1, bk 1 ) . |
(1.19) |
В целом процесс адаптивного управления при учете ограничений будет определяться рекуррентными соотношениями (1.10), (1.19) и (1.15).
__________________________________________
100. Управление технологическими процессами носит многоуровневый характер. В общем случае при управлении технологическими процессами можно выделить, как минимум, два уровня управления: (i) уровень систем локального управления (регулирования), задача которых является удержание значений режимных параметров процессов в допусках, определяемых технологическим регламентом, и (ii) оперативного управления процессом в целом. Это различие уровней управления можно иллюстрировать на примере рассмотренной выше
292
задачи адаптивного управления. Здесь показатель точности управления
(1.5):
QE 0,5Mk (xp,k xk )т (xp,k xk ) ,
определяется на текущем значении вектора фазовых координат управляемого объекта xk , и текущем значении задающего воздействия
xp,k . Управление фазовой координатой xk осуществляет система локального управления; соответственно, управление задающим воздействием xp,k осуществляет система более высокого уровня – система
оперативного управления.
110. Оптимальное решение задач оперативного управления относится к классу задач исследования операций, в данном случае – технологических. Общую структуру задачи исследования операций можно представить в следующем виде (см. раздел 3.3)
Opt extr p(x, z, y) : Dom(x, z, y), Mod (c; x, z, y), Loc(d; x, z, y) .
(x)
(1.20)
Здесь x - вектор управляемых параметров объекта; z - вектор неуправляемых возмущений; y - вектор выходных эффектов. Задача оптимизации ставится как задача нахождения экстремума целевой функции p( ) по вектору управляемых параметров x при ограничениях,
включающих: область допустимых значений параметров |
Dom( ) , |
модельные соотношения Mod( ) и область компетенции41 |
Loc( ) |
модельных соотношений. Модельные соотношения и область компетенции модельных соотношений зависят от структурных параметров c и d соответственно.
120. При неопределенности информации о характеристиках объекта управления значения векторов структурных параметров c и d будут неизвестными, поэтому для решения задачи Opt{} необходимо сначала решить задачу идентификации.
Постановку задачи идентификации можно представить в следующем виде (см. раздел 3.5)
min |
QI ys |
f (c; xs , zs ) : s Is , |
|
|
|
|
|||||||||||
|
(c) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Id |
min |
Q |
L |
s |
|
|
s |
, y |
s |
) Loc(d; x, z, y) : s I |
s |
|
, |
(1.21) |
|||
|
|
|
|||||||||||||||
|
|
(x |
, z |
|
|
|
|||||||||||
(d) |
|
|
|
|
|
|
|
|
|
|
|
s |
|
|
|
|
|
|
|
s |
s |
|
|
s |
|
|
|
|
I |
|
|
|
|
||
Emp (x |
, z |
, y |
|
) : |
s |
. |
|
|
|
|
|||||||
41 Под областью компетенции модельных представлений здесь понимается область входных данных, для которой модельные соотношения адекватно представляют с заданной точностью свойства объекта управления.
293
