
книги из ГПНТБ / Галушкин, А. И. Синтез многослойных систем распознавания образов
.pdfто выражение для оценки градиента средней функции риска для сети из ЛПЭ с двумя решениями будет иметь следующий вид:
|
,3 |
3 |
|
|
|
|
дх£ |
xk) sign x |
|
||
да |
— I {г, |
|
|||
|
dxk |
|
|
|
|
hW- l+l' hw - j |
|
|
|
|
|
i—i |
HW-n |
|
|
|
(7-16) |
X П |
di, |
, h |
*h ’ |
(n) |
|
ri=l |
V - т Ц 1 V - T | |
w - i |
’ |
|
|
hW-rTl |
|
|
|
|
Это выражение служит основой для построения соот ветствующей замкнутой СР.
Рассмотрим СР с N* выходными каналами и двумя гра дациями выходного сигнала по амплитуде в каждом из ка налов. Здесь
x i * k ~ sl8n §i*= sign ; hw = l , -------A/*.
Отсюда следует, что при наличии (2N* х 2^*) -матрицы
д |
I (/j, |
N*kj |
|
dxi*k |
|||
|
|||
|
|
алгоритм настройки подобной многослойной сети аналоги чен изложенному в § 7-7 для ЛПЭ последнего слоя и в § 7-8 для ЛПЭ слоев кроме последнего.
7-10. Построение замкнутых СР нестационарных образов
Ниже отмечаются основные принципиальные моменты, возникающие при построении настраивающихся по замк нутому циклу СР нестационарных образов. Основная осо бенность по сравнению со случаем стационарных образов здесь возникает при построении алгоритма настройки ко
эффициентов |
СР. Рассмотрим одномерный |
вариант СР |
|
с минимизацией а 2а по замкнутому циклу. |
|
||
В данном |
случае |
|
|
хЦпАТ) |
= е2 (пАТ) |
п + х2(пАТ) п + аЦпАТ) п- |
|
— 2----------------------г(пАТ)х(пАТ) |
т ---------------------- |
m |
|
+ 2а0(пАТ)г(пАТ) |
”— |
— 2а0(пАТ)х(пАТ)1'1.
190
Усреднение здесь должно производиться по множеству реализаций нестационарного случайного процесса в момент времени пАТ. Однако на практике при настройке СР имеется лишь одна реализация нестационарного случай
ного процесса. При этом значение х2 (пАТ) вместо усред
нения по множеству получается усреднением по времени на интервале памяти тп с дополнительным заданием свой ства приводимости процесса к стационарному и априорной информации о характере изменения параметров распреде ления нестационарного случайного сигнала, т. е. на интер вале памяти. При этом наиболее удобным для реализации и достаточным для практических целей является представ ление нестационарного случайного процесса в СР на ин тервале памяти в виде аддитивной суммы стационарного сигнала и детерминированного сигнала с известным в об щем функциональном виде характером изменения. Для того чтобы оценка градиента функционала вторичной оп тимизации выражалась в алгебраической форме, необходимо предположить, что за интервал усреднения тп параметры СР (настраиваемый коэффициент а 0) не изменяют своего значения. В данном случае
dx2a (пАТ) ------------ m 2ха(пАТ) .
da0
Алгоритм обучения в нестационарном случае опреде ляется следующим соотношением:
— + т )АТ |
= а0 Г |
—п |
АТ |
+ К*ха (пАТ) |
m 1 1 |
и [ |
m |
|
|
Для построения замкнутой СР необходима информация о характере изменения (на интервале памяти блока на стройки СР) параметров распределения сигнала ха (пАТ). Эта информация в рассматриваемом случае может быть однозначно получена по информации о характере измене ния на интервале памяти блока настройки СР параметров распределения входного сигнала и структуре СР. Если предположить, что совокупности образов распределены по нормальному закону с переменными во времени математи ческими ожиданиями, то при статистической независимо сти детерминированной и случайной составляющих на ин тервале памяти СР для случайного сигнала ха (пАТ) спра ведлива та же гипотеза изменения математического ожида ния, что и для сигнала х (пАТ). Следовательно, в СР не-
191
стационарных образов данного типа фильтр в блоке на стройки, предназначенный для оценки градиента функцио нала вторичной оптимизации, должен быть предназначен для оптимальной фильтрации нестационарного сигнала с гипотезой изменения первого момента распределения, эквивалентной соответствующей гипотезе для совокупно стей нестационарных образов. Синтез подобных фильтров рассмотрен в [Л. 49]. При необходимости упреждения ре шения данный фильтр должен быть синтезирован как уп реждающий. Исходя из физических соображений, необхо димо отметить, что гипотезы о характере изменения на ин тервале памяти СР первых моментов распределений яв ляются одинаковыми для совокупностей образов первого и второго классов. В случае различных гипотез для синтеза
------------------- тп
фильтра оценки ха(пАТ) необходимо выбирать гипо тезу высшего порядка.
В случае нестационарных образов, как показывает ана лиз соответствующих выражений, оценка градиента функ ционала вторичной оптимизации есть задача фильтрации нестационарных случайных сигналов. Выше, задаваясь некоторой априорной информацией о характере нестацио нарное™ образов на входе, определялись характеристики нестационарное™ реализаций градиента функционала вто ричной оптимизации. Для многомерных и многослойных
СР и функционалов вторичной оптимизации, |
связанных |
с дискретной ошибкой, этот путь построения |
замкнутых |
СР является сложным. В этом случае мы отступаем от ос новного принципа построения СР, настраивающихся по замкнутому циклу, а именно вносим в процедуру синтеза априорную информацию о входном сигнале СР. Поэтому методологически будет правильнее задаваться некоторой априорной информацией о нестационарном характере из менения градиента на интервале памяти СР, а именно та кой информацией, которая значительно облегчила бы син тез фильтра оценки вектора градиента. По этой априорной информации о структуре разомкнутой СР можно на нестро гом, даже семантическом, уровне показать класс нестацио нарных характеристик совокупностей образов, для кото рого априорная информация о характере изменения во вре мени параметров распределения градиента является до статочной. Этот подход, с одной стороны, облегчит проце дуру синтеза фильтра в блоке настройки, с другой стороны, создаст возможность построения алгоритмов настройки по
192
замкнутому циклу с поправкой коэффициентов не |
через |
тп тактов поступления входных образов, как было |
выше |
принято, а в каждый момент времени п. |
|
Результаты синтеза многомерных фильтров, представ ленные в [Л. 48], применимы как при построении СР, на страивающихся по разомкнутому циклу (при оценке век торов математических ожиданий нестационарных совокуп ностей образов), так и при построении СР, настраивающихся по замкнутому циклу (при оценке векторов градиентов функционалов вторичной оптимизации СР нестационарных образов).
7-11. Построение СР с перекрестными и обратными связями, настраивающихся по замкнутому циклу
Ниже рассматривается в качестве функционала вторич ной оптимизации только второй момент распределения ди скретной ошибки.
В случае системы распознавания с перекрестными свя
зями разомкнутая СР, в |
частности двухслойная, описы |
|||||||||||
вается следующим выражением (см. гл. 4): |
|
|
|
|||||||||
|
|
|
|
|
' N |
|
|
N |
|
|
|
|
|
Ч = Р |
2 a f |
2 &ijXi |
+ |
2 |
а1х1 |
|
|
||||
Здесь, как |
|
L/=i |
|
(= 0 |
|
|
i=0 |
|
|
|
|
|
и ранее, |
|
|
|
|
|
|
|
|
|
|||
|
|
|
дх2 П |
|
----------------тп |
|
(7-17) |
|||||
|
|
— -—е |
= —2хе — |
хк |
, |
|
||||||
|
|
|
да |
|
г |
да |
к |
|
|
У |
' |
|
В данном случае |
|
|
|
|
|
|
|
|
|
|||
дхк |
_dF (g) |
. |
dxk |
_ |
d F (g) |
dF (g.) |
. |
dxk |
dF (g) |
^ |
||
dai |
dg |
ki ’ |
da,7 |
|
dg |
1 |
dg,- |
|
*’ |
dat |
dg |
|
Эти выражения являются основой для построения со ответствующей замкнутой СР.
Разомкнутая СР в виде ЛПЭ с обратной связью описы
вается следующим выражением (гл. |
4): |
|
||
Г |
N |
|
|
1 |
Ч («) = Р |
*=о |
+ |
— 1) |
(7-18) |
|
Рассмотрим вариант с тп = 1. При тп = const важно лишь удовлетворить условие независимости xk (п—1) от at. Из (7-18) следует:
дхк (п) |
d F(g ) |
дхк (я) |
d F(g ) |
xk(n — 1). |
да{ |
xi («); |
dak |
dg |
|
dg |
|
7 Заказ № 975 |
193 |
Отсюда с учетом (7-17) следует рекуррентное соотноше ние, являющееся основой для построения соответствующей замкнутой СР:
" а |
(п+ |
1) |
а И |
+ к- |
: dF (g) |
X (л) |
||
|
|
(л) |
||||||
ак (л+ 1) _ |
а к (л) . |
|
dg |
(«— 1) |
||||
Рассмотрим двухслойную СР с обратными связями. Опи |
||||||||
сание |
разомкнутой СР (гл. 4) следующее: |
|||||||
xk(n) = F[g (я)]; |
g (п) = |
н, |
ajXkj (п) + akxk (п— 1); |
|||||
2 |
||||||||
|
|
|
|
|
/=1 |
|
|
|
Xkj (п) = F [gj (n)]; |
gj (п) = |
N |
аиХ[ (п) + akixk (п— 1)+ |
|||||
2 |
||||||||
|
|
|
|
|
|
i=0 |
|
|
Используя преобразование (7-17), получаем:
йхи (п) |
_ dF (g) |
|
dxk (n) |
_ d F (g) |
|
xk (n— 1) |
dxk (n) |
|
даI |
dg |
% («); |
|
dak |
dg |
|
daij |
|
|
|
dF(g) Uj dF (gj) Xi(ri)\ |
|
|||||
|
|
|
dg |
dgj |
|
|
|
|
|
dxk(n) |
__ dF (g) |
a |
dF (gj) ^ |
|
dxk (») |
|
|
|
dakj |
dg |
1 |
dgj |
k |
’ |
aa^. |
|
|
|
dg |
|
dgj |
х»,- ( „ - I ) . |
|
||
|
|
|
|
|
|
|
Эти выражения являются основой для построения со ответствующей замкнутой СР. Не представляет принци пиальных затруднений обобщение данных результатов на СР с наличием одновременно перекрестных и обратных свя зей, СР с произвольным числом слоев ЛПЭ, СР с перекрест ными и обратными связями различной «логической глубины».
7-12. Построение замкнутых СР в режимах самообучения и произвольной квалификации учителя
В [Л. 40] рассмотрены алгоритмы самообучения, ана логичные по своему качеству алгоритмам восстановления плотностей распределения вероятностей, так как в ре жиме настройки по замкнутому циклу определяют коор динаты мод функции / (х). Ниже рассмотрены алго-
194
ритмы настройки по замкнутому циклу СР с произвольной фиксированной структурой в режиме самообучения. Дан ные алгоритмы могут быть получены из приведенного расчета на каждом шаге настройки параметров многослой ной СР с фиксированной структурой по координатам век торов, соответствующих модам / (х). Возможен и другой подход, аналогичный тому, который использовался выше на этапе рассмотрения режима обучения. Средний риск есть в данном случае первый момент распределения сиг нала x k,’ определяемого выражением (5-35). Отсюда
дх. |
-р[х—Ь(хк)] |
Зр |
<3b |
дхк |
(7-19) |
||
да |
д [х — b {хк)\ |
dxk |
да |
||||
да |
' ,W1 |
|
|||||
В частности, |
при р(х,Ь ) = |
||х — Ь||2 |
|
|
|
||
|
|
Зр =2[х —Ъ(хк)]‘ 3b (хк) |
|
|
|
||
|
|
дхк |
дхк |
|
|
|
|
Уравнение для неизвестных функций b (хк) записы |
|||||||
вается |
в виде |
некоторого |
рекуррентного |
соотношения |
|||
(та - |
1) |
|
|
|
|
|
Ь -- (хк, п) = Ъ(хк, п— 1) + К * - ^ - р [ х — Ъ(хк, n — 1)]. (7-20)
ЗЬ
Уравнения (7-19) и (7-20) служат основой для построе ния СР, настраивающихся по замкнутому циклу, в режиме самообучения. В выражении (7-19) дхк1да определяется, как и ранее, в режиме обучения для СР с любой структурой.
В случае К„ решений ^b-Xfe- есть (Кг, X А^)-матрица, по-
дхк
лучаемая по результатам решения уравнения (7-20) в теку щий момент времени.
Более подробно построение замкнутых многослойных СР с К р решениями и N* выходными каналами в режиме самообучения рассмотрено в гл. 8.
Итак, алгоритм настройки многослойной СР в данном случае заключается в следующем:
1. При наличии некоторых начальных значений настраи ваемых коэффициентов СР по текущему входному сигналу
х (0) |
рассчитывается |
хк (0). |
2. |
Выбирается соответствующий хк (0) столбец матрицы |
|
b (хк, |
0), полученной |
как указывалось выше. |
3. Производится настройка коэффициентов СР в соот ветствии с (7-19) и т. д., начиная с п. 1.
Необходимо отметить, что значения b (xk) на каждом шаге настройки можно определить расчетом по параметрам и структуре многослойной СР. При произвольной квалифи кации учителя:
xg = l [xk’ е) 6 + (1 — 62)р[х— b
Отсюда
|
------------------------------------------------------------ тп |
|||||||
|
dxk |
(и dl (xk, |
е) |
^ |
&2ч |
др |
дЪ (хк)) |
|
да |
да |
| |
дхи |
|
|
|
д [х — b (xft)] |
дхи j |
|
дхе |
. |
|
д |
Р [х— Ь(ж*)] |
|
||
|
дЪ {xk) |
|
дЪ (xk) |
|
||||
|
|
|
|
|
Данные два выражения служат основой для построения замкнутой СР с произвольной структурой при произволь ной квалификации учителя. Необходимо отметить, что ал горитм настройки делится на две самостоятельные части, одна из которых, определяемая членом дхк/да, зависит от структуры разомкнутой СР и определяет потенциальное качество решения задачи распознавания.
Разработанные методы настройки многослойных СР пригодны и для случая, когда СР имеет несколько слоев ЛПЭ с фиксированными коэффициентами.
Отметим, что процедура настройки многослойных СР, связанная с выражением (6-1), обеспечивает лишь локаль ный экстремум функционала оптимизации, причем началь ные значения настраиваемых параметров должны зада ваться случайно в диапазоне их изменения, определяемом из физических соображений. Поэтому полностью алгоритм настройки многослойной сети должен содержать множество (объемом г]0) этапов выброса случайных начальных усло вий для настройки, следующие за каждым выбросом этапы настройки в соответствии с (6-1) и этап усреднения резуль татов настройки по г)° (см. гл. 6 и 8).
7-13. Вывод выражений для оценок производных второго порядка функционала вторичной оптимизации
Ниже для многослойных СР различных типов найдены выражения для оценок производных второго порядка вто рого момента распределения дискретной ошибки, являю-
196
щегося функционалом вторичной оптимизации. В случае ЛПЭ с континуумом решений:
|
|
T i mn |
|
dF — тп |
|
|
|
|
|
dxs |
—2ха |
|
|
||
|
|
dci[ |
dg |
|
|
||
|
|
|
|
|
|
||
|
,2 |
|
|
dF |
d?F ~ |
|
|
|
дХё |
= 2xtXj |
|
||||
|
daidaj |
dg |
dg2 . |
|
|
||
В случае многослойной CP с последовательными свя |
|||||||
зями: |
|
|
|
|
|
|
|
|
|
|
H w —1 |
H W —i + 3 /+ 2 |
|
|
|
d x i |
= —2 |
7 , . . . |
7 , I I а |
hW— i \ hW - v -i |
X |
||
да |
|
|
2 |
|
Е п |
|
|
'V -/-r Г hw-j |
|
1=1 |
hW—j+з Л- о |
|
|
||
|
|
f t |
"[* ■ £ ,< » > ] |
|
|
||
|
|
|
, 8.- » |
|
x |
|
|
|
|
V = 0 |
|
|
|
|
|
|
|
a24 |
|
|
Я\Г—1 |
|
|
X |
|
|
= —2 |
s |
|
||
|
|
|
|
|
|||
|
d°hw-j+ Г hW-jdahW-j+ 1’ *V-i |
|
w w — i+ 3
■s |
a |
|
|
nW—j +3 |
dahИУ—1 + Г.ft W'— i |
|
i Ь2 |
I |
П hw — л’ hr —Л—1 |
(n ) X |
|
|
II о |
|
h > лггГ„И7-\> |
(«)] |
|
|
/-r2 |
|
|
|||
хП |
[ |
U7—v |
j |
|
|
|
|
|
|
|
dgW-v |
|
дс~W4с / , ( л ) + П аЙи- 7—л’ ЙЧ7-л-1 X |
||||||
v=0 |
|
W— v |
|
|
|
л=0 |
|
|
|
|
----- d x g (n)------ |
1+1 |
dF \g ^ - v 1 |
|
(n) + |
||||
|
p i |
— LI |
*-vjJ xYw-i |
||||||
|
^ft |
.ft |
r_ i |
1 1 |
e,I«7_v |
V w |
|
||
|
|
U7_i+r |
|
v=0 |
|
|
197
/

|
|
/ 1 2 |
|
|
|
|
|
i -1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
x&(n) ' У ] |
dah |
|
|
|
X |
|
||||
|
+п hW-x\ hW - i\ - l |
g |
1=0 |
|
|
. |
ft,, |
|
|
|||||||
|
|
T1=0 |
|
|
|
|
|
W—i+ l |
|
W—i |
|
|||||
|
|
d F \ g * ~ l |
I / M |
d F \ g ^ ~ v |
(n)] |
|
|
|
|
|
||||||
|
X |
|
|
1 W -l] |
|
|
[ V - v |
J *F - / |
(n) + |
|
||||||
|
|
|
|
d g ^ ‘ |
|
П d ^ - v (л) " * W |
|
|
|
|||||||
|
|
|
|
w - i |
|
v=0 |
|
^ -v |
|
|
|
|
|
|
||
|
|
|
|
|
|
V+ / |
|
|
|
|
|
|
|
|
^ - i (n) |
|
/+2 |
|
|
|
|
|
|
dFK lM |
|
|
d x |
||||||
+ Г К |
|
|
|
^ ( « ) П |
|
|
|
w — i |
|
|||||||
r - n |
|
U 7 -n -l |
|
W—v |
dahW—i+ l .ftW—i |
|||||||||||
I 1 |
|
|
|
1 |
i |
|
Eh |
W - v |
||||||||
Ц-^-0 |
|
|
|
|
v—o |
|
|
|
|
|
|
|
||||
Здесь |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
/42 |
|
|
|
|
|
|
|
|
0 |
|
|
|
при |
; > |
/ - 1-3; |
|
и |
“ft |
|
. /« |
|
/+2 |
|
|
|
|
|||||||
„М) |
И7--» |
|
W'-tl-l |
|
|
|
|
|
|
при |
t < |
/ + 3; |
||||
dallr - i -И, ftu/—£ |
|
И |
“ft |
|
,ft |
|
||||||||||
|
r)=.0 |
« |
' - ’Г |
» '- Л ~ |
1 |
|
|
|
|
|||||||
|
|
|
|
|
|
11/ ill |
|
|
|
|
|
wvr—l |
|
|||
|
|
|
|
(«) |
|
|
|
<)*k |
|
|
|
|
|
|||
da, |
|
|
|
da,, |
|
|
|
|
|
\ ] |
••• |
|||||
|
|
|
|
|
|
|
|
|
|
|||||||
|
'hW—i-V\’HW—i |
|
'Г-1-гГ V - i |
fti^_i=i |
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
■W—t+S |
i+2 |
|
|
|
*1\d F \g * -^ |
|
(л)1 |
|
|
||||||
|
S n W-y\ |
• ft,, |
|
|
|
|
|
|
|
|
|
|
||||
|
' W -r \-1п -4 |
|
|
|
|
|
||||||||||
л№—Й-3=! П---0 |
KL) |
|
v=0 |
|
r —v |
|
|
|
||||||||
|
|
|
|
dF |
|
"ЧХ) |
|
|
|
W— l |
|
|||||
|
|
|
|
|
|
|
d2F |
|
|
|
|
|
|
|
||
3a, |
|
|
|
|
w — i |
|
|
dg*f - 1 |
dah |
|
h |
|||||
hW - i ~ \ ’ hW—i |
W - l |
|
|
H hW - l |
|
nW - i + V HW - i |
Использование данных выражений для построения со ответствующих алгоритмов адаптации в многослойных СР достаточно сложной структуры затруднительно. Однако методология многослойных СР определяет уменьшение необходимости учета производных второго порядка функ ционала вторичной оптимизации при усложнении структуры разомкнутой СР. Для двухслойной системы с перекрест ными связями
ГH' |
' N |
N |
F V a/F |
v |
a ux i + V a>Xi |
P i |
i-0 |
Po |
198
|
|
|
|
|
,2„2 |
|
|
|
|
|
|
|
|
|
к '■= — |
2 х |
|
dxk |
д-х |
|
2 —Л- —'±— 2x |
дЧк |
• |
||||||
g |
д а ^ д а ^ |
|||||||||||||
да |
|
да |
da(i) da(2) |
&da(l) da(2) |
|
|||||||||
|
d*xk |
d2F (g) |
. |
d2*fe |
|
^ d2f(g),, „ . |
|
|||||||
|
daidaj |
dgi |
kl ki’ |
da) da) |
dg2 |
‘ |
|
|||||||
d2*ft |
__ d2F (g) |
|
d2xh |
= a * i M Xt* |
m x |
|
||||||||
да,da, |
|
|
xixkj> |
|
|
|
||||||||
|
dg2 |
daij dami |
|
|
dgj |
|
dg2 |
|
||||||
1 |
} |
|
dF(gi) |
|
|
|
|
|
|
|
|
|
||
|
\ / n |
, |
dF{g) |
a |
x |
d 2 F { 8 i) |
d 8 i x |
■ |
|
|||||
|
X |
|
— |
-----x„ |
|
|
|
|||||||
|
|
|
dgi |
|
|
|
|
|
dgj |
dgt |
|
|
||
<52x<, |
|
■x kj |
d2F (g) |
dF (g[) |
|
|
dF (g) |
dF(gj) dgj |
|
|||||
daj dami |
|
„ |
-~ T |
|
|
|
dg |
dgj |
dgi |
|
||||
|
|
dg2 |
|
dgi |
|
|
|
|
||||||
|
|
|
d2xk |
v |
d2F (g) „ |
dF(gi )„ |
|
|
|
|||||
|
|
|
|
|
«•W |
tIj |
|
|
|
|
|
|
||
|
|
|
да,- даml |
|
dg2 |
|
|
dgi |
|
|
|
|||
В случае ЛПЭ с обратной связью |
|
|
|
|
||||||||||
|
|
|
dxk(п) d2F (g) |
|
xi (n) X/ (n); |
|
|
|||||||
|
|
|
dai да/ |
dg2 |
g=g(n) |
|
|
|||||||
|
|
|
|
|
|
|
|
|
||||||
|
|
|
d2xk (n) |
d2F (g) |
[Xk(fl— 1)12. |
|
|
|||||||
|
|
|
|
dal |
|
dg2 |
|
|
|
|
|
|
|
Полученные выражения служат основой для построе ния алгоритмов настройки многослойных СР с использова нием производной второго порядка функционала вторичной оптимизации.
Г л а в а в о с ь м а я
ИССЛЕДОВАНИЕ ЗАМКНУТЫХ МНОГОСЛОЙНЫХ СР
8-1. Постановка задачи синтеза контура настройки СР по замкнутому циклу
Настоящая глава является заключительным этапом синтеза многослойных СР с фиксированной структурой, настраивающихся по замкнутому циклу. При этом задан ными являются структура разомкнутой СР, характеристики сигнала в общем виде, алгоритм настройки коэффициентов многослойной СР, удовлетворяющий некоторому крите рию первичной оптимизации. Для оценки качества работы замкнутых многослойных СР нужно решить ряд задач.
199