нулевой случайной и динамической ошибки определения вектора настраиваемых коэффициентов в установившемся состоянии. Однако применение данных методов приводит к увеличению соответствующих динамических ошибок в пе реходном процессе, т. е. в режиме настройки. В реальных инженерных задачах вряд ли есть необходимость в обеспе чении нулевой случайной ошибки настройки СР в устано вившемся состоянии. Некоторая конечная, достаточно ма лая дисперсия распределения настраиваемых коэффици ентов допустима ввиду относительной гладкости функцио нала вторичной оптимизации в экстремальной точке. Эта конечная дисперсия распределения fa (а) не приводит к зна чительному увеличению функционала вторичной оптими зации и может быть обеспечена не переменной (как в ме тоде стохастической аппроксимации), а постоянной во вре мени матрицей К*. В случае постоянной во времени мат рицы К* возможно два инженерных подхода к выбору зна чений ее коэффициентов, по крайней мере для настройки ЛПЭ первого слоя. Первый подход основан на анализе априори задаваемой для СР сложности задачи, определяе мой модальностью fx (х), при фиксированных размерах пространства признаков.
Второй подход, также основанный на анализе экспери ментов на ЦВМ, показывает, что в реальном случае возни кает объективная необходимость в процессе настройки СР производить оценку функционала вторичной оптимизации и по его скалярной величине судить о качестве работы кон тура настройки многослойной СР. Эта идея была реализо вана в конкретных многослойных СР. Если кривая зависи мости функционала вторичной оптимизации от п сильно колеблется, нужно уменьшить К*, если она достаточно гладкая, то нужно увеличить К*, чтобы уменьшить систе матическую ошибку настройки (увеличить быстродействие) до появления колебательности (достаточно малой) в данной зависимости. При этом первый подход к выбору К* можно использовать для выбора начального значения К* при втором подходе.
8-12. Построение многослойной СР для решения задачи обращения матрицы
В качестве примера ниже рассматривается построение много слойной СР и алгоритма ее настройки по замкнутому циклу для решения задачи обращения 2Х 2-матрицы. Результатом обращения должна быть также 2Х 2-матрица, поэтому на выходе многослойной
СР должны быть четыре ЛПЭ с континуумом решений. Минималь ный вариант структуры разомкнутой трехслойной СР определяем в виде, изображенном граф-схемой на рис. 8-49. При недостаточной точности обращения матрицы в оптимальном режиме структура разомкнутой СР должна рассматриваться в сторону увеличения числа ЛПЭ сначала первого, а затем второго слоя.
Начальные условия на настраиваемые коэффициенты ЛПЭ
первого |
слоя здесь необходимо |
выбрать |
так, чтобы при условии |
В = оо |
четыре геперплоскости |
делили |
исходное четырехмерное |
пространство признаков на области равного гиперобъема. Выбор начальных условий на настраиваемые коэффициенты ЛПЭ второго
Первь/и Второй. Третий
ги
З-к ^к
Рис. 8-49. Графы многослойной СР для обращения матрицы
и третьего слоя данной системы должен производиться аналогично тому, как это делалось для ЛПЭ первого слоя, так как в данном случае система строится из ЛПЭ с континуумом решений.
Отдельным вопросом является формирование обучающей вы борки для рассматриваемой многослойной системы. В данном слу чае
|
|
х4 |
— * 2 |
|
Х2 |
D |
D |
* 1 |
; х - ' = |
D = ххх4 — х2х3. |
х3 |
х4\ |
— *з |
X1 |
|
|
DD
Вто время как на амплитуду изменения входного сигнала СР практически не накладывается ограничений, амплитуда выходного сигнала СР ограничена по каждому каналу диапазоном [—1, + 1 ] ввиду специфики выходных ЛПЭ СР. Эта особенность требует опре деленной нормировки входного сигнала таким образом, чтобы ни
одна из |
компонент |
выходного |
сигнала |
не превышала пределов |
[—1 , — |
1 ]. Данная |
нормировка |
входного |
сигнала должна произ- |
водиться следующим образом. Пусть X — исходная матрица и х =
— max {|xf|}. Разделив X на х, получим матрицу X_j, элементы i=l, 2,3.4
которой лежат в пределах [—1, + 1 ]. Обозначим:
Таким образом, умножая элементы матрицы X на входе на величину UxDl и подавая ее на систему обращения, на выходе получим матрицу
элементы которой лежат в диапазоне [—1 , 1 ] и которую достаточно умножить на величину 1 !xDu чтобы получить окончательный ре
зультат, т. е. матрицу X- 1 .
Структура разомкнутой СР описывается следующими соотноше
ниями: |
|
|
|
|
|
|
|
|
|
4 , |
= |
arctgВ ( |
2 |
см Л , + а<№, |
hx = 1, |
2, |
3, |
4; |
< |
= I T |
arctg s |
2 |
|
|
h2 — 1, |
2, |
3, |
4; |
|
|
|
h,=1 a h.,hlx hl + |
a 0ft2 |
|
|
|
|
xl |
= ! T arcigB ( |
4 |
|
oh. |
h3 = 1, |
2, |
3, |
4. |
S |
+ |
Указание |
учителя eA |
многослойной |
системы должно |
выраба |
тываться алгоритмическим путем с использованием одного из из вестных алгоритмов обращения матрицы и контролем точности об
ращения. Выражения для оценок градиентов среднеквадратичной ошибки обращения элементов матрицы
1 |
|
п |
4 |
4 |
1 |
= Т |
2 |
К - - 8".,)2 = т |
2 |
4 |
h „ = l |
4 |
1 |
dxi 4б3
даh,h„
да,,
Здесь
вид:
ХК |
V |
I |
хв.к |
y |
|
И, \ |
• + [ d f |
h,- 1 |
• + ( g j j 2 2 л |
2 л |
2В2 |
х \л, |
Y |
|
|
|
|
|
i + |
(es: |
It. 1 |
|
тп |
|
|
mn |
дх1 |
|
В |
x2h,xgh, |
|
dah:ih, |
|
" |
1 + { d f |
' |
Sh, = |
V |
ahX xh„+ aoh |
|
|
|
1 |
|
|
gft2 = |
V |
ahAxhn + aofl2; |
|
|
1 |
|
|
|
4 |
|
|
|
= |
У ам Л .2+ "о |
|
ft.2=i |
|
|
Эти выражения служат основой для построения алгоритма адаптации многослойной системы, предназначенной для выполне ния операции обращения 2 Х 2 -матрицы.
8-13. Построение многослойной системы для решения задачи перевода чисел из двоичной системы исчисления в десятичную
В качестве примера подобной системы рассмотрена система перевода в десятичную систему четырехразрядного двоичного числа. После окончания режима настройки по замкнутому циклу в режиме обучения система должна в качестве желаемого соотношения «входвыход» реализовать функцию е (х) многозначной логики, приведен ную в табл. 8-7.
Таблица 8-7 позволяет сформировать обучающую выборку на входе системы вместе с указанием учителя 8 , выбирая представите
лей обучающей выборки (столбцы) из таблицы случайным образом.
Т а б л и ц а 8-7
8 |
0 |
|
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
х 1 |
— 1 — 1 — 1 — 1 — 1 — 1 — 1 — 1 + 1 + 1 |
ho |
|
|
|
|
|
|
|
|
|
|
|
X 9 |
— 1 — 1 — 1 — 1 + 1 + 1 + 1 + 1 |
— 1 — 1 |
йо |
|
|
|
|
|
|
|
|
|
|
|
X о |
— 1 — 1 + 1 + 1 |
— 1 — 1 + 1 + 1 |
— 1 — 1 |
»0 |
|
|
|
|
|
|
|
|
|
|
|
|
— 1 + 1 |
— 1 + 1 |
— 1 + 1 — 1 |
н |
— 1 + 1 |
Vh0 |
|
|
|
|
|
|
|
|
|
|
Разомкнутая СР в данном случае описывалась следующим |
соотношением: |
|
|
|
|
|
|
|
|
|
|
|
1 КР-' |
sign |
|
alht — |
arctg В |
|
a ftA X |
|
*3 = 1 + у |
2 |
2 |
^ |
|
2 V-» |
|
|
'чй.,=1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
X — arctg В |
V |
|
ah h xh — i ftp, ftp + i |
|
|
|
|
л |
|
fto=0 |
fti"o |
"о |
|
|
|
|
|
|
Отсюда |
V V 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
sign |
x„ = sign |
|
2 |
акк хк |
|
|
|
|
да |
1h-2 |
|
|
2 |
|
|
|
|
|
|
|
%=1 |
ft0=0 |
|
|
|
|
sign -------x„ = |
sign |
|
4 |
|
|
|
|
|
alft„ |
2 |
ah,h%xK |
|
|
|
|
|
dah.h, |
|
|
|
|
|
|
|
|
|
|
|
|
ft„=0 |
|
|
|
|
|
Sign ^ — |
*3 = sign [ « 1 А,°АЛЧ] • |
|
|
|
|
|
aaft1ftn |
|
|
|
|
|
|
|
|
|
Данные выражения служат основой для построения алгоритма настройки многослойной системы, предназначенной для решения
задачи перевода чисел из двоичной системы исчисления в десятич ную.
8-14. Исследование многослойной СР при произвольной квалификации учителя
Построение оптимальной модели СР в случае произволь ных объективной и субъективной квалификации учителя было проведено в гл. 2. В описанном ниже эксперименте рассматривался случай К = 2 и произвольной объективной квалификации учителя Ь0.
Рис. 8-50. Структурная схема СР с субъективной квали фикацией учителя.
/ — су м м ато р ; 2 — нели н ей н ы й п р ео б р азо вател ь ; 3 — блок вы числе н и я гр а д и ен та ; 4 — б л о к перем нож ения.;
Система распознавания образов представляла собой двухслойную СР на ЛПЭ с арктангенсной характеристикой и В = 5. Моделировался алгоритм настройки такой СР в режимах обучения (bc = 1) и самообучения (Ьс — 0 ). Структурная схема алгоритма представлена на рис. 8-50. Основной задачей экспериментального исследования была проверка работоспособности системы. В соответствии с этим план экспериментов предусматривал два основных пункта:
1. Исследование поведения системы при оптимальных значениях коэффициентов и различных соотношениях ве личин Ь0 и Ьс.
2.Исследование динамики системы для различных Ь0
иЬс и неоптимальных коэффициентах ЛПЭ.
Вкачестве генератора входных сигналов системы ис пользовался датчик псевдослучайных чисел с распределе нием, близким к нормальному и равными ковариационными матрицами для обоих классов. Экспериментальные иссле
|
|
дования позволили сделать |
|
|
по п. 1 следующие выводы: |
|
|
1) в случае Ь0 = Ьс наблю |
|
|
дается |
колебание |
коэффи |
|
|
циентов |
системы |
около |
|
|
оптимального |
положения; |
|
|
2 ) |
при |
bc -- 1 |
происходит |
|
|
постепенная расстройка си |
|
|
стемы тем сильнее, чем бо |
|
|
лее Ь0 отличается от 1 и |
|
|
чем менее отО; 3) при Ьс |
О |
|
|
вне зависимости от вели |
|
|
чины Ь0 система остается |
Рис. 8-51. Динамика |
изменения в оптимальном положении. |
коэффициента системы |
при Ьс = |
Исследования |
при |
на |
= |
1 , для различных Ь0. |
|
|
|
|
|
|
|
чальных значениях СР, не |
зали, |
|
равных оптимальным, пока |
что при Ьс = Ь0 система в результате настройки при |
ходит к оптимальному состоянию. |
При |
bc — 1 |
и |
Ьс Ф Ь0 |
система не настраивается, несмотря на длительное время настройки (рис. 8-51).
Г л а в а д е в я т а я
СИНТЕЗ МНОГОСЛОЙНЫХ CP С ПЕРЕМЕННОЙ СТРУКТУРОЙ
Несмотря на то что при построении СР с фиксированной структурой, настраивающихся по замкнутому циклу, не обходимость в некоторой априорной информации о характе ристиках входного сигнала отпа дает по сравнению с разомкнутым циклом, все же потенциально до стижимая величина вероятности правильного распознавания здесь
Рис. 9-1. Структурная схема СР с пере менной структурой, настраивающихся по замкнутому циклу.
ограничена за счет фиксации структуры СР (см. гл. 4). В данной главе рассмотрен синтез СР с переменной струк турой (рис. 9-1), выбираемой в процессе настройки исходя из обеспечения заданной вероятности правильного распо знавания. На рис. 9-1 хк (х) — структура преобразования разомкнутой части СР. Структура СР выбирается в классе многослойных сетей из ЛПЭ, хотя в принципе могут быть рассмотрены структуры другого вида. Методы настройки многослойных СР с переменной структурой, выбираемой исходя из обеспечения заданной вероятности правильного распознавания, основаны на последовательном обучении слоев ЛПЭ СР, причем методы обучения каждого слоя мо гут быть идентичными.
9-1. Последовательный алгоритм обучения ЛПЭ первого слоя многослойной СР
Последовательные алгоритмы обучения первого слоя ЛПЭ многослойной СР основаны на постепенном увеличе нии гиперплоскостей, составляющих результирующую ку сочно-линейную гиперповерхность, до тех пор пока не будет достигнуто нужное качество распознавания или выполнено какое-либо другое условие окончания процесса обучения. Процесс обучения сводится к формированию логического дерева. В геометрической интерпретации это выглядит сле дующим образом. Пространство признаков оптимально делится некоторой СР с фиксированной структурой (на пример, ЛПЭ) на две части, затем полученные подпростран ства делятся еще раз и т. д. На рис. 9-2 — 9-4 представлены соответственно общая структурная схема алгоритма, иллю страция к построению кусочно-линейной разделяющей по верхности, реализуемой СР с переменной структурой, и логическое дерево, описывающее процесс построения раз деляющей поверхности на рис. 9-3. На рис. 9-2: / — блок определения параметров СР с фиксированной структурой; II — блок разделения входной обучающей последователь ности; VI — блок управления; III (пунктир) — алгоритм СР с переменной структурой на первом шаге, аналогично которому строятся блоки I I I . На рис. 9-3 двойной линией изображена результирующая граница между классами. Первая гиперплоскость ф0 (х) разбивает пространство при знаков Ф0 на две подобласти Фх и Ф 2, причем Ф х считается собственной областью образов первого класса, Ф 2 — вто рого. Обучающую выборку L0 делим на две: Ь г и Ь 2, со-
ш т М
Рис. 9-2. Структурная схема алгоритма последова тельного построения кусочно-линейной разделяю щей поверхности.
Рис. 9-3. Построение кусочно-линейной разделяющей поверхности.
стоящие из векторов, попавших в Ф х и Ф 2 соответственно. Подсчитывается число неправильно классифицированных образов 0 Хи 0 2 в каждой из подобластей. Выбирается мак симальный элемент из множества {0 !, 0 2} и дальнейшему делению подвергается соответствующая подобласть. Пусть 0 Х> 0 2. После деления Ф х гиперплоскостью получаем об ласти Ф Х1 и Ф 12. Вычисляем 0 Х1 и 0 12 и сравниваем ошибки распознавания. Если 0 1 > 0 ц + 0 i2. то введение новой гиперплоскости улучшает качество распознавания. В этом
случае |
выборку |
L 1 разбиваем на подвыборки L X1 |
и L 12. |
Снова |
выбираем |
подпространство |
с наибольшим |
числом |
|
0(<р0> |
|
|
|
|
|
J«Pz> |
2(? г Ы |
|
|
11 |
\l2 (< p ,z)<4l |
/ (1 ) |
/ б (1 )у ^ 9 2) |
|
Т 222* |
8(1)4 |
9(2^ ъ 1 0 (1 )/ пщ ь |
|
|
|
|
|
б) |
|
1214 122^° а)221<■ |
|
|
Рис. 9-4. Логическое дерево.
а — с х е м а п о с т р о е н и я к у с о ч н о -л и н е й н о й р а з д е л я ю щ е й п о в е р х н о с т и р и с . 9 -2 ; 6 — п о с л е д о в а т е л ь н а я н у м е р а ц и я в е р ш и н д е р е в а .
неправильно классифицированных образов, строим новую гиперплоскость и т. д. В результате получается набор об ластей Ф„ Фу, . . . , Фг,/,й........г, где индексы i, /, k, . . . , t принимают значение 1 или 2. Если проведение гиперпло скости в подпространстве Ф ........ < не приводит к уменьшению ошибки распознавания, то следует продол жить деление вновь полученных областей. При обучающей выборке конечной длины алгоритм всегда сходится к 0 О, однако сходимость может быть и немонотонной. При по строении подобных алгоритмов [Л. 46] необходимо огра ничивать число шагов, при которых ошибка увеличивается.
Если при заданном числе |
шагов ошибка не уменьшится, |
данная исходная |
область |
Фг,/, *........ t |
исключается |
из |
числа подпространств, которые подвергаются делению, |
т. е. |
величина 0 , - , |
< |
исключается из |
набора 0 г. 0 у, . .. |
.. .> 0 /,/,ft, ...»/> |
среди которых ищется |
наибольшая вели |
чина ошибки. В [Л. 46] рассматриваются следующие пра вила остановки алгоритма: 1) остановка при достижении заданного значения вероятности ошибки; 2 ) остановка при