книги / Нейронные сети для обработки информации
..pdfвекторам .т сопоставляются не надобные друг другу векторы у, при этом степень подобия вехторов измеряется расстоянием Хемшнга </д(<г/, аД т.е. исследуется степень выполнения условия (*..*,) для осек значений I и».
В работе [163] предложена модификация правила Коско, обеспечивающая распознавание вектора (в], 6;) независимо от того, образует он локальный мини мум или нет. Вместо выражения (7.25) предлагается использовать
» = !> ,'* + < « - ■ )* ,V |
<™> |
ы |
|
Поправочный компонент (д - I) .г/у ; равнозначен увеличению в (9 - |
1) раз |
участия пары (лу,>у) в процессе обучения. Подбор значения 9 вожен для достижения ассоциативным запоминающим устройством хорошего качества распознавания. Процедуру добавления поправок можно повторять для каждой пары, не соответствующей условиям критерия минимизации энергетической функции, с использованием зависимости
|
у/Ю = у/<М| +(<7 - 1) * ^ , , |
(7.29) |
принимая в качестве |
матрицу, полученную на предыдущем цикле обучения. |
В энергетическом смысле предложенная Й. Вангом поправка уменьшает значение связанной с /-й парой энергетической функции с ЯДпд Ь/) = -д<\У6/гдо
Ь'((а Л ) = |
- (9 - 1)я,*,г |
„ |
соответствующего локальному мшшмуму. Преддожени |
й Й. Вапгом в работе |
|
[161] метод подбора значения 9 основан на формуле |
|
<730>
|де €р1 и равны максимальным разностям энергии *-го оригинального вектора и векторов, отстоящих от него на расстояние Хсммингп, равное I, во множествахА ч В соответственно, е& = та х (^ й “ ^о|)» * о г - Я р | ) . К а к показали исследования, обсуждаемая модификация также нс обеспечивает 100%* ной безошибочности фуикциошфования сети на стадии распознавания. Полную достоверность гарантирует только модификация матрицы весов, прсд-ложеинал в работе [163].
7,4.3. Модифицированная структура сети ВАМ
Авторы работы [163] предложили заменить матрицу IV расширенной матрицей вида
(7.31)
при передаче сигнала в направлении от х, к матрицей |
вида |
|
(7.32) |
при передаче сигнала в направлении от у. Вводимая таким образом поправка разрушает симметрию передачи сигналов в противоположных направлениях. Дополнительные матрицы \У, и \ \ у конструируются так, что при нормальной работе алгоритма Коско их влияние нивелируется; они включаются в работу только при возникновении ошибок распознавания.
Пусть р" и л' обозначают количество обучающих пар, для которых в про цессе распознавания получены неправильные ответы для векторов у п х соответственно. Индексами у и х будем обозначать процессы, приводящие к формированию ошибочных векторов у и х соответственно. Если (Х|, уЦ является очередной А-й обучающей парой, для которой /(х Д У )ед , то прини мается ун = I, уц = 0 для) * к (* = I, 2,..., р' ). Если для (дг„ у,) выполняется условие/ (хЛУ) «= Уьтоул=0 для к~ 1,2, ...,р\ Компбнснты у а образуют вектор У1 длиной р\ Аналогичным образом для процессов, распространяющихся в
противоположном направлении, при замене векторов у |
на х можно получить |
векторы Х( длиной и*. Корректирующие матрицы |
и \Уу формируются |
сошасио формулам (163]: |
|
\\у=Ъх]у<, |
(7-33) |
7 /=! |
|
\ У д = 5 / ^ • |
(7.34) |
1=1 |
|
Нв следующем шаге создаются матрицы дополнительных узлов сети Ту и Т„
причем |
|
|
V |
и , у ) у,. |
(7.35) |
т , = |
Ь ч .х ] х .. |
(7.36) |
|
У-1 |
|
Параметры дх н ду подбираются таким образом, чтобы они соответствовали
условиям: |
|
|
|
ду > л ( т - 2 ) - 2 |
т и ||х < ^ (а ,,а / » . |
(7.37) |
|
|
г ун |
^ |
|
Ч, > «(лг - 2) - 2 |
пйп| 2)^|/ (6,, |
) | . |
(7.38) |
Модифицированная структура сети ВАМ, в которой учитываются связи через матрицы Т , и Ту, представлена на рис. 7.8. Зачерненные нейроны увеличивают размерность сети, они корректируют неточности функционирования связей,
задаваемых матрицей \У. После предъявлешм на вход сети тестовой лары (дбь>\>) осуществляется аналогичный протекающему в сети Каско рекуррентный процесс, приводящий к получению конечных значений {х/,у$
(хь ли) -> (хи У[)“+ ■"{х/,У&
Рвс.7.8. Структура расширенной сети ВАМ
при этом олксанне отдельных его этапов должно содержать дополнительные связи, показанные на рис. 7.8. При использовании введенных обозначений получаем
У, = /(* .№ + * ,<*о*,)Т,) , Ю Т ,) .
У[ = /(•*■/-1^ +§у(х/-№ у) .
где 8*0 и 8>0 обозначают векторы функций активации дополнительных корректирующих нейронов. О алгоритме Ванга эти функции подбираются
Исходное состояние
Состояние после двух отервциО
Состояние после четырех отврецид
конечное состояние
Рис.7.9. Иллюстрация последовательности распознавания сетью ВЛМ двух сопряженных обр тов , предварительно искаженных шумом
следующим образам:
где элементы векторов я* и %9определяются выражениями:
I |
для |
п |
|
IО для других |
|
1 |
для ^ - $ 2 |
О |
для других |
Величины €| и гг имеют |
положительные значения, удовлетворяющие условиям |
|||
|
е 1 « |
1 |
(7.39) |
|
|
0 « |
2 пип {</// (<?/, о/)), |
||
|
0 « |
е а« |
2 т т (</// {Ь,, &,)}. |
(7.40) |
В работе [163] доказано, что при подобной модификации сеть ВАМ всегда обеспечивает хорошее распознавание запомненных сигналов независимо от того, образуют ош! локальные минимумы или нет.
На рис. 7.9 показаны последовательные циклы функционирования моди фицированной сети ВАМ на примере распознавания зашумленного схематического образа корабля и связанной с ним надписи зЫр. Обучающие данные, составляющие векторы а и Ь, формировались нв базе пиксельных карт, представляющих упрощенный образ корабля (вектор в) и надпись $Н1Р (вектор А). Размерность вектора а равнялась 28В, а вектора Ь - 280. Процесс распознавания исходного идеального образа оказывается совсем не простым, и обычная структура ВАМ выполнить его не в состоянии. Модификация Ванга позволяет получить правильное решение, однако к в этом случае важную роль играет грамотный подбор коэффициентов 1 | и г*. Слишком малые или слишком большие значения этих коэффициентов приводят к тому же эффекту, вызывая снижение фильтрационных способностей с е т и невозможность получения образе, очищенного от шума.
На рис. 7.10 приведен тестовый набор из пяти различных образов (вертолет, танк, самолет, корабль и лицо), связанных с соответствующими подписями па
анпшйском языке. Векторы К( описывают образы, а |
векторы у, - надписи. |
Размерности всех векторов х* равны 288, а векторов |
- 280. Но рис. 7.11 |
представлены последовательные этапы распознавания этих образов после предъявления их сети в искаженном виде (шум повреждал также к надписи). После двухкратного прохождения сигналов через модифицированную сеть ВАМ произошло безошибочное распознавание как образов, соответствующих изображениям (векторов дг), так и связанных с ними надписей (векторов у). На
функционирование системы сиромнос влияние оказывает подбор параметров дополтгтельной части сети, который в знач1гтелыгай степеии зависит от степеш! искажения образов. Это считается определенным неудобством метода,
Рис.7.10. Побор данных дня тестирования сети ВАМ с расширенной структурой
поскольку параметры дополнительной част с е т, подобранные оптимальным образом для одного уровня шума, необязательно будут эффективны прн изменении этого уровня. Для набора образов, исследовавшихся в описываемом
численном эксперименте, обученная при 20%-ном шуме (20% пикселов, находилось в искаженных состояниях) сеть также обеспечивала безошибочное распознавание образов, искажение которых достигало 50%.
Интересным представляется сравнение емкости сети ВАМ при использовании различных алгоритмов обучения. Оригинальная процедура Коско харак теризуется относительно невысоким качеством распознавания. Если размерности векторов х н у обозначить п и р соответственно, то распознавание будет считаться удовлетоо-рнтсльным при емкости т < у)тт(л,р). При использовании модифицированной Вангом структуры сети какие-либо условия и ограничения распознаваемости входных векторов отсутствуют. Однако это достигается за счет увеличения размерности сети и количества межнейронных соединений. При т » ^т\п{п,р) дополнительные связи, вводимые применяемым алгоритмом, становятся доминирующими и оказывают решающее влияние на функциони рование сети.
Раздел 8
РЕКУРРЕНТНЫЕ СЕТИ НА БАЗЕ ПЕРСЕПТРОНА
6.1. Введение
Рекуррентные сети, рассматриваемые в настоящем разделе, представляют собой развитие однонаправленных сетей псрсегпронного типа за счет добавлення в лих соответствующих обратных связей. Обратная связь может нсход1гть либо ю выходного, либо из скрытого слоя нейронов. В каждом контуре такой связи присутствует элемент единичной задержки, благодаря которому поток сигналов может считаться однонаправленным (выходной сигнал преды дущего временного цикла рассматривается как априори заданный, который просто увеличивает размерность входного вектора дг сети). Представленная подобным образом рекуррентная сеть с учетом способа формирования выходного сигнала функционирует квк однонаправленная лерсептронная сеть. Тем не менее алгоритм обучения такой сети, адаптирующий значения синаптических весов, является более сложным вследствие зависимости сигналов в момент времеш! г от их значений в предыдущие моменты и соответственно ввиду более громоздкой формулы для расчета вектора градиента.
При обсуждении рекуррентных сетей, в которых в качестве выходного элемента используется многослойный псрсептрон, мы обсудим наиболее известные структуры сетей н разработанные для них алгоритмы обучения. В этом разделе мы ограничимся сетями КМЬР, ЯТКМ Вильямса-Зипсера и сетью Эльмана. Будут рассмотрены примеры реализации таких сетей н результаты численного моделирования при решении конкретных тестовых задач.
8.2. Персептронная сеть с обратной связью
8.2.1. Структура сети ЯМ1.Р
Один нз простейших способов построения рекуррентной сеш на базе однонап равленной ИКС состоит во введешпг в перссптронную сеть обратной связи.
В дальнейшем мы будем сокращенно называть такую сеть КМЬР (англ.: ЯесиггеШ ШиНауег Регсер<юп - рекуррс1пиый многослойный персептрон). Ее обобщенная структура представлена на рис. 8.1.
Ж
Рис. 8.1. Структуре сети КМЬР
Это динамическая сеть, характеризующаяся запаздыванием входных и выходных сигналов, объединяемых во входной всхтор сети. Рассуждения будут касаться только одного входного узла х(Д) и одного выходного нейрона, а также одного скрытого слоя. Такая система реализует отображение:
><Ы)=Ат> х[к-\),....х(А-(ЛМ)), у{к-[), ><*-2)....., |
(8.1) |
тде N-1 - количество задержек входного сигнала, а Р - количество задержек выходного сигнала. Обозначим К количество нейронов в скрытом слое. В этом случае сеть ВМЬР можно характеризовать тройкой чисел (ЛГ, Р, К). Подаваемый на вход сети вектор л: имеет вид: л(Л) = (I, х(*), х(*-1), .... л(Л-(А/-1)), у(к~Р), у(к-Р-И ), .... у(А-1)]г. Допусти, что все нейроны имеют сигмои дальную функцию активации. Обозначим и,- взвешенную сумму сигналов <-го нейрона скрытого слоя, а д - взвешенную сумму сигналов выходного нейрона. При введенных обозначениях выходные сигналы конкретных нейронов описываются зависимостями:
( 8.2)