Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ТПР. Всё в 1 файле / Нейрокомпьютеры.pdf
Скачиваний:
201
Добавлен:
15.09.2014
Размер:
2.15 Mб
Скачать

(79)

Метод главных компонент является эффективным средством для сжатия и восстановления данных.

Алгоритмы обучения и функционирования линейной рециркуляционной сети.

Рециркуляционная нейронная сеть представляет собой совокупность двух слоев нейронных элементов, которые соединены между собой двунаправленными связями (рис. 13).

Каждый из слоев нейронных элементов может использоваться в качестве входного или выходного. Если слой нейронных элементов служит в качестве входного, то он выполняет распределительные функции.

В противном случае нейронные элементы слоя являются обрабатывающими. Весовые коэффициенты соответствующие прямым и обратным связям характеризуются матрицей весовых коэффициентов W и W’. Для наглядности, рециркуляционную сеть можно представить в развернутом виде, как показано на рис. 14.

Такое представление сети является эквивалентным и характеризует

Рис. 13. Архитектура рециркуляционной нейронной сети

Рис. 14. Эквивалентное представление рециркуляционной сети

полный цикл преобразования информации. При этом промежуточный слой нейронных элементов производит кодирование (сжатие) входных данных X, а последний слой осуществляет восстановление сжатой информации Y. Назовем слой нейронной сети, соответствующий матрице связи W прямым, а соответствующий матрице связей W’ – обратным.

Рециркуляционная сеть предназначена как для сжатия данных, так и для восстановления сжатой информации. Сжатие данных осуществляется при прямом

преобразовании информации в соответствие с выражением:

 

Y = F(WTX).

(80)

Восстановление или реконструкция данных происходит при обратном

преобразовании информации:

 

X = F(W'T).

(81)

В качестве функции активации нейронных элементов F может использоваться как линейная, так и нелинейная функции. При использовании линейной функции

активации:

 

Y = WTX,

(82)

 

 

=W'Y

(83)

X

В предыдущем разделе отмечалось, что наилучший автопрогноз достигается тогда, когда матрица весовых коэффициентов сформирована в соответствии с методом главных компонент. При этом столбцы матрицы W равняются

собственным векторам ковариационной матрицы. Тогда:

 

W'W,

(84)

Таким образом весовые коэффициенты линейной рециркуляционной нейронной сети можно определить при помощи метода главных компонент. В этом

случае матрица W является ортогональной и

 

WWT =1.

(85)

Линейные рециркуляционные сети, в которых весовые коэффициенты определяются в соответствии с методом главных компонент называются РСА сетями [8]. Рассмотрим другие методы обучения рециркуляционных нейронных сетей.

4.2.3. Алгоритм обратного распространения ошибки

Рециркуляционные нейронные сети должны обеспечивать такое преобразование информации, чтобы достигалась минимальная среднеквадратичная ошибка между входным X и реконструированным образами:

(86)

где xi с чертой i-ая компонента реконструированного образа. Она определяется следующим образом:

(87)

Функция (86) достигает минимума, если в качестве уj (j = 1, …р) использовать первые р главные компоненты вектора X. Это является теоретической основой для использования алгоритма обратного распространения ошибки, который минимизирует среднеквадратичную ошибку методом градиентного спуска. Существуют различные подходы в применении алгоритма обратного распространения ошибки для обучения рекуррентных сетей. Так Коттрел (Cottrell) для сжатия изображений использовал стандартный алгоритм обратного распространения. Хинтон (Hinton) применял кумулятивное дельта правило

(Cumulative Delta Rule), которое представляет собой незначительную модификацию стандартного backpropagation. Рассмотрим применение кумулятивного дельта правила для обучения рециркуляционных нейронных сетей.

В процессе обучения рециркуляционной сети для каждого входного образа производится три цикла распространения информации: прямое, обратное и прямое. После этого производится настройка весовых коэффициентов сети. Для наглядности процесса распространения информации введем обозначения. Пусть хi(0) входной вектор, поступающий на вход сети в начальный момент времени. Тогда выходной вектор сети в момент t = 1 определяется в результате прямого преобразования информации:

(88)

где j = 1,…p.

Вектор, получается в результате обратного преобразования вектора Y(l):

(89) где у = 1,…n.

На третьем этапе распространения информации определяется вектор Y(3):

(90)

где j=1,…p.

Такое преобразование информации можно представить в виде цепочки, изображенной на рис. 4.6.

Рис. 4.6. Последовательное преобразование информации в рециркуляционной

сети

Тогда ошибка восстановления информации в первом слое нейронной сети определяется как:

(91)

Ошибку воспроизведения информации во втором слое нейронной сети можно представить следующим образом:

(92)

Обучение рециркуляционной нейронной сети производиться как с целью минимизации ошибки Е, так и Е'. При этом значение у (1) в выражение (92) принимается за эталонное. Тогда в соответствии с методом градиентного спуска в пространстве весовых коэффициентов:

w (t +1) = w (t) α(t) E(t)

ij

 

ij

 

wij

 

 

 

 

(t +1)

E(t)

wji

= wji

(t) α (t)

wji

 

 

 

 

(93)

(94)

Определим производные для линейнойрециркуляционной сети. Тогда:

 

(95)

 

(96)

В результате, выражения для настройки весовых коэффициентов

рециркуляционной нейронной сети примут следующий вид:

 

wij (t +1) = wij (t) α(t)xi (2)(y j (3) y j (1))

(97)

wij(t +1) = wij(t) α(t) y j (1)(xi (2) xi (0))

(98)

Для получения ортонормированных весовых векторов wk для, каждого нейрона необходимо ввести нормированное правило обучения. Пусть Wk = (wlk, w2k …, wnk) – весовой вектор k-ro нейронного элемента. Тогда длина его в момент времени t+1 равняется:

 

W (t +1)

 

=

w2

(t +1) + w2

(t +1) +... + w2

(t +1)

(99)

 

 

 

k

 

 

1k

2k

nk

 

 

В соответствии с этим нормированное правило обучения для весовых коэффициентов k-ro нейрона можно представить следующим образом:

(100)

Аналогично производится формирование весовых коэффициентов W’. Как уже отмечалось в процессе обучения рециркуляционной сети для каждого входного образа происходит три цикла распространения информации. После этого осуществляется модификация весовых коэффициентов сети. Процедура обучения осуществляется до тех пор, пока суммарная среднеквадратичная ошибка сети не станет меньше заданной.

В начальный момент времени производится случайная инициализация весовых коэффициентов. Хинтон рекомендовал, чтобы веса инициализировались с нулевым средним [9]. При этом желательно обеспечивать симметричность весовых коэффициентов прямого и обратного слоя (WT = W’). Точно такие же выражения, (97) и (98), Хинтон использовал для модификации синаптических связей нелинейных рециркуляционных сетей, хотя с формальной точки зрения это является не совсем верным. Критическим параметром кумулятивного дельта правила является выбор подходящего шага обучения а, чтобы обеспечить достижение минимальной среднеквадратичной ошибки. При этом для различных задач требуются разные значения шага [9]. Для устранения этих недостатков можно использовать адаптивный шаг обучения. Тогда при настройке весовых коэффициентов прямого слоя величина скорости обучения определяется, как