Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Нижегородский Государственный Университет им. Н.И. Лобачевского

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

ИИС(X-file).doc

Скачиваний:

Добавлен:

19.04.2019

Размер:

2.33 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 1011 / 1211 12 > Следующая >>>

22. Многослойный персептрон и его обучение с помощью алгоритма обратного распространения ошибки.

Опр: Многослойный персептрон (МП) – в самой простой версии это сеть с одним входным (сенсорным) слоем, одним выходным (моторным) слоем и одним или несколькими внутренними (скрытыми) слоями нейрона. Характерная черта такого персептрона – прямонаправленность. Это значит, что информация, преобразуясь, передается через К скрытых слоев от входного слоя к выходному, при этом, в стандартной топологии, узел i в слое k = 1,2, … , К+1 соединяется посредством синаптических весов _i_j^k со всеми узлами j предыдущего, (k-1)-го слоя, где k=0 – сенсорный слой, k=К+1 – моторный слой.

* Нейроны сенсорного и моторного слоев не имеют активационных функций, т.к. их задачи – принять и ретранслировать сигналы на первый скрытый слой (для сенсорного) и, суммировав сигналы, подать их на выход (для моторного).

Модифицированные версии многослойного персептрона могут иметь:

- нерегулярные связи между слоями (неполный граф соединений);

- прямые связи между несмежными слоями;

- межнейронные связи внутри одного слоя;

- обратных связей БЫТЬ НЕ МОЖЕТ.

Входной слой многослойного персептрона выполняет функции приема и ретрансляции входных сигналов х₁, х₂, … , х_N на нейроны первого скрытого слоя;
Основное нелинейное преобразование сигналов происходит в скрытых слоях;
Выходной слой осуществляет суперпозицию взвешенных сигналов последнего скрытого слоя.

Обучение многослойного персептрона

Обучение многослойного персептрона – это задача оптимизации (подбор оптимальных _ij и порогов АФН так, чтобы ошибка стремилась к нулю или была равна нулю). Для обучения МП был предложен алгоритм «Обратного распространения ошибки» (Back Propagation Error). В основу этого алгоритма положен метод градиентного спуска, направленный на уменьшение ошибки:

_{Q
M}

e = ½   (y_i^q – Y_i^q)²

^{q=1
i=1}

согласно которому на каждой итерации поиска изменяются значения синаптических весов и порогов АФН. Приращение синаптических весов и порогов АФН определяется как:

_ji^k = –  e / _ji^k , j = 1..H_k_-1, i = 1..H_k (k = 1..K);

_0i^k = –  e / _0i^k , j = 1..H_k-1, I = 1..H_k (k = 1..K),

где _ji^k – синаптический вес связи j-го нейрона k–1-го слоя с i-м нейроном k-го слоя;

₀_i^k – порог АФН i-го нейрона k-го слоя;

Н_k – число нейронов в k-м слое;

 – настроечный параметр обучения (0,1];

К – число слоев персептрона.

Согласно правилам дифференцирования сложной функции, производная от функции ошибки по _ji^k может быть записана как:

e / _ji^k = (e / y_i^k)*(y_i^k / s_i^k)*(s_i^k / _ji^k) = (обозн.) = _i^k* y_j^k^-1 (1)

y_i^k – сигнал на выходе i-го нейрона k-го слоя;

Н_k_-1

s_i^k =  _j_i^ky_j^k^-1 – ₀_i^k – сдвинутая на величину порога взвешенная сумма входных

j=1 сигналов i-го нейрона k-го слоя;

_i^k = (e / y_i^k)*(y_i^k / s_i^k)

* Выражение (1) и все последующие выкладки приведены для случая оценки ЛОКАЛЬНОЙ ОШИБКИ e = e_q, т.е. для одного шаблона. Поэтому индекс шаблона опущен и нет  по q.

Представление производной e / y_i^k через выходы k+1-го слоя имеет вид:

Н_k₊₁ Н_k₊₁

e / y_i^k =  (e / y_j^k⁺¹)*(y_j^k⁺¹ / s_j^k⁺¹)*(s_j^k⁺¹ / y_i^k) =  (e / y_j^k⁺¹)*(y_j^k⁺¹ / s_j^k⁺¹)*_ij^k⁺¹ (2)

На основании этого (*(y_i^k / s_i^k)) можно получить рекуррентную формулу:

Н_k+1

_i^k = [  _i^k+1_ij^k+1] *(y_i^k / s_i^k) (3)

j=1

Эта формула может быть использована для пересчета величин _i^k со слоя k+1 на слой k (т.е. в обратную сторону – обратное распространение ошибки).

Для слоя К+1 (выходной, последний), с которого начинается BPE (ОРО) величина:

_i^К+1 = (y_j^К+1 – Y_j)*(y_j^K⁺¹ / s_j^K⁺¹) (4)

Т.о. итерационная формула для коррекции значений синаптических весов имеет вид:

_ji^k+1 = –  _i^k+1 y_j^k (k = K, K-1, … , 1, 0) (5)

Аналогично получается итерационная формула для коррекции порогов АФН:

₀_i^k⁺¹ =  _i^k⁺¹ (k = K, K-1, … , 1, 0) (6)

Выбор той или иной АФН определяется многими факторами, среди которых в первую очередь выделяется существование производной на всей оси абсцисс и удобство организации вычислений. С этой точки зрения, в алгоритме BPE (ОРО) чаще всего используют сигмаидальную АФН. Для нее, согласно (4):

_i^К+1 = a(y_j – Y_j) y_j(1 – y_j) – непрерывная функция

(y_j = y_j^К+1 – сигнал на выходе j-го нейрона выходного слоя).

 Общее описание алгоритма обратного распространения ошибки

1. Инициализация синаптических весов _ji^k и порогов АФН ₀_i^k во всех слоях персептрона (j = 1..H_k_-1, i = 1..H_k) как маленьких величин, например [-1,1].

2. Выбор очередного шаблона < X , Y >  S из набора тренировочных шаблонов случайным образом или согласно определенному правилу.

3. Прямой ход: вычисление фактических выходов персептрона по формулам:

Н_k-1

y_j^k = f_ ( _j
i^ky_j^k-1 – _0
i^k) , j = 1..H_k-1, i = 1..H_k, k = 1..K+1;

j=1

y_j⁰ = x_j – j-я компонента левой части шаблона.

Вычисление ошибки и проверка критерия выхода из алгоритма (достаточная малость ошибки).

4. Обратный ход: коррекция значений синаптических весов и порогов АФН с использованием формул (3) – (7). Причем коррекция порогов АФН осуществляется после каждого шаблона (по распределенной, но не по суммарной ошибке).

5. Переход к 2.

-) Для повышения эффективности алгоритма, априорный задаваемый параметр  можно заменить на поиск величины шага вдоль антиградиента с помощью метода одномерной минимизации. Это может привести к увеличению времени продолжения одной итерации алгоритма, но в целом уменьшит число итераций.

23. RBF-сеть.

Опр: RBF-сеть (Radial Basis Function) – однослойная ИНС, способная аппроксимировать произвольную непрерывную функцию в базисе радиально-симметричных активационных функций нейронов (с любой заданной точностью).

Алгоритм обучения RBF-сети – простой, не требующий рекурсий алгоритм; аппроксимируемая функция* задается набором шаблонов:

P = {< X , Y >_q, q = 1..Q}, где

X = (X₁, X₂, … , X_N) – вектор переменных (аргументов) аппроксимируемой функции, определяющий N-мерное пространство входных сигналов RBF-сети;

Y = (Y₁, Y₂, … , Y_M) – вектор соответствующих значений аппроксимируемой функции.

* Имеется в виду НАБОР аппроксимируемых функций, число которых (М) определяет количество выходов RBF-сети.

RBF – сеть имеет единственный скрытый слой из Н нейронов, только эти нейроны обладают радиально-симметричной АФН и осуществляют нелинейное преобразование поступающих на их вход сигналов. Синаптические веса всех связей между нейронами входного и скрытого слоев принимаются равными 1 (невзвешенная сумма сигналов).

В АФН i-го нейрона скрытого слоя:

– X-Cⁱ²*(1/²_i) – [ (X_j– C_jⁱ)²]*(1/²_i)

f (X, Cⁱ) = e = e ^i=1..N

- вектор Cⁱ = (C₁ⁱ, C₂ⁱ, … , C_Nⁱ) – центр АФН i-го нейрона;

- скаляр _i – ширина окна АФН i-го нейрона.

Матричные выражения для вычисления синаптических весов связей между нейронами скрытого и выходного слоев _j_i (j = 1..H, i = 1..M) получаются следующим образом:

Сигнал выхода i-го нейрона выходного слоя, получаемый под воздействием вектора аргументов q-го шаблона (X^q) приравнивается i-му элементу выходного вектора q-го шаблона (Y_i^q):

y_i = _1
i f(X^q, C¹) + _2
i f(X^q, C²) + … + _H
i f(X^q, C^H) = y_i^q (8)

Если положить H=Q, Cⁱ = Xⁱ (i=1..H), то уравнение (8) можно представить в виде:

_1
i f_q1 + _2
i f_q2 + … + _H
i f_qH = Y_qi,

где f_qi = f(X^q,Cⁱ)

y_qi = Y_qi – желаемый отклик i-го выходного нейрона на q-й шаблон.

Записав аналогичные уравнения для всех выходов сети и всех шаблонов, получим матричное уравнение вида:

F * W = Y, где (9)

Синаптические веса из (9) получаются:

W = F^-1* Y (10)

 Алгоритм синтеза RBF-сети

Оопределяется размер Н скрытого слоя RBF-сети, равный количеству тренировочных шаблонов (Н=Q).
В качестве центров АФН скрытого слоя берутся точки пространства входных сигналов, заданные в наборе тренировочных шаблонов P: Cⁱ = Xⁱ (i=1..H).
Задается ширина окон АФН скрытого слоя _i (i=1..H). Причем, окна должны покрывать пространство входных сигналов сети, не накладываясь друг на друга (эвристические параметры).

Формируются матрицы F и Y.
Вычисляется матрица F^-1.
По формуле (10) определяется матрица синаптических весов W, эти значения должны обеспечить совпадение точек интерполяционной поверхности с тренировочными шаблонами в пространстве выходных сигналов RBF-сети.

* Наиболее ответственные моменты реализации алгоритма это:

- выбор размера скрытого слоя;

- задание ширины окон АФН,

т.к. от этого существенно зависит ошибка аппроксимации в точках входного пространства, не фигурирующих в наборе тренировочных шаблонов Р.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 1011 / 1211 12 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
07.09.2019313.34 Кб10ИЗЖ.11.doc
#
11.03.201650.38 Кб17Изменения части первой ГК РФ в 2015 году.docx
#
27.03.201537.54 Кб26изо.docx
#
27.03.2015242.18 Кб18Изучение вязкости жидкости.doc
#
29.08.201968.61 Кб12Изучение темперамента.doc
#
19.04.20192.33 Mб45ИИС(X-file).doc
#
27.03.201564 Кб9имидж.doc
#
20.09.2019640 Кб26ИМЛИ Общая характеристика раннего немецкого ро...doc
#
27.03.2015588.8 Кб36ИМЛИИ 1.doc
#
27.03.2015104.03 Кб15ИМЛИИ 2.docx
#
27.03.2015134.14 Кб22ИМЛИИ Лекции.doc