Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Донецкий национальный университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Lektsii_po_IS_2001-2002.doc

Скачиваний:

206

Добавлен:

13.04.2015

Размер:

3.13 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 89 / 299 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Обучение однослойного персептрона

Задача обучения однослойного персептрона решается просто. Его работа определяется выражением:

(7.5)

Подадим на вход один вектор x^sиз обучающего множества. Рассчитаем выход и сравним полученный выходной векторy^s с эталоном:d^s. Зная разницу между ними, можно ввести коррекции для весовых коэффициентов и пороговых уровней:

(7.6)

где – небольшое положительное число, характеризующее скорость обучения. Разница между выходом и эталоном,и умножение на текущее значение входаx_ijобеспечивают правильное направление коррекций: если, то выход должен увеличиться, и вес увеличивается, еслиx_ij>0, и уменьшается, еслиx_ij<0. Еслиx_ij=0, то вес менять нельзя, т.к. он не влияет на выход. Абсолютное значениеx_ij также учитывается при обучении. Чем меньше меняются веса, тем меньше вероятность искажения уже запомненных образов. Поэтому множительx_ij оправдан.

Обучение многослойного персептрона

В многослойных же сетях оптимальные выходные значения нейронов всех слоев, кроме последнего, как правило, не известны, и двух или более слойный персептрон уже невозможно обучить, руководствуясь только величинами ошибок на выходах НС. Один из вариантов решения этой проблемы – разработка наборов выходных сигналов, соответствующих входным, для каждого слоя НС, что, конечно, является очень трудоемкой операцией и не всегда осуществимо. Второй вариант – динамическая подстройка весовых коэффициентов синапсов, в ходе которой выбираются, как правило, наиболее слабые связи и изменяются на малую величину в ту или иную сторону, а сохраняются только те изменения, которые повлекли уменьшение ошибки на выходе всей сети. Очевидно, что данный метод "тыка", несмотря на свою кажущуюся простоту, требует громоздких рутинных вычислений. И, наконец, третий, более приемлемый вариант – распространение сигналов ошибки от выходов НС к ее входам, в направлении, обратном прямому распространению сигналов в обычном режиме работы. Этот алгоритм обучения НС получил название процедуры обратного распространения. Именно он будет рассмотрен в дальнейшем.

Согласно методу наименьших квадратов, минимизируемой целевой функцией ошибки НС является величина:

(7.7)

где – реальное выходное состояние нейрона j выходного слояNнейронной сети при подаче на ее входы p-го образа;d_jp– идеальное (желаемое) выходное состояние этого нейрона.

Суммирование ведется по всем нейронам выходного слоя и по всем обрабатываемым сетью образам. Минимизация ведется методом градиентного спуска, что означает подстройку весовых коэффициентов следующим образом:

(7.8)

Здесь w_ij– весовой коэффициент синаптической связи, соединяющейi-ый нейрон слояn-1сj-ым нейроном слояn,– коэффициент скорости обучения, 0<<1.

Нетрудно видеть, что

(7.9)

Здесь под y_j, как и раньше, подразумевается выход нейронаj, а подs_j– взвешенная сумма его входных сигналов, то есть аргумент активационной функции. Так как множительdy_j/ds_jявляется производной этой функции по ее аргументу, из этого следует, что производная активационной функция должна быть определена на всей оси абсцисс. В связи с этим функция единичного скачка и прочие активационные функции с неоднородностями не подходят для рассматриваемых НС. В них применяются такие гладкие функции, как гиперболический тангенс или классический сигмоид с экспонентой. В случае гиперболического тангенса.

Третий множитель s_j/w_ij, очевидно, равен выходу нейрона предыдущего слояy_i^(n-1).

Что касается первого множителя в (7.9), он легко раскладывается следующим образом:

(7.10)

Здесь суммирование по kвыполняется среди нейронов слояn+1.

Введем новую переменную

(7.11)

и получим рекурсивную формулу для расчетов величин _j⁽ⁿ⁾слоя n из величин_k⁽ⁿ⁺¹⁾более старшего слояn+1.

(7.12)

Для выходного же слоя

(7.13)

Теперь мы можем записать (7.8) в раскрытом виде:

(7.14)

Иногда для придания процессу коррекции весов некоторой инерционности, сглаживающей резкие скачки при перемещении по поверхности целевой функции, (7.14) дополняется значением изменения веса на предыдущей итерации

(7.15)

где – коэффициент инерционности,t– номер текущей итерации.

Таким образом, полный алгоритм обучения НС с помощью процедуры обратного распространения строится так:

1. Подать на входы сети один из возможных образов и в режиме обычного функционирования НС, когда сигналы распространяются от входов к выходам, рассчитать значения последних. Напомним, что

(7.16)

где M– число нейронов в слоеn-1с учетом нейрона с постоянным выходным состоянием +1, задающего смещение;y_i^(n-1)=x_ij⁽ⁿ⁾–i-ый вход нейронаjслояn.

y_j⁽ⁿ⁾ = f(s_j⁽ⁿ⁾), гдеf()– сигмоид	(7.17)
y_q⁽⁰⁾=I_q,	(7.18)

где I_q– q-ая компонента вектора входного образа.

2. Рассчитать ^(N)для выходного слоя по формуле (7.13).

Рассчитать по формуле (7.14) или (7.15) изменения весов w^(N)слояN.

3. Рассчитать по формулам (7.12) и (7.14) (или (7.12) и (7.15)) соответственно ⁽ⁿ⁾иw⁽ⁿ⁾для всех остальных слоев,n=N-1,...1.

4. Скорректировать все веса в НС

(7.19)

5. Если ошибка сети существенна, перейти на шаг 1. В противном случае – конец.

Сети на шаге 1 попеременно в случайном порядке предъявляются все тренировочные образы, чтобы сеть, образно говоря, не забывала одни по мере запоминания других.

Из выражения (7.14) следует, что когда выходное значение y_i^(n-1)стремится к нулю, эффективность обучения заметно снижается.

<<< < Предыдущая 1 2 3 4 5 6 7 89 / 299 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.07.202546.89 Кб0Lektsia_8Zabolevania_organov_dykhania.docx
#
01.07.202582.94 Кб2Lektsia_8_antonimy (2).doc
#
01.05.2025104.93 Кб1lektsia_po_nalogam.docx
#
01.09.2019258.56 Кб5Lektsii_na_vtoroy_modul.doc
#
01.04.2025845.82 Кб1LEKTsII_PO_EKONOMIKE_PREDPRIYaTIYa_1_chast.doc
#
13.04.20153.13 Mб206Lektsii_po_IS_2001-2002.doc
#
16.11.2019696.32 Кб9Lektsii_po_Kramarenko.doc
#
01.07.20253.23 Mб1Lektsii_po_MB.doc
#
01.05.20251.05 Mб1lektsii_po_OTM.docx
#
01.07.20251.29 Mб2Lektsii_x.doc
#
01.07.2025298.71 Кб0LEKTsIYa_2.docx