
Многослойный перцептрон.
Наиболее популярный класс многослойных сетей прямого распространения образуют многослойные перцептроны, в которых каждый вычислительный элемент использует пороговую или сигмоидальную функцию активации. Многослойный перцептрон может формировать сколь угодно сложные границы принятия решения и реализовывать произвольные булевы функции. Разработка алгоритма обратного распространения для определения весов в многослойном перцептроне сделала эти сети наиболее популярными у исследователей и пользователей нейронных сетей.
Обучение многослойного перцептрона: алгоритм обратного распространения ошибки.
Сеть с обратным
распространением ошибки реализует
функцию
,
устанавливающую соответствие между
ограниченным подмножеством
-мерного
Евклидова пространства и ограниченным
подмножеством
-мерного
Евклидова пространства с помощью
обучения сети соответствию
на примерах
.Такие
примеры разрабатываются с помощью
случайного выбора векторов
из
в соответствии с фиксированной функцией
плотности вероятности
.
ИНС с обратным распространением ошибки имеет иерархическую архитектуру, состоящую из взаимодействующих между собой слоев искусственных нейронов.
Сеть состоит из
уровней нейронов. Первый уровень состоит
из
нейронов, принимающих значения компонентов
вектора
и распределяющих их без изменения к
следующему уровню, причем каждый нейрон
на каждом уровне принимает выходной
сигнал от каждого нейрона нижнего
уровня. Конечный
-й
уровень сети состоит из
нейронов и выдает оценку
желаемого выходного вектора
.
Кроме прямых связей каждый нейрон
скрытого уровня принимает обратную
связь “ошибка” от каждого верхнего
нейрона.
Обучение сети
состоит из двух этапов — прямой передачи
сигнала и обратной передачи сигнала.
Прямая передача начинается подачей
вектора
на первый уровень сети. Нейроны первого
уровня передают все компоненты вектора
всем нейронам второго уровня и т.д., пока
не будет получена оценка
.
Тогда каждый из выходных нейронов
получит свой компонент корректного
выходного вектора
и начнется второй этап - обратная передача
информации по сети.
В выходных нейронах
будет вычислено значение рассогласования
компонентов векторов, представляющих
действительные и желаемые выходы,
,
и это значение поступит к нейронам
предыдущего слоя, которые обновят свои
значения весов
на величину
.
Это обновление весов подобно закону
Уидроу. Индекс
показывает, что
— это вес, который использовался при
прямой передаче. Описанные действия
продолжаются до тех пор, пока не будут
обновлены веса связей нейронов первого
скрытого слоя сети. Затем весь цикл
обучения должен быть повторен для других
скрытых слоев.
Рассмотрим этот
процесс подробно. Пусть
— некоторая функция входного вектора
и весового вектора
.
Кроме того, пусть
—
-й
компонент обучающей выборки
,
где
.
Обозначим
— квадрат ошибки аппроксимации входного
вектора
.
Предполагаем, что
фиксирована, тогда функция качества
будет определяться как
,
причем
.
Поскольку поверхность
может иметь сложную форму, то возникает
проблема оптимизации процедуры поиска
глобального минимума. Пусть
дифференцируема, тогда направление
наискорейшего уменьшения
дает значение антиградиента
:
,
где
— количество компонентов вектора
.
Выражение для
может
быть записано в виде:
.
Рассмотрим процедуру
вычисления
.
С учетом того, что
для многослойной ИНС полное значение
индекса
— это
,
где
и
— номера взаимодействующих нейронов,
— номер слоя,
,
где
,
а
— выходной сигнал
-го
нейрона
-го
слоя при прямом проходе на
-м
этапе обучения. Обозначим
и вычислим
.
Тогда получим
.
Если
— выходной слой, то
,
так как
и
,
где
—
-й
компонент
,
тогда
.
Если
— скрытый слой, то
,
где
—
первая производная сигмоидной функции
по ее аргументу. Кроме того,
.
Обобщая, получаем
.
Тогда
.
Для уменьшения
необходимо модифицировать
так, чтобы двигаться в направлении
.
Поэтому закон обучения выглядит так:
или
,
где
— скорость обучения.
Закон обучения для ИНС с обратным распространением ошибки — модификация закона Уидроу-Хопфа для многослойных сетей. Его основной недостаток — во многих случаях для сходимости может потребоваться многократное предъявление всей обучающей выборки.