Скачиваний:
82
Добавлен:
02.05.2014
Размер:
2.02 Mб
Скачать

Критерии ошибок

Целью процедуры минимизации является отыскание глобального ми­нимума - достижение его называется сходимостью процесса обучения. Поскольку невязка зависит от весов нелинейно, получить решение в ана­литической форме невозможно, и поиск глобального минимума осущест­вляется посредством итерационного процесса - так называемого обу­чающего алгоритма, который исследует поверхность невязки и стремит­ся обнаружить на ней точку глобального минимума. Обычно в качестве меры погрешности берется средняя квадратичная ошибка (MSE), которая определяется как сумма квадратов разностей между желаемой величиной выхода dk и реально полученными на сети значениями Yk для каждого примера k.

Здесь р- число примеров в обучающем множестве.

Наряду с такой мерой погрешности широко используется расстояние

Кульбака-Лейблера, связанное с критерием максимума правдоподобия:

а также некоторые другие.

Минимизация величины Е осуществляется с помощью градиентных ме­тодов. В первом из них берется градиент общей ошибки, и веса W пересчи­тываются каждый раз после обработки всей совокупности обучающих при­меров(<<эпохи»). Изменение весов происходит в направлении, обратном к направлению наибольшей крутизны для функции стоимости:

Здесь 10 - определяемый пользователем параметр, который называется величиной градиентного шага или коэффициентом обучения. Другой возможный метод носит название стохастического градиентного.

В нем веса пересчитываются после каждого просчета всех примеров из одного обучающего множества, и при этом используется частичная функция стоимости, соответствующая этому, например k-MY, множеству

Обратное распространение ошибки

Рассмотрим теперь наиболее распространенный алгоритм обучения нейронных сетей с прямой связью - алгоритм обратного распростране­ния ошибки (Backpropagation, ВР), представляющий собой развитие так называемого обобщенного дельта-прав WIG. Этот алгоритм был заново от­крыт и популяризирован в 1986 г. Ру-мельхартом и МакКлеландом из зна­менитой Группы по изучению параллельных распределенных процессов в Массачусетском технологическом институте. В этом пункте мы более под­робно рассмотрим математическую суть алгоритма. Он является алгорит­мом градиентного спуска, минимизирующим суммарную квадратичную ошибку

Здесь индекс i пробегает все выходы многослойной сети.

Основная идея ВР состоит в том, чтобы вычислять чувствительность

ошибки сети к изменениям весов. Для этого нужно вычислить частные про­изводные от ошибки по весам. Пусть обучающее множество состоит из Р образцов, и входы k-гo образца обозначены через {х l}. Вычисление част­ных производных осуществляется по правилу цепи: вес входа i-гo нейрона, идущего от j-гo нейрона, пересчитывается по формуле

где 1:: - длина шага в направлении, обратном к градиенту.

Если рассмотреть отдельно k-й образец, то соответствующее изменение

весов равно

Множитель O~ вычисляется через аналогичные множители из после­

дующего слоя, и ошибка, таким образом, передается в обратном направле­нии.

Для выходных элементов мы получаем:

Для скрытых элементов множитель 0k определяется так:

( 13.13)

с учетом того, что

(13.14)

получаем:

(13.15)

где индекс h пробегает номера всех нейронов, на которые воздействует i-й нейрон.

Данный алгоритм используется в двух вариантах. В стохастическом ва­рианте веса пересчитываются каждый раз после просчета очередного образ­ца, а в «эпохальном», или off-line варианте, веса меняются после просчета всего обучающего множества.

Соседние файлы в папке Романов В.П. Интеллектуальные информационные системы в экономике