
Лекция № 8. Основные понятия теории нейросетевого моделирования.
Обучение нейронных сетей.
Задачи классификации. Вероятностные нейросетевые модели.
Задачи регрессии. Многослойный персептрон.
1. ОБУЧЕНИЕ.
На этапе обучения происходит вычисление синаптических коэффициентов в процессе решения нейронной сетью задач (классификации, предсказания временных рядов и др.), в которых нужный ответ определяется не по правилам, а с помощью примеров, сгруппированных в обучающие множества. Такое множество состоит из ряда примеров с указанным для каждого из них значением выходного параметра, которое было бы желательно получить. Действия, которые при этом происходят, можно назвать контролируемым, обучением: «учитель» подает на вход сети вектор исходных данных, а на выходной узел сообщает желаемое значение результата вычислений. Контролируемое обучение нейронной сети можно рассматривать как решение оптимизационной задачи. Ее целью является минимизация функции ошибок, или невязки, Е на данном множестве примеров путем выбора значений весов W.
Суть задачи оптимизации станет яснее, если представить себе график невязки, рассматриваемой как функция весов (эта функция определена в многомерном пространстве весов, где каждому весовому коэффициенту соответствует своя размерность). Из-за нелинейностей функций активации полученная поверхность в общем случае будет очень сложной: наряду с плоскими участками на ней будут локальные минимумы, седловые точки, овраги.
Критерии ошибок
Целью процедуры минимизации является отыскание глобального минимума — достижение его называется сходимостью процесса обучения. Поскольку невязка зависит от весов нелинейно, получить решение в аналитической форме невозможно, и поиск глобального минимума осуществляется посредством итерационного процесса — так называемого обучающего алгоритма, который исследует поверхность невязки и стремится обнаружить на ней точку глобального минимума. Иногда такой алгоритм сравнивают с кенгуру, который хочет попасть на вершину Эвереста, прыгая случайным образом в разные стороны. Разработано уже более сотни разных обучающих алгоритмов, отличающихся друг от друга стратегией оптимизации и критерием ошибок.
Коль скоро обучение основывается на минимизации значения некоторой функции (показывающей, насколько результат, который выдает сеть на данном обучающем множестве, далек от образцового значения), нужно, прежде всего, выбрать меру ошибки, соответствующую сути задачи. Удачный выбор меры погрешности обычно приводит к более гладкой поверхности невязки и упрощает задачу обучения. Обычно в качестве меры погрешности берется средняя квадратичная ошибка:
,
где di – желаемая величина выхода, yi – реально полученное на сети значение для i-го примера, N – количество примеров в обучающем множестве.
Минимизация величины Е осуществляется с помощью градиентных методов. В первом из них берется градиент общей ошибки, и веса W пересчитываются каждый раз после обработки всей совокупности обучающих примеров («эпохи»). Изменение весов происходит в направлении, обратном к направлению наибольшей крутизны для функции ошибок:
здесь
- определяемый пользователем параметр,
который на зывается величиной
градиентного шага или коэффициентом
обучения.