- •Лекция 4 Архитектура нейронных сетей Принципы обучения нейронных сетей
- •1. Особенности обучающихся нейронных сетей
- •2. Классификация принципов обучения нейронных сетей
- •3. Схемы обучения нейронных сетей
- •3.1. Схема обучения нейронной сети без учителя
- •3.2. Схема обучения нейронной сети с учителем
- •4. Алгоритмы обучения искусственных нс
- •4.1. Обучение без учителя
- •4.1.1. Правило Хебба
- •4.1.2. Правило Кохонена
- •4.2. Обучение с учителем
- •4.2.1. Дельта-правило
- •4.2.2. Правило обратного распространения ошибки
- •4.2.3. Стохастические алгоритмы
- •4.2.3.1. Машина Больцмана
- •4.2.3.2. Машина Коши
4.2.3. Стохастические алгоритмы
Суть стохастического подхода заключается в изменении весовых коэффициентов сети случайным образом и сохранении тех изменений, которые ведут к уменьшению заданной целевой функции. Под целевой функцией в данном случае понимается величина Е(w)kдля k-го входного образа
. (4.27)
В начале обучения производятся достаточно большие случайные коррекции веса, которые затем постепенно уменьшаются. При этом для исключения «зависания» алгоритма в локальных минимумах должны сохранятся не только те изменения синаптической карты, которые ведут к уменьшению целевой функции, но также изредка и изменения, приводящие к ее увеличению. Такое обучение позволяет сети, в конце концов, стабилизироваться в близи глобального минимума.
Стратегия изменения синаптической карты строится на аналогии с физическими процессами, происходящими при отжиге металла. В расплавленном металле атомы находятся в беспорядочном движении. При понижении температуры атомы стремятся к состоянию энергетического минимума (кристаллизации), т.е., к глобальному минимуму.
Энергетическое состояние НС описывается распределением Больцмана
, (4.28)
где P(E) – плотность распределения энергии сети Е (вероятность того, что система находится в состоянии с энергией Е); k – постоянная Больцмана (выбирается в зависимости от задачи); Т – искусственная температура.
4.2.3.1. Машина Больцмана
Нейронная сеть называется машиной Больцмана, если она основана на принципах стохастического обучения и скорость изменения искусственной температуры обратно пропорциональна логарифму времени
, (4.29)
где T(t)– искусственная температура на шагеtалгоритма;Т0– начальная температура.
Величина случайного шага для машины Больцмана задается распределением Гаусса
, (4.30)
где Р(с)– плотность распределения вероятности величины шагас(вероятность изменения веса на величинус);Т– искусственная температура.
Машина Больцмана характеризуется очень большим временем обучения.
В стохастических алгоритмах случайные изменения могут проводиться:
1) для отдельных весов;
2) всех нейронов слоя в многослойных сетях;
3) для всех нейронов сети одновременно.
Эти модификации алгоритма дают возможность сократить общее число итераций обучения.
4.2.3.2. Машина Коши
Разработан метод быстрого обучения НС стохастическими алгоритмами, основанный на машине Больцмана. В данном методе при вычислении величины шага распределение Гаусса заменяется на распределение Коши
. (4.32)
Распределение Коши имеет, как показано на рис. 4.14, более длинные «хвосты», увеличивая тем самым вероятность больших шагов. С помощью такого простого изменения максимальная скорость уменьшения температуры становится обратно пропорциональной линейной величине, а не логарифму, как для алгоритма обучения Больцмана
. (4.33)
В данном методе можно не только вычислить вероятность изменения веса Р(с), но и явно задать само приращение веса (шаг 4)
, (4.34)
где – дополнительный коэффициент скорости обучения.
Значение шага обучения св данном случае вычисляется методом Монте-Карло. На интервале (–/2,/2) (необходимо ограничить функцию тангенса) в соответствии с равномерным законом распределения выбирается случайное числос. Оно подставляется в формулу (4.34) в качестве Р(с), и с помощью текущей температуры вычисляется величина шага.
________________________________________________________________________________________________
-
(конспекты лекций)