
- •Оглавление
- •Введение
- •1.Математические модели искусственных нейронных сетей [9]
- •1.1Общие сведения о структуре биологического нейрона
- •1.2 Математическая модель искусственного нейрона
- •1.3 Математическое описание нейронной сети
- •1.4 Стохастический нейрон
- •1.5 Сравнение характеристик машины фон Неймана и нейронной сети
- •2.Разработка структуры и функций нейроимитатора как элемента интеллектуальной информационной системы
- •2.1 Концепции применения нейросетевых компонентов в информационных системах
- •2.2 Предварительная обработка информации на этапе проектирования нейросетевых компонентов
- •2.3 Формирование задачника для нейросети
- •2.4 Особенности формирования нейронной сети
- •2.5 Интерпретация сигналов нейронной сети
- •2.6Управляющая программа (исполнитель)
- •2.7 Компонент учитель
- •2.8Настройка параметров нейросети.
- •2.9Оценка и коррекция нейросетевой модели
- •2.10 Конструктор нейронной сети
- •2.11 Контрастер нейросети.
- •2.12 Логически прозрачные сети, получение явных знаний
- •2.13 Решение дополнительных задач с помощью нейросетевых компонентов
- •2.14Разработка языка описания нейроимитатора для обмена данными
- •3.Разновидности нейронных сетей [31]
- •3.1Персептрон Розенблатта.
- •3.1.1Персептрон Розенблатта.
- •3.1.2Теорема об обучении персептрона.
- •3.1.3Линейная разделимость и персептронная представляемость
- •3.2Свойства процессов обучения в нейронных сетях.
- •3.2.1Задача обучения нейронной сети на примерах.
- •3.2.2Классификация и категоризация.
- •3.2.3Обучение нейронной сети с учителем, как задача многофакторной оптимизации.
- •3.3Многослойный персептрон.
- •3.3.1Необходимость иерархической организации нейросетевых архитектур.
- •3.3.2Многослойный персептрон.
- •3.3.3Обучение методом обратного распространения ошибок.
- •3.4Другие иерархические архитектуры.
- •3.4.1Звезды Гроссберга
- •3.4.2Принцип Winner Take All (wta) - Победитель Забирает Все - в модели Липпмана-Хемминга.
- •3.4.3Карта самоорганизации Кохонена.
- •3.4.4Нейронная сеть встречного распространения.
- •3.5Модель Хопфилда.
- •3.5.1Сети с обратными связями
- •3.5.2Нейродинамика в модели Хопфилда
- •3.5.3Правило обучения Хебба
- •3.5.4Ассоциативность памяти и задача распознавания образов
- •3.6Обобщения и применения модели Хопфилда.
- •3.6.1Модификации правила Хебба.
- •3.6.2Матрица Хебба с ортогонализацией образов.
- •3.6.3Отказ от симметрии синапсов.
- •3.6.4Алгоритмы разобучения (забывания).
- •3.6.5Двунаправленная ассоциативная память.
- •3.6.6Детерминированная и вероятностная нейродинамика.
- •3.6.7Применения сети Хопфилда к задачам комбинаторной оптимизации.
- •3.7Неокогнитрон Фукушимы.
- •3.7.1Когнитрон: самоорганизующаяся многослойная нейросеть.
- •3.7.2Неокогнитрон и инвариантное распознавание образов.
- •3.8Теория адаптивного резонанса.
- •3.8.1Дилемма стабильности-пластичности восприятия.
- •3.8.2Принцип адаптивного резонанса.
- •3.8.3Нейронная сеть aрt-1.
- •3.8.4Начальное состояние сети.
- •3.8.5Фаза сравнения.
- •3.8.6Фаза поиска.
- •3.8.7Обучение сети арт.
- •3.8.8Теоремы арт.
- •3.8.9Дальнейшее развитие арт: архитектуры арт-2 и арт-3.
- •3.8.10Сети арт-2 и арт-3.
- •3.9Черты современных архитектур.
- •3.9.1Черты современных архитектур.
- •3.9.2Сегодняшний день нейронауки.
- •3.9.3Программное и аппаратное обеспечение. Нейро-эвм.
- •4.Литература и учебно-методические материалы
Какую работу нужно написать?
2.8Настройка параметров нейросети.
Задание функции ошибки определенного вида позволяет вычислить для каждого примера обучающей выборки оценку работы нейросети и определить направление изменения ее параметров для уменьшения значения оценки Н. Процесс итерационного изменения параметров нейросетевой функции называется обучением [40,41].
Выбор нейросетевого решателя в виде
функции (4.2) позволяет применить
градиентные методы оптимизации для
поиска такого вектора параметров а*,
который доставляет минимум выбранному
функционалу ошибки, т.е. выполняется
условие
.
Для этого вычисляются значения
для
каждого аi. При использовании
стандартной оценки МНК по всей выборке
(4.9), имеем
|
(4.13) |
|
(4.14) |
где S – число примеров в обучающей
выборке, s – номер примера, Hs
– оценка для s-го примера. Вычисление
основано на формуле дифференцирования
сложной функции:
|
(4.15) |
В соответствии с (4.2), (4.14) для выходного (k+1-го) слоя:
|
(4.16) |
|
(4.17) |
|
(4.18) |
Мы получили формулу для вычисления
производной по параметрам выходного
слоя. Чтобы найти
для слоя, посылающего сигналы выходному
слою нейронной сети, выразим
:
|
(4.19) |
Тогда
|
(4.20) |
где
|
(4.21) |
– производная функции (4.3) по l – му параметру. На основе формул (4.18) – (4.21) можно рекурсивно вычислить производные по всем настраиваемым параметрам сети, что позволяет использовать тот или иной градиентный метод оптимизации, например, метод наискорейшего спуска [40], который заключается в итерационном изменении параметров в соответствие с правилом:
|
(4.22) |
где t – номер итерации, h – шаг оптимизации. Величина шага вычисляется на каждой итерации путем одномерной оптимизации функции H(ai,h,) при фиксированных ai.
На практике метод (4.22) часто оказывается малоэффективным по сравнению с методами квадратичной численной оптимизации в связи со сложным рельефом функции Н. Из теории квадратичной оптимизации известно, что метод Ньютона позволяет найти минимум квадратичной формы за один шаг. Однако, поиск обратной матрицы вторых производных для всех параметров нейросети требует слишком больших вычислительных затрат, кроме этого она может не быть положительно определена, поэтому применяют методы, использующие аппроксимацию вторых производных Н по параметрам а, например BFGS-метод [41]. Известным методом этого класса является метод сопряженных градиентов [41,230]. Несмотря на то, что функция Н в общем случае не является квадратичной, метод сопряженных градиентов работает достаточно эффективно [230]. В качестве правила изменения параметров нейросети в этом случае выбирается:
|
(4.23) |
где di(t) – направление оптимизации, h – шаг оптимизации.
В соответствие с [230], одной из эффективных формул, определяющих направление di(t), является формула Полака – Рибера (Polak – Ribiere):
|
(4.24) |
где |
|
|
(4.25) |
|
|
На основе приведенных формул строится алгоритм градиентной оптимизации параметров нейросети:
Инициализация массива настраиваемых параметров а некоторыми равномерно распределенными в интервале [-0.01, 0.01] случайными величинами.
Вычисление F(a,x) для очередного примера задачника.
Вычисление Н для примера в соответствии с выбранным из (4.9)-(4.11) видом оценки.
Вычисление
для текущего примера по формулам (4.18)-(4.21), накопление суммарного градиента.
Если обработаны не все примеры, перейти к п.2
Выбор направления оптимизации в соответствии с методом (4.22) или (4.23)-(4.25).
Одномерная оптимизация шага градиентного спуска h в выбранном направлении.
Изменение параметров а.
Вычисление Н.
Если (Н>Hmin ) и (||
||>0), то перейти к п.2, иначе - конец обучения.
При изменении параметров нейросети необходимо контролировать их значение, чтобы избежать затруднений в обучении. В случае использования функции (4.3) в качестве функции активации, диапазон наиболее эффективных значений параметров а – интервал [-1,1] [41]. Для удержания значений а в данном диапазоне применяют проективный метод контроля
|
(4.26) |
Общей проблемой методов локальной оптимизации, к которым относятся градиентные методы, является остановка в локальных минимумах, далеких от оптимального решения. Локальный минимум характеризуется условиями: (Н>Hmin ) и (|| ||0). В этом случае применяется сдвиг значений параметров нейросети в случайном направлении: а = а + , где – равномерно распределенная на интервале [min, max] случайная величина. Задание значений min, max определяет степень изменения параметров нейросети. Интервал может постепенно увеличиваться, если изменения не приводят к выходу из локального минимума.