- •Нейрокомпьютерная техника: Теория и практика
- •Предисловие
- •Благодарности
- •Введение
- •Почему именно искусственные нейронные сети?
- •Свойства искусственных нейронных сетей
- •Обучение
- •Обобщение
- •Абстрагирование
- •Применимость
- •Исторический аспект
- •Искусственные нейронные сети сегодня
- •Перспективы на будущее
- •Искусственные нейронные сети и экспертные системы
- •Соображения надежности
- •Литература
- •Глава 1. Основы искусственных нейронных сетей
- •Биологический прототип
- •Искусственный нейрон
- •Активационные функции
- •Однослойные искусственные нейронные сети
- •Многослойные искусственные нейронные сети
- •Нелинейная активационная функция
- •Сети с обратными связями
- •Терминология, обозначения и схематическое изображение искусственных нейронных сетей
- •Терминология
- •Дифференциальные уравнения или разностные уравнения
- •Графическое представление
- •Обучение искусственных нейронных сетей
- •Цель обучения
- •Обучение с учителем
- •Обучение без учителя
- •Алгоритмы обучения
- •Литература
- •Глава 2. Персептроны персептроны и зарождение искусственных нейронных сетей
- •Персептронная представляемость
- •Проблема функции исключающее или
- •Линейная разделимость
- •Преодоление ограничения линейной разделимости
- •Эффективность запоминания
- •Обучение персептрона
- •Алгоритм обучения персептрона
- •Дельта-правило
- •Трудности с алгоритмом обучения персептрона
- •Литература
- •Глава 3. Процедура обратного распространения
- •Введение в процедуру обратного распространения
- •Обучающий алгоритм обратного распространения
- •Сетевые конфигурации
- •Многослойная сеть.
- •Обзор обучения
- •Дальнейшие алгоритмические разработки
- •Применения
- •Предостережение
- •Паралич сети
- •Локальные минимумы
- •Размер шага
- •Временная неустойчивость
- •Литература
- •Глава 4. Сети встречного распространения
- •Введение в сети встречного распространения
- •Структура сети
- •Нормальное функционирование
- •Слои Кохоненна
- •Слой Гроссберга
- •Обучение слоя кохонена
- •Предварительная обработка входных векторов
- •Выбор начальных значений весовых векторов
- •Режим интерполяции
- •Статистические свойства обученной сети
- •Обучение слоя гроссберга
- •Сеть встречного распространения полностью
- •Приложение: сжатие данных
- •Обсуждение
- •Литература
- •Глава 5. Стохастические методы
- •Использование обучения
- •Больцмановское обучение
- •Обучение Коши
- •Метод искусственной теплоемкости
- •Приложения к общим нелинейным задачам оптимизации
- •Обратное распространение и обучение коши
- •Трудности, связанные с обратным распространением
- •Трудности с алгоритмом обучения Коши
- •Комбинирование обратного распространения с обучением Коши
- •Обсуждение
- •Литература
- •Глава 6. Сети Хопфилда
- •Конфигурации сетей с обратными связями
- •Бинарные системы
- •Устойчивость
- •Ассоциативная память
- •Непрерывные системы
- •Сети Хопфилда и машина Больцмана
- •Термодинамические системы
- •Статистичекие сети Хопфилда
- •Обобщенные сети
- •Приложения
- •Аналого-цифровой преобразователь
- •Задача коммивояжера
- •Обсуждение
- •Локальные минимумы
- •Скорость
- •Функция энергии
- •Емкость сети
- •Литература
- •Глава 7. Двунаправленная ассоциативная память
- •Структура дап
- •Восстановление запомненных ассоциаций
- •Кодирование ассоциаций
- •Емкость памяти
- •Непрерывная дап
- •Адаптивная дап
- •Конкурирующая дап
- •Заключение
- •Литература
- •Глава 8. Адаптивная резонансная теория
- •Архитектура apt
- •Описание apt
- •Упрощенная архитектура apt
- •Функционирование сети apTв процессе классификации
- •Реализация apt
- •Функционирование сетей apt
- •Пример обучения сети apt
- •Характеристики apt
- •Инициализация весовых векторов т
- •Настройка весовых векторов Вj
- •Инициализация весов bij
- •Теоремы apt
- •Заключение
- •Литература
- •Глава 9. Оптические нейронные сети
- •Векторно-матричные умножители
- •Электронно-оптические матричные умножители
- •Сети Хопфилда на базе электронно-оптических матричных умножителей
- •Голографические корреляторы
- •Объемные голограммы
- •Оптическая сеть Хопфилда, использующая объемные голограммы
- •Заключение
- •Литература
- •Глава 10. Когнитрон и неокогнитрон
- •Когнитрон
- •Структура
- •Обучение
- •Неокогнитрон
- •Структура
- •Обобщение
- •Вычисления
- •Обучение
- •Заключение
- •Литература
- •Приложение а. Биологические нейронные сети
- •Человеческий мозг: биологическая модель для искусственных нейронных сетей
- •Организация человеческого мозга
- •Мембрана клетки
- •Компьютеры и человеческий мозг
- •Приложение б. Алгоритмы обучения
- •Обучение с учителем и без учителя
- •Метод обучения хэбба
- •Алгоритм обучения Хэбба
- •Метод сигнального обучения Хэбба
- •Метод дифференциального обучения Хэбба
- •Входные и выходные звезды
- •Обучение входной звезды
- •Обучение выходной звезды
- •Обучение персептрона
- •Метод обучения уидроу-хоффа
- •Методы статистического обучения
- •Самоорганизация
- •Литература
Приложения к общим нелинейным задачам оптимизации
До сих пор в обсуждении предполагалось, что мы корректируем веса в традиционных искусственных нейронных сетях. Фактически, однако, это есть лишь некоторый частный случай. Эти статистические методы носят значительно более общий характер и способны решать множество задач нелинейной оптимизации.
Нелинейная оптимизационная задачавключает множество независимых переменных, детерминистским образом связанных с значением целевой функции. Целью является нахождение такого множества значений независимых переменных, которое минимизирует (или максимизирует) целевую функцию. Рассмотрим, например, нахождение минимума функции F{x)=3х3+ 6х2– 2х+ 3.
Здесь имеется единственная независимая переменная х,управляющая значением целевой функции F(x),которая должна быть минимизирована. Эта простая функция легко минимизируется с помощью методов дифференциального исчисления, однако минимизировать подобным образом более сложные функции от большого числа переменных может оказаться затруднительным.
Во многих практических ситуациях функциональная связь между независимыми переменными и целевой функцией неизвестна и фактически не может быть известной. Сложный химический процесс может не иметь адекватной математической модели. Единственными измеряемыми величинами могут быть «выход», «качество», «цена» и т. д., которые являются неизвестными функциями от большого числа таких независимых переменных, как температура, время и характеристики сырья.
Подобная задача может решаться следующим образом:
Система наблюдается и собираются данные для составления обучающего множества. Каждый элемент обучающего множества состоит из замеров во время наблюдений и включает значения всех входов (входной вектор) и всех выходов (выходной вектор).
Сеть обучается на этом обучающем множестве. Обучение состоит из предъявления входного вектора, вычисления выходного вектора, сравнивания выходного вектора с входным вектором, полученным в процессе наблюдений, и коррекции весов, минимизирующей разность между ними. Каждый входной вектор предъявляется по очереди, и сеть частично обучается. После большого числа предъявлении входных векторов сеть сойдется к решению, которое минимизирует разность между желаемыми и измеренными выходами системы. Фактически сеть строит внутреннюю модель неизвестной системы. Если обучающее множество достаточно велико, сеть сходится к точной модели системы. Если сети предъявить некоторый входной вектор, отличный от любого из векторов, предъявленных при обучении, то полностью обученная сеть выдаст тот же самый выходной вектор, что и настоящая система.
Максимизируется целевая функция. Целевая функция выходов должна быть сконструирована таким образом, чтобы выражать степень «удовлетворительности» результата. Теперь входы становятся переменными для обученной сети. Они подстраиваются с помощью того же самого обучающего алгоритма, который применялся для выставления весов на шаге 2, однако используются для максимизации целевой функции.
Во многих случаях могут присутствовать ограничения, накладываемые задачей. Например, может быть невозможно физически брать значения переменных вне некоторого диапазона. Эти ограничения (которые могут быть сложными выражениями) могут быть легко учтены отбрасыванием на шаге 3 любого изменения входной переменной, которое нарушает ограничение.
Это обобщение метода стохастической оптимизации позволяет его использовать для широкого круга оптимизационных задач. Можно применять и другие методы, но стохастический метод позволяет преодолеть трудности, обусловленные локальными минимумами, с которыми сталкивается метод обратного распространения и другие методы градиентного спуска. К сожалению, вероятностная природа процесса обучения может приводить к большому времени сходимости. Использование методов псевдотеплоемкости может существенно уменьшить это время, но процесс все равно остается медленным.