Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Ответы на гос. экзамен.docx
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
6.29 Mб
Скачать

Свойства.

Во-первых, сигмоидальная функция изменяется в диапазоне (0,1) и, тем самым, позволяет сжимать произвольный диапазон изменения аргумента y(t) или V(t) в диапазон (0,1) для выходного сигнала z(t), что весьма удобно при моделировании и аппаратно-программной реализации нейронных сетей на ЭВМ (отсюда название  «сжимающая» функция).

Во-вторых, сигмоидальная функция непрерывна и дифференцируема во всем диапазоне изменения аргумента и имеет очень простое выражение для производной:

Это свойство позволяет использовать ее в широко распространенных градиентных алгоритмах обучения искусственных нейронных сетей, требующих операций многократного дифференцирования.

В третьих, сигмоидальная функция обладает свойством автоматического регулирования усиления для входных сигналов разного уровня. Центральный участок функции, соответствующий области малых входных сигналов, имеет большой наклон кривой и максимум производной, поэтому коэффициент усиления здесь максимален. По мере удаления от центрального участка функции в область больших по модулю входных сигналов, наклон кривой и ее производная уменьшаются, соответственно уменьшается и коэффициент усиления. Иными словами, один и тот же нейрон или одна и та же сеть нейронов могут эффективно отрабатывать как сильные, так и слабые сигналы.

Графики сигмоидальной функции при а=1 приведены на рис. 3.8.

Рис. 3.8. Графики сигмоидальной функции при а=1

График производной сигмоидальной функции имеет колоколообразную форму (рис. 3.9).

Рис. 3.9. График первой производной сигмоидальной функции

4. Функция гиперболического тангенса (S-образная, сигмоид).

или

.

Графики функции гиперболического тангенса при a=1 показаны на рис. 3.10. По форме и свойствам эта функция сходна с предыдущей. Отличие заключается в том, что она симметрична относительно нуля, принимает значения различных знаков и имеет двойной размах по амплитуде, что эффективно используется для ряда нейронных сетей. Коэффициент а, как и для предыдущей функции, характеризует степень крутизны функции.

Производная функции гиперболического тангенса равна

z(t)

1

V(t)

z(t)

–1

1

0

Q

y(t)

0

–1

Рис. 3.10. Графики функции гиперболического тангенса

График производной этой функции имеет такой же вид, как и для сигмоидальной функции (см. рис.

Самообучение. Детерменированные и стохастические методы обучения.

В ИНС обучение рассматривается как настройка параметров сети для решения поставленной задачи. В качестве таких параметров обычно выступают синаптические коэффициенты (веса связей). Кроме весов связей в параметры сети могут включаться также пороги (смещения). Цель обучения ИНС – достичь желаемой выходной реакции сети на некоторое множество входных сигналов называемое обучающей выборкой. Входное и выходное множества сигналов удобно интерпретировать как вектора. Процесс обучения ИНС осуществляется путем последовательного предъявления входных векторов из обучающей выборки с одновременной подстройкой параметров сети в соответствии с некоторой процедурой, называемой алгоритмом обучения. Процедура обучения производится до тех пор, пока не будет достигнута желаемая выходная реакция ИНС для всей обучающей выборки.

В математическом смысле обучение ИНС представляет собой итерационную процедуру, направленную на такую подстройку параметров сети, чтобы некоторый функционал качества обращался в оптимум для всей обучающей выборки. В роли такого функционала обычно используется функция ошибки, характеризующая степень близости отображения входного вектора в желаемый выходной. Для формирования процесса обучения необходимо, прежде всего, иметь модель внешней среды, в которой функционирует ИНС, т.е. определить доступную для сети информацию. Эта модель определяет парадигму обучения. В рамках определенной парадигмы обучения далее конструируются правила подстройки параметров, т.е. конкретный алгоритм обучения. Существуют три парадигмы обучения: «с учителем», «без учителя» (самообучение) и смешанная.

Обучение с учителем (supervised learning) предполагает, что ИНС располагает правильными ответами (выходными векторами) на каждый входной образ (входной вектор). При обучении каждому входному вектору обучающей выборки учитель ставит в соответствие целевой вектор, т.е. правильную реакцию сети. Пара входного и целевого вектора называется обучающей парой. Параметры сети подстраиваются так, чтобы ответы были максимально близкими к правильным.

Процесс обучения начинается после задания начальных значений весов сети. В общем случае они могут быть произвольными, например, нулевыми. При наличии априорной информации об особенностях процесса обучения, начальные значения весов могут выбираться из каких-либо дополнительных соображений. При предъявлении очередного входного вектора обучающей выборки выходной вектор сравнивается с целевым вектором, и по разности этих векторов алгоритм обучения производит коррекцию весов (а возможно и порогов), с целью минимизировать эту разность (ошибку). Процедура повторяется для всего обучающего множества до тех пор, пока ошибка по всему обучающему множеству не достигнет приемлемо низкого уровня. Функция ошибки численно определяет сходство фактических и целевых выходных векторов сети для всей обучающей выборки. Наиболее распространенной функцией ошибки является среднеквадратичное отклонение:

,

где  фактический выходной сигнал нейрона i;

 желаемый (целевой, терминальный) выходной сигнал нейрона i;

 число нейронов выходного слоя;

 размер обучающей выборки.

Используются также и другие функции ошибки. Разновидностью обучения с учителем является критическая оценка учителем правильности выходного сигнала сети без знания самого выходного сигнала.

В настоящее время отсутствует универсальная методика построения обучающих выборок. Они формируются обычно по усмотрению пользователя для каждой конкретной решаемой задачи.

Обучение без учителя (самообучение) (unsupervised learning) по своей природе ближе к биологическому прототипу – мозгу. Самообучение не предполагает наличия правильных ответов ИНС, т.е. целевого вектора. Располагая только информацией из обучающей выборки, алгоритм самообучения «самостоятельно» выявляет внутреннюю структуру входных данных или корреляцию обучающих и выходных данных. Алгоритм самообучения подстраивает веса связей так, чтобы определенные входные сигналы вызывали согласованные с ними выходные сигналы. Другими словами, при предъявлении достаточно близких входных векторов сеть должна выдавать достаточно близкие выходные вектора. Таким образом, процесс самообучения выявляет статистические свойства обучающего множества и группирует сходные входные вектора в классы. Предъявление вектора из данного класса дает определенный выходной вектор, характерный для данного класса.

Характерной чертой процесса самообучения является то, что вид откликов сети на каждый класс входных образов заранее не известен и представляет собой произвольное сочетание возбуждений нейронов выходного слоя, обусловленное случайным распределением начальных значений весов на стадии инициализации и структурой обучающей выборки. Определение топологии классов в картине выходных реакций осуществляется путем тестирования уже обученной сети. Для приведения откликов обученной сети к удобному представлению, сеть обычно дополняют одним выходным слоем, который обучают классическим методом «с учителем». При этом выходные вектора, образованные на стадии самообучения трансформируются в понятную, обусловленную учителем форму.

Детерминированные и стохастические методы обучения. Используя другой принцип классификации, все существующие методы обучения можно разделить на два класса: детерминированные и стохастические.

Детерминированные методы обучения шаг за шагом осуществляют процедуру коррекции весов сети, основанную на использовании их текущих значений, величин входных сигналов, а также фактических и желаемых выходных сигналов. Преимущество детерминированных методов обучения заключается в высокой скорости обучения. Недостаток – возможность нахождения только локальных минимумов функции ошибки. При попадании процесса обучения в локальный минимум сеть стабилизируется в нем, не имея возможности самостоятельно из него выйти, чтобы достичь глобального минимума.

Стохастические методы обучения выполняют псевдослучайные изменения весов, сохраняя те изменения, которые ведут к улучшениям. Несмотря на то, что в общем случае стохастическое обучение также сводится к многоэкстремальной оптимизации, его преимущество состоит в возможности выхода из тупиков локальных экстремумов, путем случайного изменения искомых параметров сети (весов связей) в заданном диапазоне. Такую процедуру называют «выбиванием» сети из локального экстремума. Существенный недостаток стохастического обучения состоит в очень низкой скорости, что делает его непригодным для обучения сетей большой размерности.

БИЛЕТ № 26