Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

3865

.pdf
Скачиваний:
1
Добавлен:
15.11.2022
Размер:
44.99 Mб
Скачать

w(n+1)= w(n)-h (n)x(n), если wT(n)х(n) > 0 и х(n) ÎC2;

w(n+1)= w(n) +h (n)x(n), если wT(n)х(n) <= 0 и х(n) ÎC1, (3.8)

где интенсивность настройки вектора весов на шагеn определяется параметром скорости обучения h (n).

Если h (n)= h > 0, где h - константа, не зависящая от номера итерации n, вышеописанный алгоритм называется правилом адаптации с фиксированным приращением.

Докажем сходимость правила адаптации с фиксированным приращением для h = 1. Само значение h не играет особой роли, если оно положительно. Значение параметра h , отличное от единицы, обеспечивает масштабирование образов, не влияя на их разделимость. Случай с переменным коэффициентом

h(n) рассмотрим позднее.

Вприведенном доказательстве считается, что в начале процесса обучения

вектор весовых коэффициентов равен нулю, w(0)=0. Предположим, что для

n = 1, 2, . . . , wT(n)x(n) <0, а входной вектор х(n) принадлежит подмножеству X1. Это значит, что персептрон некорректно классифицировал векторы х(l), х(2), ..., Т.е. условие (3.6) не выполнено. Следовательно, для h (n)= 1 можно использо-

вать вторую стpoку правила (3.7):

 

w(n+1)= w(n) +x(n) для х(n) ÎC1.

(3.9)

Поскольку начальное состояние w(0) = 0, то уравнение (3.9) для w(n+1)

можно решить итеративно и получить следующий результат:

 

w(n +1) == х(l) + х(l) + … + х(n).

(3.10)

Так как по предположению классыС1 и С2 являются

линейно-

разделимыми, то cyществует такое решение wo, при котором будет выполняться условие w T х(n) > 0 для векторов x(l), х(2),... , х(n), принадлежащих подмножеству X1. Для фиксированногo решения w0 можно определить такое положительное число a , что

a = min w0T x(n) .

(3.11)

x (n )ÎX 1

 

Умножая обе части уравнения (3.10) на вeктop - строку w0T, получим: w0T w(n +1) = w0T х(l) + w0T х(l) + … + w0T х(n).

Учитывая (3.11) имеем:

w0T w(n +1) >=n a . (3.12)

Теперь можно использовать неравенство Гучи-Шварца. Для двух векторов, w0 и w(n + 1), eгo можно записать следующим образом:

 

 

 

w0

 

 

 

2

 

 

 

w(n +1)

 

 

 

2 ³ [w0T w(n +1)]2

,

(3.13)

 

 

 

 

 

 

 

 

где ||.|| - Евклидова норма векторного арrумента;

w0T w(n +1) - скалярное

произведение векторов. Заметим, что согласно (3.12)

[w0T w(n +1)]2 ³ n2a 2 . Учиты-

вая это в (3.13), получим

w

 

 

 

2

 

 

 

w(n +1)

 

 

 

2 ³ n2a 2

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

101

 

 

 

 

или

w(n + 1)

 

 

 

2

³

n 2a 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

.

(3.14)

 

 

 

 

 

 

 

 

w0

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Перепишем ypaвнение (3.9) в следующем виде:

w(k+1)= w(k) +x(k) для k=1,…,n и х(k) ÎX1. (3.15)

Вычисляя Евклидову норму векторов в обеих частях уравнения(3.15), получим

w(k +1)

 

 

 

2 =

 

 

 

w(k)

 

 

 

2 +

 

 

 

x(k)

 

 

 

2 + 2wT (k)x(k) .

(3.16)

 

 

 

 

 

 

 

 

 

 

Если персептрон некорректно классифицировал входной векторx(k), принадлежащий подмножеству X1, то wT(k)x(k) < 0. Следовательно, из (3.16) получим выражение

w(k +1) 2 £ w(k) 2 + x(k) 2

или

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

w(k +1)

 

 

 

2 -

 

 

 

w(k)

 

 

 

2 £

 

 

 

x(k)

 

 

 

2

для k=1,…,n.

(3.17)

 

 

 

 

 

 

 

 

 

 

 

 

Применяя эти неравенства последовательно дляk=1,…,n и учитывая из-

начальное допущение, что w(0)=0, приходим к неравенству

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

2

 

 

 

 

 

 

 

 

 

 

 

w(n +1)

 

 

 

2

£ å

 

 

 

 

 

 

 

x(k)

 

 

 

£ nb ,

(3.18)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k =1

 

 

 

 

 

 

 

 

 

 

 

где b - положительное число, определяемое следующим образом:

 

 

 

 

b = max

 

 

 

x(k )

 

 

 

2 .

 

 

 

 

 

 

 

 

 

 

(3.19)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x ( k )ÎX 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Уравнение (3.18) показывает, что Евклидова норма вектора весов w(n + 1) линейно возрастает с увеличением номера итерации n.

Результат, описываемый неравенством (3.18), при больших n вступает в противоречие с полученным ранее результатом(3.14) [121]. Следовательно, номер итерации n не может превышать значения nmax, при котором неравенства (3.14) и (3.18) удовлетворяются со знаком равенства. Это значит, что число nmax должно быть решением уравнения:

n

max

2a 2

= nmax b .

 

 

 

 

 

 

 

w

 

 

 

 

2

 

 

 

 

0

 

 

 

 

 

Разрешая это уравнение для nmax относительно wo, получим

 

 

b

 

 

 

w

 

 

 

2

 

 

 

 

 

 

 

 

 

 

nmax

=

 

 

 

 

0

 

 

 

 

.

(3.20)

 

 

 

 

 

 

 

 

 

a 2

 

 

 

 

 

 

 

 

 

 

 

 

Таким образом, доказано, что для h(n) = 1и w(0)=0, в предположении существования вектора решения w0, процесс адаптации синаптических весов персептрона должен прекращаться не позднее итерации nmax. Согласно (3.11), (3.12) и (3.13) решение для w0 и nmax не единственно.

102

Теорема сходимости для алгоритма обучения пeрсептрона с фиксированным приращением веса формулируется следующим образом.

Пусть подмножества векторов обученияХ1 и Х2 линейно разделимы. Пусть входные сигналы поступают персептрону только их этих подмножеств. Тогда алго-

ритм обучения персептрона сходится после некоторого числаn итераций в том

0

смысле, что w(n0)= w(n0+1) = w(n0+2) = … является вектором решения для n0<= nmax. Теперь рассмотрим абсолютную процедуру адаптации однослойного персеп-

трона на основе коррекции ошибок, в которой h(n) - переменная величина. В частности, пусть h(n) - наименьшее целое число, для которого выполняется соотношение

h(n)xT (n)x(n) > wT (n)x(n) .

Согласно этой процедуре, если скалярное произведение wT(n)x(n) на шаге n имеет неверный знак, то wT(n + 1)х(n) на итерации n+1 будет иметь правильный знак. Таким образом, предполагается, что если знак произведения wT(n)x(n)

некорректен, то можно изменить последовательность обучения для итерации n+1, приняв х(n+1)=х(n). Другими словами, каждый из образов представляется персептрону до тех пор, пока он не будет классифицирован корректно.

Использование отличного от нулевого исходного состоянияw(0) приводит к увеличению или уменьшению количества итераций, необходимых для сходимости, в зависимости от тогo, насколько близким окажется исходное состояние w(0) к решению w0. Однако, независимо от исходного значенияw(0), сходимость все равно будет обеспечена.

В табл. 3.1 представлен общий алгоритм обучения персептрона.

Таблица 3.1 Общий алгоритм реализации обучения персептрона

Исходные данные

 

Последовательность

 

Содержание

 

 

 

 

 

 

шагов

 

шагов

 

 

 

x(n)

= +

T

-

1.Инициализация

Пусть

w(0)=0.

После-

 

[ 1, x1(n),...,xm

(n)]

 

дующие вычисления

вы-

 

вeктop-стpокa размерно-

 

 

 

сти m+l;

 

 

 

полняются для шагов n =

 

w(n) = [b(n), w1(n),...,wm (n)]T -

 

1, 2,…

 

 

 

 

 

2. Активация

На шаге n

активируем

 

 

вeктop-стpокa

 

 

 

 

 

персептрон,

используя

 

размерности m+l;

 

 

 

 

 

вектор х(n) с

веществен-

 

 

b(n)-порог;

 

 

 

 

 

 

 

 

ными

компонентами

и

y(n)- фактический отклик

 

 

желаемый отклик d(n).

 

(дискретизированный);

 

 

3. Вычисление фактиче-

y(n) = sgn(wT (n)x(n)) ,

где

 

d(n)-желаемый отклик;

 

ского ответа

sgn(.)

функция

вычисле-

 

0 < h £ 1-параметр

 

 

скорости обучения

 

 

ния знака aргyментa

 

 

 

4. Адаптация вектора ве-

Изменение вектора весов

 

 

 

 

 

 

 

 

 

 

сов

персептрона

 

 

 

 

 

 

 

 

5. Возврат к п.2

 

 

 

 

 

 

 

 

 

 

103

 

 

 

 

 

 

Таким образом, алгоритм адаптации вектора весовых коэффициентов w(n) соответствует правилу обучения на основе коррекции ошибок:

w(n +1) = w(n) +h[d(n)- y(n)]x(n) , (3.21)

где h - параметр скорости обучения, а разность d(n)-у(n) выступает в роли сигнала ошибки. Параметр скорости обучения является положительной константой, принадлежащей интервалу 0 < h £ 1. Выбирая значение параметра скорости обучения из этогo диапазона, следует учитывать два взаимоисключающих требования.

1.Усреднение предыдущих входных сигналов, обеспечивающее устойчивость оценки вектора весов, требует малых значений h .

2.Быстрая адаптация к реальным изменениям распределения процесса, отвечающего за формирование векторов входного сигнала ,хтребует больших значений h .

Для решения сложных задач в ПК НПВР используются многослойные персептроны. Они имеют три отличительных признака.

1. Каждый нейрон сети имеет нелинейную функцию активации, которая является гладкой (т.е. всюду дифференцируемой), в отличие от жесткой пороговой функции, используемой в персептроне Розенблатта. Такому требованию, например, удовлетворяет сигмоидальная логистическая функция

y j =

1

,

(3.22)

1 + exp(-vj )

 

 

 

где vj-индуцированное локальное поле (т.е. взвешенная сумма всех синаптических входов плюс пороговое значение) нейрона j; yj — выход нейрона.

Наличие нелинейности играет очень важную роль, так как в противном случае отображение "вход-выход" сети можно свести к обычному однослойному персептрону. Более того, использование логистической функции мотивировано биологически, так как в ней учитывается восстановительная фаза реального нейрона.

2.Сеть содержит один или несколько слоев скрытых нейронов, являющихся частью входа или выхода сети. Эти нейроны позволяют сети обучаться решению сложных задач, последовательно извлекая наиболее важные признаки из входного образа (вектора).

3.Сеть обладает высокой степенью связности, реализуемой посредством синаптических соединений. Изменение уровня связности сети требует изменения множества синаптических соединений или их весовых коэффициентов.

Комбинация вышеизложенных свойств характеризует вычислительную мощность многослойного персептрона. Эти же свойства являются причиной непрозрачности функционирования персептронов(неполноты современных знаний об их поведении) [84]. Во-первых, распределенная форма нелинейности

ивысокая связность сети существенно усложняют теоретический анализ многослойного персептрона. Во-вторых, наличие скрытых нейронов затрудняет

104

процесс визуализации обучения. В процессе обучения определяется набор признаков входного сигнала, которые следует представлять скрытыми нейронами. Это приводит к усложнению процесса обучения по причине необходимости выполнения поиска в широкой области возможных функций, поскольку выбор должен производиться среди альтернативных представлений входных образов

[235].

На рис. 3.6 показан структурный граф многослойного персептрона с двумя скрытыми слоями и одним выходным слоем. Показанная на рисунке сеть является полносвязной. Это значит, что каждый нейрон в любом слое сети связан со всеми нейронами (узлами) предыдущего слоя. Сигнал передается по сети в прямом направлении, слева направо, от слоя к слою.

 

 

 

Выходной

Входной

.

.

сигнал

сигнал

.

 

.

.

.

 

.

.

.

Рис. 3.6. Структурный граф многослойного персептрона

Функциональный сигнал - это входной сигнал, поступающий в сеть и передаваемый вперед от нейрона к нейрону по всей сети. Такой сигнал достигает конца сети в виде выходного сигнала. Данный сигнал является функциональным по двум причинам. Во-первых, он предназначен для выполнения некоторой функции на выходе сети. Во-вторых, в каждом нейроне, через который передается этот сигнал, вычисляется некоторая функция с учетом весовых коэффициентов.

Выходные нейроны составляют выходной слой сети. Остальные нейроны относятся к скрытым слоям. Первый скрытый слой получает данные из входного слоя, составленного из сенсорных элементов(входных узлов). Результирующий сигнал первого скрытого слоя, в свою очередь, поступает на следующий скрытый слой, и т.д., до самого конца сети.

Любой скрытый или выходной нейрон многослойного персептрона может выполнять два типа вычислений.

1.Вычисление функционального сигнала на выходе нейрона, реализуемое

ввиде непрерывной нелинейной функции от входного сигнала и синаптических весов, связанных с данным нейроном.

2.Вычисление оценки вектора градиента(т.е. градиента поверхности ошибки по синаптическим весам, связанным со входами данного нейрона), необходимого для обратного прохода через сеть.

105

Один из важных теоретических вопросов применительно к многослойным персептронам заключается в определении минимального числа скрытых слоев, обеспечивающих аппроксимацию некоторого непрерывного отображения. Ответ содержится в формулировке и доказательстве теоремы об универсальной аппроксимации для нелинейного отображения. Данная теорема представляет собой расширение теоремы Вейерштрасса[235]. Эта теорема утверждает, что любая непрерывная функция на замкнутом интервале действительной оси может быть представлена абсолютно и равномерно сходящимся рядом полиномов. Впервые интерес к данной теме возник в работе Розенблата[236]. Для доказательства теоремы об универсальной аппроксимации использовалась усовершенствованная теорема Колмогорова о суперпозиции[235]. В дальнейшем было показано, что многослойный персептрон с одним скрытым слоем, косинусоидальной пороговой функцией и линейным выходным слоем представляет собой частый случай"сети Фурье", обеспечивающей на выходе аппроксимацию заданной функции рядом Фурье[234]. Данная теорема формулировалась следующим образом.

Пусть j(·) - ограниченная, не постоянная монотонно возрастающая непрерывная функция. Пусть Imo - mо-мерный единичный гиперкуб [0, 1]m0 . Пусть пространство непрерывных на Imo функций обозначается символом С(Imo). Тогда для любой функцииfC(Imo) и e > 0 существует такое целое числоm1 и

множество действительных констант ai , bi и wij, где i = 1, . . . , m1, j = 1, . . . , mо, что

m1

m0

 

F (x1 ,..., xm0 ) = åaij(åwij x j + bi ) ,

(3.23)

i=1

j =1

 

является реализацией аппроксимации функции j(·) , т.е.

F(x1

,..., xm ) - f (x1 ,..., xm

)

< e ,

(3.24)

 

0

0

 

 

для всех x1,...,xm0 , принадлежащих входному пространству.

Теорема об универсальной аппроксимации непосредственно применима к многослойному персептрону, так как в модели многослойного персептрона в качестве функции активации используется ограниченная, монотонно возрастающая логистическая функция 1/[1+ехр(-v)], удовлетворяющая условиям, накладываемым теоремой на функцию j(·) . ИНС (сеть Фурье) в символьном выражении данной теоремы описывается следующим образом.

1.Сеть содержит m0 входных узлов и один скрытый слой, состоящий из m1 нейронов. Входы обозначены x1, х2, . . . , хто.

2.Скрытый нейрон i имеет синаптические веса wi1 , . . . , wmo и порог bi.

3.Выход сети представляет собой линейную комбинацию выходных сигналов скрытых нейронов, взвешенных синаптическими весами выходного нейрона - a1 ,..., am1 .

106

Выражения (3.23) и (3.24) устанавливают тот факт, что многослойного персептрона с одним скрытым слоем достаточно для построения равномерной аппроксимации с точностью e для любого обучающего множества, представленного набором входов х12,..., хто и желаемых откликов f(x1,x2,..., хто). Однако из теоремы не следует, что одного скрытого слоя ИНС достаточно для достижения ее качественного обобщения и минимального времени обучения.

В [234] приведены результаты исследований аппроксимирующих свойств персептрона с одним скрытым слоем, с сигмоидальной функцией активации и одним выходным нейроном. Эта сеть обучалась с помощью алгоритма обратного распространения ошибок, после чего тестировалась на новых данных. Во

время обучения сети предъявлялись выбранные точки аппроксимируемой функции f, в результате чего была получена аппроксимирующая функцияF, определяемая выражением (3.23). Если сети предъявлялись не использованные ранее данные, то функция F "оценивала" новые точки целевой функции, т.е.

F=f.

Гладкость целевой функции f может быть выражена в терминах преобразования Фурье. В частности, в качестве значения предельной амплитуды функ-

ции f использовалось среднее значение нормы вектора частоты, взвешенного

значениями амплитуды распределения Фурье. Пусть

ˆ

(w) - многомерное преоб-

f

разование Фурье функции f(х), x ÎÂm0 , где w — вектор частоты. Функция f(x),

 

 

 

 

ˆ

(w) , определяется следую-

представленная в терминах преобразования Фурье f

щей инверсной формулой:

~

 

 

 

 

 

f ( x) = ò

 

T

x)dw ,

(3.25)

f (w) exp( jw

 

 m 0

 

 

 

 

 

 

где j = -1 . Для комплекснозначной

 

 

 

ˆ

с интегрируемой

функции f (w)

ˆ

 

 

 

 

 

 

 

функцией w f (w) первый абсолютный момент распределения Фурье функцииf

можно определить следующим образом:

 

 

 

 

 

C f

= ò|

~

||

0,5

dw ,

(3.26)

 

f (w) | ´ || w

 

 

 

Âm0

 

 

 

 

 

где ||w||

— Евклидова

норма

вектора w; |f(w)| — абсолютное

значение

функции f(w).

Первый абсолютный момент Cf

является мерой гладкости функ-

ции f. Первый абсолютный момент Cf является основой для вычисления пределов ошибки, которая возникает вследствие использования многослойного персептрона, представленного функцией отображения "вход-выход" F(х), аппроксимирующей функцию f(х). Ошибка аппроксимации измеряется интегральной

квадратичной ошибкой по произвольной мере

вероятностиm для шара

Br = {x :

 

 

 

x

 

 

 

£ r} радиусом r > 0. На

этом основании

можно сформулировать

 

 

 

 

следующее утверждение для предела

ошибки аппроксимации [237].

107

Для любой непрерывной функции f(x) с конечным первым моментом Cf и любого m1> 1 существует некоторая линейная комбинация сигмоидальных функций F(x) вида (3.23), такая, что:

ò( f (x) - F (x))2 m(dx) £

C '

 

 

f

,

(3.27)

m1

Br

 

 

где C'f = (2rCf )2.

Если функция f(х) наблюдается на множестве вектора х, принадлежащего шару Вr, этот результат раничение для эмпирического риска:

R = 1

N

å( f (xi ) - F (xi ))2

N i =1

значений {xi }iN=1 входного определяет следующее ог-

£

C 'f

 

 

.

(3.28)

 

 

m1

 

В [234] результат (3.28) использовался для описания гpаниц риска R, возникающего при использовании многослойноrо персептрона сmо входными узлами и m1 скрытыми нейронами

æ C 2f

ö

 

m m

 

 

ç

 

÷

 

0

1

 

 

R £ Oç

m

÷

+O(

N

 

log N ) .

(3.29)

è 1

ø

 

 

 

 

 

Два слагаемых в этом определении границ риска R отражают компромисс между двумя противоречивыми требованиями к размеру скрытого слоя(величина m1 входит в знаменатель первого слагаемого и в числитель второго).

Кроме того, ограничение (3.29) показывает, что для точной оценки целевой функции не требуется экспоненциально большого обучающего множества и большой размерности входного пространстваm0, если первый абсолютный момент Cf остается конечным. Последнее подтверждает практическую ценность многослойного персептрона, используемого в качестве универсального аппроксиматора. При этом разность между эмпирическим и оптимальным значениями аппроксимации можно рассматривать как ошибку оценивания. Пусть e0 - среднеквадратическое значение ошибки оценивания. Тогда, игнорируя логарифмический множитель во втором слагаемом неравенства(3.29), можно сделать вывод, что размер N обучающего множества, необходимый для хорошего обобщения, должен иметь порядок m0m1/ e0 . Это значит, что для качественной аппроксимации размер обучающего множества должен превышать отношение общего

количества свободных параметров сети к среднеквадратическому значению ошибки оценивания.

Из ограничения (3.29) вытекает еще один результат. Если размер скрытого слоя выбирается по формуле (3.30) (т.е. риск R минимизируется по N):

m1 = C f (

N

)1 2 ,

(3.30)

m log N

 

 

 

 

0

 

 

108

 

 

 

то риск R ограничивается величиной O(C f m0 (log N N )) . То есть скорость схо-

димости, представленная как функция от размера обучающего множестваN, имеет порядок (1/N)1/2, умноженный на логарифмический член. Однако обычная гладкая функция (например, тригонометрическая или полиномиальная) демонстрирует другое поведение. Пусть s — мера гладкости, определяемая как степень дифференцируемости функции (количество существующих производ-

ных). Тогда для обычной гладкой функции минимаксная скорость сходимости общего риска R имеет порядок (l/N)2s/(2s+m°). Зависимость этой скорости от раз-

мерности входного пространства т0 называют "проклятием размерности". Это свойство ограничивает практическое использование таких функций. Следовательно, использование многослойного персептрона для решения задач аппроксимации обеспечивает определенные преимущества перед обычными гладкими функциями. Данное преимущество появляется при условии, что первый абсолютный момент Cf остается конечным. В этом состоит ограничение гладкости.

Термин "проклятие размерности" был введен Ричардом Белманом в1961 году в работе, посвященной процессам адаптивного управления [212]. Рассмотрим пример, в котором х - m0-мерный входной вектор, а множество {(хi,di)},i = 1, 2,..., N, задает обучающую выборку. Плотность дискретизации пропорциональна значению N1/m0. Пусть f(х) — поверхность в m0-мерном входном про-

странстве, проходящая около точек данных {xi , di }iN=1 . Если функция f(х) достаточно сложна и (по большей части) абсолютно неизвестна, необходимо уплотнить точки данных для более полного изучения поверхности. В многомерном пространстве из-за "проклятия размерности" очень сложно найти обучающую выборку с высокой плотностью дискретизации. В частности, в результате увеличения размерности наблюдается экспоненциальныйрост сложности, что, в свою очередь, приводит к ухудшению пространственных свойств случайных точек с равномерным распределением.

Функция, определенная в пространстве большой размерности, является значительно более сложной, чем функция, определенная в пространстве меньшей размерности, и эту сложность трудно выявить. Единственной возможностью избежать "проклятия размерности" является получение корректных априорных знаний о функции, определяемой данными обучения. Следовательно, для практического получения хорошей оценки в пространствах высокой -раз мерности необходимо обеспечить возрастание гладкости неизвестной функции наряду с увеличением размерности входных данных [237].

Теорема об универсальной аппроксимации имеет важное теоретическое значение. Она доказывает возможность применения сетей прямого распространения с одним скрытым слоем для решения задач аппроксимации. Воспользоваться на практике результатами данной теоремы затруднительно, потому что у многослойного персептрона с одним скрытым слоем нейроны могут взаимодействовать друг с другом на глобальном уровне. Последнее усложняет задачу

109

повышения качества аппроксимации в одной точке без явного ухудшения в другой. Возникает необходимость использования нескольких скрытых слоев. Однако данная теорема не обосновывает их использование.

Технология применения двух скрытых слоев состоит в следующем. Локальные признаки извлекаются в первом скрытом слое, т.е. некоторые

скрытые нейроны первого слоя можно использовать для разделения входного пространства на отдельные области, а остальные нейроны слоя обучать локальным признакам, характеризующим эти области. Глобальные признаки извлекаются во втором скрытом слое. В частности, нейрон второго скрытого слоя "обобщает" выходные сигналы нейронов первого скрытого слоя, относящихся к конкретной области входного пространства. Таким образом, он обучается глобальным признакам этой области, а в остальных областях его выходной сигнал равен нулю. Данная технология аналогична сплайновому подходу к аппроксимации кривых, поскольку нейроны работают в изолированных областях. Сплайн является примером такой кусочной полиномиальной аппроксимации.

В [237] предложено обоснование использования двух скрытых слоев в контексте обратных задач. Постановка данной задачи формулировалась следующим образом.

Для данной непрерывной вектор-функции f : Âm ® ÂM , компактного под-

множества C Í ÂM , которое содержится в пространстве образов функцииf, и неко-

торого положительного e > 0 требуется найти вектор-функциюj : ÂM ® Âm , удовлетворяющую условию

j( f )(u) - u < e для любого u ÎC .

Эта задача относится к области обратной динамики, где наблюдаемое состояние х(n) системы является функцией текущих действий u(n) и предыдущего состояния х(n — 1) системы

x(n) = f(x(n-l),u(n)).

Здесь предполагается, что функция f является обратимой, т.е. u(n) можно представить как функцию отх(n) для любого х(n - 1). Функция f описывает прямую динамику, а функция j - обратную. В контексте излагаемого материала необходимо построить такую функцию j , которая может быть реализована многослойным персептроном. В общем случае для решения обратной задачи динамики функция j должна быть разрывной. Для решения подобных обратных задач одного скрытого слоя недостаточно, даже при использовании нейронной модели с разрывными активационными функциями, а персептрона с двумя скрытыми слоями вполне достаточно для любых возможныхС, f и e

[237].

Блок-схема алгоритма формирования многослойного персептрона представлена на рис. 3.7.

110

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]