Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Методическое пособие 314

.pdf
Скачиваний:
5
Добавлен:
30.04.2022
Размер:
834.48 Кб
Скачать

 

 

 

 

 

 

 

Продолжение таблицы

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

2

 

 

 

 

3

4

 

 

 

 

 

 

 

 

 

 

y

 

Знаковая

1, s 0,

(–1, 1)

1

 

 

 

 

 

 

 

 

 

 

 

 

(сигнатурная)

f (s)

1, s 0

0

 

 

s

 

 

 

– 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y

 

Линейная

f (s) s

(– , )

0

s

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y

 

Полулиней-

0, s 0,

(0, )

 

 

 

 

 

 

f (s)

 

 

 

 

 

 

 

 

 

 

ная

s, s 0

 

0

s

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Полулиней-

 

s 0,

 

 

y

 

 

0,

 

1

 

 

 

 

ная

 

0 s 1,

(0, 1)

 

 

 

 

 

 

 

 

 

 

с насыще-

f(s) s,

 

 

 

 

 

 

 

s 1

 

0

 

 

s

нием

1,

 

 

 

Сигмои-

 

 

 

 

 

 

 

 

y

 

 

 

 

1

 

 

 

1

 

 

 

 

дальная

f (s)

 

 

 

(0, 1)

0,5

 

 

 

 

 

 

 

 

 

 

 

(логистиче-

 

 

 

 

 

 

 

 

 

 

 

1 e s

 

0

 

 

s

ская)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Сигмои-

 

 

 

 

 

 

 

 

y

 

 

 

 

 

 

 

 

1

 

 

 

дальная

 

es

e s

 

 

 

 

 

 

 

 

 

 

 

 

(гиперболи-

f (s)

 

 

 

 

 

(– 1, 1)

0

s

es

e s

ческий

 

 

тангенс)

 

 

 

 

 

 

 

 

 

 

 

–1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

31

Если блок f сужает диапазон изменения величины у так, что при любых значениях s значения у принадлежат конечному интервалу, то f называется сужающей функцией. Пороговая, знаковая, полулинейная с насыщением, сигмоидальная (логистическая) и сигмоидальная (гиперболический тангенс) функции являются сужающими.

Одной из распространенных является нелинейная функция с насыщением – логистическая функция, или сигмоид (то есть функция S-образного вида):

f (s)

1

.

(2.2)

 

1 e s

 

 

Из выражения для сигмоида очевидно, что выходное значение нейрона лежит в диапазоне [0, 1]. Одно из ценных свойств сигмоидальной функции – простое выражение для ее производной:

f

 

 

f (s)[1 f (s)],

(2.3)

(s)

которое используется в некоторых алгоритмах обучения. Кроме того, данная функция обладает свойством «усиливать» слабые сигналы лучше, чем большие, и предотвращает насыщение от больших сигналов, так как они соответствуют областям аргументов, где сигмоид имеет пологий наклон.

2.1.3. Классификация нейронных сетей

На основе единичных нейронов строятся нейронные сети, которые по своей архитектуре разделяются на полносвязные, слоистые (многослойные) и слабосвязные (рис. 2.2).

Вполносвязных сетях все нейроны связаны между со-

бой (рис. 2.2, а).

Вмногослойных сетях нейроны располагаются отдельными слоями, и передача сигналов выполняется последовательно от слоя к слою (рис. 2.2, б). Все слои нумеруются, обычно начиная с 0. Нулевой слой называется входным, последний – выходным, остальные – скрытыми или решающими слоями.

32

Поскольку сигналы в такой сети распространяются строго в одном направлении, то они называются сетями прямого распространения [6].

В слабосвязных сетях устанавливаются отдельные связи между нейронами (рис. 2.2, в).

 

 

0

1

2

 

 

x1

y1

x1

 

y1

x1

y1

x2

y2

x2

 

y2

x2

y2

 

 

 

а)

 

 

б)

 

 

в)

Рис. 2.2. Основные структуры нейронных сетей: а) полносвязные сети; б) многослойные сети; в) слабосвязные сети

Нейронные сети классифицируются также по другим признакам. Если в сетях используются нейроны с одинаковыми функциями активации, то называются гомогенными (однородными по составу). В противном случае сети называются гетерогенными (разнородными по составу).

Сети, которые обрабатывают аналоговые сигналы, называются аналоговыми, сети для обработки цифровой информации – бинарными.

Нейроны в сети возбуждаются в определенные временные такты. Если каждый нейрон имеет собственное время возбуждения, то сеть называется асинхронной. Если нейроны в сети тактируются по группам, то сеть называется синхронной. В частности, в многослойных сетях тактирование выполняется по слоям.

33

2.1.4.Области применения нейронных сетей

1.Распознавание образов. При этой операции нейронная сеть должна из набора входных данных сделать вывод о принадлежности этого набора конкретному объекту. Соответственно такая сеть должна иметь число входов, равное разрядности представления входной информации и число выходов, равное количеству объектов.

2.Кластеризация. Эта операция заключается в разбиении области признаков на отдельные подмножества – классы со схожими признаками (кластеры). Сети для этой цели не обучаются по образцам. Для них применяются алгоритмы самообучения (обучение без учителя). При работе такой сети набор входных данных, находящихся в определенном диапазоне, вызывает одинаковые состояния выходов сети. Набор данных из другого диапазона приводит сеть в другое, отличное от первого состояние и т. д.

3.Использование сетей в задачах управления. Цель такого использования – на основании входной информации сформулировать управляющие воздействия для объекта. Такие сети могут обучаться на основании образцов, а могут быть необучаемыми, реализующими выбор решения в силу своей архитектуры.

В большинстве своем нейронные сети обучаются с использованием образцов. При обучении для каждого образца выбирается выходное состояние сети, и далее в процессе обучения параметры сети подстраиваются таким образом, чтобы на ее выходах при заданном образце получилось выбранное значение с некоторой погрешностью.

Настройка сети под образец выполняется изменением синоптических весов. Для следующего образца процесс обучения аналогичен. После каждого переобучения сеть проверяется на правильность работы по ранее проведенным циклам обучения.

34

2.2.Персептроны

2.2.1.Однослойный персептрон

 

w1

 

 

 

 

 

 

 

 

С целью распознава-

x1

 

 

 

 

 

 

 

 

ния изображений, подверга-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

емых сдвигам и поворотам,

.

 

 

 

 

Порог

.

 

 

 

 

используют нейрон с рядом

.

wi

 

 

s

 

 

 

 

 

y входов и

пороговой

функ-

 

 

 

 

 

 

 

xi

 

 

 

 

 

 

 

 

цией активации, показанный

.

 

 

 

 

 

 

 

 

 

на рис. 2.3. Каждый входной

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

.

wn

 

 

 

 

 

 

 

 

сигнал хi

умножается на вес

xn

 

 

 

 

 

 

 

 

wi, и затем элемент сум-

 

 

 

 

 

 

 

 

 

 

мирует взвешенные

входы.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Если эта сумма больше по-

 

 

Рис. 2.3. Схема

рогового

значения,

выход

 

 

персептрона

равен единице, в противном

 

 

 

 

 

 

 

 

 

 

случае – нулю.

 

 

Эти системы (и множество им подобных) называются

персептронами. Они состоят из слоя искусственных нейронов, соединенных с помощью синапсов со множеством входов. Персептрон – математическая модель процесса восприятия.

x1

 

w11

 

 

Рассмотрим

трех-

 

 

 

нейронный

персептрон

 

 

w12

 

y1

x2

 

1

(рис. 2.4), нейроны которо-

 

 

 

 

го имеют

активационную

 

 

 

 

 

x3

 

 

2

y2

функцию в виде единично-

.

.

 

 

 

го скачка.

 

 

.

 

 

 

На п

входов

посту-

.wn1

wn2

3

y3

.

пают сигналы, проходящие

 

.

wn3

 

 

xn

 

 

 

по синапсам на три нейро-

 

 

 

 

 

 

 

 

 

на, образующие один слой

 

Рис. 2.4. Персептрон

 

этой сети и выдающие три

 

с несколькими выходами [9]

выходных сигнала:

 

 

n

 

j 1...3.

(2.4)

yj f

xiwij

,

i 1

 

 

 

35

Все весовые коэффициенты синапсов одного слоя нейронов можно свести в матрицу W, в которой каждый элемент wij задает величину i-й синоптической связи j-го нейрона. Таким образом, процесс, происходящий в нейронной сети, может быть записан в матричной форме:

Y= f (XW),

(2.5)

где X и Y – соответственно, входной и выходной сигнальные векторы (здесь и далее под вектором понимается вектор-строка); f(S) – активационная функция, применяемая поэлементно

к компонентам вектора S.

2.2.2. Двухслойный, многослойный персептрон

На рис. 2.5 представлен двухслойный персептрон, полученный из персептрона, изображенного на рис. 2.4, путем добавления второго слоя, состоящего из двух нейронов.

x1

x2

x3

 

 

.

.

 

.

..

wn(11)

.

 

 

xn

 

 

Персептронные нейроны

 

 

w(1)

Слой 1

Слой 2

 

 

11

 

 

 

w12(1)

1

w(2)

 

 

 

 

11

 

 

 

w(2)

1

y1

 

 

12

 

 

 

2

 

 

 

 

w(2)

2

y2

 

 

31

w

(1)

3

w(2)

 

 

 

32

 

n2

 

 

 

wn(1)3

Рис. 2.5. Двухслойный персептрон [9]

Необходимо отметить важную роль нелинейности активационной функции. Если бы она не обладала данным свойством, результат функционирования любой Q-слойной нейронной сети с весовыми матрицами W(q) для каждого слоя

36

q =1...Q сводился бы к перемножению входного вектора сигналов X на матрицу:

W( ) = W(1)W(q)W(Q).

(2.6)

Фактически такая Q-слойная нейронная сеть эквивалентна сети с одним скрытым слоем и с весовой матрицей единственного слоя W( ):

Y = X W( ).

(2.7)

2.2.3. Разбиение гиперпространства гиперплоскостями

Работа персептрона сводится к классификации (обобщению) входных сигналов, принадлежащих n-мерному гиперпространству, по некоторому числу классов. С математической точки зрения это происходит путем разбиения гиперпространства гиперплоскостями.

Одновходовый персептрон позволяет разделить одномерное пространство признаков на две области. Граница раздела области признаков задается величиной порога актива-

ционной функции, смещением b и весом входа w:

 

= wx + b x = ( – b) / w.

(2.8)

Для того, чтобы в одномерном пространстве выделить внутреннюю область (рис. 2.6, а), нужно использовать два персептрона П1 и П2 (рис. 2.6, б), каждый из которых задает свою границу разделения пространства.

f = 0

 

f = 1

 

 

 

 

П1

 

 

 

0

 

x

 

 

y

 

 

 

 

 

 

x

 

 

П3

 

 

 

 

 

 

у 0

1 0

П2

 

 

 

 

 

 

 

 

 

 

 

а)

б)

Рис. 2.6. Пример построения границ разделов в одномерном пространстве признаков

37

Для случая однослойного персептрона

n

 

 

 

xiwij

j,

j 1, 2, ..., m.

(2.9)

i 1

 

 

 

Каждая полученная область является областью определения отдельного класса. Число таких классов для персептрона не превышает 2n, где п – число его входов.

Однослойный персептрон, состоящий из одного нейрона с двумя входами, способен разделить плоскость (двумерное гиперпространство) на две полуплоскости.

Уравнение границы раздела для этого случая

x1w1 x2w2 .

(2.10)

С увеличением размерности пространства (увеличением количества входов) персептронная сеть конструируется по принципу: все входы соединяются со всеми входами персептронов решающего (скрытого) слоя.

x1

 

 

y1

В пространстве

x1, x2

 

 

 

П1

персептрон П1 (рис. 2.7) уста-

 

 

 

 

 

 

 

навливает границу раздела, по

 

 

 

 

x2

 

 

y2

одну сторону которой выделя-

 

П2

 

 

 

ются признаки, соответствую-

 

 

 

 

щие y = 1, а по другую –

y = 0.

 

 

 

 

Рис. 2.7. Персептронная

Персептрон П2 устанав-

 

сеть с двумя входами

ливает вторую границу раздела

 

 

 

 

и таким образом, пространство

признаков разделяется на две области с границей раздела более сложной конфигурации. Если в решающий слой добавить третий персептрон, то организуется третья граница раздела, которая в сочетании с первыми двумя может организовать замкнутую область (рис. 2.8).

Если взять n-мерное пространство, то персептронная сеть, имеющая n входов, разделяет это пространство гиперповерхностями соответствующей размерности. В частности, для трехмерного пространства границы выделяемых областей – гипершары.

38

x2

y = 1

x1

y = 0

Рис. 2.8. Границы раздела в двумерном пространстве признаков с использованием сети с тремя персептронами

2.2.4. Обучение персептронных сетей

Для обучения персептронных сетей используется метод наблюдаемого обучения (метод обучения с учителем).

При обучении создается набор эталонных образцов (наборы входной информации). Для каждого входного набора выбирается выходное состояние нейронов решающего слоя. При обучении выполняется коррекция весов связей в сети до тех пор, пока выходное состояние сети не будет совпадать с выбранным с некоторой погрешностью. Обучение выполняется по следующему алгоритму:

1.Выбирается образец X = {xi}, характеризующийся набором значений входов xi;

2.Весам связей присваиваются некоторые случайные значения (инициализация сети);

3.Вычисляется выходное состояние сети Y = {yj};

4.Определяется разность между выходным состояни-

ем сети и образцом = Y- D, где D – образ состояния, соответствующий образцу;

5.Выполняется коррекция весов отдельных входов по выражению: ∆wij = j ∙xi, где коэффициент скорости обучения (0 < < 1);

6.Вычисляются новые значения весов (t – номер ите-

рации):

39

wij (t 1) wij (t) j xi,

(2.11)

7. Определяется новое состояние Y;

Определяется погрешность состояния . Если она не превышает некоторой установленной границы, то обучение заканчивается, если же превышает, то повторяется цикл коррекции весов.

2.3.Разновидности и применение нейронных сетей

2.3.1.Сеть Хопфилда

 

Обратная связь

 

 

Структурная схема се-

 

 

ти Хопфилда приведена на

 

 

 

x1

1

y1

рис. 2.9. Она состоит из един-

 

 

ственного слоя

нейронов,

 

 

 

число

которых n

является

x2

 

y2

одновременно числом входов

2

и выходов сети. Каждый

.

.

.

нейрон связан синапсами со

.

.

.

всеми

остальными

нейрона-

.

.

.

ми, а также имеет один

 

xn

n

yn

входной синапс, через кото-

 

 

рый

осуществляется ввод

 

Рис. 2.9. Структурная

 

сигнала [6].

 

 

 

 

Задача, решаемая дан-

 

схема сети Хопфилда

 

ной сетью в качестве ассоци-

 

 

 

ативной памяти, как правило,

формулируется следующим образом. Известен некоторый набор двоичных сигналов (изображений, звуковых оцифровок, прочих данных, описывающих некие объекты или характеристики процессов), которые считаются образцовыми. Сеть должна уметь из произвольного неидеального сигнала, поданного на его вход, выделить («вспомнить» по частичной информации) соответствующий образец (если такой есть) или «дать заключение» о том, что входные данные не соответствуют ни одному из образцов. В общем случае любой сигнал

40