- •Введение
- •Формальный нейрон. Типология нейронов. Задача, решаемая нейроном, геометрическая интерпретация.
- •Формальный нейрон.
- •Типология нейронов.
- •Геометрическая интерпретация задачи нейрона.
- •Нейронная сеть. Слой, типология слоёв. Типология нейронных сетей. Основные классы задач, решаемых нейронными сетями.
- •задачи
- •Задача обучения нейронной сети, отличие от задачи обучения нейрона. Проблемы. Примеры алгоритмов и методов обучения.
- •Градиентные методы.
- •Математическое обоснование метода обратного распространения ошибки. Алгоритм обратного распространения ошибки.
- •Вывод формулы для расчёта адаптивного коэффициента обучения в алгоритме обратного распространения ошибки.
- •Вывод формулы для расчёта адаптивного шага обучения для нерекуррентной линейной нейронной сети.
- •Алгоритм послойного обучения. Назначение и отличие от алгоритма обратного распространения ошибки.
- •Алгоритм многократного распространения ошибки. Назначение и отличие от алгоритма обратного распространения ошибки.
- •Задача предсказания числовых последовательностей с помощью нейронных сетей. Особенности устройства нейронных сетей для предсказания числовых последовательностей.
- •Реккурентные нейронные сети. Контекстный нейрон. Обучение. Сеть Элмана. Сеть Джордана.
- •Рециркуляционные нейронные сети. Линейная рециркуляционная сеть. Задача, решаемая линейной рециркуляционной сетью (метод главных компонент).
- •Алгоритмы обучения и функционирования линейной рециркуляционной сети.
- •Релаксационные нейронные сети. Синхронная сеть Хопфилда. Непрерывное и дискретное состояние. Структура, обучение, энергия, функционирование.
- •Сеть Хэмминга. Назначение, обучение и функционирование.
- •Линейная ассоциативная память и ассоциативная память на основе сети Хопфилда. Функционирование, отличие.
- •Двунаправленная ассоциативная память. Назначение, структура, обучение и функционирование.
- •Двунаправленная ассоциативная память. Метод обучения двунаправленной ассоциативной памяти с модифицированной структурой.
- •Сеть адаптивного резонанса. Назначение, структура, обучение и функционирование.
- •СТРУКТУРА APT
- •Функционирование сети APT в процессе классификации
- •ФУНКЦИОНИРОВАНИЕ APT
- •ПРИМЕР ОБУЧЕНИЯ СЕТИ APT
- •ЗАКЛЮЧЕНИЕ
- •Устройство и структура нейронных сетей для решения задач классификации и кластеризации. Правила обучения: WTA и CWTA.
- •Структура когнитрона, неокогнитрона и свёрточных нейронных сетей, отличия. Назначение когнитрона, неокогнитрона и свёрточных нейронных сетей.
- •Обучение
- •НЕОКОГНИТРОН
- •Обобщение
- •Вычисления
- •Обучение
- •Псевдооптическая нейронная сеть. Интерферирующий нейрон, устройство. Назначение, структура и функционирование сети.
- •Машина Больцмана, назначение. Устройство и функционирование.
- •Предетекторы и детекторы. Поле (карта) детекторов. Детекторы новизны и тождества. Схема активного анализа на основе нейроподобных элементов.
- •Аппаратная реализация нейронных сетей. Процедура проектирования систолических массивов (процессоров), на основе структуры сети.
- •Систолические процессоры для двухслойной нейронной сети (первый слой – рецепторы). Эффективность. Предпочтение по эффективности.
- •Систолический массив с разнонаправленными связями. Сравнение по эффективности с процессорами с однонаправленными связями.
- •Матричный систолический процессор. Сравнение по эффективности.
- •Систолические массивы для многослойных нейронных сетей. Структура систолического массива, объединяющего различные систолические процессоры. Эффективность.
- •Систолические массивы для многослойных нейронных сетей. Структура систолического массива, объединяющего идентичные систолические процессоры. Эффективность.
- •Систолические процессоры для реализации релаксационных нейронных сетей (сети Хопфилда).
- •Методы обеспечения отказоустойчивости. Скользящее резервирование.
- •Методы обеспечения отказоустойчивости. Секционированное резервирование. Схема для неоднородного потока входных данных.
- •Нечёткие нейронные сети. Структура, функционирование, обучение.
- •Литература.
Веса wij(1) образуют матрицу W(1) синаптических связей скрытого слоя, а f1(ui) –
функция активации i-го нейрона этого слоя. Аналогично можно обозначить взвешенную сумму i-го нейрона выходного слоя gi, а соответствующий ему выходной сигнал сети – уi. Эти сигналы описываются формулами
gi (k) = ∑Kj=0 wij[2]vj (k) |
(59) |
yi (k) = f2 (gi (k)) |
(60) |
В свою очередь, веса wij(2) |
образуют матрицу W(2), описывающую |
синаптические связи нейронов выходного слоя, a f2(gi) - функция активации i-го нейрона выходного слоя.
В общем случае можно рассмотреть объединённую сеть Джордана-Элмана.
Рециркуляционные нейронные сети. Линейная рециркуляционная сеть. Задача, решаемая линейной рециркуляционной сетью (метод главных компонент).
Рециркуляционные сети характеризуются как прямым Y=f(X), так и обратным X=f(Y) преобразованием информации. Задачей такого преобразования является достижение наилучшего автопрогноза или самовоспроизводимости вектора X. Рециркуляционные нейронные сети применяются для сжатия (прямое преобразование) и восстановления исходной (обратное преобразование) информации. Такие сети являются самоорганизующимися в процессе работы, где обучение производится без учителя. Они были предложены в 1988 году. Теоретической основой рециркуляционных нейронных сетей является анализ главных компонент (principal component analyse).
Метод главных компонент
Метод главных компонент применяется в статистике для сжатия информации без существенных потерь ее информативности. Он состоит в линейном ортогональном преобразовании входного вектора X размерности n в выходной вектор Y размерности p, где p<n. При этом компоненты вектора Y являются некоррелированными и общая дисперсия после преобразования остается неизменной. Совокупность входных паттернов представим в виде матрицы:
x11 x12 … x1n
x21 x22 … x2n
X =
…… … …
xL1 xL2 … xLn
где xk = (xk1, xk2, …, xkn) соответствует k-му входному образу, L - общее количество образов.
Будем считать, что матрица X является центрированной, то есть вектор математических ожиданий µ=0. Этого добиваются при помощи следующих преобразований:
xi |
j |
= xi |
j −μ j |
|
|
(61) |
|||||
|
|
|
L |
|
|
|
|
|
|
|
|
μ j |
= |
∑xi |
j |
|
|
(62) |
|||||
i=1 |
|
|
|
|
|
||||||
|
|
|
|
|
|
||||||
|
|
|
|
L |
|
|
|
|
|
|
|
Матрица ковариаций входных данных X определяется как |
|||||||||||
|
|
|
|
|
|
|
σ11 |
σ12 |
… |
σ1n |
|
|
|
|
|
|
|
|
σ21 |
σ22 |
… |
σ2n |
|
|
|
|
|
|
|
K = |
|
|
|
|
|
|
|
|
|
|
|
|
… |
… |
… |
… |
σn1 σn2 … σnn
где σij - ковариация между i-ой и j-ой компонентой входных образов. Элементы матрицы ковариаций можно вычислить следующим образом:
σij = |
1 |
∑kL=1(xik − μi )(xkj − μ j ) |
(63) |
|
L |
||||
|
|
|
где i,j = 1…,п.
Таким образом, на основе матрицы входных образов можно определить выборочную ковариационную матрицу. В дальнейшем изложении будем оперировать с входной информацией, представленной в виде вектора Х=(х1, х2…,
хn).
Метод главных компонент состоит в нахождении таких линейных
комбинаций исходных переменных |
|
|||
y1 = w11x1 + w21x2 +... + wn1xn |
|
|||
y2 = w12 x1 + w22 x2 + + wn2 xn... |
(64) |
|||
............................................. |
||||
|
||||
yp = w1 p x1 + w2 p x2 + + wnp xn... |
|
|||
что |
|
|||
σ( yi , yj ) = 0;i, j = |
|
; |
|
|
1,n |
|
|||
σ( yi , yi ) =σ( yi ); |
(65) |
|||
σ( y1 ) ≥σ( y2 ) ≥ ≥σ( yp ) |
||||
|
||||
∑inσii = ∑inσ( yi ) |
|
Из последних выражений следует, что переменные уi некоррелированы, упорядочены по возрастанию дисперсии и сумма дисперсий входных образов остается без изменений. Тогда подмножество первых р переменных у характеризует большую часть общей дисперсии. В результате получается представление входной информации.
Переменные уi, i = 1,…,p называются главными компонентами. В матричной форме преобразование главных компонент можно представить как
Y = WTX |
(66) |
где строки матрицы WT должны удовлетворять условию ортогональности, т.е |
|
WiWjT = 1, i = j |
(67) |
WiWjT = 0, i ≠ j |
|
при этомвектор Wi определяется как |
|
Wi=(wli, w2i…, wni) |
(68) |
Для определения главных компонент необходимо |
определить весовые |
коэффициенты Wi, i = 1…, p.
Каждая главная компонента получается как линейная комбинация yk = WkX, где Wk-собственный вектор ковариационной матрицы К, соответствующий к-му по величине собственному значению βк этой матрицы. Для определения собственных значений β ковариационной матрицы, необходимо решить характеристическое
уравнение: |
|
det(K-βI)=0, |
(69) |
где I - единичная матрица.
Так как ковариационная матрица К является симметричной, то уравнение (69)
имеет n вещественных корней: |
|
β1>=β2>=..>=βn>=0. |
(70) |
Для определения первой главной |
компоненты, необходимо выбрать из n |
собственных значений матрицы К наибольшее (β1) и решить следующую систему уравнений:
(K-β1I) W1T= 0 |
(71) |
где W1 T - вектор столбец. |
|
Из системы уравнений (71) определяется собственный вектор W1.
Как известно, собственные векторы действительной симметрической матрицы являются ортогональными. Для получения ортонормированного вектора W1 необходимо пронормировать его:
|
|
|
w |
|
|
w |
|
|
w |
|
|
|||
W = |
11 |
|
, |
21 |
|
,..., |
|
n1 |
|
(72) |
||||
|
W |
|
|
W |
|
|
W |
|
||||||
1 |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
1 |
|
|
|
1 |
|
|
|
1 |
|
|
|
где W1 = w112 + w212 +... + wn21 .
В результате проведенных вычислений получается первая главная компонента y1=W1X, которая имеет максимальную дисперсию σ(y1). Аналогичным образом определяются остальные главные компоненты. При этом вторая компонента будет
иметь следующую по величине дисперсию и так далее. Получаемая матрица весовых коэффициентов является ортогональной, т.е
WWT = 1. (73)
СобственныечислаβматрицыКхарактеризуютдисперсиюглавныхкомпонент. При этом сумма дисперсий в пространстве исходных признаков равняется
сумме дисперсий в пространстве выходных признаков:
(74)
В работе [13] показано, что метод главных компонент имеет следующий критерий информативности:
(75)
Данный критерий позволяет ориентировочно определить число главных компонент р. Так, анализируя при помощи выражения (75) изменение J в зависимости от числа р, можно подобрать необходимое количество компонент без существенной потери информативности J.
Рассмотрим отображение выходного вектора Y во входной вектор X. Такое
отображение называется автопрогнозом. Пусть |
|
X=QY+e, |
(76) |
где е - дисперсия остатка, Q – матрица размерности п×р. Теорема, определяющая матрицу Q.
Теорема 4.1. Минимальное значение дисперсии остатка в выражении (76) достигается, когда столбцы матрицы Q равняются собственным векторам Wi, вычисленных в соответствии с методом главных компонент.
Таким образом
|
w1 |
w1 |
… |
w1 |
|
|
1 |
2 |
p |
|
|
|
|
|
|||
Q = W |
w2 |
w2 |
… |
w2 |
|
1 |
2 |
p |
|
||
|
|
||||
= |
… |
… … |
… |
|
|
|
|
||||
|
wn |
wn |
… |
wn |
|
|
1 |
2 |
p |
|
|
Тогданаилучшийавтопрогноз |
|
|
|||
|
достигается, когда |
||||
X=WY. |
|
|
(77) |
Величина абсолютной ошибки прогноза выражается через собственные числа ковариационной матрицы.
(78)
Относительная ошибка определяется, как