Лабораторна робота № 4 багатошаровий персептрон. Узагальнений градієнтний алгоритм навчання

Мета роботи – вивчити модель багатошарового персептрона і методи його навчання; дослідити вплив кроку навчання і виду коригувального правила ваг на тривалість, точність навчання і класифікації; ознайомитися з програмними продуктами, що моделюють багатошаровий персептрон.

1 Короткі теоретичні відомості

Основним обчислювальним елементом багатошарового персептрона або багатошарової нейронної мережі (БНМ) є формальний нейрон. Він виконує параметричне нелінійне перетворення вхідного вектора x у скалярну величину y. Нейрони утворюють мережу, що характеризується наступними параметрами і властивостями: M – число шарів мережі, N_μ – число нейронів μ-го шару, зв'язки між нейронами в шарі відсутні.

Виходи нейронів μ-го шару, μ = 1, 2, ..., М – 1 надходять на входи нейронів тільки наступного μ+1-го шару. Зовнішній векторний сигнал x надходить на входи нейронів тільки першого шару, виходи нейронів останнього М-го шару утворюють вектор виходів мережі y^(M). Структура мережі показана на рис. 5.

Рисунок 5 – Структура багатошарової нейронної мережі

Кожен i-й нейрон μ-го шару (μi-й нейрон) перетворює вхідний вектор x^(μ,i) у вихідну скалярну величину y^(μ,i). Це перетворення складається з двох етапів: спочатку обчислюється дискримінантна функції net^(μ,i), яка далі перетворюється у вихідну величину y^(μ,i).

Дискримінантна функція являє собою відрізок багатовимірного ряду Тейлора. Коефіцієнти розкладання відрізка багатовимірного ряду Тейлора утворюють вектор вагових коефіцієнтів w^(μ,i), або пам'ять нейрона. Дискримінантна функція нейрона має вигляд:

де w^(μ,i)= (w₀^(μ,i), w₁^(μ,i), ..., w_N^(μ,i))^Т – вектор вагових коефіцієнтів нейрона; x_j^(μ,i) – j-а компонента N-вимірного вхідного вектора x^(μ,i).

Нелінійне перетворення y^(μ,i) = ψ(net^(μ,i)) задається функцією активації, що є монотонною та обмеженою. Зокрема, при позитивних або нульових виходах нейрона такою функцією може бути сигмоїдна функція ψ(x) = 1/(1+e^-x).

Позначимо через y^(μ)= (y^(μ,1), y^(μ,2), ..., y^(μ,Nμ))^Твектор виходу нейронів μ-го шару.

Процес навчання мережі, здійснюється в результаті мінімізації цільової функції – деякого критерію якості F(w), що характеризує інтегральну міру близькості виходів мережі y^(M)(k)і вказівок учителя y*(k):

де k – номер поточного циклу навчання НМ; m = 1, 2, ..., k – номера попередніх циклів навчання НМ; w – складений вектор-стовпець вагових коефіцієнтів мережі, який складають вектори-стовпці w^(μ) = (w^(μ,1)T, w^(μ,2)T, ..., w^(Nμ)T)^Т, μ = M, M – 1, ..., 1 кожного шару. Миттєвий критерій якості Q (ε (w, k)), що входить в інтегральний критерій якості F(w), залежить від вектора помилки мережі Q (ε (w, m)): ε(w, m) = y^(M)(m) – y*(m).

Для кожного вхідного вектора х з навчальної множини повинний бути визначений вектор бажаних виходів мережі y*. Якщо БНМ, що навчається, використовується як класифікатор, то звичайно бажані виходи мають низький рівень (0 чи менше 0,1), крім виходу вузла, що відповідає класу, до якого відноситься х; цей вихід у даному випадку має високий рівень (1 чи більше 0,9).

Градієнтні методи навчання БНМ засновані на використанні градієнта цільової функції F(w). Ці методи носять ітеративний характер, тому що компоненти градієнта виявляються нелінійними функціями. Усі далі розглянуті методи засновані на ітераційній процедурі, що реалізується відповідно до формули:

w_k+1= w_k+ α_ks(w_k),

де w_k
, w_k+1– поточне і нове наближення значень ваг і порогів НМ до оптимального рішення, відповідно; α_k – крок збіжності; s(w_k) – напрямок пошуку в N-вимірному просторі ваг. Спосіб визначення s(w_k) та α_k на кожній ітерації залежить від особливостей конкретного методу.

Узагальнений градієнтний алгоритм стосовно до задачі навчання БНМ має наступний вигляд.

Крок 1. Ініціалізація: Задаються параметри БНМ: N – число входів, M – число шарів, початкові ваги та пороги w. Задаються параметри алгоритму навчання: максимально припустиме число циклів навчання Epochs, параметр збіжності алгоритму ε₁ – мета навчання (у якості її звичайно виступає максимально припустима середньоквадратична помилка), ε₂– параметр збіжності уздовж прямої (для простоти можна вважати ε₂= ε₁).