Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Нейронные сети для обработки информации

..pdf
Скачиваний:
9
Добавлен:
12.11.2023
Размер:
14.05 Mб
Скачать

В качестве примера, иллюстрирующего разложение на главные компоненты, рассмотрим фактическую корреляцию, существующую между длиной, шириной и высотой особей, составляющих популяцию черепах [29]. Вектор измерений л в этой ситуации образуют три компонента: длина <7, ширина $ и высота IV: х = [</, з, IV]. Т. П.Жоликур и Ж.Мосмаин [29] провели измерения этих параметров для популяции размером р = 24 особи. Была получена матрица корреляции Кп в виде

'451*3 27],2 16В,7

КГГ 271,2 171,7 103,3 168,7 103,3 66,65

Декомпозируя эту матрицу по собственным значениям, получаем А | = 680,37, А2 = 6,43, А ] = 2,81, а также сопряженные с ними собственные векторы:

0,8126

-0,5454

0,2056

'

0,4955 .

0,8322

, щ = 0,2488

 

0,3068

0,1003

-0,9465

 

На их основе определяется матрица IV = [н>|, и^, и^]г преобразования РСЛ в виде

' 0,8126

0,4955

0,3068'

\У = -0,5454

0,8322

0,1003 ,

0,2056

0,2488

- 0.9465

а также диагональная матрица Ь, образованная собственными значениями А |,А г, А} матрицы Кл , Ь = Ла§[680,37, 6,43, 2,81].

Наибольшее собственное значение Я | = 680,37 определяет первый глав­

ный компонент, сопряженный с собственным вектором , составляющим первую

строку матрицы \У. Этот компонент при входном векторе х,

состоящем из трех

элементов (длина ширина з и высота IV), описывается выражением у\ жн>{х,

которое в нашем случае приобретает конкретный вид: у\ = 0,812(к/ + 0,4955т +

+ 0,3068*?. Каждое из собственных значений Л§соответствует вариации, которую

представляет /-й шавный компонент.

Относитслы1ый оклад каждого главного

компонента в общую вариацию

данных (энергию)

можно определить

выражением

т , = А, / ЕЯ, • В рассматриваемом примере этот вклад составляет:

т\ = 0,9866,

У-1

т 2 = 0,0093, Ш] = 0,0041. Анализ полученных эначениП говорит о

том, что доля первого главного компонента о суммарной вариации данных составляет 98,66%. При восстановлении длины, ширины и высоты черепахи на основании вектора у можно ограничиться его наибольшей составляющей у\ я проигнорировать остальные, так как они не несут существенной информациоиной нагрузки. Это означает возможность трехкратного уменьшения количества обрабатываемой информации.

При обсуждении преобразования РСЛ следует подчеркнуть связь между собственными значениями матрицы автокорреляции и особенными значения­

ми 3]матрицы X, составляющими матрицу Кя (К „ = —ХХГ). Особенные зна­

чения з/ образуют 11ссвдодиаганалы1ую матрицу 5, которая является одной из составляющих ЗУО-разложслля матрицы X. ЗУО-разложешге этой матрицы определяется формулой

Х ^ З У 7:

(10.17)

Матрицы 1)е КЛГх7/ и УеЕржр являются ортогональными, а

псевдодиаго-

нальиая матрица $е КЛхр содержит неотрицательные диагональные элементы. Разложение Кп на К главных компонентов соответствует выделению при ЗУОразложении матрицы X только К наибольших особенных значении и сопря­ женных с ними К столбцов матриц И и V.

Кроме того, существует тесная связь между собственными значениями

матрицы

н особенными значениями матрицы X. Если определить 5УО-

рагпоженис матрицы X в форме X = II 8 УГ при правостороннем умножишн X

на Хг, то получим:

 

 

Х Х Г= Ы 8 У7У $ г1/г = и 8 8г 177

(10.18)

Вследствие пссвдоднагональности матрицы 8 произведение этой матрицы на $г дает диагональную матрицу О с элементами, равными квадратам элемешов ц матрицы 8, т.е.

О= <Кав[5,3 ,5? ,.... я» ).

Врезультате получаем:

ХХГ=1Ш ИГ.

(10.19)

Принимая во внимание, что

Кл =

^ X Хг, $УО-раэложсние матрицы X

точно соответствует разложению

РСЛ

матрицы корреляции, определенному

выражением (Ю .|2) при Ь =

и \У = 11г. Главные векторы нуотождествляются

со столбцами ортогональной матрицы I/, полученной в результате 8УЭразложелня матрицы данных X.

Аналогичным образом можно доказать, что при левостороннем умножении

матрицы X ив матрицу Хг получаем:

 

Х7Х = УВУГ.

(10.20)

В этом случае роль матрицы О принимает на себя матрица V, также полученная в результате 8УО-раэложсння матрицы X.

Стандартные методы определения собственных векторов (продолжение декомпозиции <}К [42]) матрицы Нм при больших размерностях векторов.кимеют значительную вычислительную сложность, поэтому на практике более эффективными оказываются адаптивные методы, основанные ив обобщенном

правиле Хебба и непосредственно преобразующие входные векторы дгбез яоиого определения матрицы Кп - Адаптивные методы особенно незаменимы при пос­ туплении данных в режиме “онлайн”, когда создание явной формы матрицы корреляции просто невозможно.

В развитии метода РСА важную роль играют хсббовскне искусственные нейронные сети, выполняющие это преобразование в режиме онлайн непосредственно на последовательности векторов дг. Это преобразование является адаптивным и производится однослойной нейронной сетью, линейной при использовании обобщенного алгоритма Хебба. Созданы различные варианты алгоритмов, в каждом из которых учитывается корреляция между векторами, представляющими входные данные. Значитель­ ное упрощение вычислений достигается в результате определения только одного (наибольшего) главного компонента. Поэтому первым будет представлен алгоритм РСА именно для этого случая.

10.2.2. Определение первого главного компонента

Для определения первого главного компонента у\ к связанного с ним век­ тора и'], соответствующего матрице НЛ, Е. Ойя предложил систему, состоящую из одного линейного нейрона (рис. 10.2), для

которого

У\ = * = 2 > „ * ,.

( 10.21)

 

Веса вектора цг| подбираются согласно нормализованному правилу Хебба, называемому правилом Ойя, которое может быть записано в скалярной форме как

Рис. 10.2. Нейронная сеть РСА

и(|Д*+]) = ичД*) +

 

для определения одного (важ­

 

нейшего) главного компонента

или в векторной форме:

 

*# + 1 )= н -,(* )+

(10.22)

(Ю.23)

где ?)(*) обозначает коэффициент обучения. Первое слагаемое формулы соответствует обычному правилу Хебба, в второе обеспечивает самонормалнэацню векторов весов, т.е. ||ич||2 = I [51, Ш ]. Подбор значения ^ оказы­ вает существенное влияние на сходимость алгор1гтма. Хорошие результаты достигаются, когда значение Ц (*) уменьшается с течением времени обучения.

Широко применяется методик* изменения ц{к) = р г \ где .1}(0) = 0,5[ХГХ]; р,5 $у< I. В процессе обучения одни и те же обучающие выборки предъявляются многократно вплоть до стабилизации весов сстН.

10.2,3. Алгоритмы определения множества главных компонентов

Определение следующих компонентов РСА предполагает использование а выходном слое большого количества нейронов. Сеть содержит столько нейронов, сколько должно учитываться главных компонентов разложения. Они располага­ ются о одном слое, поэтому сеть РСЛ считается однослойной с линейными функциями активации нейронов (рис.

10.3). Обобщенное прагтло Ойя для такой сети становится нелокальным и мало­ привлекательным с вычислительной точ­ ки зрения. Лучшие результаты лает приме­ нение правила Сейгера [141]. Если К линейных нейронов выходного слоя генерируют выходные сигналы согласно выражению

л

(10.24)

тоугочивиис песо, сети произвол,™ по Гис. 11и. л ,шсГ|Ии„.^ „„„« п .Р С А

формуле [1 4 1 ]

для определения Кглавных компонентов

У»ц{к+1) = (*)+пу,(*)[ ху(*) - 1 » ^ (*)уА(*)]

(10.25)

ДЛЯ )' - 0 , 1,2,.... А',

г = 1.2,.... К. Если принять обозначение

 

 

*}(*) = х Д А Ь Х ^ М * ) .

(10.26)

то выражение (10.25) можно представить в форме

 

^ ( ^

+ 1) = ^ ( * ) + ^ ( * ) [ х ;(* ) - ^ ( * ) у гт ] .

(Ю.27)

аналогичной формуле ОАя (10.22), соответствующей только одному нейрону. Поэтому даже при наличии в выходном слое К нейронов правило обучения все равно остается локальным при условии модификации значения входного сигнала Ху. Скалярные зависимости (10.26) и (10.27) можно записать в век­ торной форме

*'(*)= х(А) - 2 н>А(*)д (*),

(10.28)

(ш1гл.: АдарГме Рппара! сотропеп/ ЕХ1гасИон). Подробности их реат можно найш в книге Диама(|тараса и Кунга (29].

Преобразование РСА чаще всего применяется для компрессии данных, при котором большое количество входной информации заменяется уменьшенной дозой, содержащейся в векторах у н В зависимости от степени сжатия (количества главных компонентов РСА) можно получить различное качество восстановления данных.

Для примера па рис. 10.4 представлены три изображался "Лена”, реконст­ руированные на основе 1,3 и 5 тайных компонентов РСА [92]. Образ, подверг­ нутый компрессии, имел размер $12x512 пикселов и был разделен на кадры размером 8 x 8 . Качество восстановленного изображения сильно зависит от количества К главных компонентов, учитываемых при восстановлении. Чем больше этих компонентов, том выше качество изображения и одновременно тем меньше коэффициент компрессии. Изображение на рис. 10.4а соответствует коэффициенту компрессии около 64, на рис. (0.46 - около 21, а иа рлс. 10.4в - около 12. При наибольшей степени сжатия (при одном главном компоненте) на изображении сильно заметны отдельные кадры. Изображение, восстановленное на оскопс пяти главных компонентов, зрительно нс отличается от оригинала. Коэффициенты Р5ЫК, полученные для этих образов, равны соответственно 18,80 дБ, 25,43 дБ и 27,58 дБ.

10.3.Нейронные ЮА-сети Херольта-Джуггена

10.3.1.Предварительные пояснения

Сети Херольта-Джуттсна [62] - это линейные сети с самоорганизацией, использующие обобщенное правило Хсбба и относящиеся к классу корреля­ ционных сетей. Их концепция было сформулирована в середине восьми­ десятых годов XX века профессорами Дж. Херольтом и К. Джулепом за Гренобля [62, 63]. Первоначально эти сети применялись для так называемой слепой сепарации сигналов. В настоящее время они выполняют и многие другие функции, в том числе анализ главных компонентов РСА, анализ независимых компонентов 1СА (вит.: Ыерепден! СотронегМ АнЫуа!з), сглаживание и т.п. Первичная структура сети была рекуррентной. В настоящее время часто используются также однонаправленные сети. Независимо от способа соединения нейронов между собой, эти сети обычно имеют адаптивную линейную структуру, обрабатывающую сигналы а режиме реального времени (ошзаГш). Нелинейные функции, применяемые в алгоритмах обучения, играют очень важную роль при уточнении весов, нс оказывая влияния на саму структуру взвешенных связей.

Оригинальное решение Херальтп-Джугтена касалось проблемы сепарации сигналов г,(0 иа осиово информации, содержащейся в их линейной суперпозиции.

Пусть имеются /г независимых сигналов *,{/) и смешивающая матрица А

°11

°1«

 

Л = вЦ

а1п

(10.30)

Для измерений доступны только сигналы х,(0> представляющие собой

линейную суперпозицию 5,{4), причем

 

*,(/)=

(10.31)

для / = 1,2,.... и. Главная трудность заключается в том, что как ар, так и зДг) не известны. На основании гипотезы о статистической независимости сигналов Дж. Хсрольт и К. Джуттсн предложили решать эту задачу с применением нейронной

сети. Обобщенная схема включения'

этой сети в измерительную

систему

представлена на рис. 10.5.

 

 

 

УМ

 

9<М

УпЮ

Рис. 10.5. Обобщенна* схема включения нейронной сетиа системуразделениясигналов

10,3.2. Статистическая независимость сигналов

Статистическая независимость случайных сигналов - это более общее понятие, чеы иекоррслирусмость. В общем случае две случайные переменные у {иду будут статистически независимыми, если информация об одной переменной ничего не говорит о другой. С математической точки зрения статистическая независимость означает, что двухмерная плотность вероятности р(у1, у/) равна произведению одномерных функций плотности

РЬ'1.У/) =Р(У1)Р(У,)

(10.32)

Дня статистически независимых сигналов обобщенная матрица ковариации

функцийХи) и #0»у) {обе функции должны быть нечетными) представляет собой неособенную диагональную матрицу, имеющую вид:

Ш Ш ТМ - М /О 'И Ч г'О М =

~С[Ау1>*)] - я [ / о , )] Е{%(у,)1

е [ Л л ) * ( й » - * 1Л л » * [ * 0 '2)1

(10.33)

 

Е [ Н у ,и ( у .) \- щ ( у .т е { у .) \.

 

В этом выражении символом Е обозначается ожидаемое значение. Из условия статистической независимости следует, что все обобщенные

взаимные

являются нулевыми, поэтому

а

собственные ковариации -

ненулевыми, т.е.

 

Условие

статистической

независимости сигналов отождествляется

в ста­

тистике с

обнулением взаимных кумулянтов высшего порядка [12,63].

10.3.3. Рекуррентная структура разделяющей сети

Для решения задачи сепарации статистически независимых сиг­ налов Дж. Хсрольт и К. Джуттен предложили линейную нейрон­ ную сеть с обратной связью, представленную ив рис. Ю.б. Сеть состоит из п линейных нейронов, связанных между со­ бой взаимными обратными свя­ зями. Синаптические веса в оригинальном решении Херольта и Джуттена отличны от нуля только при взаимных связях.

Собственные связи в ори­ гинальном решении, представ­ ленном в работе [62], отсутствуют. Каждый нейрон сети генерирует выходной сигнал

У М ^ х А ) - I I V / ' ) . /-У "

Рис. 10.6. Структура рекуррентной сет Херольта-Джутна для разделениясигналов

(10.34)

Бели обозначить А смешивающую матрицу (10.30), \У - матрицу весов:

 

 

' 0

” |2

” |л

 

 

 

 

 

 

 

 

 

 

 

 

0

* ’2п

 

 

(10.35)

 

 

 

 

 

 

 

 

 

."•1

 

0

 

 

 

 

 

 

 

 

 

 

х(/) « [Х|(0. Х2(0. .... *Л01Г _

вектор наблюдаемых сигналов, преобразованных

в соответствии с выражением (10.31), *(0 = (<*|(4. *2(0.

М01г

~ вектор

исходных сигналов, у(1)

= [)'|(0, Л(0. .... Л(01г “

вектор выходных сигналов,

то функционирование

сети,

изображенной

на

рис. Ю.б,

можно

описать

матричными уравнениями:

 

 

 

 

 

 

 

 

х(/) = А5(/),

 

 

 

(10.36)

 

 

у(0»*(/)-\У у(Г ).

 

 

(10.37)

Если матрица А и вектор *(/) нс известны, то при выдвижении гипотезы о статистической независимости компонентов вектора *(/) задача сети сводится к такому определению вектора решения

> (0 = С1 + 'У)‘Ч ' ) .

<10.381

которое позволит восстановить первичные сигналы хД/), составляющие вектор т(/) с конкретной, но нс определенной заранее степенью точности 4*

>(0 = О*(0.

(10.39)

где Р - диагональная матрица, О = [4* ^2,...»4?]. и с сохранением произвольной последовательности отдельных компонентов в векторе

У<0в Р*(0.

(10.40)

где Р - элементарная матрица перестановок, задающая различные комбинации компонентов вектора *(/).

Решение, определяющее вектор у(/), который отвечает условиям (10.39) и (10.40), может быть получено при произвольном количестве нейронов л. Если количество источников больше двух, а значения коэффнцнс1ггов смешивающей матрицы оу заранее не известны, сигналы можно разделить только с помощью адаптивного алгоритмического метода подбора весов нейронной сети.

10.3.4. Алгоритм Херольта-Джуттена для рекуррентной сети

Решение задачи разделения сигналов на основе рекуррентной септ было сведено Дж. Хсрольтом и К. Джулепом х решению системы дифференциальных урав­ нений, описывающих изменения оссов этой сети. Оки предложили простой

адаптивный алгоритм, использующий критерии статистической независимости сигналов и функционирующий в режиме "онлайн”, который можно представить в виде системы дифференциальных уравнении

^

= 'Н ')/(У Д 'М М ')) ,

(10.41)

для г = I, 2,...»и и I = I, 2..... п при

у (в оригинальном решении собственные

обратные связи отсутствуют, ту» а 0). Значение коэффициента обучения 1| (/), как правило, умсиыипсгся в процессе обучения до нуля. Фуиктцш/у) и$0’) нечетны и не равны между собой, Ду) # $(у). Следует отметшъ, что зависимость (10.41) представляет собой нелинейное обобщение простого правила Хебба.

На практике применяются различные виды функций Дх) и ^(х), чаще всего одна из них имеет В1.1пуклую, а вторая - вогнутую форму. Наиболее популярны представленияДх) = .т3, Дх) = .т5. Относителыю функции $(х) можно сказать, что хорошие результаты достигаются при я(.т) = 1алН(х), #(.г) = атс1в(х), #(х) =х, $(х) = 5вп(х) и т.д.

О работе [62] было доказано, что обе функции Д ) и $( ) соответствуют статистическим моментам высших порядков, что в случае статистической независимости еншалов автоматически обеспечивает равенство нулю средних значении {/(3'Дг))^(уу(0)), гарантирующее сходимость алгоритма обучения.

Правило обучения, определенное выражением (10.41), может быть записано в

обобщенной матричной форме

 

^ - = т / Ш ) е Тм т .

(и>-42)

а/

 

т м т = № -|«)), Чи(0)......ЛМ0)]г. М )) - ЫШ). *(и(0Х

*1уМГ.

Чаще всего коэффициент обучения г](г) имеет в начальный момент фикси­ рованную величину, уменьшающуюся по показательному закону в зависимости от времени обучения г.

Следует обратить внимание, что адаптивная зависимость (10.42) относится к переменным компонентам сигналов. ГТри наличии постоянной составляющей ее следует отфильтровать. Для этого обычно применяется фильтр первого или второго порядка, выходной сигнал которого воспринимается как переменная составляющая х//) хДг)* г](г), аде »|(/) обозначает импульснуюревкито фильтра, а * - обозначение свертки.

Экспериментальные исследования сети Херольта-Джуггена, проведенные как с помощью компьютерного моделирования, так и в процессе ее технической реализации, подтвердили хорошую сходимость плгорнтма и возможность разделения многих статистически независимых сигналов различной структуры, но при 01рп1111ченных соотношениях амплитуд отдельных компонентов сигналов, подлежащих сепарации.