Добавил:

Studfiles2 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный электротехнический университет "ЛЭТИ"

Предмет:

Анализ и интерпретация данных

Файл:

Анализ и интерпретация данных / Глава_5.DOC

Скачиваний:

106

Добавлен:

01.05.2014

Размер:

2.76 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 1314 / 1914 15 16 17 18 19 > Следующая >>>

5.9.3. Поведение в случае неразделяемых множеств

Если только что приведенное доказательство сходимости рассмотреть с целью выяснения использования предположения о разделяемости, то окажется, что данное предположение было использовано дважды. Во-первых, было использовано соотношение е_k^t =0, чтобы показать, что либое_k⁺=0 при некотором конечном k, либо е_k⁺ никогда не станет нулевым и коррекции не прекратятся. Во-вторых, такое же условие было использовано с целью показать, что если е_k⁺ сходится к нулю, то е_k тоже должно сходиться к нулю.

Если выборки линейно не разделяемы, то из этого больше не следует, что при е_k⁺ равном нулю, е_k тоже должно быть равным нулю. Действительно, для задачи с неразделяемым множеством вполне можно получить ненулевой вектор ошибки с положительными компонентами. Если это происходит, алгоритм автоматически останавливается и обнаруживается, что выборки неразделяемы.

Что получается, если образы неразделяемы, a е_k⁺никогда не обращается в нуль? В данном случае все же выполняются

Таким образом, последовательность ||е₁||², |е₂||², ... все еще сходится, хотя предельное значение ||е||² может не быть равным нулю. Поскольку условие сходимости требует, чтобы вектор е_k⁺ сходился к нулю, можно сделать заключение, что либо е_k⁺=0 при некотором конечном k, либо е_k⁺ сходится к нулю, тогда как значение ||е_k⁺||отличается от нулевого. Таким образом, алгоритм Хо—Кашьяп, дает разделяющий вектор для случая разделяемых множеств и явно обнаруживает неразделяемость для случая неразделяемых множеств. Однако не существует ограничения числа шагов, необходимых для обнаружения неразделяемости.

5.9.4. Некоторые связанные процедуры

Если записать равенство Y^†= (Y^tY)^-1Y^t и использовать соотношение Y^te_k=0, то алгоритм Хо — Кашьяпа можно представить в виде

где, как обычно,

Данный алгоритм отличается от алгоритмов персептрона и релаксаций для решения линейных неравенств по крайней мере тремя свойствами: 1)он изменяет как весовой вектор а, так и вектор допуска b, 2) он явно обнаруживает наличие неразделяемости, однако 3) требует псевдообращения Y. Даже при однократном проведении указанного вычисления необходимо затратить некоторое время и применить специальную обработку, если матрица Y^tY вырождена. Другой алгоритм, представляющий интерес, имеет сходство с (69), но исключает необходимость вычисления Y^†. Он записывается следующим образом:

где R является произвольно выбранной постоянной положительно определенной матрицей размера ×. Покажем, что при правильном выборе ρ данный алгоритм также будет давать вектор решения за конечное число шагов, при условии что решение существует. Более того, если решение не существует, вектор Y^t|e_k| либо обращается в нуль, указывая на неразделяемость, либо сходится к нулю.

Доказательство проводится весьма непосредственно. В случае, когда выборки либо линейно разделяемы, либо линейно неразделяемы, соотношения (70) и (71) показывают, что

Очевидно, что если ρ положительно, но достаточно мало, матрица А будет приблизительно равна 2ρR и, следовательно, будет положительно определенной. Таким образом, если Y^t| e_k| ≠ 0, получим ||e_k||² > ||e_k₊₁||².

Здесь следует провести различие между случаями разделяемых и неразделяемых множеств. При наличии разделяемого множества существуют векторы и>0, удовлетворяющие выражениюY=. Таким образом, если | e_k| ≠ 0, то справедливо соотношение

так что векторY^t| e_k| не может быть нулевым, если e_k не равно нулю. Таким образом, последовательность ||е₁||², ||е₂||², ... является монотонно убывающей и должна сходиться к некоторому предельному значению ||е||². Однако в условиях рассматриваемой сходимости вектор Y^t|e_k| должен сходиться^³ к нулю, откуда вытекает, что |e_k| и, следовательно, e_k также должен сходиться к нулю. Поскольку e_k начинается с положительного значения и никогда не убывает, отсюда следует, что a_k должен сходиться к разделяющему вектору. Более того, при использовании вышеприведенного утверждения решение фактически получается после конечного числа шагов.

В случае неразделяемых множеств вектор e_k может либо быть ненулевым, либо не сходиться к нулю. Может оказаться, что на некотором шаге будет Y^t| e_k|=0; это доказывает наличие неразделяемости множеств. Однако возможна и другая ситуация, при которой коррекции никогда не прекращаются. В данном случае из этого опять следует, что последовательность ||е₁||², ||е₂||², ... должна сходиться к предельному значению ||е||² ≠ 0 и что вектор Y^t||e_k|| должен сходиться к нулю. Таким образом, опять получаем очевидность неразделяемости в случае неразделяемых множеств.

Заканчивая разбор данной темы, коротко рассмотрим вопрос выбора ρ н R. Простейшим вариантом выбора R является единичная матрица, в случае которой А=2ρI – ρ²Y^tY. Данная матрица будет положительно определенной, что гарантирует условие сходимости, если 0<ρ<2/ λ_max, где λ_max является наибольшим собственным значением матрицы Y^tY. Поскольку след матрицы Y^tY представляется как суммой собственных значений матрицы Y^tY, так и суммой квадратов элементов матрицы Y, то при выборе величины ρ может быть использована пессимистическая граница, а именно λ_max ≤ ∑||y_i||².

Более интересный подход состоит в выборе такого значения ρ на каждом шаге, которое минимизирует выражение||е_k||² - ||е_k+1||².

Из соотношений (72) и (73) получаем

Дифференцируя по ρ, получаем оптимальную величину ρ_k, выражаемую отношением

которое приR=I упрощается до выражения

Такой же подход можно применить для выбора матрицы R. Заменяя R в соотношении (74) симметричной матрицей R+δR и отбрасывая члены второго порядка, получаем выражение

Таким образом, уменьшение вектора квадратичной ошибки максимизируется при выборе

и, поскольку ρRY^t=Y^† , алгоритм спуска становится, по существу, аналогичным первоначальному алгоритму Хо — Кашьяпа.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 1314 / 1914 15 16 17 18 19 > Следующая >>>

Соседние файлы в папке Анализ и интерпретация данных

#
01.05.20142.53 Mб114Глава_3.doc
#
01.05.20144.12 Mб108Глава_4.doc
#
01.05.20142.76 Mб106Глава_5.DOC
#
01.05.201410.78 Mб110Глава_6.DOC