Скачиваний:
106
Добавлен:
01.05.2014
Размер:
2.76 Mб
Скачать

5.9.3. Поведение в случае неразделяемых множеств

Если только что приведенное доказательство сходимости рассмотреть с целью выяснения использования предположения о разделяемости, то окажется, что данное предположение было использовано дважды. Во-первых, было использовано соотношение еkt =0, чтобы показать, что либоеk+=0 при некотором конечном k, либо еk+ никогда не станет нулевым и коррекции не прекратятся. Во-вторых, такое же условие было использовано с целью показать, что если еk+ сходится к нулю, то еk тоже должно сходиться к нулю.

Если выборки линейно не разделяемы, то из этого больше не следует, что при еk+ равном нулю, еk тоже должно быть равным нулю. Действительно, для задачи с неразделяемым множеством вполне можно получить ненулевой вектор ошибки с положительными компонентами. Если это происходит, алгоритм автоматически останавливается и обнаруживается, что выборки неразделяемы.

Что получается, если образы неразделяемы, a еk+никогда не обращается в нуль? В данном случае все же выполняются

Таким образом, последовательность ||е1||2, |е2||2, ... все еще сходится, хотя предельное значение ||е||2 может не быть равным нулю. Поскольку условие сходимости требует, чтобы вектор еk+ сходился к нулю, можно сделать заключение, что либо еk+=0 при некотором конечном k, либо еk+ сходится к нулю, тогда как значение ||еk+||отличается от нулевого. Таким образом, алгоритм Хо—Кашьяп, дает разделяющий вектор для случая разделяемых множеств и явно обнаруживает неразделяемость для случая неразделяемых множеств. Однако не существует ограничения числа шагов, необходимых для обнаружения неразделяемости.

5.9.4. Некоторые связанные процедуры

Если записать равенство Y= (YtY)-1Yt и использовать соотношение Ytek=0, то алгоритм Хо — Кашьяпа можно представить в виде

где, как обычно,

Данный алгоритм отличается от алгоритмов персептрона и релаксаций для решения линейных неравенств по крайней мере тремя свойствами: 1)он изменяет как весовой вектор а, так и вектор допуска b, 2) он явно обнаруживает наличие неразделяемости, однако 3) требует псевдообращения Y. Даже при однократном проведении указанного вычисления необходимо затратить некоторое время и применить специальную обработку, если матрица YtY вырождена. Другой алгоритм, представляющий интерес, имеет сходство с (69), но исключает необходимость вычисления Y. Он записывается следующим образом:

где R является произвольно выбранной постоянной положительно определенной матрицей размера ×. Покажем, что при правильном выборе ρ данный алгоритм также будет давать вектор решения за конечное число шагов, при условии что решение существует. Более того, если решение не существует, вектор Yt|ek| либо обращается в нуль, указывая на неразделяемость, либо сходится к нулю.

Доказательство проводится весьма непосредственно. В случае, когда выборки либо линейно разделяемы, либо линейно неразде­ляемы, соотношения (70) и (71) показывают, что

Очевидно, что если ρ положительно, но достаточно мало, матрица А будет приблизительно равна 2ρR и, следовательно, будет положительно определенной. Таким образом, если Yt| ek| ≠ 0, получим ||ek||2 > ||ek+1||2.

Здесь следует провести различие между случаями разделяемых и неразделяемых множеств. При наличии разделяемого множества существуют векторы и>0, удовлетворяющие выражениюY=. Таким образом, если | ek| ≠ 0, то справедливо соотношение

так что векторYt| ek| не может быть нулевым, если ek не равно нулю. Таким образом, последовательность ||е1||2, ||е2||2, ... является монотонно убывающей и должна сходиться к некоторому предельному значению ||е||2. Однако в условиях рассматриваемой сходимости вектор Yt|ek| должен сходиться3 к нулю, откуда вытекает, что |ek| и, следовательно, ek также должен сходиться к нулю. Поскольку ek начинается с положительного значения и никогда не убывает, отсюда следует, что ak должен сходиться к разделяющему вектору. Более того, при использовании вышеприведенного ут­верждения решение фактически получается после конечного числа шагов.

В случае неразделяемых множеств вектор ek может либо быть ненулевым, либо не сходиться к нулю. Может оказаться, что на некотором шаге будет Yt| ek|=0; это доказывает наличие неразделяемости множеств. Однако возможна и другая ситуация, при которой коррекции никогда не прекращаются. В данном случае из этого опять следует, что последовательность ||е1||2, ||е2||2, ... должна сходиться к предельному значению ||е||2 ≠ 0 и что вектор Yt||ek|| должен сходиться к нулю. Таким образом, опять получаем очевидность неразделяемости в случае неразделяемых множеств.

Заканчивая разбор данной темы, коротко рассмотрим вопрос выбора ρ н R. Простейшим вариантом выбора R является единичная матрица, в случае которой А=2ρIρ2YtY. Данная матрица будет положительно определенной, что гарантирует условие сходимости, если 0<ρ<2/ λmax, где λmax является наибольшим собственным значением матрицы YtY. Поскольку след матрицы YtY представляется как суммой собственных значений матрицы YtY, так и суммой квадратов элементов матрицы Y, то при выборе величины ρ может быть использована пессимистическая граница, а именно λmax ≤ ∑||yi||2.

Более интересный подход состоит в выборе такого значения ρ на каждом шаге, которое минимизирует выражение||еk||2 - ||еk+1||2.

Из соотношений (72) и (73) получаем

Дифференцируя по ρ, получаем оптимальную величину ρk, выражаемую отношением

которое приR=I упрощается до выражения

Такой же подход можно применить для выбора матрицы R. Заменяя R в соотношении (74) симметричной матрицей R+δR и отбрасывая члены второго порядка, получаем выражение

Таким образом, уменьшение вектора квадратичной ошибки макси­мизируется при выборе

и, поскольку ρRYt=Y , алгоритм спуска становится, по существу, аналогичным первоначальному алгоритму Хо — Кашьяпа.

Соседние файлы в папке Анализ и интерпретация данных