- •Глава 5 линейные разделяющие функции
- •5.1. Введение
- •5.2. Линейные разделяющие функции и поверхности решений
- •5.2.1. Случай двух классов
- •5.2.2. Случай многих классов
- •5.3. Обобщенные линейные разделяющие функции
- •5.4. Случай двух линейно разделимых классов
- •5.4.1. Геометрия и принятая терминология
- •5.4.2. Процедуры основанные на методе градиентного спуска
- •5.5. Минимизация персептронной функции критерия
- •5.5.1. Персептронная функция критерия
- •5.5.2. Доказательство сходимости для случая коррекции по одной выборке
- •5.5.3. Некоторые непосредственные обобщения
- •5.6. Процедуры релаксаций
- •5.6.1. Алгоритм спуска
- •5.6.2. Доказательство сходимости
- •5.7. Поведение процедур в случае неразделяемых множеств
- •5.8. Процедуры минимизации квадратичной ошибки
- •5.8.1. Минимальная квадратичная ошибка и псевдообращение
- •5.8.2. Связь с линейным дискриминантом Фишера
- •5.8.3. Асимптотическое приближение к оптимальному дискриминанту
- •5.8.4. Процедура Видроу - Хоффа
- •5.8.5. Методы стохастической аппроксимации
- •5.9. Процедуры Хо — Кашьяпа
- •5.9.1. Процедура спуска
- •5.9.2. Доказательство сходимости
- •5.9.3. Поведение в случае неразделяемых множеств
- •5.9.4. Некоторые связанные процедуры
- •5.10. Процедуры линейного программирования
- •5.10.1. Линейное программирование
- •5.10.2. Случай линейно разделяемых множеств
- •5.10.3. Минимизация персептронной функции критерия
- •5.10.4. Замечания
- •5.11. Метод потенциальных функций
- •5.12. Обобщения для случая многих классов
- •5.12.1. Метод Кеслера
- •5.12.2. Правило постоянных приращений
- •5.12.3. Обобщение метода наименьших квадратов
- •5.13. Библиографические и исторические сведения
5.9.3. Поведение в случае неразделяемых множеств
Если только что приведенное доказательство сходимости рассмотреть с целью выяснения использования предположения о разделяемости, то окажется, что данное предположение было использовано дважды. Во-первых, было использовано соотношение еkt =0, чтобы показать, что либоеk+=0 при некотором конечном k, либо еk+ никогда не станет нулевым и коррекции не прекратятся. Во-вторых, такое же условие было использовано с целью показать, что если еk+ сходится к нулю, то еk тоже должно сходиться к нулю.
Если выборки линейно не разделяемы, то из этого больше не следует, что при еk+ равном нулю, еk тоже должно быть равным нулю. Действительно, для задачи с неразделяемым множеством вполне можно получить ненулевой вектор ошибки с положительными компонентами. Если это происходит, алгоритм автоматически останавливается и обнаруживается, что выборки неразделяемы.
Что получается, если образы неразделяемы, a еk+никогда не обращается в нуль? В данном случае все же выполняются
Таким образом, последовательность ||е1||2, |е2||2, ... все еще сходится, хотя предельное значение ||е||2 может не быть равным нулю. Поскольку условие сходимости требует, чтобы вектор еk+ сходился к нулю, можно сделать заключение, что либо еk+=0 при некотором конечном k, либо еk+ сходится к нулю, тогда как значение ||еk+||отличается от нулевого. Таким образом, алгоритм Хо—Кашьяп, дает разделяющий вектор для случая разделяемых множеств и явно обнаруживает неразделяемость для случая неразделяемых множеств. Однако не существует ограничения числа шагов, необходимых для обнаружения неразделяемости.
5.9.4. Некоторые связанные процедуры
Если записать равенство Y†= (YtY)-1Yt и использовать соотношение Ytek=0, то алгоритм Хо — Кашьяпа можно представить в виде
где, как обычно,
Данный алгоритм отличается от алгоритмов персептрона и релаксаций для решения линейных неравенств по крайней мере тремя свойствами: 1)он изменяет как весовой вектор а, так и вектор допуска b, 2) он явно обнаруживает наличие неразделяемости, однако 3) требует псевдообращения Y. Даже при однократном проведении указанного вычисления необходимо затратить некоторое время и применить специальную обработку, если матрица YtY вырождена. Другой алгоритм, представляющий интерес, имеет сходство с (69), но исключает необходимость вычисления Y†. Он записывается следующим образом:
где R является произвольно выбранной постоянной положительно определенной матрицей размера ×. Покажем, что при правильном выборе ρ данный алгоритм также будет давать вектор решения за конечное число шагов, при условии что решение существует. Более того, если решение не существует, вектор Yt|ek| либо обращается в нуль, указывая на неразделяемость, либо сходится к нулю.
Доказательство проводится весьма непосредственно. В случае, когда выборки либо линейно разделяемы, либо линейно неразделяемы, соотношения (70) и (71) показывают, что
Очевидно, что если ρ положительно, но достаточно мало, матрица А будет приблизительно равна 2ρR и, следовательно, будет положительно определенной. Таким образом, если Yt| ek| ≠ 0, получим ||ek||2 > ||ek+1||2.
Здесь следует провести различие между случаями разделяемых и неразделяемых множеств. При наличии разделяемого множества существуют векторы и>0, удовлетворяющие выражениюY=. Таким образом, если | ek| ≠ 0, то справедливо соотношение
так что векторYt| ek| не может быть нулевым, если ek не равно нулю. Таким образом, последовательность ||е1||2, ||е2||2, ... является монотонно убывающей и должна сходиться к некоторому предельному значению ||е||2. Однако в условиях рассматриваемой сходимости вектор Yt|ek| должен сходиться3 к нулю, откуда вытекает, что |ek| и, следовательно, ek также должен сходиться к нулю. Поскольку ek начинается с положительного значения и никогда не убывает, отсюда следует, что ak должен сходиться к разделяющему вектору. Более того, при использовании вышеприведенного утверждения решение фактически получается после конечного числа шагов.
В случае неразделяемых множеств вектор ek может либо быть ненулевым, либо не сходиться к нулю. Может оказаться, что на некотором шаге будет Yt| ek|=0; это доказывает наличие неразделяемости множеств. Однако возможна и другая ситуация, при которой коррекции никогда не прекращаются. В данном случае из этого опять следует, что последовательность ||е1||2, ||е2||2, ... должна сходиться к предельному значению ||е||2 ≠ 0 и что вектор Yt||ek|| должен сходиться к нулю. Таким образом, опять получаем очевидность неразделяемости в случае неразделяемых множеств.
Заканчивая разбор данной темы, коротко рассмотрим вопрос выбора ρ н R. Простейшим вариантом выбора R является единичная матрица, в случае которой А=2ρI – ρ2YtY. Данная матрица будет положительно определенной, что гарантирует условие сходимости, если 0<ρ<2/ λmax, где λmax является наибольшим собственным значением матрицы YtY. Поскольку след матрицы YtY представляется как суммой собственных значений матрицы YtY, так и суммой квадратов элементов матрицы Y, то при выборе величины ρ может быть использована пессимистическая граница, а именно λmax ≤ ∑||yi||2.
Более интересный подход состоит в выборе такого значения ρ на каждом шаге, которое минимизирует выражение||еk||2 - ||еk+1||2.
Из соотношений (72) и (73) получаем
Дифференцируя по ρ, получаем оптимальную величину ρk, выражаемую отношением
которое приR=I упрощается до выражения
Такой же подход можно применить для выбора матрицы R. Заменяя R в соотношении (74) симметричной матрицей R+δR и отбрасывая члены второго порядка, получаем выражение
Таким образом, уменьшение вектора квадратичной ошибки максимизируется при выборе
и, поскольку ρRYt=Y† , алгоритм спуска становится, по существу, аналогичным первоначальному алгоритму Хо — Кашьяпа.