- •Глава 5 линейные разделяющие функции
- •5.1. Введение
- •5.2. Линейные разделяющие функции и поверхности решений
- •5.2.1. Случай двух классов
- •5.2.2. Случай многих классов
- •5.3. Обобщенные линейные разделяющие функции
- •5.4. Случай двух линейно разделимых классов
- •5.4.1. Геометрия и принятая терминология
- •5.4.2. Процедуры основанные на методе градиентного спуска
- •5.5. Минимизация персептронной функции критерия
- •5.5.1. Персептронная функция критерия
- •5.5.2. Доказательство сходимости для случая коррекции по одной выборке
- •5.5.3. Некоторые непосредственные обобщения
- •5.6. Процедуры релаксаций
- •5.6.1. Алгоритм спуска
- •5.6.2. Доказательство сходимости
- •5.7. Поведение процедур в случае неразделяемых множеств
- •5.8. Процедуры минимизации квадратичной ошибки
- •5.8.1. Минимальная квадратичная ошибка и псевдообращение
- •5.8.2. Связь с линейным дискриминантом Фишера
- •5.8.3. Асимптотическое приближение к оптимальному дискриминанту
- •5.8.4. Процедура Видроу - Хоффа
- •5.8.5. Методы стохастической аппроксимации
- •5.9. Процедуры Хо — Кашьяпа
- •5.9.1. Процедура спуска
- •5.9.2. Доказательство сходимости
- •5.9.3. Поведение в случае неразделяемых множеств
- •5.9.4. Некоторые связанные процедуры
- •5.10. Процедуры линейного программирования
- •5.10.1. Линейное программирование
- •5.10.2. Случай линейно разделяемых множеств
- •5.10.3. Минимизация персептронной функции критерия
- •5.10.4. Замечания
- •5.11. Метод потенциальных функций
- •5.12. Обобщения для случая многих классов
- •5.12.1. Метод Кеслера
- •5.12.2. Правило постоянных приращений
- •5.12.3. Обобщение метода наименьших квадратов
- •5.13. Библиографические и исторические сведения
5.5.3. Некоторые непосредственные обобщения
Правило постоянного приращения можно обобщить с целью выделения связанных между собой алгоритмов. Коротко будут рассмотрены два наиболее интересных варианта. В первом варианте вводится понятие переменного приращения и допуск b и предусматривается коррекция, когда величина является недостаточной для превышения допуска. Алгоритм задается в следующем виде:
(20)
где теперь b для всех k. Можно показать, что, если выборки линейно разделяемы и если
(21)
(22)
(23)
ak сходится к вектору решения а, удовлетворяющему условию при всех значенияхi. В частности, условия, налагаемые на , выполняются в том случае, если является положительной константой или убывает как 1/k.
Следующим вариантом, представляющим интерес, является первоначально рассмотренный алгоритм градиентного спуска для Jp:
(24)
где Yk — множество выборок, классифицируемых с ошибкой посредством аk. Легко видеть, что данный алгоритм будет также давать решение, принимая во внимание, что если является вектором решения для последовательности y1, . . ., yn, то он правильно классифицирует корректирующий вектор
Таким образом, если выборки являются линейно разделяемыми, то все возможные виды корректирующих векторов составляют линейно разделяемое множество, и если удовлетворяет соотношениям (21) — (23), то последовательность весовых векторов, получаемая посредством алгоритма градиентного спуска для Jp, всегда будет сходиться к вектору решения.
Интересно заметить, что условия, налагаемые на , удовлетворяются в тех случаях, когда является положительной константой и когда убывает как 1/k или даже возрастает с ростом k. Вообще говоря, предпочтение следует отдавать , уменьшающемуся с течением времени. Это замечание становится особенно существенным, когда есть основание считать, что множество выборок линейно нераз-деляемо, поскольку в данном случае уменьшается отрицательное влияние нескольких «плохих» выборок. Однако то, что в случае разделяемых выборок при увеличении получение решения оказывается все же возможным, кажется довольно странным.
Из данного наблюдения вытекает одно из различий между теоретическим и практическим взглядами на эту проблему. С теоретической точки зрения представляется интересным тот факт, что решение можно получить при наличии конечного числа шагов в случае любого ограниченного множества разделяемых выборок, при любом начальном весовом векторе a1, при любом неотрицательном значении допуска b и при любом скалярном коэффициенте , удовлетворяющем соотношениям (21) — (23). С практической точки зрения желательно производить разумный выбор указанных величин. Рассмотрим, например, допуск b. Если b намного меньше ||yk||2, т.е. той величины, на которую возрастает в результате коррекции, то очевидно, что b будет оказывать совсем малое влияние. Если b намного превосходит величину ||yk||2, то потребуется большое число коррекций, чтобы добиться выполнения условия >b. Часто в качестве компромиссного подхода используют величину, близкую к ||yk||2. Кроме указанных вариантов выбора и b, большое влияние на результат может оказывать масштабирование компонент вектора уk. Наличие теоремы сходимости не избавляет от необходимости сознательного подхода при использовании данных методик.