- •Глава 5 линейные разделяющие функции
- •5.1. Введение
- •5.2. Линейные разделяющие функции и поверхности решений
- •5.2.1. Случай двух классов
- •5.2.2. Случай многих классов
- •5.3. Обобщенные линейные разделяющие функции
- •5.4. Случай двух линейно разделимых классов
- •5.4.1. Геометрия и принятая терминология
- •5.4.2. Процедуры основанные на методе градиентного спуска
- •5.5. Минимизация персептронной функции критерия
- •5.5.1. Персептронная функция критерия
- •5.5.2. Доказательство сходимости для случая коррекции по одной выборке
- •5.5.3. Некоторые непосредственные обобщения
- •5.6. Процедуры релаксаций
- •5.6.1. Алгоритм спуска
- •5.6.2. Доказательство сходимости
- •5.7. Поведение процедур в случае неразделяемых множеств
- •5.8. Процедуры минимизации квадратичной ошибки
- •5.8.1. Минимальная квадратичная ошибка и псевдообращение
- •5.8.2. Связь с линейным дискриминантом Фишера
- •5.8.3. Асимптотическое приближение к оптимальному дискриминанту
- •5.8.4. Процедура Видроу - Хоффа
- •5.8.5. Методы стохастической аппроксимации
- •5.9. Процедуры Хо — Кашьяпа
- •5.9.1. Процедура спуска
- •5.9.2. Доказательство сходимости
- •5.9.3. Поведение в случае неразделяемых множеств
- •5.9.4. Некоторые связанные процедуры
- •5.10. Процедуры линейного программирования
- •5.10.1. Линейное программирование
- •5.10.2. Случай линейно разделяемых множеств
- •5.10.3. Минимизация персептронной функции критерия
- •5.10.4. Замечания
- •5.11. Метод потенциальных функций
- •5.12. Обобщения для случая многих классов
- •5.12.1. Метод Кеслера
- •5.12.2. Правило постоянных приращений
- •5.12.3. Обобщение метода наименьших квадратов
- •5.13. Библиографические и исторические сведения
5.11. Метод потенциальных функций
Рассмотрение способов определения линейных разделяющих функций будет неполным, если мы не упомянем о методе потенциальных функций. Данный подход тесно связан с некоторыми уже рассмотренными нами методами, такими, как оценки парзеновского окна, метод персептрона и метод стохастической аппроксимации. Толчком к созданию метода потенциальных функций послужило следующее обстоятельство; если выборки хi представлять себе как точки некоторого пространства и в эти точки поместить заряды соответственно +qi если хi помечено символом ω1, и -qi, если хi
Рис. 5.12.Поле распределения потенциала как разделяющая функция. О —выборки класса 1, X —выборки класса 2.
помечено символом ω1, то, возможно, функцию, описывающую распределение электростатического потенциала в таком поле, можно будет использовать в качестве разделяющей функции (рис. 5.12). Если потенциал точки х, создаваемый единичным зарядом, находящимся в точке хi равен K(х, хi), то потенциал, создаваемый n зарядами в точке х, определяется выражением
Потенциальная функция К (х, хi), используемая в классической физике, обратно пропорциональна величине ||х—хi||. Имеется и много других функций, которые с таким же успехом могут быть использованы для наших целей. Существует очевидная аналогия между функцией К (х, хi) и функцией парзеновского окна φ [(х, хi)/h]; по своему виду разделяющая функция g(x) очень похожа на разность оценок парзеновского окна для случая двухплотностей. Но поскольку нашей задачей является лишь построение нужной разделяющей функции, в этом смысле значительно меньше ограничений существует при выборе потенциальной функции, чем при выборе функции окна. Наиболее часто используется такая потенциальная функция, которая имеет максимум при х=хi и монотонно убывает до нуля при ||х-хi||→∞. Однако в случае необходимости и эти ограничения можно снять.
Пусть имеется множество из п выборок, а разделяющая функция сформирована в соответствии с выражением (85). Предположим далее, что при проверке обнаружено, что некоторая выборка, скажем xk посредством функции g(х) классифицируется с ошибкой. Попробуем исправить ошибку, изменив немного величину qk 5. Предположим, что значение qk увеличивается на величину единичного заряда, если хk помечено символом ω1, и уменьшается на такую же величину, если хk помечено символом ω2. Если обозначить значение разделяющей функции после коррекции через g'(х), то алгоритм формирования данной функции может быть записан в следующем виде:
Данное правило коррекции ошибок имеет много общего с правилом постоянных приращений. Природа этой связи станет вполне понятна, если представитьK(х, хi) в виде симметричного конечного разложения
где у=у(х) и yk = y(хk). Подставив данное выражение в (85), получим
Более того, алгоритм для вычисления g' (х) на основе использования g (х) представляет лишь ненормированное правило постоянных приращений:
если ykпомечено символом1иatyk≤0
если ykпомечено символом2иatyk≥0
в остальных случаях
Таким образом, если K(x,xk) может быть представлено в виде выражения (87), сходимость доказывается точно так же, как и для правила постоянных приращений. Более того, является очевидным, что при использовании других процедур, таких, как метод релаксаций, метод наименьшей квадратичной ошибки и метод стохастической аппроксимации, можно сразу же получить «параллельные» им процедуры, основанные на применении потенциальных функций; при этом доказательства сходимости таких «параллельных» процедур совершенно аналогичны.
Метод потенциальных функций, конечно, не ограничивается использованием только таких функций, которые имеют вид конечной суммы. Любая подходящая для наших целей функция, такая, например, как
или
может быть выбрана в качестве потенциальной6; разделяющая функция получится, если рассматривать выборки последовательно: х1, х2, ... , xk, ... и использовать какую-либо итеративную процедуру, например
гдеrk— некоторая функция ошибки.
При практическом применении метода потенциальных функций встречаются те же трудности, что и при использовании оценок парзеновского окна. Необходимо очень внимательно отнестись к выбору потенциальной функции, чтобы получить хорошую интерполяцию между точками выборки. При большом числе выборок появляются значительные трудности, связанные с процессом вычисления. Вообще использование метода потенциальных функций наиболее оправдано в случае, когда либо число выборок невелико, либо размерность х достаточно мала, чтобы функцию g(х) можно было представить в виде таблицы дискретных значений х.