- •Глава 5 линейные разделяющие функции
- •5.1. Введение
- •5.2. Линейные разделяющие функции и поверхности решений
- •5.2.1. Случай двух классов
- •5.2.2. Случай многих классов
- •5.3. Обобщенные линейные разделяющие функции
- •5.4. Случай двух линейно разделимых классов
- •5.4.1. Геометрия и принятая терминология
- •5.4.2. Процедуры основанные на методе градиентного спуска
- •5.5. Минимизация персептронной функции критерия
- •5.5.1. Персептронная функция критерия
- •5.5.2. Доказательство сходимости для случая коррекции по одной выборке
- •5.5.3. Некоторые непосредственные обобщения
- •5.6. Процедуры релаксаций
- •5.6.1. Алгоритм спуска
- •5.6.2. Доказательство сходимости
- •5.7. Поведение процедур в случае неразделяемых множеств
- •5.8. Процедуры минимизации квадратичной ошибки
- •5.8.1. Минимальная квадратичная ошибка и псевдообращение
- •5.8.2. Связь с линейным дискриминантом Фишера
- •5.8.3. Асимптотическое приближение к оптимальному дискриминанту
- •5.8.4. Процедура Видроу - Хоффа
- •5.8.5. Методы стохастической аппроксимации
- •5.9. Процедуры Хо — Кашьяпа
- •5.9.1. Процедура спуска
- •5.9.2. Доказательство сходимости
- •5.9.3. Поведение в случае неразделяемых множеств
- •5.9.4. Некоторые связанные процедуры
- •5.10. Процедуры линейного программирования
- •5.10.1. Линейное программирование
- •5.10.2. Случай линейно разделяемых множеств
- •5.10.3. Минимизация персептронной функции критерия
- •5.10.4. Замечания
- •5.11. Метод потенциальных функций
- •5.12. Обобщения для случая многих классов
- •5.12.1. Метод Кеслера
- •5.12.2. Правило постоянных приращений
- •5.12.3. Обобщение метода наименьших квадратов
- •5.13. Библиографические и исторические сведения
Глава 5 линейные разделяющие функции
5.1. Введение
В гл. 3 предполагалось, что вид рассматриваемых распределений вероятностей известен, и с помощью выборок производилась оценка их параметров. В данной главе известным будет считаться вид разделяющих функций, и выборки будут использоваться для оценки значений параметров классификаторов. Исследованию подлежат различные процедуры, применяемые для определения разделяющих функций, имеющие как статистический, так и нестатистический характер. Однако ни для одной из них не требуется, чтобы был известен вид рассматриваемых распределений вероятностей, и в этом смысле все их можно считать непараметрическими.
В данной главе будут рассматриваться разделяющие функции, линейные либо по компонентам вектора х, либо по некоторому данному множеству функций от х. Линейные разделяющие функции наиболее удобны с точки зрения аналитического исследования. Как было показано в гл. 2, они могут быть оптимальными, если рассматриваемые распределения согласованы. Даже когда они не оптимальны, может быть следует пренебречь некоторыми качествами ради выигрыша в простоте.
Вычислительный процесс значительно упрощается при использовании линейных разделяющих функций, и классификатор определенной структуры представляется наиболее подходящим средством для реализации в качестве машины специального назначения.
Линейный дискриминант Фишера является моделью в принятом нами подходе. Задача определения линейной разделяющей функции будет сформулирована как задача минимизации некоторой функции критерия. Вполне оправданным является использование выборочного риска в качестве критерия для задач классификации, т. е. средних потерь при классификации множества конструктивных выборок. Однако поскольку получение линейного дискриминанта, дающего минимальный риск, представляется достаточно трудным, в данной главе будет исследовано несколько аналогичных функций критерия, имеющих более простые аналитические выражения. Наибольшее внимание уделяется исследованию сходимости различных процедур градиентного спуска для минимизации этих функций. Сходство многих процедур иногда затрудняет выделение очевидных различий между ними. По этой причине в изложение материала включена сводка основных результатов, данная в табл. 5.1 в конце разд. 5.10.
5.2. Линейные разделяющие функции и поверхности решений
5.2.1. Случай двух классов
Разделяющая функция, представляемая линейной комбинацией компонент вектора х, может быть записана в следующем виде:
(1)
где w называется весовым вектором, а — величиной порога. В основу линейного классификатора для двух классов положено следующее решающее правило: принять решение , если g(x)>0, и , если g(x)<0. Таким образом, х приписывается к , если скалярное произведение wtx превышает порог —. Если g(x)=0, то обычно х можно отнести к любому из классов, однако в данной главе это соответствие будет считаться неопределенным.
Уравнение g(x)=0 определяет поверхность решений, отделяющую точки, соответствующие решению , от точек, соответствующих решению . Когда функция g(x) линейна, данная поверхность представляется гиперплоскостью. Если и x1, и x2 принадлежат поверхности решений, то справедливо следующее выражение:
или
,
так что w есть нормаль по отношению к любому вектору, лежащему в гиперплоскости. В общем случае гиперплоскость H делит пространство признаков на два полупространства: область решений для и область решений для . Поскольку g(x)>0, если х находится в области , то из этого следует, что нормальный вектор w направлен в сторону . В этом случае иногда говорят, что любой вектор х, находящийся в области , лежит на положительной стороне гиперплоскости Н, а любой вектор х, находящийся в области , лежит на отрицательной стороне H.
Разделяющая функция g(x) представляет собой алгебраическое расстояние от х до гиперплоскости. Это становится более очевидным, если выразить х в следующем виде:
,
где Хр—нормальная проекция х на гиперплоскость H, а r — соответствующее алгебраическое расстояние, положительное, если х находится с положительной стороны гиперплоскости, и отрица
тельное, если х находится с отрицательной стороны гиперплоскости. Тогда, поскольку g(xp)=0,
или
В частности, расстояние от начала координат до гиперплоскости Н выражается отношением /||w||. Если <0, начало координат находится с положительной стороны Н; если <0,— с отрицательной стороны Н.
Рис. 5.1.Линейная граница областей решений
Если =0, то функция g(x) становится однородной wtx, и гиперплоскость проходит через начало координат. Геометрическая интерпретация данных результатов приведена на рис. 5.1.
В заключение можно сделать вывод, что линейная разделяющая функция делит пространство признаков поверхностью решений, представляющей собой гиперплоскость. Способ ориентации данной поверхности задается нормальным вектором w, а положение ее — величиной порога . Разделяющая функция g(x) пропорциональна взятому со знаком расстоянию от х до гиперплоскости, при этом g(x)>0, когда х находится с положительной стороны гиперплоскости, и g(x)<0, когда х находится с отрицательной стороны.