- •Глава 5 линейные разделяющие функции
- •5.1. Введение
- •5.2. Линейные разделяющие функции и поверхности решений
- •5.2.1. Случай двух классов
- •5.2.2. Случай многих классов
- •5.3. Обобщенные линейные разделяющие функции
- •5.4. Случай двух линейно разделимых классов
- •5.4.1. Геометрия и принятая терминология
- •5.4.2. Процедуры основанные на методе градиентного спуска
- •5.5. Минимизация персептронной функции критерия
- •5.5.1. Персептронная функция критерия
- •5.5.2. Доказательство сходимости для случая коррекции по одной выборке
- •5.5.3. Некоторые непосредственные обобщения
- •5.6. Процедуры релаксаций
- •5.6.1. Алгоритм спуска
- •5.6.2. Доказательство сходимости
- •5.7. Поведение процедур в случае неразделяемых множеств
- •5.8. Процедуры минимизации квадратичной ошибки
- •5.8.1. Минимальная квадратичная ошибка и псевдообращение
- •5.8.2. Связь с линейным дискриминантом Фишера
- •5.8.3. Асимптотическое приближение к оптимальному дискриминанту
- •5.8.4. Процедура Видроу - Хоффа
- •5.8.5. Методы стохастической аппроксимации
- •5.9. Процедуры Хо — Кашьяпа
- •5.9.1. Процедура спуска
- •5.9.2. Доказательство сходимости
- •5.9.3. Поведение в случае неразделяемых множеств
- •5.9.4. Некоторые связанные процедуры
- •5.10. Процедуры линейного программирования
- •5.10.1. Линейное программирование
- •5.10.2. Случай линейно разделяемых множеств
- •5.10.3. Минимизация персептронной функции критерия
- •5.10.4. Замечания
- •5.11. Метод потенциальных функций
- •5.12. Обобщения для случая многих классов
- •5.12.1. Метод Кеслера
- •5.12.2. Правило постоянных приращений
- •5.12.3. Обобщение метода наименьших квадратов
- •5.13. Библиографические и исторические сведения
5.12. Обобщения для случая многих классов
5.12.1. Метод Кеслера
Унас пока не существует единого универсального метода, с помощью которого можно было бы распространить все процедуры для двух классов на случай многих классов. В разд. 5.2.2 было приведено определение классификатора для случая многих классов, названного линейной машиной; классификация образов осуществляется линейной машиной путем вычисления с линейных разделяющих функций
при этом х относится к тому классу, которому соответствует наибольшая gi (х). Этодовольно естественное обобщение с точки зрения результатов, полученных в гл. 2 для задачи с многомерным нормальным распределением. Следующий шаг, очевидно, может быть связан с обобщением понятия линейной разделяющей функции; введем вектор-функцию у(х), зависящую от х, и напишем выражение
где х снова ставится в соответствие о,, еслиgi(x)> gj (x) для всех ij.
Обобщение процедур, рассмотренных для линейного классификатора двух классов, на случай линейной машины для многих классов наиболее просто осуществляется при линейно разделяемых выборках. Пустьимеется множество помеченных выборок y1,y2,…,yn, причем число п1 выборок, принадлежащих подмножеству Y,1 помечены 1, число п2 выборок, принадлежащих подмножеству Y2, помечены 2,... и число пc выборок подмножества Y,c помечены c . Говорят, что данное множество линейно разделяемо в том случае, если существует такая линейная машина, которая правильно классифицирует все выборки. Далее, если эти выборки линейно разделимы, то существует множество весовых векторов, 1..., c таких, что если ykY iто
для всехij.
Одним из преимуществ такого определения является то, что, несколько видоизменив неравенства (89), можно свести задачу для многих классов к случаю двух классов. Предположим на минуту, чтоу Y,1 так что выражение (89) принимает вид
Это множество(с — 1) неравенств можно интерпретировать как требование существования c-мерного весового вектора
который бы правильно классифицировал все (с—1) c-мерных выборок
Вболее общем случае, еслиуY,i то формируется (с— 1) с-мерных выборок ij с разбиением ij на c-мерные подвекторы, причем i-й подвектор равен у, j-й равен -y, а все остальные являются нулевыми. Очевидно, что если tij>0 для всех ij, то линейная машина, соответствующая компонентам вектора се, будет правильно классифицировать у.
В описанной процедуре, которая была предложена К. Кеслером, размерность исходных данных увеличивается в с раз, а число выборок—в с—1 раз; это делает ее непосредственное применение достаточно трудоемким и поэтому малопригодным. Значение же данного метода определяется тем, что он позволяет свести процедуру коррекции ошибок в задаче многих классов к случаю двух классов, а последнее чрезвычайно важно для доказательства сходимости указанной процедуры.
5.12.2. Правило постоянных приращений
Вданном пункте для доказательства сходимости обобщенного па случай линейной машины правила постоянных приращений используется метод Кеслера. Пусть имеется множествоп линейно разделяемых выборок y1,…,yn; сформируем на их основе бесконечную последовательность, в которой каждая из выборок появляется бесконечное множество раз. Обозначим через Lk линейную машину с весовыми векторами a1(k), ..., a2(k). Начиная с исходной, произвольно выбранной линейной машины L1 и используя последовательность выборок, сформируем последовательность линейных машин, сходящуюся к решающей линейной машине, причем эта последняя будет классифицировать все выборки правильно. Предложим правило коррекции ошибок, в соответствии с которым изменения весов производятся только в том случае, если текущая линейная машина делает ошибку при классификации одной из выборок. Обозначим k-ю выборку, которой необходима коррекция, через уk и предположим, что у* $?У,. Поскольку коррекция вызвана ошибкой при классификации уk, то должно существовать по крайней мере одно ij, для которого
Тогда правило постоянных приращений для коррекции Lk примет вид
Покажем теперь, что данное правило должно привести к решающей машине после конечного числа коррекций. Доказательство проводится достаточно просто. Каждой линейной машине соответствует весовой вектор
Для каждой выборкиyY;i существуют с—1 выборок ij (правило их формирования описано в предыдущем пункте). В частности, для вектора уk, удовлетворяющего неравенствам (91), существует вектор
удовлетворяющий условию
Более того, правило постоянных приращений для коррекцииLk в точности совпадает с таким же правилом для коррекции k, т. е.
Таким образом, мы пришли к полному соответствию между случаем многих классов и случаем двух классов; при этом в процедуре для многих классов используется последовательность выборок 1,2,…,k,… и последовательность весовых векторов 1, 2,…, k,…. В соответствии с результатами, полученными для случая двух классов, последняя из указанных последовательностей не может быть бесконечной и должна заканчиваться вектором решения. Следовательно, и последовательность L1, L2, . . . ,Lk, . . . должна приходить к решающей машине после конечного числа коррекции.
Использование метода Кеслера для установления эквивалентности процедур для случаев двух и многих классов представляет собой мощное теоретическое средство. Он может быть использован для распространения на случай многих классов тех результатов, которые были получены ранее при исследовании процедур персептрона и метода релаксаций. То же утверждение справедливо и для правил коррекции ошибок в методе потенциальных функций. К сожалению, непосредственное использование изложенной методики невозможно для обобщения метода наименьших квадратов и линейного программирования.