- •Глава 5 линейные разделяющие функции
- •5.1. Введение
- •5.2. Линейные разделяющие функции и поверхности решений
- •5.2.1. Случай двух классов
- •5.2.2. Случай многих классов
- •5.3. Обобщенные линейные разделяющие функции
- •5.4. Случай двух линейно разделимых классов
- •5.4.1. Геометрия и принятая терминология
- •5.4.2. Процедуры основанные на методе градиентного спуска
- •5.5. Минимизация персептронной функции критерия
- •5.5.1. Персептронная функция критерия
- •5.5.2. Доказательство сходимости для случая коррекции по одной выборке
- •5.5.3. Некоторые непосредственные обобщения
- •5.6. Процедуры релаксаций
- •5.6.1. Алгоритм спуска
- •5.6.2. Доказательство сходимости
- •5.7. Поведение процедур в случае неразделяемых множеств
- •5.8. Процедуры минимизации квадратичной ошибки
- •5.8.1. Минимальная квадратичная ошибка и псевдообращение
- •5.8.2. Связь с линейным дискриминантом Фишера
- •5.8.3. Асимптотическое приближение к оптимальному дискриминанту
- •5.8.4. Процедура Видроу - Хоффа
- •5.8.5. Методы стохастической аппроксимации
- •5.9. Процедуры Хо — Кашьяпа
- •5.9.1. Процедура спуска
- •5.9.2. Доказательство сходимости
- •5.9.3. Поведение в случае неразделяемых множеств
- •5.9.4. Некоторые связанные процедуры
- •5.10. Процедуры линейного программирования
- •5.10.1. Линейное программирование
- •5.10.2. Случай линейно разделяемых множеств
- •5.10.3. Минимизация персептронной функции критерия
- •5.10.4. Замечания
- •5.11. Метод потенциальных функций
- •5.12. Обобщения для случая многих классов
- •5.12.1. Метод Кеслера
- •5.12.2. Правило постоянных приращений
- •5.12.3. Обобщение метода наименьших квадратов
- •5.13. Библиографические и исторические сведения
5.4. Случай двух линейно разделимых классов
5.4.1. Геометрия и принятая терминология
Предположим теперь, что имеется множество п выборок y1, . . ., yn, часть которых помечена , а часть. Данные выборки мы хотели бы использовать для определения весов в линейной разделяющей функции g(x)=aty. Предположим, имеется основание считать, что существует решение, для которого вероятность ошибки очень и очень мала. Тогда разумный подход будет заключаться в нахождении весового вектора, который правильно классифицировал бы все выборки. Если такой весовой вектор существует, то выборки называются линейно разделяемыми. Выборка , классифицируется правильно, если аt>0 и , помечен или если аt<0 и помечен . Можно заметить, что во втором случае , будет классифицироваться правильно, если
Рис. 5.6.Линейно разделяемые выборки и область решения в весовом пространстве.
а —случай с нормированием,б —случай без нормирования.
Рис. 5.7.Влияние допуска на область решения.
а —случаи б=0,б—случайb=||y2||.
аt(—)>0. Это наводит на мысль о введении нормирования, с помощью которого будет упрощено рассмотрение случая двух классов, а именно будет произведена замена всех выборок, обозначенных символом , их отрицаниями. При введении указанного нормирования можно забыть об индексах и искать такой весовой вектор а, чтобы для всех выборок выполнялось соотношение аt>0. Данный весовой вектор называется разделяющим вектором или вектором решения.
Можно считать, что весовой вектор а определяет точку в весовом пространстве. Каждая выборка у, накладывает ограничение на возможное расположение вектора решения. Уравнение аt=0 определяет гиперплоскость, проходящую через начало координат в весовом пространстве, для которой является нормальным вектором. Вектор решения, если он существует, должен находиться с положительной стороны каждой гиперплоскости.
Таким образом, вектор решения должен лежать в пересечении п полупространств, и любой вектор, находящийся в данной области, будет являться вектором решения. Соответствующая область называется областью решений. На рис. 5.6 изображена область решений при нормировании и без нормирования на примере двумерного случая.
Из сказанного следует, что если существует вектор решения, то он не единствен. Дополнительные ограничения на вектор решения можно получить разными способами. Одна из возможностей заключается в поиске единичного вектора, который бы максимизировал минимальное расстояние от выборок до разделяющей плоскости. Другим способом является нахождение минимального весового вектора, удовлетворяющего условию аtb для всех i, где b — положительная константа, называемая допуском. Иногда бывает удобным, чтобы выполнялось лишь условие аtb. Как показано на рис. 5.7, область решений, получившаяся в результате пересечения полупространств, для которых аtb>0, находится внутри прежней области и отделена от старых границ расстоянием b/||||. Попытки определения вектора решения, расположенного ближе к «середине» области решения, основывались на интуитивном предположении, что полученное решение с большей вероятностью будет давать правильную классификацию новых выборок. Однако в случаях, подлежащих рассмотрению, для нас удовлетворительным будет любое решение, принадлежащее области решения. Основное внимание должно быть сосредоточено на том, чтобы любая используемая итеративная процедура не вызывала приближения к предельной точке, лежащей на границе. Данная задача всегда может быть решена путем введения допуска, т. е. выполнением требования аtb>0 для всех i.