- •Глава 5 линейные разделяющие функции
- •5.1. Введение
- •5.2. Линейные разделяющие функции и поверхности решений
- •5.2.1. Случай двух классов
- •5.2.2. Случай многих классов
- •5.3. Обобщенные линейные разделяющие функции
- •5.4. Случай двух линейно разделимых классов
- •5.4.1. Геометрия и принятая терминология
- •5.4.2. Процедуры основанные на методе градиентного спуска
- •5.5. Минимизация персептронной функции критерия
- •5.5.1. Персептронная функция критерия
- •5.5.2. Доказательство сходимости для случая коррекции по одной выборке
- •5.5.3. Некоторые непосредственные обобщения
- •5.6. Процедуры релаксаций
- •5.6.1. Алгоритм спуска
- •5.6.2. Доказательство сходимости
- •5.7. Поведение процедур в случае неразделяемых множеств
- •5.8. Процедуры минимизации квадратичной ошибки
- •5.8.1. Минимальная квадратичная ошибка и псевдообращение
- •5.8.2. Связь с линейным дискриминантом Фишера
- •5.8.3. Асимптотическое приближение к оптимальному дискриминанту
- •5.8.4. Процедура Видроу - Хоффа
- •5.8.5. Методы стохастической аппроксимации
- •5.9. Процедуры Хо — Кашьяпа
- •5.9.1. Процедура спуска
- •5.9.2. Доказательство сходимости
- •5.9.3. Поведение в случае неразделяемых множеств
- •5.9.4. Некоторые связанные процедуры
- •5.10. Процедуры линейного программирования
- •5.10.1. Линейное программирование
- •5.10.2. Случай линейно разделяемых множеств
- •5.10.3. Минимизация персептронной функции критерия
- •5.10.4. Замечания
- •5.11. Метод потенциальных функций
- •5.12. Обобщения для случая многих классов
- •5.12.1. Метод Кеслера
- •5.12.2. Правило постоянных приращений
- •5.12.3. Обобщение метода наименьших квадратов
- •5.13. Библиографические и исторические сведения
5.8. Процедуры минимизации квадратичной ошибки
5.8.1. Минимальная квадратичная ошибка и псевдообращение
В случае ранее рассмотренных функций критерия внимание в основном было сфокусировано на выборках, классифицируемых с ошибкой. Теперь будет рассмотрена функция критерия, включающая все выборки. Там, где прежде осуществлялся предварительный поиск весового вектора а, приводящего к положительным значениям все скалярные произведения аtуi, теперь попытаемся получить аtуi=bi, где bi являются произвольно заданными положительными
константами. Таким образом, задача нахождения решения системы линейных неравенств заменяется более строгой, но более понятной задачей определения решения системы линейных уравнений.
Вид системы линейных уравнений упрощается, если ввести матричные обозначения. Пусть Y — матрица размера nx, i-я строка которой является вектором , и пустьb—вектор-столбец b=(b1, . . . , bn)t. Тогда наша задача сводится к определению весового вектора а, удовлетворяющего уравнению
Yа=b. (29)
Если бы матрица Y была невырожденной, то можно было бы записать равенство а=Y-1b и сразу же получить формальное решение. Однако Y является прямоугольной матрицей, у которой число строк обычно превышает число столбцов. Когда уравнений больше, чем неизвестных, вектор а определен избыточно, и обычно точного решения не существует. Однако можно искать весовой вектор а, минимизирующий некоторую функцию разности между Yа и b. Если определить вектор ошибки е как
е=Yа-b, (30)
то данный подход будет состоять в минимизации квадрата длины вектора ошибки. Данная операция эквивалентна задаче минимизации функции критерия, выражаемой суммой квадратичных ошибок:
. (31)
Задача минимизации суммы квадратичных ошибок является классической. Как будет показано в п. 5.8.4, она может быть решена методом градиентного анализа. Простое решение в замкнутой форме можно также получить, образуя градиент
и полагая его равным нулю. Отсюда получается необходимое условие
(32)
и задача решения уравнения сводится к задаче решения уравнения . Большим достоинством этого замечательного уравнения является то, что матрица размераквадратная и часто невырожденная. Если данная матрица невырождена, вектор а может быть определен однозначно:
, (33)
где матрица размера n
(34)
называетсяпсевдообращением матрицы Y. Заметим, что если матрица Y квадратная и невырожденная, псевдообращенная совпадает с обычным обращением. Следует также отметить, что Y†Y = I, но обычно YY† I. Если матрица YtY вырождена, решение уравнения (32) не будет единственным. Однако решение, обеспечивающее минимальную квадратичную ошибку, существует всегда. В частности, при определении Y в более общем виде: можно показать, что данный предел всегда существует, и a=Y†b является решением уравнения Ya.=b, обеспечивающим наименьшую квадратичную ошибку. Указанные и другие интересные свойства псевдообращения подробно изложены в литературе.
Решение с наименьшей квадратичной ошибкой зависит от вектора допуска b показано, что различные способы выбора b приводят к различным свойствам получаемого решения. Если вектор b задан произвольно, то нет оснований, считать, что в случае линейно разделяемых множеств решение с наименьшей квадратичной ошибкой даст разделяющий вектор. Однако можно надеяться, что в случае как разделяемых, так и неразделяемых множеств в результате минимизации функции критерия квадратичной ошибки может быть получена нужная разделяющая функция. Теперь перейдем к исследованию двух свойств решения, подтверждающих данное утверждение.