- •Линейные методы восстановления зависимостей по эмпирическим данным Оглавление
- •1Типовая задача восстановления закономерностей в множествах объектов реального мира
- •1.1Типовая задача восстановления закономерностей в множествах объектов реального мира
- •1.2Обучение по прецедентам
- •1.3Концептуальная база восстановления зависимостей: Гипотеза компактности.
- •1.4Диполь в метрическом пространстве
- •1.5Идеальные условия для реализации гипотезы компактности: Евклидова метрика в конечномерном линейном пространстве
- •2Обучение распознаванию двух классов объектов по методу опорных векторов
- •2.1Концепция оптимальной разделяющей гиперплоскости в пространстве действительных признаков объектов и классический метод опорных векторов
- •2.2Вероятностная интерпретация классического метода опорных векторов
- •2.2.1Вероятностная постановка задачи обучения распознаванию двух классов объектов посредством выбора разделяющей гиперплоскости
- •2.2.2Априорные и апостериорные вероятности классов объектов
- •2.2.3Классический метод опорных векторов: Частный случай идентичных независимых нормальных априорных распределений элементов направляющего вектора с одной и той же известной дисперсией
- •2.2.4Обобщенный метод опорных векторов со взвешенными признаками: Идентичные независимые нормальные априорные распределения элементов направляющего вектора с известными разными дисперсиями
- •3Отбор подмножества информативных признаков в процессе обучения распознаванию двух классов объектов по методу опорных векторов: Метод релевантных признаков
- •3.1Независимые совместные априорные нормальные-гамма распределения элементов направляющего вектора и их дисперсий
- •3.2Метод опорных векторов с релевантными компонентами: Relevance Feature Support Vector Machine (rfsvm)
- •3.3Алгоритм обучения с заданной селективностью отбора признаков
- •4Отбор подмножества информативных признаков в процессе обучения распознаванию двух классов объектов по методу опорных векторов: Метод опорных признаков
- •4.1Независимые идентичные комбинированные распределения элементов направляющего вектора
- •4.2Двойственная задача обучения
- •4.3Итерационный алгоритм численного решения двойственной задачи
- •5Задача оценивания числовой зависимости
- •5.1Линейная модель числовой зависимости. Центрированная и нормированная обучающая совокупность
- •5.2Критерий оценивания числовой зависимости Elastic Net
- •5.3Двойственная задача
- •5.3.1Общий вид функции Лагранжа
- •Литература
1.3Концептуальная база восстановления зависимостей: Гипотеза компактности.
Основная идея:
Выбрать в множестве объектов некоторую
метрику
,
,
если
,
Принимать для близких объектов
близкие решения
в задаче распознавания
образов
в задаче восстановления числовой
зависимости
Выбор метрик удачен, если для них выполняется гипотеза компактности (Эммануил Маркович Браверман) [1]:
Для пар объектов
,
похожих в смысле выбранной метрики
,
значения целевой характеристики также
в большинстве случаев близки
.
1.4Диполь в метрическом пространстве
Метрическое пространство объектов
реального мира:
,
– метрика
Диполь в метрическом пространстве –
упорядоченная пара:
Простейшая реализация гипотезы компактности:
Принадлежность произвольного объекта к одному из двух классов
Как выбрать диполь? |
В множестве объектов слишком мало элементов. К тому же,
наблюдатель располагает лишь конечной
обучающей совокупностью объектов
|
Более «тонкая» реализация гипотезы компактности для непрерывного метрического пространства:
– воображаемое непрерывное метрическое
пространство, в котором множество
реальных объектов является подмножеством,
быть может, изолированных элементов.
,
– метрическая гиперплоскость в
– проекция реального объекта
на гиперплоскость в
Решающая функция (score function): расстояние точки от гиперплоскости в с учетом знака |
|
|
Классификация:
Числовая
зависимость:
|
1.5Идеальные условия для реализации гипотезы компактности: Евклидова метрика в конечномерном линейном пространстве
Вектор действительных признаков
погружает множество реальных объектов
в
Естественная евклидова метрика в
Диполь:
,
;
– направляющий вектор гиперплоскости
Смещенная гиперплоскость, определяемая
диполем:
,
Решающая функция – decision (score) function: Расстояние
от точки
|
|
Функция потерь: Степень несоответствия значения решающей функции значению целевой характеристики объекта
Индекс класса объекта
|
||
|
|
|
Двухклассовое распознавание: Метод опорных векторов |
Двухклассовое распознавание: Метод логистической регрессии |
Линейная модель числовой зависимости с квадратичной функцией потерь |
2Обучение распознаванию двух классов объектов по методу опорных векторов
2.1Концепция оптимальной разделяющей гиперплоскости в пространстве действительных признаков объектов и классический метод опорных векторов
Рассмотрим одну из наиболее популярных в мировой литературе постановок задачи обучения распознаванию образов с двумя классами объектов, известную под названием «метод оптимальной разделяющей гиперплоскости». Обычно этот метод называют «методом опорных векторов», и мы увидим, почему эти названия можно считать эквивалентными [2].
Пусть изучается некоторое множество
объектов реального мира
.
Никакой реальный объект не может быть
воспринят компьютером иначе, как через
результат измерения того либо иного
его свойства, выражаемый значением
некоторой формальной переменной
.
Будем полагать, что у объектов реально
мира измеряются
свойств, выражаемых действительными
числами
,
.
Совокупность результатов этих измерений
будем называть вектором действительных
признаков объекта
.
С другой стороны, допустим, что все
множество объектов
разбито на два класса индикаторной
функцией
, вообще говоря, неизвестной наблюдателю.
Целью наблюдателя является определение
скрытого класса предъявленного объекта
,
зная лишь доступный для непосредственного
наблюдения вектор признаков
.
Иными словами, желание наблюдателя
сводится к построению дискриминантной
функции
.
Очевидно, что всякая дискриминантная
функция определяет некоторое разбиение
реально существующих объектов на два
класса
,
не совпадающее, вообще говоря, с объективно
существующим разбиением
.
Естественно желание найти накую
дискриминантную функцию, легко вычислимую
на компьютере, для которой это несовпадение
было бы как можно меньше.
В качестве исходной информации для
выбора дискриминантной функции будем
рассматривать обучающую совокупность
объектов
,
представленных и векторам их признаков
,
и фактическими значениями индикаторной
функции класса
.
Таким образом, обучающая совокупность
представлена конечным множеством пар
.
На первый взгляд, простейший, и в то же время очень эффективный способ обучения в рамках такого сценария, получивший огромную популярность, был предложен В.Н. Вапником.
Будем искать подходящую дискриминантную функцию в виде линейной действительной функции векторного аргумента:
Очевидно, что всякая такая функция
определяет некоторую разделяющую
гиперплоскость в пространстве
,
задаваемую направляющим вектором
и порогом
.
Пусть поступила обучающая совокупность
.
Представляется естественной эвристическая
идея выбрать такую разделяющую
гиперплоскость
,
которая правильно разделяет объекты
двух классов:
или, что эквивалентно,
для всех
.
Допустим, что для предъявленной обучающей
совокупности разделяющая гиперплоскость
существует. Но в этом случае существует
континуум разделяющих гиперплоскостей.
Идея В.Н. Вапника заключается в выборе
той из них, которая обеспечивает
наибольший «зазор», по-английски,
«margin» между гиперплоскостью
и ближайшими точками обучающей
совокупности как одного, таки другого
класса
.
Правда, величина зазора
условна, и определяется еще и нормой
направляющего вектора, поэтому задача
формулируется в виде задачи условной
оптимизации:
,
,
.
Такая концепция обучения названа концепцией оптимальной разделяющей гиперплоскости.
Задачу поиска оптимальной разделяющей
гиперплоскости удобно записывать в
несколько иной эквивалентной форме.
Разделим обе части неравенства
на
,
тогда надо обеспечить выполнение условий
для
и
.
При такой замене переменных
,
поэтому требование
равносильно требованию
.
Отсюда следует эквивалентная формулировка
задачи поиска оптимальной разделяющей
гиперплоскости:
Однако предъявленная обучающая совокупность может оказаться линейно неразделимой, и задача не будет иметь решения. В качестве еще одной эвристики В.Н. Вапник предложил в качестве компромисса «разрешить» некоторым точкам обучающей совокупности располагаться с «неправильной» стороны разделяющей гиперплоскости, потребовав, чтобы такой дефект был минимальным. Наибольшую популярность получил следующий критерий обучения:
где
– некоторый коэффициент, согласующий
два, вообще говоря, взаимно противоречивых
требования – обеспечить как можно
меньшее значение нормы направляющего
вектора и как можно меньшую ошибку
классификации в пределах обучающей
совокупности. Для выбора коэффициента
в исходном изложении метода нет никаких
теоретических суждений, дается лишь
эвристическая рекомендация выбирать
его значение достаточно большим..
Именно критерий обычно называют критерием обучения по принципу поиска оптимальной разделяющей гиперплоскости.
Задача представляет собой задачу
квадратичного программирования с
квадратичной целевой функцией
переменных и
линейными ограничениями типа неравенств.
Ее особенно удобно решать в двойственной
форме в виде задачи квадратичного
программирования с
переменными, столькими же
ограничениями-неравенствами и одним
ограничением-равенством.
Точка минимума критерия удовлетворяет условиям теоремы Куна-Таккера, которые удобно выразить как условия поиска седловой точки функции Лагранжа относительно множителей Лагранжа:
при ограничениях-неравенствах
,
,
при ограничениях-неравенствах
,
Исходная двойственная задача имеет вид:
При фиксированных значениях множителей
Лагранжа условие минимума функции
Лагранжа по направляющему вектору
дает
,
условие минимизации по смещению
разделяющей гиперплоскости
приводит к равенству
,
а из условия минимума по переменным
вытекают равенства
,
,
причем здесь
,
т.е.
.
Подстановка равенств , и в исходную функцию Лагранжа приводит к двойственной задаче обучения относительно только множителей Лагранжа при объектах обучающей совокупности:
Это задача квадратичного программирования,
в которой число переменных равно числу
объектов в обучающее совокупности. Ее
решение
полностью определяет направляющий
вектор
и смещение
оптимальной разделяющей гиперплоскости,
получаемые как решение исходной задачи
обучения .
Значение направляющего вектора
оптимальной разделяющей гиперплоскости
непосредственно определяется равенством
, из которого следует, что направляющий
вектор есть линейная комбинация векторов
признаков объектов, представленных в
обучающей совокупности. Очевидно, что
векторы признаков только тех объектов
участвуют в формировании оптимального
направляющего вектора, множители
Лагранжа при которых оказались ненулевыми
:
.
Эти объекты принято называть опорными, поскольку на векторы их признаков как бы «опирается» направляющий вектор оптимальной разделяющей гиперплоскости. Отсюда происходит и название этого метода обучения – метод опорных векторов или, в англоязычной терминологии, Support Vector Machine (SVM).
Значения множителей Лагранжа, получающихся
как решение двойственной задачи ,
непосредственно указывают, какие именно
объекты обучающей совокупности
неправильно классифицируются оптимальной
разделяющей гиперплоскостью. Из
следует, что если
,
то
,
ограничение
не является активным, т.е.
,
и данный объект классифицирован
неправильно. Если же
,
то в силу
,
и ограничение
активно, т.е. ошибки классификации
данного объекта нет
.
Остается найти смещение
оптимальной разделяющей гиперплоскости
. Рассмотрим опорные объекты в составе
обучающей совокупности
,
причем только те их них, которые правильно
классифицируются найденной оптимальной
разделяющей гиперплоскостью
.
Для каждого из этих объектов выполняется
равенство
.
Умножим каждое из этих равенств на
и сложим правые и левые части:
,
т.е.
.
Из сравнения левой и правой части
непосредственно следует оптимальное
значение
,
выраженное через направляющий вектор:
.
Вообще говоря, для целей нашего изложения в этом разделе вполне достаточно представить результат обучения в виде выражений для направляющего вектора и смещения , которые вместе полностью определяют оптимальную разделяющую гиперплоскость .
Однако некоторые дополнительные особенности этого решения играют чрезвычайно важную роль в так называемой беспризнаковой методологии обучения.
Прежде всего, обратим внимание на то
обстоятельство, что двойственная задача
определяется не самой совокупностью
векторов признаков объектов
,
а лишь матрицей их скалярных произведений
.
Как следствие, значения множителей
Лагранжа
инвариантны, в частности, к поворотам
системы координат в линейном пространстве
действительных признаков объектов, в
котором представлена обучающая
совокупность.
Нет нужды выражать направляющий вектор разделяющей гиперплоскости в явном виде , поскольку его подстановка в и в позволяет выразить искомое решающее правило классификации новых объектов непосредственно через скалярные произведения его вектора признаков с векторами признаков опорных объектов в составе обучающей совокупности:
.
Таким образом, обучение по принципу оптимальной разделяющей гиперплоскости вообще не нуждается в представлении объектов реального мира в виде векторов их действительных признаков, достаточно знать лишь их попарные скалярные произведения. Это соображение лежит в основе метода потенциальных функций, играющего важную роль в теории обучения машин.
