Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Методичка_2010.doc
Скачиваний:
0
Добавлен:
07.02.2020
Размер:
23.45 Mб
Скачать

Параметрические и непараметрические методы

Методы обучения, т.е. нахождения достаточно хорошей распознающей функции f  F, традиционно подразделяются на параметрические и непараметрические в соответствии с тем, просто или сложно устроено пространство F. Параметрические - это те методы, в которых F ={F(w,·)w  W} для некоторого достаточно удобного (например, евклидова) пространства параметров W и некоторой функции F:W×XY, а непараметрические - это методы, в которых, якобы, пространство F не зафиксировано заранее, а зависит от обучающего набора T. На самом деле разница между параметрическими и непараметрическими методами - только в употребляемых словах.

Полезный пример параметрических методов - методы обучения линейных распознавателей, которых даже для простейшей линейной регрессии (X =Rd, Y =R, W =R×Rd, F(w,x)=w0+j=1dwjxj) довольно много. Подробнее эти методы рассматриваются в разделе 2.

Практически бесполезный, но теоретически важный пример непараметрического (якобы) метода - описываемый в разделе 1.2.7 метод ближайшего соседа.

Дискриминантные и моделирующие методы обучения

Можно обучать распознаватели, минимизируя среднюю ошибку обучения E(f,T), оценивая качество обучения по средней ошибке тестирования E(f,T) и полностью забыв про вероятностную модель. Такие методы обучения называются дискриминантными калька с английского discriminative, канонический перевод неизвестен, название унаследовано от двухклассовой классификации, когда вычисляемая распознавателем функция f в точности различает классы и поэтому называется дискриминантом). Но можно, наоборот, пытаться все-таки восстановить распределение  или условные распределения (1). Такие методы называются моделирующими (generative), канонический перевод неизвестен, название связано с тем, что распознаваемые объекты порождаются в соответствии с распределением  или, соответственно, ответ y порождается признаками x в соответствии с распределением (1)). При поиске "правильного" распределения заодно обнаруживаются "правильные" подпространство в пространстве распознавателей F и "правильная" функция ошибки E. Вот несколько разновидностей таких методов, сформулированных для моделирования распределения .

Максимизация правдоподобия.

Можно очень сильно ограничить пространство распределений P и искать распределение , максимизируя вероятность увидеть то, что увидели (метод наибольшего правдоподобия, ML, maximum likelihood). Для непрерывных распределений вида p(x,y)dxdy это сводится к решению экстремальной задачи

P(T)=

N  i=1 

p(xi,yi) 

max   P 

.

(5)

После того, как решение * найдено, ответом распознавания вектора признаков x является не какой-то конкретный элемент в пространстве ответов Y, а распределение p*;x(y) (формула (1)). Заметим, что никакая отдельная функция штрафа E(y,t) при обучении не понадобилась, да и от априорного выбора пространства распознавателей F никакой пользы пока не видно (на самом деле она может быть, см. раздел 1.2.4).

Очень сильно ограничивать пространство P необходимо для того, чтобы не получить плотность вероятности p, сколько-нибудь отличную от нуля только возле точек обучающего набора, т.е. не построить вероятностную модель, объявляющую все, кроме того, чему ее учили, практически невозможным, а значит, неинтересным. Задачи, в которых естественно возникают такие сильные ограничения, действительно встречаются, но в большинстве остальных ситуаций метод наибольшего правдоподобия работает плохо.

Максимизация апостериорной вероятности.

Несколько лучше работает метод максимума апостериорной вероятности (MAP, maximum of a-posteriori probability), для которого на пространстве распределений P в свою очередь вводится априорное распределение . Метод предполагает, что пространство распределений P достаточно простое, например, евклидово, и и априорное распределение  на нем имеет плотность p(), и каждое распределение   P имеет некоторую плотность p(x,y). Метод состоит в решении максимизационной задачи

p(T,)=p()

N  i=1 

p(xi,yi) 

max   P 

(6)

(ср. с формулой (5)) и использовании этого решения так же, как и в методе наибольшего правдоподобия. При равномерном распределении  формула (6)) совпадает с формулой (5)).

Байесовское обучение.

Существенно другой подход, называемый байесовским, состоит в том, что после того, как на пространстве распределений P введено априорное распределение , по формуле Байеса

()=P{T} =

 

   

P{T}d

 

  P 

P{T}d

вычисляется апостериорное распределение , а затем по нему вычисляется ожидание распределения p;x(y)

p,T;x(y) =

 

   

p;x(y) d()

(7)

и выдается в качестве ответа.

Этот подход замечателен всем, кроме одного: почти никогда не удается все проинтегрировать честно: аналитически это сделать обычно невозможно, а численно - слишком трудоемко. Есть, правда, один общеизвестный и небесполезный случай, в котором байесовское обучение можно провести аналитически, - это когда все распределения   P и  являются гауссовыми.

Байесовский подход действительно строит распознаватель, использующий априорные предположения и обучающие данные в полном соответствии с вероятностной наукой. А есть ли какие-нибудь обоснования применения методов MAP и ML, кроме общеизвестности их названий и наличия известных только специалистам теорем об их состоятельности? Есть, но они не всегда применимы. Метод максимизации апостериорной вероятности подменяет усреднение плотности p;x(y) по распределению d() ее значением в точке максимума плотности . Эта подмена почти корректна, если, например точка * максимума плотности  единственна и почти все распределение  сосредоточено в достаточно малой окрестности этой точки, в которой p;x(y) почти не отличается от p*;x(y). То же соображение работает в случае, когда максимумов много, но все они переводятся друг в друга симметриями распределения , являющимися также симметриями p;x(y). Такие ситуации действительно часто встречаются. Метод ML, как уже упоминалось выше, является просто безответственным предельным случаем метода MAP; можно доказать, что при росте числа N обучающих векторов распознаватели, обучаемые методами MAP и ML, сходятся к одному и тому же.

Все три описанные для моделирующих методов идеи, как найти самое лучшее распределение или как вместо поиска наилучшего усреднять по всем распределениям (ML, MAP и байесовский подход) применяются и при дискриминантном подходе непосредственно для обучения распознавателя.