Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
МИРЭА / Методичка_2010 / Методичка_2010.doc
Скачиваний:
2668
Добавлен:
10.05.2015
Размер:
22.71 Mб
Скачать

Обучение с учителем. Детерминированные методы, основанные на «близости». Линейные решающие правила. Метод построения эталонов. Метод ближайшего соседа. Методkближайших соседей.

Для построения решающих правил нужна обучающая выборка. Обучающая выборка – это множество объектов, заданных значениями признаков и принадлежность которых к тому или иному классу достоверно известна "учителю" и сообщается учителем "обучаемой" системе. По обучающей выборке система строит решающие правила. Качество решающих правил оценивается по контрольной (экзаменационной) выборке, в которую входят объекты, заданные значениями признаков, и принадлежность которых тому или иному образу известна только учителю. Предъявляя обучаемой системе для контрольного распознавания объекты экзаменационной выборки, учитель в состоянии дать оценку вероятностей ошибок распознавания, то есть оценить качество обучения. К обучающей и контрольной выборкам предъявляются определённые требования. Например, важно, чтобы объекты экзаменационной выборки не входили в обучающую выборку. Обучающая и экзаменационная выборки должны быть репрезентативны, то есть достаточно полно представлять генеральную совокупность

Линейные решающие правила

Само название говорит о том, что граница, разделяющая в признаковом пространстве области различных образов, описывается линейной функцией (рис. 4)

=.

Рис. 4. Линейное решающее правило для распознавания двух образов

Одна граница при этом разделяет области двух образов. Если >2, то требуется несколько линейных функций и граница является, вообще говоря, кусочно линейной. Для наглядности будем считать=2. Если на множестве объектов выполняется условие

,

если – реализация первого образа,

если – реализация второго образа,

то образы иназывают линейно разделимыми.

Существуют различные методы построения линейных решающих правил (см. ниже, например, линейный дискриминант Фишера).

Метод построения эталонов

Для каждого класса по обучающей выборке строится эталон, имеющий значения признаков

,

где =,– количество объектов данного образа в обучающей выборке,– номер признака.

По существу, эталон – это усреднённый по обучающей выборке абстрактный объект (рис. 2). Абстрактным мы его называем потому, что он может не совпадать не только ни с одним объектом обучающей выборки, но и ни с одним объектом генеральной совокупности.

Распознавание осуществляется следующим образом. На вход системы поступает объект , принадлежность которого к тому или иному образу системе неизвестна. От этого объекта измеряются расстояния до эталонов всех образов, исистема относит к тому образу, расстояние до эталона которого минимально. Расстояние измеряется в той метрике, которая введена для решения определённой задачи распознавания.

Методы ближайших соседей

Метод ближайшего соседа: Обучение в данном случае состоит в запоминании всех объектов обучающей выборки. Если системе предъявлен нераспознанный объект , то она относит этот объект к тому образу (рис. 7), чей "представитель" оказался ближе всех к.

Метод ближайших соседей состоит в том, что строится гиперсфера объёма с центром в. Распознавание осуществляется по большинству "представителей" какого-либо образа, оказавшихся внутри гиперсферы. Здесь тонкость состоит в том, чтобы правильно (разумно) выбрать объём гиперсферы.должен быть достаточно большим, чтобы в гиперсферу попало относительно большое число "представителей" разных образов, и достаточно маленьким, чтобы не сгладить нюансы разделяющей образы границы. Метод ближайших соседей имеет тот недостаток, что требует хранения всей обучающей выборки, а не её обобщённого описания. Зато он даёт хорошие результаты на контрольных испытаниях, особенно при больших количествах объектов, предъявленных для обучения.

Для сокращения числа запоминаемых объектов в методах ближайших соседей можно применять комбинированные решающие правила, например сочетание метода эталонов и ближайших соседей. В этом случае запоминанию подлежат те объекты, которые попали в зону пересечения гиперсфер. Метод ближайших соседей применяется лишь для тех распознаваемых объектов, которые попали в данную зону пересечения. Иными словами, запоминанию подлежат не все объекты обучающей выборки, а только те, которые находятся вблизи разделяющей образы границы.

Обучение с учителем: статистический подход. Формальная постановка задачи распознавания. Параметрические и непараметрические методы. Дискриминантные и моделирующие методы обучения. Максимизация правдоподобия. Максимизация апостериорной вероятности. Байесовское обучение. Способность распознавателя к обобщению. Регуляризация.

Формальная постановка задачи распознавания

В задаче статистического обучения с учителем обычно рассматриваются следующие элементы:

пространство (векторов) признаков X ,

точками которого кодируются распознаваемые объекты, например, d-мерное евклидово пространство Rd;

пространство ответов Y ,

точками которого кодируются результаты распознавания, например, q-мерное пространство Rq;

пространство F распознающих функций (распознавателей) f:XY,

например, в случае евклидовых пространств X и Y, - непрерывных, дважды дифференцируемых, линейных, полиномиальных и т.п.;

пространство P распределений (вероятностных мер) на X×Y,

например, в случае евклидовых пространств X и Y, - абсолютно непрерывных по мере Лебега, возможно еще и со всюду положительной и(или) гладкой плотностью, гауссовых смесей и т.п., удовлетворяющих каким-то специфическим для задачи условиям;

функция штрафа E :X×Y×YR,

называемая также функцией ошибок, потерь, риска, loss function, error function, ..., как правило, неотрицательная и равная 0 при совпадении второго параметра (прогнозируемого ответа) и третьего (истинного ответа); например, в случае евклидова пространства Y применяется квадратичный штраф E(x,y,t)=ty2, а в случае дискретного пространства - так называемый " 0-1-штраф " E(x,y,t)={ 0 при y=t; 1 при y  t }; далее будут рассматриваться только функции штрафа вида E:Y×YR, от точки пространства признаков X не зависящие2;

набор обучающих данных T =((x1,y1),...,(xN,yN)),

где (xi,yi)  X×Y, которые считаются значениями независимых случайных величин с одним и тем же, но совершенно неизвестным распределением   P.

Обратите внимание на то, что не требуется, чтобы по значению признаков x правильный ответ y был определен однозначно. Определено лишь, хотя и неизвестно, зависящее от совместного распределения  распределение вероятностей правильного ответа, в случае непрерывных распределений имеющее плотность

p;x(y)=p(yx)=

 p(x,y)

 

y  Y 

p(x,y)dy

.

(1)Хочется по X, Y, F, P, E и T построить распознаватель f  F, минимизирующий математическое ожидание штрафа E(f)3

E(f)=

 

(x,y)  X×Y 

E(f(x),y) d(x,y) 

min f  F 

,

(2)

где   P, или обещающий про штраф что-нибудь еще хорошее, например, что при некоторых , > 0

({(x,y)  X×Y  E(f(x),y) > }) < .

(3)

Такое желание выглядит странным и нереалистичным, поскольку про распределение , от которого все зависит, почти ничего не известно и наоборот, известные обучающие данные T ни на что не влияют. На самом деле про  известно, что обучающие данные T являются случайными с распределением , что позволяет приблизить интеграл в формуле (2) методом Монте-Карло и нагло подменить минимизацию интеграла E(f) минимизацией этого приближения E(f,T)

 

(x,y)  X×Y 

E(f(x),y) d(x,y)  E(f,T)=

 1

N

N  i=1 

E(f(xi),yi) 

min f  F 

,

(4)называемого средним штрафом или средней ошибкой обучения (training error), эмпирическим рискоми т.д. Без каких-либо дополнительных предположений про распределение  трудно понять, много ли потеряно при такой подмене задачи. Но это можно определить экспериментально: взять набор тестовых данных T=((x1,y1),...,(xN,yN)), аналогичных обучающим и независимых от них, и посчитать для них среднюю ошибку распознавания (test error) E(f,T).

Есть и альтернативный ("более научный") способ формализации задачи распознавания, при котором вместо аддитивной функции штрафа E(x,y,t) используется мультипликативная функция условной вероятности (или ее плотности) p(tx,y)4. При этом нужно потратить усилия на то, чтобы придать выражению p(tx,f(x)) смысл (плотности) условной вероятности того, что для вектора признаков x правильный ответ равен t при условии, что распознаватель f дает ответ f(x). Зато потом можно пользоваться всей мощью вероятностной науки. От одного способа можно переходить к другому подстановкой E(x,y,t)=ln(p(tx,y)). Тогда, например, задача (2) превращается в минимизацию взаимной энтропии.