- •Лекция №5
- •Обучение статистической дискриминантной функции
- •Оценка параметров и обучение с учителем Введение
- •Оценка по максимуму правдоподобия Общая идея метода
- •Случай многомерного нормального распределения: неизвестно среднее значение
- •Общий многомерный нормальный случай
- •Байесовский классификатор
- •Плотности, условные по классу
- •Распределение параметров
- •Обучение при восстановлении среднего значения нормальной плотности Случай одной переменной: p(|)
- •Случай одной переменной:p(X|)
- •Непараметрические методы Введение
- •Оценка плотности распределения
- •Парзеновские окна Общие соображения
- •Сходимость среднего значения
- •Сходимость дисперсии
- •Оценка методом knближайших соседей
- •Оценка апостериорных вероятностей
- •Правило ближайшего соседа Общие замечания
- •Сходимость при использовании метода ближайшего соседа
- •Правилоkближайших соседей
Сходимость при использовании метода ближайшего соседа
Теперь мы хотим оценить среднюю вероятность ошибки для правила ближайшего соседа. В частности, если Рn(е)есть уровень ошибки спвыборками и если
(27)
то мы хотим показать, что
Р*РР*.(28)
Начнем с замечания, что при использовании правила ближайшего соседа с конкретным множеством пвыборок результирующий уровень ошибки будет зависеть от случайных характеристик выборок. В частности, если для классификации х используются различные множествапвыборок, то для ближайшего соседа вектора х будут получены различные векторы. Так как решающее правило зависит от ближайшего соседа, мы имеем условную вероятность ошибки,которая зависит как от х,так и от.Усредняя по, получаем
(29)
Обычно очень трудно получить точное выражение для условной плотности распределения p(|х). Однако, поскольку, по определению является ближайшим соседом х, мы ожидаем, что эта плотность будет очень большой в непосредственной близости от х и очень малой во всех других случаях. Более того, мы ожидаем, что по мере устремленияпк бесконечностир(|х)будет стремиться к дельта-функции с центром в х, что делает оценку, задаваемую (29), тривиальной. Для того чтобы показать, что это действительно так, мы должны допустить, что плотностьрдля заданного х непрерывна и не равна нулю. При таких условиях вероятность попадания любой выборки в гиперсферуSс центром в х есть некое положительное число
Таким образом, вероятность попадания всех nнезависимо взятых выборок за пределы этой гиперсферы будет (1—PS)n,стремящейся к нулю по мере устремленияпк бесконечности. Итак,сходится к х по вероятности ир(| х) приближается к дельта-функции, как и ожидалось. Вообще говоря, применяя методы теории меры, можно получить более убедительные (и более строгие) доказательства сходимостик х,но для наших целей достаточно полученного результата.
4.6.3.Уровень ошибки для правила ближайшего соседа
Обратимся теперь к вычислению условной вероятности ошибки Рn(е|х,). Чтобы избежать недоразумений, необходимо поставить задачу более тщательно, чем это делалось до сих пор. Когда мы говорим, что у нас имеетсяпнезависимо сделанных помеченных выборок, то мы имеем в видуnпар случайных переменных (x1,), (x2,), . . .,(хn,), где может быть любым изссостояний природы , . . ., . Мы полагаем, что эти пары получались путем выбора состояния природы для с вероятностьюP(), азатем путем выборахiв соответствии с вероятностным закономp(х|), причем каждая пара выбирается независимо. Положим теперь, что природа выбирает пару (х,)и что, помеченноеесть ближайшая к х выборка. Поскольку состояние природы при выборене зависит от состояния при выборе х,то
(30)
Теперь, если применяется решающее правило ближайшего соседа, мы совершаем ошибку всякий раз, когда =.Таким образом, условная вероятность ошибкиРn(е|х,) задается в виде
(31)
Чтобы получить Рn(е),надо подставить это выражение в (29) вместоРn(e|х), а затем усреднить результат по х. Вообще это очень трудно сделать, но, как мы уже замечали ранее, интегрирование в(29)становится тривиальным по мере устремленияnк бесконечности, ар(, х) к дельта-функции. ЕслиР(, х) непрерывна в х,получаем
(32)
Так что асимптотический уровень ошибки правила ближайшего соседа, если можно поменять местами интегрирование и переход
к пределу 11,задается выражением
(33)
4.6.4.Границы ошибки
Хотя уравнение (33)дает точный результат, еще показательнее получить границы дляР,выраженные посредством байесовского уровняР*.Очевидной нижней границей дляРявляется сам уровеньР*.Кроме того, можно показать, что при любомР*существует множество условных и априорных вероятностей, для которых эта граница достигается. Так что в этом смысле это точная нижняя граница.
Еще интереснее задача определения точной верхней границы. Следующее соображение позволяет надеяться на низкую верхнюю границу: если байесовский уровень небольшой, то Р(|х) близка к единице для некоторогоi, скажемi=m.Таким образом, подынтегральное выражение в (33)будет приближенно 1—Р2(|х)2(1—Р(|х)), и поскольку
Р*(е|х)=1-Р(|х), (34)
то интегрирование по х может дать уровень, в два раза превышающий байесовский, но являющийся все еще низким. Чтобы получить точную верхнюю границу, мы должны определить, насколько большим может стать уровень Рошибки правила ближайшего соседа для заданного байесовского уровняР*.Таким образом, выражение (33) вынуждает нас задаться вопросом, насколько малой может стать для заданнойр(|х). Записав
,
мы можем получить границу этой суммы, минимизируя второй член при следующих ограничениях:
1) Р(|х)0;
2)
Несколько поразмыслив, мы видим, что минимизируется, если все апостериорные вероятности, кромет-й,равны, и второе ограничение дает
(35)
Таким образом,
(1-P*(e|x))2+
и
1- 2P*(e|x)-P*2(e|x). (36)
Сразу же видим, что Р2Р*,поэтому можем подставить этот результат в (33)и просто опустить второй член выражения. Однако более точную границу можно получить на основании
так что
причем равенство сохраняется тогда и только тогда, когда дисперсия Р*(е|х)равна нулю. Пользуясь этим результатом и подставляя соотношение (36)в (33),получаем желаемые границы
Р*РР*.(28)
Легко показать, что такая верхняя граница достигается в случае так называемой нулевой информации, в котором плотности распределения p(х|) тождественны, так чтоР(|х)=р() иР*(е|х) не зависит от х. Таким образом, границы, заданные (28),являются максимально близкими в том смысле, что для любойР*существуют условные и априорные вероятности, для которых эти границы достигаются. На рис. 4.4графически представлены эти границы. Байесовский уровеньР*может находиться в любом месте между О и(с—1)/с.Границы сходятся в этих двух крайних точках. Когда байесовский уровень мал, верхняя граница превышает его почти в два раза. В общем значение ошибки правила ближайшего соседа должно находиться в заштрихованной области.
Поскольку Рвсегда меньше или равна2Р*,то, если имеется бесконечный набор данных и используется сложное решающее правило, можно по крайней мере в два раза сократить уровень ошибки. В этом смысле по крайней мере половина классифицирующей информации бесконечного набора данных находится по соседству.
Естественно задаться вопросом, насколько хорошо правило ближайшего соседа в случае конечного числа выборок и как быстро результат сходится к асимптотическому значению. К сожалению, ответы для общего случая неблагоприятны. Можно показать, что сходимость может быть бесконечно медленной и уровень ошибки Рn(е) даже не должен монотонно убывать с ростомп.Так же, как это происходит с другими непараметрическими методами, трудно получить какие-либо еще результаты, кроме асимптотических, не делая дальнейших допущений о вероятностных свойствах.
Рис. 4.4.Границы ошибки правила ближайшего соседа