- •Лекция №5
- •Обучение статистической дискриминантной функции
- •Оценка параметров и обучение с учителем Введение
- •Оценка по максимуму правдоподобия Общая идея метода
- •Случай многомерного нормального распределения: неизвестно среднее значение
- •Общий многомерный нормальный случай
- •Байесовский классификатор
- •Плотности, условные по классу
- •Распределение параметров
- •Обучение при восстановлении среднего значения нормальной плотности Случай одной переменной: p(|)
- •Случай одной переменной:p(X|)
- •Непараметрические методы Введение
- •Оценка плотности распределения
- •Парзеновские окна Общие соображения
- •Сходимость среднего значения
- •Сходимость дисперсии
- •Оценка методом knближайших соседей
- •Оценка апостериорных вероятностей
- •Правило ближайшего соседа Общие замечания
- •Сходимость при использовании метода ближайшего соседа
- •Правилоkближайших соседей
Правилоkближайших соседей
Явным расширением правила ближайшего соседа является правило k ближайших соседей.Как видно из названия, это правило классифицирует х,присваивая ему метку, наиболее часто представляемую среди kближайших выборок; другими словами, решение принимается после изучения меток kближайших соседей. Мы не будем подробно анализировать это правило. Однако можно получить некоторые дополнительные представления об этих процедурах, рассмотрев случай с двумя классами при нечетном числе k(чтобы избежать совпадений).
Основным поводом к рассмотрению правила kближайших соседей послужило сделанное нами ранее наблюдение о согласовании вероятностей с реальностью. Сначала мы заметили, что если kфиксировано и количеству выборокппозволить стремиться к бесконечности, то все kближайших соседей сойдутся к х. Следовательно, как и в случае с единственным ближайшим соседом, метками каждого изkближайших соседей будут случайные величины, независимо принимающие значение , с вероятностью Р(|х), i=1, 2. Если Р(|х) является самой большой апостериорной вероятностью, то решающее правило Байеса всегда выбирает . Правило единственного ближайшего соседа выбирает , с вероятностьюP(|x). Правило kближайших соседей выбирает , если большинство из kближайших соседей имеют метку с вероятностью
В общем чем больше значение k, тем больше вероятность, что будет выбрана .
Мы могли бы проанализировать правило kближайших соседей так же, как мы анализировали правило
Рис. 4.5.Границы уровня ошибки правила kближайших соседей.
единственного ближайшего соседа. Однако ввиду того, что здесь потребуются более сложные рассуждения, которые мало что проясняют, мы удовлетворимся только констатацией результатов. Можно показать, что при нечетном kвеличина ошибки в случае с двумя классами и большим количеством выборок для правила kближайших соседей ограничивается сверху функциейСk(P*), гдеСkпо определению есть наименьшая вогнутая функция отР*,большая, чем
Теперь совершенно ясно, что очень мало можно увидеть, глядя на приведенную функцию, разве что только можно отметить ее родство с биномиальным распределением. К счастью, можно легко вычислить Сk(P*) и изучить результаты. На рис. 4.5показаны границы уровней ошибок правила kближайших соседей для нескольких значенийk. Случай сk=1соответствует случаю с двумя классами из рис. 4.4.С возрастанием kверхние границы все более приближаются к нижней границе, уровню Байеса. В пределе, когда kстремится к бесконечности, две границы встречаются и правило kближайших соседей становится оптимальным.
Рискуя произвести впечатление, что мы повторяемся, закончим снова упоминанием о ситуации с конечным числом выборок, встречаемой на практике. Правило kближайших соседей можно рассматривать как еще одну попытку оценить апостериорные вероятности Р(|х) на основании выборок. Чтобы получить надежную оценку, нам желательно использовать большое значение k.С другой стороны, мы хотим, чтобы все kближайших соседей х' были очень близки к х с тем, чтобы быть уверенными, чтоР(|х') приблизительно такая же, как Р(|х). Это заставляет нас выбрать среднее значение k, являющееся небольшой частью всего количества выборок. Только в пределе при устремлении kк бесконечности можем мы быть уверены в почти оптимальном поведении правила kближайших соседей.
1 В литературе по математической статистике выборка объема n соответствует набору n таких представителей. Считая каждый из представителей выборкой, мы следуем практике, принятой в технической литературе. Статистикам следовало бы каждую из рассматриваемых здесь выборок считать выборкой единичного объема.
2 Некоторые авторы предпочитают запись вида p(x|ωj), так как, строго говоря, обозначение p(x|ωj, θj).подразумевает, что θj, есть случайная переменная. Мы пренебрежем этим различием в обозначениях, и будем считать θj, обычным параметром при анализе по максимуму правдоподобия и случайной переменной при байесовском анализе.
3 Иногда это и не имеет места, например когда все выборки входят в одну и ту же ковариационную матрицу. Что следует делать в таких случаях, показано в задаче 6.
4 Андерсон, Введение в многомерный статистический анализ, гл. 3, М., Физматгиз, 1963.
5 Заметим, что в данном уравнении каждая вероятность и функция плотности условны по отношению к множеству выборок. То обстоятельство, что данное равнение и есть просто байесовское правило, становится более ясным, если опустить общие величины, входящие в виде условий. Читатель может найти этот прием слезным при интерпретации сходных уравнений в других местах данной главы.
6 На протяжении данной главы областью интегрирования для всех интегралов будет все упомянутое пространство.
7 Напомним, что для простоты мы не различаем классы, но все выборки здесь принадлежат одному и тому же классу, скажем , так что p(x|) на деле есть p(x|, ).
8 Если случайно одна или более выборок совпадут с х, то наша оценка дает бесконечно большое значение, что в равной мере бесполезно.
9 Такой тип сходимости называется среднеквадратичной сходимостью. Описание видов сходимости последовательности произвольных переменных см. в книге E.Parzen, Modern Probability Theory and its Applications, Chapter 10 (John Wiley, New York,1960).
10 Это не строгий аргумент, но он интуитивно ясен и вполне разумен. Более глубокий анализ показывает, что возникает затруднение, если неизвестная плотность распределения неограничена, как это бывает, когда р(х) содержит дельта-функции. Условие, добавляемое соотношением (17), устраняет это затруднение.
11 Читатели, знакомые с теорией меры, знают, что теорема мажорированной сходимости позволяет производить подобную замену. Если существуют области, где р(x) тождественна нулю, то уравнение (32) является недействительным для этих значений x. (Почему?) Такие области, однако, можно исключить из интегрирования выражения (33).