Скачиваний:
97
Добавлен:
01.05.2014
Размер:
1.44 Mб
Скачать

Правилоkближайших соседей

Явным расширением правила ближайшего соседа является пра­вило k ближайших соседей.Как видно из названия, это правило клас­сифицирует х,присваивая ему метку, наиболее часто представляе­мую среди kближайших выборок; другими словами, решение при­нимается после изучения меток kближайших соседей. Мы не будем подробно анализировать это правило. Однако можно получить не­которые дополнительные представления об этих процедурах, рас­смотрев случай с двумя классами при нечетном числе k(чтобы из­бежать совпадений).

Основным поводом к рассмотрению правила kближайших со­седей послужило сделанное нами ранее наблюдение о согласовании вероятностей с реальностью. Сначала мы заметили, что если kфик­сировано и количеству выборокппозволить стремиться к бесконеч­ности, то все kближайших соседей сойдутся к х. Следовательно, как и в случае с единственным ближайшим соседом, метками каждого изkближайших соседей будут случайные величины, независимо при­нимающие значение , с вероятностью Р(|х), i=1, 2. Если Р(|х) является самой большой апостериорной вероятностью, то решающее правило Байеса всегда выбирает . Правило единст­венного ближайшего соседа выбирает , с вероятностьюP(|x). Правило kближайших соседей выбирает , если большинство из kближайших соседей имеют метку с вероятностью

В общем чем больше значение k, тем больше вероятность, что будет выбрана .

Мы могли бы проанализировать правило kближайших соседей так же, как мы анализировали правило

Рис. 4.5.Границы уровня ошибки правила kближайших соседей.

единственного ближайшего соседа. Однако ввиду того, что здесь потребуются более сложные рассуждения, которые мало что проясняют, мы удовлетворимся только констатацией результатов. Можно показать, что при нечет­ном kвеличина ошибки в случае с двумя классами и большим количе­ством выборок для правила kближайших соседей ограничивается сверху функциейСk(P*), гдеСkпо определению есть наименьшая вогнутая функция отР*,большая, чем

Теперь совершенно ясно, что очень мало можно увидеть, глядя на приведенную функцию, разве что только можно отметить ее род­ство с биномиальным распределением. К счастью, можно легко вы­числить Сk(P*) и изучить результаты. На рис. 4.5показаны грани­цы уровней ошибок правила kближайших соседей для нескольких значенийk. Случай сk=1соответствует случаю с двумя классами из рис. 4.4.С возрастанием kверхние границы все более приближа­ются к нижней границе, уровню Байеса. В пределе, когда kстре­мится к бесконечности, две границы встречаются и правило kбли­жайших соседей становится оптимальным.

Рискуя произвести впечатление, что мы повторяемся, закончим снова упоминанием о ситуации с конечным числом выборок, встре­чаемой на практике. Правило kближайших соседей можно рассма­тривать как еще одну попытку оценить апостериорные вероятности Р(|х) на основании выборок. Чтобы получить надежную оценку, нам желательно использовать большое значение k.С другой сторо­ны, мы хотим, чтобы все kближайших соседей х' были очень близки к х с тем, чтобы быть уверенными, чтоР(|х') приблизительно такая же, как Р(|х). Это заставляет нас выбрать среднее значение k, являющееся небольшой частью всего количества выборок. Только в пределе при устремлении kк бесконечности можем мы быть уве­рены в почти оптимальном поведении правила kближайших соседей.

1 В литературе по математической статистике выборка объема n соответствует набору n таких представителей. Считая каждый из представителей выборкой, мы следуем практике, принятой в технической литературе. Статистикам следо­вало бы каждую из рассматриваемых здесь выборок считать выборкой единичного объема.

2 Некоторые авторы предпочитают запись вида p(x|ωj), так как, строго говоря, обозначение p(x|ωj, θj).подразумевает, что θj, есть случайная переменная. Мы пренебрежем этим различием в обозначениях, и будем считать θj, обычным пара­метром при анализе по максимуму правдоподобия и случайной переменной при байесовском анализе.

3 Иногда это и не имеет места, например когда все выборки входят в одну и ту же ковариационную матрицу. Что следует делать в таких случаях, показано в задаче 6.

4 Андерсон, Введение в многомерный статистический анализ, гл. 3, М., Физматгиз, 1963.

5 Заметим, что в данном уравнении каждая вероятность и функция плотности условны по отношению к множеству выборок. То обстоятельство, что данное равнение и есть просто байесовское правило, становится более ясным, если опустить общие величины, входящие в виде условий. Читатель может найти этот прием слезным при интерпретации сходных уравнений в других местах данной главы.

6 На протяжении данной главы областью интегрирования для всех интегра­лов будет все упомянутое пространство.

7 Напомним, что для простоты мы не различаем классы, но все выборки здесь принадлежат одному и тому же классу, скажем , так что p(x|) на деле есть p(x|, ).

8 Если случайно одна или более выборок совпадут с х, то наша оценка дает бесконечно большое значение, что в равной мере бесполезно.

9 Такой тип сходимости называется среднеквадратичной сходимостью. Описание видов сходимости последовательности произвольных переменных см. в книге E.Parzen, Modern Probability Theory and its Applications, Chapter 10 (John Wiley, New York,1960).

10 Это не строгий аргумент, но он интуитивно ясен и вполне разумен. Более глубокий анализ показывает, что возникает затруднение, если неизвестная плот­ность распределения неограничена, как это бывает, когда р(х) содержит дельта-функции. Условие, добавляемое соотношением (17), устраняет это затруднение.

11 Читатели, знакомые с теорией меры, знают, что теорема мажорированной сходимости позволяет производить подобную замену. Если существуют области, где р(x) тождественна нулю, то уравнение (32) является недействительным для этих значений x. (Почему?) Такие области, однако, можно исключить из интегрирования выражения (33).

Соседние файлы в папке Lecture5