Скачиваний:
108
Добавлен:
01.05.2014
Размер:
4.12 Mб
Скачать

4.7. Правило k ближайших соседей

Явным расширением правила ближайшего соседа является пра­вило k ближайших соседей. Как видно из названия, это правило клас­сифицирует х, присваивая ему метку, наиболее часто представляе­мую среди k ближайших выборок; другими словами, решение при­нимается после изучения меток k ближайших соседей. Мы не будем подробно анализировать это правило. Однако можно получить не­которые дополнительные представления об этих процедурах, рас­смотрев случай с двумя классами при нечетном числе k (чтобы из­бежать совпадений).

Основным поводом к рассмотрению правила k ближайших со­седей послужило сделанное нами ранее наблюдение о согласовании вероятностей с реальностью. Сначала мы заметили, что если k фик­сировано и количеству выборок п позволить стремиться к бесконеч­ности, то все k ближайших соседей сойдутся к х. Следовательно, как и в случае с единственным ближайшим соседом, метками каждого из k ближайших соседей будут случайные величины, независимо при­нимающие значение , с вероятностью Р(|х), i=1, 2. Если Р(|х) является самой большой апостериорной вероятностью, то решающее правило Байеса всегда выбирает . Правило единст­венного ближайшего соседа выбирает , с вероятностью P(|x). Правило k ближайших соседей выбирает , если большинство из k ближайших соседей имеют метку с вероятностью

В общем чем больше значение k, тем больше вероятность, что будет выбрана .

Мы могли бы проанализировать правило k ближайших соседей так же, как мы анализировали правило

Рис. 4.5. Границы уровня ошибки правила k ближайших соседей.

единственного ближайшего соседа. Однако ввиду того, что здесь потребуются более сложные рассуждения, которые мало что проясняют, мы удовлетворимся только констатацией результатов. Можно показать, что при нечет­ном k величина ошибки в случае с двумя классами и большим количе­ством выборок для правила k ближайших соседей ограничивается сверху функцией Сk(P*), где Сk по определению есть наименьшая вогнутая функция от Р*, большая, чем

Теперь совершенно ясно, что очень мало можно увидеть, глядя на приведенную функцию, разве что только можно отметить ее род­ство с биномиальным распределением. К счастью, можно легко вы­числить Сk(P*) и изучить результаты. На рис. 4.5 показаны грани­цы уровней ошибок правила k ближайших соседей для нескольких значений k. Случай с k=1 соответствует случаю с двумя классами из рис. 4.4. С возрастанием k верхние границы все более приближа­ются к нижней границе, уровню Байеса. В пределе, когда k стре­мится к бесконечности, две границы встречаются и правило k бли­жайших соседей становится оптимальным.

Рискуя произвести впечатление, что мы повторяемся, закончим снова упоминанием о ситуации с конечным числом выборок, встре­чаемой на практике. Правило k ближайших соседей можно рассма­тривать как еще одну попытку оценить апостериорные вероятности Р(|х) на основании выборок. Чтобы получить надежную оценку, нам желательно использовать большое значение k. С другой сторо­ны, мы хотим, чтобы все k ближайших соседей х' были очень близки к х с тем, чтобы быть уверенными, что Р (|х') приблизительно такая же, как Р(|х). Это заставляет нас выбрать среднее значение k, являющееся небольшой частью всего количества выборок. Только в пределе при устремлении k к бесконечности можем мы быть уве­рены в почти оптимальном поведении правила k ближайших соседей.

Соседние файлы в папке Анализ и интерпретация данных