- •Глава 4 непараметрические методы
- •4.1. Введение
- •4.2. Оценка плотности распределения
- •4.3. Парзеновские окна
- •4.3.1. Общие соображения
- •4.3.2. Сходимость среднего значения
- •4.3.3. Сходимость дисперсии
- •4.3.4. Два примера
- •4.4. Оценка методом kn ближайших соседей
- •4.5. Оценка апостериорных вероятностей
- •4.6. Правило ближайшего соседа
- •4.6.1. Общие замечания
- •4.6.2. Сходимость при использовании метода ближайшего соседа
- •4.6.3. Уровень ошибки для правила ближайшего соседа
- •4.6.4. Границы ошибки
- •4.7. Правило k ближайших соседей
- •4.8. Аппроксимации путем разложения в ряд
- •4.9. Аппроксимация для бинарного случая
- •4.9.1. Разложение Радемахера - Уолша
- •4.9.2. Разложение Бахадура - Лазарсфельда
- •4.9.3. Разложение Чоу
- •4.10. Линейный дискриминант Фишера
- •4.11. Множественный дискриминантный анализ
- •4.12. Библиографические и исторические сведения
4.7. Правило k ближайших соседей
Явным расширением правила ближайшего соседа является правило k ближайших соседей. Как видно из названия, это правило классифицирует х, присваивая ему метку, наиболее часто представляемую среди k ближайших выборок; другими словами, решение принимается после изучения меток k ближайших соседей. Мы не будем подробно анализировать это правило. Однако можно получить некоторые дополнительные представления об этих процедурах, рассмотрев случай с двумя классами при нечетном числе k (чтобы избежать совпадений).
Основным поводом к рассмотрению правила k ближайших соседей послужило сделанное нами ранее наблюдение о согласовании вероятностей с реальностью. Сначала мы заметили, что если k фиксировано и количеству выборок п позволить стремиться к бесконечности, то все k ближайших соседей сойдутся к х. Следовательно, как и в случае с единственным ближайшим соседом, метками каждого из k ближайших соседей будут случайные величины, независимо принимающие значение , с вероятностью Р(|х), i=1, 2. Если Р(|х) является самой большой апостериорной вероятностью, то решающее правило Байеса всегда выбирает . Правило единственного ближайшего соседа выбирает , с вероятностью P(|x). Правило k ближайших соседей выбирает , если большинство из k ближайших соседей имеют метку с вероятностью
В общем чем больше значение k, тем больше вероятность, что будет выбрана .
Мы могли бы проанализировать правило k ближайших соседей так же, как мы анализировали правило
Рис. 4.5. Границы уровня ошибки правила k ближайших соседей.
единственного ближайшего соседа. Однако ввиду того, что здесь потребуются более сложные рассуждения, которые мало что проясняют, мы удовлетворимся только констатацией результатов. Можно показать, что при нечетном k величина ошибки в случае с двумя классами и большим количеством выборок для правила k ближайших соседей ограничивается сверху функцией Сk(P*), где Сk по определению есть наименьшая вогнутая функция от Р*, большая, чем
Теперь совершенно ясно, что очень мало можно увидеть, глядя на приведенную функцию, разве что только можно отметить ее родство с биномиальным распределением. К счастью, можно легко вычислить Сk(P*) и изучить результаты. На рис. 4.5 показаны границы уровней ошибок правила k ближайших соседей для нескольких значений k. Случай с k=1 соответствует случаю с двумя классами из рис. 4.4. С возрастанием k верхние границы все более приближаются к нижней границе, уровню Байеса. В пределе, когда k стремится к бесконечности, две границы встречаются и правило k ближайших соседей становится оптимальным.
Рискуя произвести впечатление, что мы повторяемся, закончим снова упоминанием о ситуации с конечным числом выборок, встречаемой на практике. Правило k ближайших соседей можно рассматривать как еще одну попытку оценить апостериорные вероятности Р(|х) на основании выборок. Чтобы получить надежную оценку, нам желательно использовать большое значение k. С другой стороны, мы хотим, чтобы все k ближайших соседей х' были очень близки к х с тем, чтобы быть уверенными, что Р (|х') приблизительно такая же, как Р(|х). Это заставляет нас выбрать среднее значение k, являющееся небольшой частью всего количества выборок. Только в пределе при устремлении k к бесконечности можем мы быть уверены в почти оптимальном поведении правила k ближайших соседей.