- •Глава 4 непараметрические методы
- •4.1. Введение
- •4.2. Оценка плотности распределения
- •4.3. Парзеновские окна
- •4.3.1. Общие соображения
- •4.3.2. Сходимость среднего значения
- •4.3.3. Сходимость дисперсии
- •4.3.4. Два примера
- •4.4. Оценка методом kn ближайших соседей
- •4.5. Оценка апостериорных вероятностей
- •4.6. Правило ближайшего соседа
- •4.6.1. Общие замечания
- •4.6.2. Сходимость при использовании метода ближайшего соседа
- •4.6.3. Уровень ошибки для правила ближайшего соседа
- •4.6.4. Границы ошибки
- •4.7. Правило k ближайших соседей
- •4.8. Аппроксимации путем разложения в ряд
- •4.9. Аппроксимация для бинарного случая
- •4.9.1. Разложение Радемахера - Уолша
- •4.9.2. Разложение Бахадура - Лазарсфельда
- •4.9.3. Разложение Чоу
- •4.10. Линейный дискриминант Фишера
- •4.11. Множественный дискриминантный анализ
- •4.12. Библиографические и исторические сведения
4.5. Оценка апостериорных вероятностей
Рассмотренные в предыдущих разделах методы можно использовать для оценки апостериорных вероятностей на основании п помеченных выборок, пользуясь выборками для оценки соответствующих плотностей распределения. Предположим, что мы
размещаем ячейку объема V вокруг х и захватываем k выборок, из которых оказываются помеченными . Тогда очевидной оценкой совместной вероятности р(х, ) будет
Таким образом, приемлемой оценкой для будет
Иначе говоря, оценка апостериорной вероятности того, что состояние природы есть , является просто долей выборок в ячейке, помеченных .
Чтобы свести уровень ошибки к минимуму, мы выбираем класс, наиболее часто представляемый в ячейке. Если имеется достаточное количество выборок и если ячейка достаточно мала, то можно показать, что результаты будут в этом случае близки к наилучшим.
Если дело доходит до выбора размера ячейки, то можно воспользоваться или методом парзеновского окна, или методом ближайших соседей. В первом случае будет некоторой определенной функцией от п, а именно = 1/. Во втором случае будет расширяться до тех пор, пока не вместит некоторое определенное число выборок, а именно k=. В любом случае по мере устремления п к бесконечности в бесконечно малую ячейку будет попадать бесконечное число выборок. Тот факт, что объем ячейки может стать бесконечно малым и все же будет содержать бесконечно большое число выборок, позволяет нам изучать неизвестные вероятности с определенной точностью и, таким образом, постепенно добиваться оптимальных результатов. Довольно интересно, как мы увидим далее, что можно получать сравнимые результаты, основывая наше решение только на метке единственного ближайшего соседа величины х.
4.6. Правило ближайшего соседа
4.6.1. Общие замечания
Пусть ={x1, . . ., хn} будет множеством n помеченных выборок, и пусть будет выборкой, ближайшей к х. Тогдаправило ближайшего соседа для классификации х заключается в том, что х присваивается метка, ассоциированная с . Правило ближайшего соседа является почти оптимальной процедурой; его применение обычно приводит к уровню ошибки, превышающему минимально возможный байесовский. Как мы увидим, однако, при неограниченном количестве выборок уровень ошибки никогда не будет хуже байесовского более чем в два раза.
Прежде чем вдаваться в детали, давайте попытаемся эвристически разобраться в том, почему правило ближайшего соседа дает такие хорошие результаты. Для начала отметим, что метка , ассоциированная с ближайшим соседом, является случайной величиной, а вероятность того, что=, есть просто апостериорная вероятность . Когда количество выборок очень велико, следует допустить, что расположено достаточно близко к х, чтобы . В этом случае можем рассматривать правило ближайшего соседа как рандомизированное решающее правило, которое классифицирует х путем выбора класса с вероятностью . Поскольку это точная вероятность того, что природа находится в состоянии , значит, правило ближайшего соседа эффективно согласует вероятности с реальностью. Если мы определяем (х) как
(23)
то байесовское решающее правило всегда выбирает . Когда вероятность близка к единице, выбор с помощью правила ближайшего соседа почти всегда будет таким же, как и байесовский, это значит, что когда минимальная вероятность ошибки мала, то вероятность ошибки правила ближайшего соседа также мала. Когда близка к 1/с, так что все классы одинаково правдоподобны, то выборы, сделанные с помощью этих двух правил, редко бывают одинаковыми, но вероятность ошибки в обоих случаях составляет приблизительно 1-1/с. Не исключая необходимости в более тщательном анализе, эти замечания позволяют меньше удивляться хорошим результатам правила ближайшего соседа.
Наш анализ поведения правила ближайшего соседа будет направлен на получение условной средней вероятности ошибки Р (е|х) при большом количестве выборок, где усреднение производится по выборкам. Безусловная средняя вероятность ошибки будет найдена путем усреднения Р(е|х) по всем х:
(24)
Заметим, что решающее правило Байеса минимизирует Р(e) путем минимизации Р (е|x) для каждого х.
Если Р*(е|x) является минимально возможным значением Р(e|x), а Р* — минимально возможным значением Р(е), то
(25)
и
(26)