Добавил:

Studfiles2 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный электротехнический университет "ЛЭТИ"

Предмет:

Распознавание изображений и речевых сигналов

Файл:

Лекции по МРРиИ, Геппенер В.В. / Lecture5 / Lecture5.doc

Скачиваний:

Добавлен:

01.05.2014

Размер:

1.44 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 78 / 118 9 10 11 > Следующая >>>

Оценка методом knближайших соседей

Одна из проблем, с которой сталкиваются при использовании метода парзеновского окна, заключается в выборе последовательности объемов ячеек V₁,V₂, . . . . Например, если мы берем V_n,=V₁/, то результаты для любого конечногопбудут очень чувствительны к выбору начального объема V₁.ЕслиV₁ слишком мал, большинство объемов будут пустыми и оценкар_n(х) будет довольно ошибочной. С другой стороны, еслиV₁слишком велик, то из-за усреднения по объему ячейки могут быть потеряны важные пространственные отклонения отр(x).Кроме того, вполне может случиться, что объем ячейки, уместный для одного значения х,может совершенно не годиться для других случаев.

Один из возможных способов решения этой проблемы -сделать объем ячейки функцией данных, а не количества выборок. Например, чтобы оценитьр(х) на основании nвыборок, можно центрировать ячейку вокруг х и позволить ей расти до тех пор, пока она не вместит выборок, где есть некая определенная функция отп. Эти выборки будут ближайшими соседями х. Если плотность распределения вблизи х высокая, то ячейка будет относительно небольшой, что приводит к хорошему разрешению. Если плотность распределения невысокая, то ячейка возрастает, но рост приостанавливается вскоре после ее вступления в области более высокой

Рис. 4. 3.Оценки двух плотностей распределения, полученные методомk_nближайших соседей.

плотности распределения. В любом случае, если мы берем

(5)

мы хотим, чтобы стремилось к бесконечности при стремлениип к бесконечности, так как это гарантирует, что /nбудет хорошей оценкой вероятности попадания точки в ячейку объема Однако мы хотим также, чтобы росло достаточно медленно для того, чтобы размер ячейки, необходимый для вмещения выборок, сжался до нуля. Таким образом, из формулы (5)видно, что отношение /nдолжно стремиться к нулю. Хотя мы не приводим доказательств, можно показать, что условия и являются необходимыми и достаточными для сходимостир_n(х) ир(х) по вероятности во всех точках, где плотностьрнепрерывна. Если взятьk_n=и допустить, чтор_n(х)является хорошей аппроксимациейр(x),то из соотношения (5)следует, что . Таким образом, опять имеет вид ,но начальный объем определяется характером данных, а не каким-либо нашим произвольным выбором.

Полезно сравнить этот метод с методом парзеновского окна на тех же данных, что были использованы в предыдущих примерах. С n=lи == 1оценка становится

Ясно, что это плохая оценка для р (х),поскольку ее интеграл расходится. Как показано на рис. 4.3,оценка становится значительна лучше по мере увеличенияnнесмотря на то, что интеграл оценки всегда остается бесконечным. Этот неприятный факт компенсируется тем, чтор_n(х)никогда не сведется к нулю просто потому, что в некоторую произвольную ячейку или окно не попадают никакие выборки. Хотя эта компенсация может показаться скудной, в пространствах более высокой размерности она приобретает большую ценность.

Как и в методе парзеновского окна, мы можем получить семейство оценок, принимая =и выбирая различные значения для .Однако при отсутствии какой-либо дополнительной информации любой выбор одинаково хорош, и мы можем быть уверены лишь в том, что результаты будут асимптотически правильными.

<<< < Предыдущая 1 2 3 4 5 6 78 / 118 9 10 11 > Следующая >>>

Соседние файлы в папке Lecture5

#
01.05.20141.44 Mб97Lecture5.doc
#
01.05.2014180.46 Кб86pic4_1.jpg
#
01.05.201476.71 Кб85pic4_2.jpg
#
01.05.201459.18 Кб85pic4_3.jpg