Добавил:

Studfiles2 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный электротехнический университет "ЛЭТИ"

Предмет:

Анализ и интерпретация данных

Файл:

Анализ и интерпретация данных / Глава_4.doc

Скачиваний:

108

Добавлен:

01.05.2014

Размер:

4.12 Mб

Скачать

☆

<<< < Предыдущая 1 2 34 / 144 5 6 7 8 9 10 11 12 13 14 > Следующая >>>

4.4. Оценка методом kn ближайших соседей

Одна из проблем, с которой сталкиваются при использовании метода парзеновского окна, заключается в выборе последовательности объемов ячеек V₁, V₂, . . . . Например, если мы берем V_n,=V₁/, то результаты для любого конечного п будут очень чувствительны к выбору начального объема V₁. Если V₁ слишком мал, большинство объемов будут пустыми и оценка р_n(х) будет довольно ошибочной. С другой стороны, если V₁ слишком велик, то из-за усреднения по объему ячейки могут быть потеряны важные пространственные отклонения от р(x). Кроме того, вполне может случиться, что объем ячейки, уместный для одного значения х, может совершенно не годиться для других случаев.

Один из возможных способов решения этой проблемы - сделать объем ячейки функцией данных, а не количества выборок. Например, чтобы оценить р (х) на основании n выборок, можно центрировать ячейку вокруг х и позволить ей расти до тех пор, пока она не вместит выборок, где есть некая определенная функция от п. Эти выборки будут ближайшими соседями х. Если плотность распределения вблизи х высокая, то ячейка будет относительно небольшой, что приводит к хорошему разрешению. Если плотность распределения невысокая, то ячейка возрастает, но рост приостанавливается вскоре после ее вступления в области более высокой

Рис. 4. 3. Оценки двух плотностей распределения, полученные методом k_n ближайших соседей.

плотности распределения. В любом случае, если мы берем

(5)

мы хотим, чтобы стремилось к бесконечности при стремлении п к бесконечности, так как это гарантирует, что /n будет хорошей оценкой вероятности попадания точки в ячейку объема Однако мы хотим также, чтобы росло достаточно медленно для того, чтобы размер ячейки, необходимый для вмещения выборок, сжался до нуля. Таким образом, из формулы (5) видно, что отношение /n должно стремиться к нулю. Хотя мы не приводим доказательств, можно показать, что условия и являются необходимыми и достаточными для сходимости р_n (х) и р (х) по вероятности во всех точках, где плотность р непрерывна. Если взять k_n= и допустить, что р_n(х) является хорошей аппроксимацией р(x), то из соотношения (5) следует, что . Таким образом, опять имеет вид , но начальный объем определяется характером данных, а не каким-либо нашим произвольным выбором.

Полезно сравнить этот метод с методом парзеновского окна на тех же данных, что были использованы в предыдущих примерах. С n=l и == 1 оценка становится

Ясно, что это плохая оценка для р (х), поскольку ее интеграл расходится. Как показано на рис. 4.3, оценка становится значительна лучше по мере увеличения n несмотря на то, что интеграл оценки всегда остается бесконечным. Этот неприятный факт компенсируется тем, что р_n(х) никогда не сведется к нулю просто потому, что в некоторую произвольную ячейку или окно не попадают никакие выборки. Хотя эта компенсация может показаться скудной, в пространствах более высокой размерности она приобретает большую ценность.

Как и в методе парзеновского окна, мы можем получить семейство оценок, принимая = и выбирая различные значения для . Однако при отсутствии какой-либо дополнительной информации любой выбор одинаково хорош, и мы можем быть уверены лишь в том, что результаты будут асимптотически правильными.

<<< < Предыдущая 1 2 34 / 144 5 6 7 8 9 10 11 12 13 14 > Следующая >>>

Соседние файлы в папке Анализ и интерпретация данных

#
01.05.20142.53 Mб114Глава_3.doc
#
01.05.20144.12 Mб108Глава_4.doc
#
01.05.20142.76 Mб106Глава_5.DOC
#
01.05.201410.78 Mб110Глава_6.DOC