Скачиваний:
108
Добавлен:
01.05.2014
Размер:
4.12 Mб
Скачать

4.3. Парзеновские окна

4.3.1. Общие соображения

Знакомство с методом оценки плотностей распределения с по­мощью парзеновского окна можно начать с временного предполо­жения о том, что область n является d-мерным гиперкубом. Если hn есть длина ребра этого гиперкуба, то его объем задается как

(6)

Аналитическое выражение для kn количества выборок, попа­дающих в этот гиперкуб,— можем получить, определяя следующую функцию окна:

Таким образом, u определяет единичный гиперкуб с центром в начале координат. Отсюда следует, что ((x-xi)/hn) равняется единице, если хi находится в гиперкубе объема Vn с центром в х, или нулю в любом другом случае. Следовательно, количестве выборок в этом гиперкубе задается выражением

Подставляя его в (5), получаем оценку

. (8)

Это соотношение предполагает более общий подход к оценке плот­ности распределения. Не ограничиваясь функцией окна гиперкуба, данной формулой (7), допускаем более общий класс функций окна. Тогда соотношение (8) выражает нашу оценку р(х) как среднее зна­чение функций от х и выборок хi. По существу, функция окна ис­пользуется для интерполяции, причем каждая выборка влияет на оценку в зависимости от ее расстояния до х.

Хотелось бы, чтобы оценка рn(х) была законной плотностью рас­пределения, т. е. неотрицательной, с интегралом, равным единице. Это можно гарантировать, требуя, чтобы функция окна была законной плотностью распределения. Точнее, если мы потребуем, чтобы

(u)0 (9)

и

(10)

и если мы сохраняем отношение Vn=,то отсюда сразу же следует что и pn(х) также удовлетворяет этим условиям.

Рассмотрим, какое влияние оказывает на pn(х) ширина окна hn. Если мы определяем функцию (х) как

(11)

то можем записать pn(х) в виде среднего

(12)

Поскольку Vn=, то hn влияет как на амплитуду, так и на ширину окна (х). Еслиhn очень велика, то амплитуда у мала, их должно находиться достаточно далеко от хi, пока (х— хi) не станет значительно отличаться от (0). В этом случае pn(х) есть наложение п широких, медленно меняющихся функций и служит очень сглаженной «несфокусированной» оценкой p(х). С другой стороны, если hn очень мала, то максимальное значение (х— хi) велико и находится вблизи от х= хi. В этом случае pn(х) есть нало­жение п резких выбросов с центрами в выборках и является ошибоч­ной «зашумленной» оценкой функции р(х). Для любого значения hn справедливо выражение

. (13)

Таким образом, по мере устремления hn к нулю (х— хi) стремится к дельта-функции Дирака, центрированной в хi и pn(х) стремится к наложению дельта-функций, центрированных в выборках.

Ясно, что выбор значения hn (или Vn) сильно сказывается на pn(х). Если объем Vn слишком велик, оценка будет плохой из-за слишком малой разрешающей способности. Если Vn слишком мал, оценка будет плохой в результате слишком большого статистиче­ского разброса. При ограниченном количестве выборок самое луч­шее решение — пойти на приемлемый компромисс. При неограни­ченном же количестве выборок можно позволить Vn медленно стре­миться к нулю по мере увеличения п и заставить pn() сойтись к не­известной плотности распределения р(х).

Говоря о сходимости, мы должны сознавать, что речь идет о сходимости последовательности случайных величин, так как для любого фиксированного х значение pn (х) зависит от значений слу­

чайных выборок x1, . . ., хn. Таким образом, pn(х) имеет некоторое среднее и некоторую дисперсию(х). Будем говорить, что оценкаpn(х) сходится к р(х), если 2

(14)

и

(15)

Чтобы доказать сходимость, нужно наложить условия на неиз­вестную плотность распределения р(х), функцию окна (u) и ширину окна hn. Обычно требуется, чтобы р была непрерывной в х и чтобы выполнялись условия (9) и (10). Можно доказать, что сходимость обеспечивается при следующих дополнительных условиях:

, (16)

, (17)

(18)

(19)

Выражения (16) и (17) способствуют хорошему поведению , и этим условиям удовлетворяет большинство плотностей распреде­ления, которые можно взять для функций окна. Уравнения (18) и (19) говорят о том, что объем Vn должен стремиться к нулю, но со скоростью, меньшей чем 1/п. Рассмотрим теперь, почему эти усло­вия—основные условия, обеспечивающие сходимость.

Соседние файлы в папке Анализ и интерпретация данных