Скачиваний:
64
Добавлен:
20.05.2014
Размер:
111.76 Кб
Скачать

Лекция 4 .

Распределение членов вариационного ряда.

Пусть имеется выборка объема n X1; :::; Xn из совокупности с функци- ей распределения F (x): Выведем функцию распределения k-го члена ва-

риационного ряда F(k) = P (X(k < x): Для этого введем последовательность n независимых испытаний Бернулли следующим образом. Проводится n независимых испытаний. Считается, что в j-ом испытании произошел успех, Xj < x: Тогда вероятность успеха в j-ом испытании равна

p = P (Xj < x) = F (x); a p(A) = 1 F (x): Рассмотрим случайную величинуn - число успехов в n независимых испытаниях. Тогда

p( n = l) = Cnl (F (x))l(1 F (x))n l; l = 0; 1; 2; :::; n:

Теперь вычислим

n

X

F(k)(x) = P (X(k) < x) = P ( n k) = p( n = l) =

l=k

n

X

=Cnl (F (x))l(1 F (x))n l:

j=k

Предположим теперь, что распределение генеральной совокупности имеет плотность f(x) и f(x) = F 0(x): Покажем, что тогда существует f(k)(x) -

плотность распределения k-го члена вариационного ряда

f(k)(x) = nCk f(x)(F (x))k 1(1 F (x))n k:

n 1

Действительно, из сделанных предположений сразу следует, что существует производная функции распределения F(k)(x) :

n

X

f(k)(x) = (Fk(x))0 = ( Cnl (F (x))l(1 F (x))n l)0 =

l=k

n

X

=Cnl ((F (x))l(1 F (x))n l)0:

l=k

При почленном дифференцировании этой суммы и получается та формула, которую мы доказываем.

Рассмотрим, как выглядят функция распределения и плотность распределения для первого и последнего члена вариационного ряда.

F(1)(x) = 1 (1 F (x))n; f(n)(x) = n(1 F (x))n 1f(x):

F(n)(x) = (F (x))n; f(n)(x) = n(F (x))n 1f(x):

1

Совместная функция распределения двух крайних членов вариационного ряда.

Пусть X1; :::; Xn ыборка из совокупности с функцией расределения F (x): Рассмотрим совместную функцию распределения двух случайных вели-

÷èí X1; Xn; а именно, F(1;n)(x; y): По определению,

F(1;n)(x; y) = P (X(1) < x; X(n) < y) = P (X(n) < y) P (X(1) x; X(n) < y)

Функция распределения для максимального члена варационного ряда

F(n)(x) = P (X(n) < x) = (F (x))n;

à

P (x X(1); X(n) < y) = P (x X1 < y; x X2 < y; :::; x Xn < y) =

(

=(F (y) F (x))n; x < y

0; x y:

Окончательно получаем формулу для функции распределения двух крайних членов вариационного ряда

 

(1;n)

(F n(y); x

y:

F

 

(x; y) = F n(y)

(F (y) F (x))n; x < y :

Если существует плотность распределения генеральной совокупности f(x) и f(x) = (F (x))0; то существует совместная плотность распределения

случайных величин X(1); X(n); которая равна

f(1;n)(x; y) =

@ @x@y

=

(0; x y:

 

F (x))n

 

 

:

 

2F (x; y)

 

n(n 1)f(x)f(y)(F (y)

 

 

2

; x < y

Приведем без доказательства формулу для плотности совместного распределения k-го и l-го члена вариационного ряда (k < l)

f(k;l)(x; y) =

(0; x y:

 

1[F (y)

 

F (x)]l

 

 

 

[1

 

F (y)]n

 

:

 

K(k; l; n)F (x)k

 

 

k

 

1

 

 

lf(x)f(y); x < y

В этой формуле

n!

K(k; l; n) = (k 1)!(l k 1)!(n l)!:

Выборочные характеристики двумерных выборок.

На практике часто изучаются генеральные совокупности объектов, обладающих не одним, а несколькими признаками. Например, генеральная

2

совокупность жителей Москвы, у которых нас интересует рост X и вес Y. На генеральной совокупности эти два признака имеют совместное распределение F (x; y) = P (X < x; Y < y): Из этой совокупности производится

выборка

(X1; Y1); :::; (Xn; Yn)

n пар независимых случайных величин. Каждая пара (Xj; Yj) имеет совместную функцию распределения F (x; y):

Двумерная гистограмма.

Разобьем область возможных значений двумерной выборки на s прямоугольников. Обозначим через Sj; j = 1; :::; s j-ый прямоугольник, через j - площадь j-го прямоугольника, а через jn - число точек выборки, попавших

в j-ый прямоугольник. На каждом j-ом прямоугольнике, как на основании, построим прямоугольный параллелепипед с высотой, равной jn=n j: Ñî-

вокупность таких параллелепипедов называется двумерной гистограммой. Теорема. Если существует двумерная плотность f(x; y) распределения,

задаваемого функцией распределения F (x; y); то объем j-го параллелепи-

R R

педа при n ! 1 сходится по вероятности к pj = Sj f(x; y)dxdy: Доказательство этой теоремы основано на законе больших чисел и

аналогично доказательству соответствующей теоремы для одномерного слу- чая.

Выборочный коэффициент корреляции.

Выборочным коэффициентом корреляции называется

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

P

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(Y Y )2

 

 

 

 

P(X X)2

 

 

 

 

n

SXSY

(X; Y ) =

 

 

j=1(Xj X)(Yj Y )

=

 

j=1(Xj X)(Yj Y )

:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

b

q

j j

 

 

 

 

 

j=1 j

 

 

 

 

 

 

 

 

 

 

 

 

P

n

 

 

 

 

 

 

P

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В этой формуле

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

SX

= v

 

 

 

 

 

 

 

 

; SY = v

 

 

 

 

 

 

n

 

 

(Xj

X)2

 

(Yj Y )2:

 

 

 

 

1

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

u

 

 

 

j=1

 

 

 

 

 

 

 

 

 

uj=1

 

 

 

 

 

 

 

 

 

 

u

 

 

 

X

 

 

 

 

 

 

 

 

 

 

 

X

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

u

 

 

 

 

 

 

 

 

 

 

 

t

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t

 

 

 

 

 

 

 

 

Выборочный коэффициент корреляции обладает многими полезными свойствами, из которых мы пока укажем лишь одно.

Выборочный коэффициент корреляции по вероятности при n ! 1 сходится к теоретическому коэффициенту корреляции:

(X; Y )

!n!1

=

cov(X; Y )

=

E[(X EX)(Y EY )]

:

 

 

b

 

X Y

X Y

Теория оценок.

Одной из основных задач математической статистики является разработка методов оценивания неизвестных истинных значений характеристик, наблюдаемой в эксперименте случайной величины. По исходам эксперимента, то есть по выборке, нужно оценить значение g некоторой числовой характеристики.

3

Оценить, или как говорят построить оценку, некоторой характеристики g распределения генеральной совокупности по выборке X1; :::Xn; это зна- чит построить такую числовую функцию от выборки T (X) = T (X1; :::; Xn); числовое значение которой при каждой реализации выборки можно было бы считать приближением неизвестной характеристики g.

С функциями от выборки (статистиками) мы уже встречались. Пример. Пусть имеется выборка X1; :::; Xn объема n из совокупности

с функцией распределения F (x): Предположим, что EXj = a: Нам нужно построить оценку неизвестного параметра : В качестве оценки можно взять, например,

T1(X) = X;

èëè

T2(X) = X(n) + X(1) :

2

Какая из этих оценок хуже, какая лучше и, вообще, какие требования нужно предъявлять к оценкам?

Свойства, предъявляемые к оценкам числовых характеристик распределения.

I. Несмещенность. Пусть X1; :::; Xn выборка из совокупности с функцией распределения F (x): Статистика gb(X) = gb(X1; :::; Xn) является несмещеной оценкой числового параметра g распределения F (x); если

Egb(X) = g:

Несмещенность оценки означает, что многократное использование этой оценки не приводит к систематической ошибке.

Несмещенность - это свойство оценок при каждом фиксированном объеме выборки.

Величина bn = Egb(X) g называется смещением оценки gb(X): Для несмещенной оценки bn = 0:

Примеры.Пусть X1; :::; Xn - выборка из совокупности с функцией распределения F (x):

1. Значение выборочной функции распределения Fn(x) в точке x является несмещенной оценкой значения функции распределения F (x) в точке x: Действительно, было показано, что

EFn(x) = F (x):

2. Выборочное среднее X; как было показано, - несмещенная оценка

математического ожидания a = EXj; EX = EXj = a:

3. Рассмотрим в качестве оценки дисперсии распределения генеральной совокупности выборочную дисперсию S2: Мы подсчитали, что

ES2 = n n 1 2:

4

Это означает, что S2 - смещенная оценка дисперсии выборочной совокупности 2:

Рассмотрим статистику

 

 

 

 

n

 

 

 

 

 

 

S02 =

 

1

 

Xj

(Xj

 

)2 =

n

 

S2:

 

 

X

n

 

1

n

1

 

 

 

 

 

 

 

 

 

 

 

 

 

=1

 

 

 

 

 

 

Эта статистика уже является несмещенной оценкой параметра 2: Действи-

тельно,

ES02 = E n n 1S2 = 2:

II. Состоятельность. Статистика gbn(X) = gb(X1; :::; Xn) неизвестного

параметра g распределения F (x) называется состоятельной оценкой этого

параметра, если

p

gbn(X) ! g;

то есть для любого > 0 при n ! 1

P (jgbn(X) gj > ) ! 0:

Свойство состоятельности означает, что последовательность оценок приближается оцениваемому параметру при увеличении количества данных. Если данных не очень много и нет возможности увеличивать их количе- ство, то нет смысла говорить о состоятельности оценки.

Примеры.

1.Значение выборочной функции распределения Fn(x) в точке x является состоятельной оценкой значения функции распределения генеральной совокупности F (x) в точке x: Как было показано при n ! 1 значение Fn(x)

âточке x сходится по вероятности к F (x):

2.Выборочное среднее X - состоятельная оценка математического ожи-

дания a = EXj: Было показано, что выборочное среднее сходится по вероятности к a при n ! 1:

3. Выборочная дисперсия S2 - состоятельная оценка дисперсии генераль-

ной совокупности 2 = DXj: Из свойств выборочной дисперсии известно, что S2 при n ! 1 сходится по вероятности к 2:

Если в качестве оценки дисперсии выборки взять теперь

 

 

 

 

n

 

 

 

 

 

 

 

 

Xj

 

 

 

 

S02

=

1

 

 

(Xj

 

)2

=

n

S2;

n

1

 

X

n 1

 

 

 

=1

 

 

 

 

 

 

то эта оценка также будет состоятельной оценкой. Заметим также, что S2 òàê æå êàê è S2 асимптотически нормальна с параметрами 2; 2pE + 2:0

Теперь рассмотрим следующий пример. Пусть X1; :::; Xn - выборка из равномерного распределения на отрезке [0; ]: Функция распределения и

5

плотность этого распределения выглядят так:

F (x; ) =

8x ; x

2

(0; 1)

 

 

f(x; ) =

1

2

 

 

:

 

 

 

>

0; x

 

 

 

 

 

 

(

 

; x

 

[0; ]

 

 

 

 

0

 

 

 

 

 

 

 

0; = [0; ]

 

 

 

<1; x >

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

>

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рассмотрим две

 

 

:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

оценки параметра

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

n

 

 

 

 

 

n + 1

 

 

 

 

b

(X) =

 

 

 

Xj

 

 

b

(X) =

 

 

 

 

 

 

 

 

 

 

 

 

 

X

;

 

 

 

 

X

 

:

 

1

 

 

 

 

n

j

2

 

 

 

n

 

 

(n)

 

 

 

 

 

 

 

=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Для этого подсчитаем

Рассмотрим свойства оценки

b1(X):2 n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

b

(X) =

 

Xj

 

= :

 

 

 

 

 

 

 

 

 

E 1

n

 

 

EXj

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=1

 

 

 

 

 

 

 

 

 

Оценка b1(X) несмещенна.

Покажем, что b2(X) также несмещенная оценка. Дейcтвительно, плотность распределения максимального члена вариационного ряда для рассматриваемого семейства распределений

Поэтому

è

f(n)(x) = (nx n 2

; x [0; ]:

 

 

0; x = [0; ]

 

 

 

 

 

 

n 1

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

nxn

 

1

 

 

n

 

EX(n) = Z0

x

 

 

dx =

 

 

n

 

n + 1

Eb2(X) =

 

n + 1

 

 

= :

 

 

 

 

EX(n)

 

 

 

n

 

Можно показать также, что обе оценки состоятельны. Действительно, по закону больших чисел при n ! 1

p

b1(X) = 2X ! 2EXj = :

Для доказательства состоятельности второй оценки рассмотрим для любого

> 0

P (jb2(X) j ) = P ( b2(X) + ) =

= P n + 1( ) X(n)

 

 

n

 

= F(n)

n + 1( + )

F(n)

 

 

n

 

n + 1( + )

=

n

 

n

( ) :

n + 1

6

Функция распределения максимального члена вариационного ряда (максимальной порядковой статистики)

 

F(n)(x) = 8 n

; x [0; ]

 

 

>

0; x < 0

 

 

 

 

2

 

 

 

 

<1; x > :

 

 

 

>

xn

 

 

Поэтому при

n ! 1

:

 

 

 

 

n + 1( + )

! 1;

 

F(n)

 

 

 

n

 

 

 

 

F(n)

n + 1( )

! 0:

 

 

 

n

 

 

 

А это означает, что для любого > 0

P (jb2(X) j ) ! 1;

òî åñòü

p

b2(X) ! :

Оценка b2(X) - также состоятельна.

Какую из этих оценок все таки выбрать? Как теперь сравнивать эти оценки? Подсчитаем дисперсии оценок b1(X) è b2(X). Сначала вычислим

дисперсию Db1(X):

 

 

 

 

 

4 2

2

Db1(X) = D2X = 4DX =

 

 

 

=

 

:

n

12

3n

Для вычисления дисперсии Db2(X) вычислим дисперсию DX(n):

DX(n) = EX(2n) (EX(n))2:

EX(2n) =

Поэтому

DX(n)

Z0

x2

n

 

dx = nn+ 2

; EX(n) = n + 1 :

 

 

nxn

1

 

 

2

 

 

n

 

 

n 2

 

 

n

2

 

n 2

=

 

 

=

 

 

 

 

 

 

:

n + 2

n + 1

(n + 2)(n + 1)2

Отсюда следует, что

 

 

 

+ 1

 

2

D 2 = D n n

X(n) = n(n + 2):

b

 

 

 

 

 

Ïðè âñåõ n 2

Db1 Db2:

7

Соседние файлы в папке Лекции Мат.стат. (2007-2008)