Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Matematicheskaya_statistika_--_teoria

.pdf
Скачиваний:
23
Добавлен:
16.03.2015
Размер:
447.63 Кб
Скачать

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

21

если

t =T (x1,..., xn )

значение

статистики

 

T (X1,..., Xn ),

соответствующее данной выборке (x1,..., xn )

и

t Kα ,

то

 

гипотеза

H0

отвергается;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

если t Kα , то гипотеза H0 принимается.

 

 

 

 

 

 

 

 

 

 

 

 

 

Статистика

T =T (X1,..., Xn )

называется

статистикой

критерия;

множество

Kα

- критической

областью для

гипотезы

H0 ,

число α -

уровнем значимости критерия.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1.3.1. Проверка гипотезы о виде распределения

 

 

 

 

 

 

 

 

Пусть (x1,..., xn )

- выборка объема n , представляющая собой результат

n независимых наблюдений над случайной

величиной

X ,

 

относительно

распределения которой выдвинута

простая

гипотеза

H0 : FX (x) = F(x)

( F(x) - теоретическая функция распределения, соответствующая

гипотезе

H0 ). Наиболее распространенным критерием

проверки

этой

 

гипотезы

H0

является критерии χ2 Пирсона.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Чтобы

воспользоваться критерием

χ2 Пирсона,

выборочные

 

данные

(x1,..., xn ) следует предварительно сгруппировать,

представив

их

 

в виде

интервального статистического ряда. Пусть

Jk

=[uk1,uk ),k =

 

-

1, N

интервалы группировки; ν1,...,νN - частоты попадания выборочных значений

в интервалы J1,..., JN соответственно (ν1 +... +νN = n).

 

 

 

 

 

 

 

 

 

 

Обозначим

pk

теоретическую (соответствующую H0 )

вероятность

попадания случайной величины X в интервал Jk :

 

 

 

 

 

 

 

 

 

 

 

 

 

pk = P(uk1 X < uk ) = F(uk ) F(uk1), k =

 

.

 

 

 

 

 

1, N

 

 

 

Статистикой критерия χ2 является величина:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N

(ν

k

n p

)2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

χn2 =

 

k

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n p

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k=1

 

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

которая характеризует

отклонение

эмпирической

функции

распределения

F (x) от теоретической функции распределения F(x) (значение

νk

 

является

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

22

приращением

эмпирической

 

 

(x)

на

интервале J

 

, а

p

-

функции F

k

 

 

 

 

n

 

 

 

 

 

k

приращением теоретической функции F(x)

на том же интервале).

Поскольку

относительные

частоты

νk

 

сближаются

с

вероятностями

 

p

 

при

 

 

 

 

 

 

n

 

 

 

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

n → ∞, k =1, N , то в случае справедливости гипотезы H0 значение величины χn2 не должно существенно отличаться от нуля. Поэтому критическая область

критерия χ2 задается в виде K

={t t }, где t = χ2

(x ,..., x ) – значение

α

α

n

1

n

величины χ2, полученное для заданной выборки, а порог t

определяется по

n

 

 

α

 

заданному уровню значимости

α так, чтобы

P{χn2 Kα / H0}=α .

Нахождение tα основано на том факте (известном как теорема Пирсона), что случайная величина χn2 имеет при n → ∞ предельное распределение хи - квадрат χ2 (N 1) с N 1 степенью свободы.

На практике предельное распределение χ2 (N 1) можно использовать с хорошим приближением при n 50 и νk 5, k =1, N . При выполнении этих условий для заданного уровня значимости α можно положить tα = χ12α; N 1,

где χ21α; N 1 является (1—α )-квантилью распределения χ2 (N 1) .

Таким образом, критерий согласия χ2 Пирсона состоит в следующем:

1. По заданному уровню значимости α находится по табл. П4 порог

χ21α; N 1.

2.По заданной выборке (x1,..., xn ) объема n 50 определяется число N

интервалов группировки так, чтобы νk 5, k =1, N . Вычисляется значение статистики χn2 (x1,..., xn ) = t .

3.Если t χ21α; N 1, то гипотезу H0 отвергают.

4.Если t < χ21α; N 1, то гипотезу H0 принимают.

 

23

Если случайная

величина X дискретная, xk , k =

 

- различные

1, N

выборочные значения,

а P(X = xk ) = pk в случае справедливости H0 , то

всегда можно определить N интервалов, содержащих ровно по одному выборочному значению. Поэтому в данном случае можно сразу считать, что

νk = mk , k =1, N , где mk – частота выборочного значения xk .

На практике теоретическое распределение полностью бывает определено редко. Чаще известен предположительно только тип распределения, но неизвестны параметры его определяющие. В этом случае гипотеза о виде

распределения,

подлежащая

проверке,

имеет

вид

H0 : FX (x) = F(x;θ),

θ = (θ1,...,θr ) Θ

и

является

сложной

параметрической гипотезой.

 

 

 

Критерий согласия χ2 Пирсона применим для проверки такой гипотезы H0 со следующими изменениями:

а) вероятности pk

= P(X Jk ),

k =

1, N

вычисляют, заменяя неизвестные

параметры θ = (θ1,...,θr )

их

оценками

максимального правдоподобия

θˆ = (θˆ

,...,θˆ ) :

p = F(u

 

;θˆ) F(u

 

 

;θˆ), k =

 

;

k

k1

1, N

1

r

k

 

 

 

 

 

 

б) число степеней свободы предельного распределения хи - квадрат должно быть уменьшено на число неизвестных параметров и считаться равным

(N 1r).

1.4. Изучение зависимости между случайными величинами.

Предположим, что случайный эксперимент состоит в проведении повторных независимых наблюдений над случайным вектором (X ,Y ) , имеющим неизвестное распределение вероятностей, т.е. неизвестную двумерную функцию распределения FXY (x, y) = F(x, y) . В этом случае выборка объема n представляет собой множество пар чисел ((x1, y1),...,(xn , yn )) и она является исходной информацией для получения

статистических выводов о вероятностных характеристиках случайного вектора. При рассмотрении одновременно двух случайных величин X и Y наряду с одномерными статистическими задачами дополнительно возникают

статистические задачи, связанные с изучением зависимости между случайными величинами. К ним, в частности, относятся: определение корреляционной

24

зависимости между случайными величинами X и Y ; проверка гипотезы о независимости случайных величин; построение регрессионной зависимости между случайными величинами X и Y .

1.4.1. Оценка коэффициента корреляции.

Точечными оценками математических ожиданий и дисперсий координат вектора X и Y в соответствии с разделом 1.1 являются выборочные средние и выборочные дисперсии:

 

 

 

x =

1 n

x ,

y =

 

1

n

y ,

 

 

 

 

 

 

 

 

 

 

n

i

 

 

n

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

s2 = 1 n

 

(x x)2 ,

s2 =

1

n

(y y)2 .

 

 

 

 

 

X

 

n

i

 

Y

n

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

Аналогичным усреднением находится и оценка корреляционного

момента

RXY = M (X MX )(Y MY ) = M (X Y ) MX MY ,

называемая

выборочным корреляционным моментом:

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

 

1 n

 

 

 

 

 

1 n

 

 

 

 

 

 

 

 

 

RXY =

n

(xi x)(yi

y) =

n

xi yi

x y .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

С

учетом этого

оценка

коэффициента корреляции

rXY =

 

 

RXY

 

,

 

 

 

 

 

DX DY

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

называемая выборочным коэффициентом корреляции, определяется по формуле:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

 

 

 

 

 

 

 

(xi

x)(yi y)

 

 

 

rˆ

=

 

 

 

RXY

 

 

 

=

 

 

i=1

 

 

 

 

 

 

 

 

 

=

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

XY

 

 

 

 

s2

s2

 

 

 

n

 

 

2

n

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y)

 

 

 

 

 

 

 

X

 

Y

 

 

(xi x)

 

(yi

 

 

 

 

 

 

 

 

 

 

n

 

 

i=1

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi yi

n x y

 

 

 

 

 

 

 

 

 

=

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

n x 2

 

n

n y2

 

 

 

 

 

 

 

 

xi2

 

yi2

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

25

1.4.2.Проверка гипотезы о независимости

Вобщем случае для проверки гипотезы о независимости случайных

величин X и Y

можно воспользоваться критерием независимости χ2

проверки гипотезы

Н0 , заключающейся в том, что функция распределения

случайного вектора (X ,Y )

F(x, y) =FX (x)FY (y),

где FX (x) и FY (y) - одномерные функции распределения координат вектора. Статистика критерия независимости χ2 имеет вид (см. [3, разд. 3.5]):

χn2

K L

(νi j (νiXνYj ) / n)2

 

K L

 

νi2j

 

 

= n ∑ ∑

 

 

= n

∑ ∑

 

 

 

1

,

X

Y

 

X

Y

 

i=1 j=1

 

 

 

 

 

 

νi

ν j

i=1 j=1

νi

ν j

 

 

где K и L – число интервалов группировки выборочных значений случайных величин X и Y соответственно; νiX и νYj - частоты интервалов группировки выборочных значений случайных величин X и Y соответственно; νi j - частота прямоугольника, сторонами которого являются i -й интервал

группировки выборочных значений случайной величины

X и

j -й интервал

группировки выборочных значений случайной величины Y .

 

 

Гипотезу Н0 отвергают тогда,

когда вычисленное по заданной выборке

((x , y ),...,(x , y

n

)) значение статистики χ2

удовлетворяет

неравенству

1 1

n

 

 

n

 

 

 

χn2 χ12α;(K 1)(L1), где χ12α;(K 1)(L1)

является

(1α) -квантилью

распределения

χ2 ((K 1)(L 1)) с

(K 1)(L 1) степенями

свободы. В

противном случае гипотезу Н0 принимают.

В случае нормального распределения случайного вектора (X ,Y )

равенство коэффициента корреляции нулю означает одновременно и независимость координат вектора. Поэтому гипотеза о независимости случайных величин X и Y в этом случае может быть сформулирована как

гипотеза Н0 : rXY = 0.

26

Статистикой критерия для проверки данной гипотезы H0 является

величина: T =

rˆXY

 

 

 

 

, где rˆ

 

 

n 2

 

- выборочный коэффициент корреляции.

 

 

 

 

 

 

 

1rˆ2

XY

 

 

 

 

 

 

 

 

XY

 

 

 

В случае справедливости

 

H0 значение величины T не должно

существенно отличаться по модулю от нуля. Поэтому критическая область критерия для проверки H0 является двусторонней (в отличие от критерия χ2)

и задается в виде Kα ={

 

t

 

tα }, где

t =T ((x1, y1),...,(xn , yn ))

- значение

 

 

величины T ,

полученное для заданной выборки, а порог tα определяется по

заданному уровню значимости α так, чтобы P{T Kα / H0}=α .

 

 

Поскольку

(см.

[3, разд.

3.5] и

[4, разд. 4.8.1])

при

больших

n

(практически при n 30) в случае справедливости гипотезы

Н0

случайная

величина

T имеет распределение Стьюдента

S(n 2) с

(n 2)

степенями

свободы,

то

для

заданного

уровня

значимости

α

можно

положить

tα = t1α / 2;n2 , где t1α / 2;n2 является 1—α /2 - квантилью распределения

S(n 2).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таким образом,

критерий для проверки гипотезы

Н0

о равенстве нулю

коэффициента корреляции состоит в следующем:

 

 

 

 

 

1. По

заданному уровню

значимости α

находится по табл.

П3

порог

t1α / 2;n2 .

 

 

 

 

 

 

 

 

 

 

 

 

 

2.

По заданной выборке ((x1, y1),...,(xn , yn )) вычисляется значение

статистики T ((x1, y1),...,(xn , yn )) = t .

3.

Если

 

 

 

t

 

 

 

t1α / 2;n2 ,

то гипотезу H0 отвергают и делают вывод о том,

 

 

что случайные величины X и Y являются зависимыми.

4.

Если

 

t

 

 

< t1α / 2;n2 ,

то гипотезу H0 принимают и считают, что

 

 

случайные величины X и Y являются независимыми.

Замечание.

В общем

случае (отличном от нормального) гипотеза

Н0 : rXY = 0 является гипотезой о некоррелированности случайных величин X и Y и известна также как гипотеза о значимости коэффициента корреляции.

(X ,Y )

 

27

1.4.3. Эмпирические уравнения регрессии.

 

Функцией регрессии ψ(x) случайной величины Y

на случайную

величину X называется условное математическое ожидание

M(Y / X = x) .

Эта функция наилучшим (в среднеквадратическом смысле) образом описывает зависимость случайной величины Y от случайной величины X .

Известно, что если случайный вектор (X ,Y ) имеет двумерный нормальный закон распределения N(aX ,aY ,σX2 ,σY2 ,rXY ) , то функция

регрессии случайной величины Y на случайную величину X является линейной и имеет вид (случай нормальной регрессии):

y = aY + rXY σY (x aX ) .

σX

Заменяя в этом уравнении aX ,aY ,σX ,σY ,rXY на их точечные оценки

x, y,sX ,sY ,rˆXY соответственно, получаем эмпирическое уравнение регрессии

случайной величины Y на случайную величину X вида (подробнее см. [4,

разд. 4.8.2]):

y y = rˆ

 

sY

(x x).

 

 

 

XY sX

регрессии ϕ(y) = M(X /Y = y)

Аналогично определяется функция

случайной величины X на случайную величину Y . При этом эмпирическое

уравнение регрессии случайной величины

X на случайную величину Y в

нормальном случае имеет вид:

 

 

 

 

x x = rˆ

sX

 

(y y).

 

XY s

 

 

 

Y

 

Геометрически уравнение регрессии представляет собой прямую, около которой группируются значения случайного вектора (X ,Y ) . Чем ближе значение выборочного коэффициента корреляции к 1, тем плотнее значения вектора располагаются вдоль прямой регрессии.

1.5.Моделирование случайных величин и векторов

1.5.1.Моделирование непрерывных случайных величин

28

Случайные величины обычно моделируют с помощью преобразований одного или нескольких независимых значений случайной величины U ,

равномерно распределенной на отрезке [0,1], которые называют равномерными случайными числами. Неограниченный источник, вырабатывающий последовательность u1, u2, равномерных случайных

чисел, называется датчиком случайных чисел. В ряде ЭВМ имеются встроенные физические датчики случайных чисел, принцип работы которых основан на использовании в качестве источников случайности быстро флуктуирующих шумовых процессов, вырабатываемых радиоэлементами. Однако чаще всего в качестве равномерных случайных чисел используют так называемые псевдослучайные числа, т.е. детерминированные числа, получаемые по некоторому алгоритму и обладающие в той или иной мере свойствами случайных чисел. «Качество» псевдослучайных чисел проверяется при помощи статистических критериев проверки их случайности и равномерной распределенности. Известны различные методы получения псевдослучайных чисел, и соответствующие программы входят в математическое обеспечение современных ЭВМ.

Стандартный метод моделирования непрерывных случайных величин

Пусть U -

 

равномерно распределенная

на

отрезке

[

]

случайная

 

 

0,1

величина, то есть

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

f

 

u

 

=

1,

u

 

0,1 ,

F

u

 

=

0,

u < 0,

 

(

)

0,

 

[

]

)

u,

u

0,1 ,

U

 

 

u

0,1 ,

U (

 

 

 

 

 

[

]

 

 

 

 

 

 

 

 

[

]

 

 

 

 

 

u >1,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1,

 

X - моделируемая случайная величина с непрерывной и строго монотонной

функцией распределения F (x); F-1 (y)

- функция,

обратная к F (x). Тогда

случайная величина F-1(U ) распределена также как X , поскольку

P(F-1(U) < x)= P(U < F (x))= FU (F (x))= F (x).

Таким образом, если F-1 (y) может быть явно вычислена, а u1,u2, un последовательность равномерных случайных чисел, то последовательность

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

29

чисел

 

 

x , x , x

 

c

x

 

= F-1 (u

 

),

k =

 

 

будет последовательностью

 

 

 

 

k

1,n

 

 

 

1

2

 

 

n

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

значений случайной величины X , имеющей функцию распределения F (x).

 

 

Пример: Моделирование случайной величины с экспоненциальным

законом распределения.

 

 

 

 

 

 

 

 

 

 

 

 

X

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Пусть

 

случайная

величина

 

 

 

имеет

плотность

вероятностей

f (x) = λeλx ,

 

x 0, λ > 0.

 

Функция

распределения

этой

случайной

величины

F(x) =1eλx ,

 

 

x 0, λ > 0

является строго возрастающей и

потому существует обратная к ней:

 

 

x = F 1(y) = −

1

ln

(1y),

y (0,1).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

λ

 

 

 

 

 

 

 

Для

получения

 

значений

 

случайной

величины

 

X

следует

положить

x = −

1

ln

(1u

k

),

k =1,2,... .

Поскольку

случайные

величины

U

и

 

k

 

λ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1U одинаково распределены, то можно также положить

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

= −

1

ln(u

k

),

 

k =1,2,... .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

 

 

 

 

λ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Замечание: Если смоделирована случайная величина X

с функцией

распределения F(x)

и {xk } – последовательность ее значений,

то случайные

числа

{a +bxk },

b > 0

будут являться значениями случайной величины с

функцией распределения

F

x a

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

. В частности, линейное преобразование

 

b

 

 

 

(

 

 

)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

[

 

]

Y = a +

b a

U , где

U

 

-

равномерно

распределенная

на

отрезке

 

 

 

 

 

0,1

случайная величина, позволяет получать случайные числа, равномерно распределенные на отрезке [a,b].

Следует отметить, что стандартный метод моделирования применим на

практике, если только функции F(x) и F-1(y) выражаются через

элементарные. Для некоторых распределений это не так, но вместе с тем, как показывают примеры ниже, эффективные методы моделирования существуют и в этих случаях.

30

Моделирование случайной величины, имеющей однопараметрическое гамма-распределение

Плотность вероятностей однопараметрического гамма-распределения с параметром a имеет вид

 

 

fa (x)=

x a -1 e-x

 

 

 

,

 

 

Γ(a)

где x > 0

a -1 -x

dx - гамма функция

, а Γ(a)= x

e

 

0

 

 

 

 

Известно, что сумма двух независимых случайных величин Xα и Xβ , имеющих однопараметрическое гамма-распределение с параметрами α и β ,

снова имеет гамма-распределение с параметром

α + β . Из вида плотности

f1(x) следует, что X1 есть экспоненциально

распределенная случайная

величина, моделирование которой осуществляется в соответствии с рассмотренным выше примером. Поэтому моделирование случайной величины

Xn , имеющей гамма-распределение с натуральным параметром n можно производить с использованием формулы:

 

= x(1)

+...x(n)

= −

n

ln

(

u

k )

 

n

u

 

,k =1,2,...

xn

= −ln

 

1

1

 

k =1

 

 

 

 

1

k

 

 

 

 

 

 

 

 

 

k =

 

 

где x1(k ) - независимые экспоненциально распределенные случайные числа.

Моделирование случайной величины, имеющей бета-распределение

Для моделирования случайной величины, имеющей бета-распределение на интервале (0,1) с плотностью вероятностей

f p,q(x)=

x

p -1(1- x)q -1

, 0 < x <1,

 

B(p,q)

 

где параметры p > 0, q > 0,

а B(p,q)= Γ(p)Γ(q)/Γ(p + q) – бета

функция, может быть использован метод Йонка:

1.моделируются два независимых значения u1 и u2 случайной величины U , равномерно распределенной на отрезке [0,1];

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]