Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

MATLAB00 / method112ML_СТАТИСТИКА

.pdf
Скачиваний:
114
Добавлен:
09.04.2015
Размер:
753.56 Кб
Скачать

t1

 

 

t2

 

 

 

 

 

 

 

 

 

 

Поскольку f (x)dx +

f (x)dx + f

(x)dx =1, то, учитывая равен-

−∞

 

 

t1

 

 

 

t2

 

 

 

 

 

 

 

 

ства (4.5) и (4.6), получим

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t1

 

 

 

 

 

(x)dx =1β .

 

 

 

 

 

 

2 f (x)dx =1β ,

2f

 

 

 

 

 

(4.7)

−∞

 

 

 

 

 

t2

 

 

 

 

 

 

 

 

 

 

Из (4.7) найдем t

и t

 

, а решая неравенство

t

<

nS 2

< t

 

, найдем

 

σ 2

 

1

 

2

 

 

 

 

 

 

 

 

 

1

 

 

2

 

доверительный интервал l =

nS 2

,

nS 2

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t2

 

 

t1

 

 

 

 

 

 

 

 

 

 

Применение методов получения доверительных интервалов для оценок параметров иллюстрируют примеры 4.1-4.4. В начале примера создается выборка нормально распределенных чисел с заданными параметрами (математическим ожиданием и дисперсией). Далее в документе вычисляются оценки для этих параметров по методу моментов. Для дальнейших вычислений вводятся плотности распределений Стью-

дента, χ2 и нормального. Далее находятся доверительные интервалы

для математического ожидания при известной и неизвестной дисперсии. В следующем разделе примеров решается задача определения доверительного интервала для дисперсии при известном и неизвестном математических ожиданиях.

Пример 4.1 (Mathematica)

Получение выборки с заданными μ и σ

<<Statistics`ContinuousDistributions`

<<Statistics`ConfidenceIntervals`

Объём выборки n=50;

Заданные параметры нормального закона muX=3; sigmaX=2;

Выборка с нормальным распределением x=RandomArray[NormalDistribution[muX,sigmaX],n];

Вычисление моментов 1-й начальный момент (оценка математического ожидания)

Mx=1/n*Apply[Plus,x]

2.91748

2-й центральный момент (оценка дисперсии)

Dx=1/n*Apply[Plus,(x-Mx)^2]

4.63328

Оценка ср. кв. отклонения

41

sigma=Sqrt[Dx]

2.1525

Плотность распределения нормального закона fn[x_,sigma_]:=Exp[-x^2/2/sigma^2]/

Sqrt[2*Pi*sigma^2];

Плотность распределения Стьюдента ft[t_,n_]:=Gamma[(n+1)/2]/Gamma[n/2]/

Sqrt[Pi*n]*(1+t^2/n)^(-(n+1)/2);

Плотность распределения χ2

fx[x_,n_]:=x^((n-2)/2)*Exp[-x/2]/2^(n/2)/ Gamma[n/2];

Случай 1. Оценка мат. ожидания при известной дисперсии Доверительная вероятность

beta=0.95;

Заданная дисперсия

S=sigmaX^2;

sigma1=Sqrt[S/n];

Нахождение доверительного интервала delta=z/.FindRoot[

2*Integrate[fn[y,sigma1],{y,0,z}]-beta==0,{z,0}]

0.554362 dz=delta*sigma1; m={Mx-dz,Mx+dz};

Доверительный интервал для мат. ожидания

Print["Mx=",Mx," ",m]

Mx=2.91748 {2.76068,3.07428}

Случай 2. Оценка мат. ожидания при неизвестной дисперсии Оценка дисперсия

S=Dx;

Нахождение доверительного интервала delta=z/.FindRoot[

2*Integrate[ft[y,n-1],{y,0,z}]-beta==0,{z,0}]

2.00958 dz=delta*Sqrt[S/n]; m={Mx-dz,Mx+dz};

Доверительный интервал для мат. ожидания

Print["Mx=",Mx," ",m]

Mx=2.91748 {2.30574,3.52921}

Случай 3. Оценка дисперсии при известном мат. ожидании alpha=1-beta

0.05

delta1=z/.FindRoot[ Integrate[fx[y,n],{y,0,z}]-alpha/2==0,{z,n}]

32.3574

42

delta2=z/.FindRoot[ Integrate[fx[y,n],{y,z,20*n}]-alpha/2==0,{z,n}]

71.4202 dz=n*S; s={dz/delta2,dz/delta1};

Доверительный интервал для дисперсии

Print["Dx=",Dx," ",s]

Dx=4.63328 {3.24367,7.15954}

Случай 4. Оценка дисперсии при неизвестном мат. ожидании delta1=z/.FindRoot[

Integrate[fx[y,n-1],{y,0,z}]-alpha/2==0,{z,n}]

31.5549

delta2=z/.FindRoot[ Integrate[fx[y,n-1],{y,z,2*n}]-alpha/2==0,{z,n}]

70.2173 dz=(n-1)*S; s={dz/delta2,dz/delta1};

Доверительный интервал для дисперсии

Print["Dx=",Dx," ",s]

Dx=4.63328 {3.23325,7.19477}

Пример 4.2 (Matlab)

n=50; muX=3; sigmaX=2; x=normrnd(muX,sigmaX,1,n);

Mx=1/n*sum(x)

Dx=1/(n-1)*sum((x-Mx).^2), sigma=sqrt(Dx)

fn=inline(...

'exp(-x.^2/2/sigma^2)/sqrt(2*pi*sigma^2)',...

'x','sigma');

ft=inline(strcat('gamma((n+1)/2)/gamma(n/2)/',...

'sqrt(pi*n)*(1+t.^2/n).^(-(n+1)/2)'),'t','n');

fx=inline(...

'x.^(n/2-1).*exp(-x/2)/2^(n/2)/gamma(n/2)',...

'x','n');

df1=inline('2*quad(f,0,y,[],[],theta)-lambda',...

'y','f','theta','lambda');

df2=inline('2*quad(f,y,n,[],[],theta)-lambda',...

'y','f','theta','lambda','n');

zf1=inline('fzero(df,z,[],f,theta,beta)',...

'f','df','z','theta','beta');

zf2=inline('fzero(df,z,[],f,theta,beta,n)',...

'f','df','z','theta','beta','n');

beta=0.95; S=sigmaX^2; sigma1=sqrt(S/n)

delta=zf1(fn,df1,0,sigma1,beta), dz=delta*sigma1;

Mx, m=[Mx-dz,Mx+dz]

S=Dx; delta=zf1(ft,df1,0,n-1,beta)

43

dz=delta*sqrt(S/n); Mx, m=[Mx-dz,Mx+dz] alpha=1-beta, delta1=zf1(fx,df1,n,n,alpha) delta2=zf2(fx,df2,n,n,alpha,5*n), dz=n*S; Dx, m=[dz/delta2,dz/delta1] delta1=zf1(fx,df1,n,n-1,alpha)

delta2=zf2(fx,df2,n,n-1,alpha,5*n), dz=(n-1)*S; Dx, m=[dz/delta2,dz/delta1]

Пример 4.3 (Matcad)

n := 50

i := 0.. n 1

 

 

μX := 3 σX := 2

 

 

 

 

 

 

 

x := rnorm(n XX)

Mx := n1 xi

 

Mx = 2.919

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

(xi

Mx)

2

 

Dx = 3.203

σ :=

 

 

 

 

 

 

σ = 1.79

 

Dx

 

 

 

 

 

 

Dx:=

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n+1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

Γ

 

n +

1

 

 

 

 

 

 

2

 

2

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

t

 

( ,σ)

:=

 

 

 

 

 

 

 

e

 

2 σ

 

 

ft(t,n)

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

fn x

 

 

 

2 π σ

2

 

 

 

 

 

 

 

 

:=

Γ

n

 

 

π n

 

 

+ n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

fx(x,n) :=

x2

e

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

2

Γ

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

β := 0.95

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S := σX2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

σ1 :=

 

S

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

z := 0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

z

 

 

 

 

 

 

 

 

 

 

 

 

δ = 0.554

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

δ := root 2

 

fn(y 1) dy − β,z

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

Mx + dz )T

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

dz := δ σ1

 

 

 

 

 

 

m := ( Mx dz

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Mx = 2.919

 

 

 

 

mT = ( 2.762 3.075)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S := Dx

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

44

z := 0

δ := root

 

z

 

δ = 2.008

 

2 ft(y ,n 1) dy − β,z

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

m := ( Mx dz Mx + dz )T

 

 

dz := δ

S

 

 

n

 

 

 

 

Mx = 2.919

mT = ( 2.41 3.427)

 

 

α:= 1 − β

α= 0.05

 

 

 

z

 

 

 

 

 

 

 

z := n

δ1 := root

fx(y ,n) dy α

,z

 

 

δ1 = 32.394

 

 

 

 

 

2

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

20 n

 

 

 

 

 

 

z := n

δ2 := root

 

fx(y ,n) dy

 

α ,z

 

δ2 = 71.394

 

 

 

 

 

 

 

2

 

 

 

 

 

 

z

 

dz T

 

 

 

 

 

dz := n S

 

s

:=

dz

 

 

 

 

 

 

 

δ2

 

δ1

 

 

 

 

 

Dx = 3.203

sT = ( 2.244 4.945)

 

 

 

 

 

 

 

 

z

 

 

 

 

 

 

z := n

δ1 := root

fx(y ,n 1) dy

α

,z

δ1 = 31.584

 

 

 

 

 

 

 

2

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

20 n

 

 

 

 

 

 

 

z := n

δ2 := root

 

fx(y ,n 1) dy

α

,z

δ2 = 70.201

 

 

 

 

 

 

 

 

2

 

 

 

 

 

z

 

dz T

 

 

 

 

 

dz := (n 1) S

s

:=

dz

 

 

 

 

 

 

 

δ2

 

δ1

 

 

 

 

 

Dx = 3.203

sT = ( 2.236 4.97)

 

 

 

 

 

Пример 4.4 (Maple)

>restart: with(stats): with(describe): randomize():

>n:=50: muX:=3: sigmaX:=2:

>x:=[random[normald[muX,sigmaX]](n)]:

>Mx:=moment[1](x);

>Dx:=moment[2,mean,0](x); sigma:=sqrt(Dx);

>fn:=(x,sigma)->exp(-x^2/2/sigma^2)/ sqrt(2*Pi*sigma^2):

45

>ft:=(t,n)->GAMMA((n+1)/2)/GAMMA(n/2)/ sqrt(Pi*n)*(1+t^2/n)^(-(n+1)/2);

>fx:=(x,n)->x^((n-2)/2)*exp(-x/2)/2^(n/2)/ GAMMA(n/2);

>beta:=0.95:

>S:=sigmaX^2: sigma1:=evalf(sqrt(S/n));

>delta:=fsolve(2*int(fn(y,sigma1),y=0..z)-beta,z);

>dz:=delta*sigma1: m:=[Mx-dz, Mx+dz]: 'Mx'=Mx, m;

>S:=Dx:

>delta:=fsolve(2*int(ft(y,n-1),y=0..z)-beta,z);

>dz:=delta*sqrt(S/n): m:=[Mx-dz, Mx+dz]:

>'Mx'=Mx, m;

>alpha:=1-beta;

>delta1:=fsolve(int(fx(y,n),y=0..z)-alpha/2,z);

>delta2:=fsolve(int(fx(y,n),y=z..20*n)-alpha/2,z);

>dz:=n*S: s:=[dz/delta2, dz/delta1]: 'Dx'=Dx, s;

>delta1:=fsolve(int(fx(y,n-1),y=0..z)-alpha/2, z,0..n);

>delta2:=fsolve(int(fx(y,n-1),y=z..20*n)-alpha/2, z,n..20*n);

>dz:=(n-1)*S: s:=[dz/delta2, dz/delta1]:

>'Dx'=Dx, s;

Задание

1.В условиях примера 1 записать формулы доверительного интервала математического ожидания mξ = a , считая дисперсию σ 2 известной.

2.В условиях примера 1 записать формулы для доверительного интервала дисперсии Dξ =σ 2 , считая математическое ожидание известной величиной.

3.Используя выборку из примера 2.1 (первая часть) и полагая, что доверительная вероятность β = 0,8;0,9;0,95, вычислить довери-

тельные интервалы:

1)для математического ожидания, считая дисперсию: а) известной величиной σ 2 = S 2 , б) неизвестной величиной (использовать оценку);

2)для дисперсии, считая математическое ожидание а) известной величиной mξ = Mx , в) неизвестной величиной. Результаты сравнить.

Указание к заданию 1. Учесть, что статистика tn (x, a) = Mx a рас-

пределена по нормальному закону

N

0,

σ

.

 

 

 

 

n

 

46

 

 

 

Указание к заданию 2. Рассмотреть статистику tn (x,σ 2 ) = nS 2 /σ 2 .

Замечание к заданию 3. Считать, что генеральная совокупность, из которой взята выборка, распределена по нормальному закону. При этом

в случае больших n распределения

χ2

и Стьюдента сходятся к нор-

мальному закону, поэтому при n > 30

можно считать, что статисти-

киt n =

Mx a

n 1 , t n =

S

2n

2n 1 , t n =

S

2n 2n 3 рас-

S

σ

σ

пределены по нормальному закону N (0,1) .

4.Провести расчеты доверительных интервалов для μ и σ , заданных

преподавателем (смотри примеры 4.1-4.4), при объеме выборок 10, 50 и 100.

Контрольные вопросы

1.Что называется доверительным интервалом и доверительной вероятностью?

2.Дайте общую схему построения доверительного интервала.

3.Как изменяется доверительный интервал с увеличением надежности? С увеличением объема выборки?

4.Как изменяется доверительный интервал в зависимости от того, известны ли другие параметры точно или нет?

Выборочные оценки в задачах 5-8 определялись по результатам n наблюдений. Используя эти данные, найти 90%-ные и 99%-ные доверительные интервалы для математического ожиданияследующих характеристик (Задачи № 3.1–3.4 гл.15 [2]):

5. Ёмкость конденсатора, если x = 20 мкФ, n =16 , с.к.о. известно и равно 4 мкФ.

6. Время безотказной работы электронной лампы, если x = 500 ,

n=100 , с.к.о. известно и равно 10 ч.

7.Диаметр вала, если x = 30 мм, n = 9 , s2 = 9 мм2.

8. Содержание углерода в единице продукта, если x =18 г, n = 25 , s = 4 г.

47

5. Equation Section (Next)Критерии согласия

Допустим, что построенную по выборке статистическую функцию распределения Fn (x) мы сгладили с помощью некоторой гипотетиче-

ской функции распределения F (x). Возникает вопрос: а верна ли гипотеза о том, что функция распределения именно F (x), а не какая-либо другая? Точнее, не противоречит ли гипотеза о законе распределения F (x) результатам эксперимента? Чтобы ответить на этот вопрос, пользуются критериями согласия.

Под критерием согласия понимают некоторую величину (Fn , F ) , которая отражает количественную меру расхождения гипотетического F (x) и эмпирического Fn (x) распределений. Эту величину можно

выбрать многими способами, в соответствии с которыми получаются и различные критерии проверки интересующей нас гипотезы. Например, можно положить

(Fn , F ) = Dn = sup

 

Fn (x)− F (x)

 

(5.1)

 

 

или

(Fn , F ) =ω2 = Fn (x)− F (x) 2 dF (x) .

−∞

В первом случае получаем критерий Колмогорова, во втором – критерий Мизеса.

Схема применения критерия согласия следующая. Возьмём α > 0 настолько малым, чтобы осуществление события с вероятностью α можно было считать практически невозможным в единичном опыте.

Зная закон распределения случайной величины

=

(Fn , F ) , найдем ее

возможное значение 0 из уравнения P ( >

0 ) =α . По данной вы-

борке вычислим значение критерия согласия

1 =

(Fn , F ). Если ока-

жется, что 1 > 0 , то это значит, что произошло практически неверо-

ятное событие. Следовательно, эксперимент опровергает нашу гипотезу, и она отбрасывается. При этом вероятность того, что мы отбросили

верную гипотезу, равна α . Если 1 <

0 , то гипотеза не противоречит

эксперименту и должна быть принята.

Число α называется уровнем

значимости критерия.

Колмогоров нашел предельную функцию распределения величины λ = nDn . Эту функцию обычно обозначают K (x) :

48

K (x) = lim P

(

nD

< x

)

=

(−1)k e2k2 x2 , x > 0 .

(5.2)

n→∞

n

 

 

 

 

 

 

 

 

 

 

k =−∞

 

 

Формулой (5.2) можно пользоваться для больших n .

Чтобы воспользоваться критерием согласия Колмогорова, нужно построить графики гипотетической и выборочной функций распределе-

ния,

по

графикам найти статистику

Dn

и

вычислить величину

λ1 =

nDn . Найти вероятность события

nDn

> λ1

по формуле

 

 

 

 

 

 

 

 

 

P ( nDn > λ1 ) =1K (λ1 ) = −2(−1)k e2k2λ12 .

(5.3)

 

 

 

k =1

 

 

 

Если

эта вероятность меньше α ,

то гипотеза отвергается,

если

больше, то признается непротиворечащей эксперименту. Предположим теперь, что, например, из физических соображений

мы можем высказать гипотезу только о виде закона распределения, а параметры, входящие в него, неизвестны. Тогда критерий согласия Колмогорова не применим. В таких случаях часто используют критерий согласия Пирсона.

Всю числовую ось разобьем на r непересекающихся разрядов точками −∞ = x0 < x1 < x2 < ... < xr = ∞ . Примем гипотезу о функции рас-

пределения. Неизвестные параметры, входящие в нее, заменим их

оценками. Таким образом, гипотетическая

функция

распределения

F (x) будет известна,

и

можно

будет найти

вероятности

pi = F (xi )− F (xi 1 ) попадания

 

случайной

величины

в i -й разряд.

Возьмем статистику

 

 

(m np )2

 

 

tn = χ2

r

 

 

(5.4)

=

i

i .

 

 

i=1

 

npi

 

 

 

Здесь n – объем выборки, r – число разрядов, mi – число значений в i -м разряде.

За меру расхождения между гипотетической F (x) и эмпирической Fn (x) функциями распределения примем статистику tn = (Fn , F ), определенную формулой (5.4). Фишером доказано, что предельным законом распределения статистики tn является распределение χ2 с

r m 1 степенями свободы, если параметры оценены по методу максимального правдоподобия. Здесь m – число параметров, входящих в гипотетическую функцию распределения. Доказано также, что при объеме выборки n > 30 с достаточной точностью можно пользоваться предельным законом распределения, если npi > 5 .

49

Схема применения критерия Пирсона следующая. По формуле (5.4) вычисляют значение статистики tn = 0 . Вычисляют вероятность

p ( > 0 ) = f (x)dx .

(5.5)

0

 

Здесь f (x) определяется формулой (2.5), а n

следует заменить на

r m 1 . Если эта вероятность меньше уровня значимости α , то гипотезу следует отбросить.

Применение критериев согласия иллюстрируют примеры 5.1-5.4. В начале генерируется (по методу обратных функций) выборка значений случайной величины, распределенной по показательному закону с заданным параметром a . Далее выборка группируется и находится группированная функция распределения, что необходимо для критерия Колмогорова. В соответствии со схемой применения критерия Колмо-

горова, задается теоретическая функция распределения F (x), и по этим значениям вычисляется статистика Dn . Вычисляется вероятность

по формуле (5.3) и сравнивается с уровнем значимости α .

В следующем разделе примеров применяется критерий Пирсона, Отметим, что, поскольку критерий Пирсона работает с плотностью распределения, для него может понадобиться другая группировка той же исходной выборки. Теоретическая плотность распределения может быть получена дифференцированием ранее введенной функции распределения. Теперь можно вычислить значение статистики и оценить вероятность (5.5), сравнивая ее с уровнем значимости α .

Пример 5.1 (Matlab)

%Часть 1. Критерий Колмогорова

%Получение выборки заданного объема n n=100;

%Теоретическая функция распределения f=inline('1-exp(-a*x)','x','a');

%Теоретическая плотность распределения df=inline('a*exp(-a*x)','x','a');

%Обратная функция распределения g=inline('-log(1-x)/a','x','a');

%Параметр закона распределения

a=2;

%Равномерно распределённые случайные числа eps=1*1e-2; Y=unifrnd(0,1-eps,1,n);

%Числа, распределённые по показательному закону

X=g(Y,a);

50

%Группировка для критерия Колмогорова

%Вариационный ряд

Y=sort(X);

%Число разрядов для группировки k=10;

%Размах выборки

R=Y(n)-Y(1)

R=2.0231

% Длина разряда h=R/k

h=0.2023

%Определение абсолютных частот и середин разрядов

[m,xs]=hist(Y,k);

%Относительные частоты

p=m/n;

%Накопленные частоты

Fg=cumsum(p);

%График эмпирической функций распределения stairs(xs,Fg), hold on

%График теоретической функций распределения x1=Y(1):0.1:Y(n); y1=f(x1,a); plot(x1,y1,'r'), hold off, pause

% Уровень значимости alpha=0.05; Ft=f(xs,a); epsilon=abs(Ft-Fg); Dn=max(epsilon)

Dn=0.1466

lambda1=sqrt(k)*Dn

lambda1=0.4637

51

j=1:n; PL=-2*sum((-1).^j.*exp(-2*j.^2*lambda1^2))

PL=0.9826

if PL>alpha

sprintf('Гипотеза не противоречит эксперименту') else

sprintf('Гипотеза противоречит эксперименту') end

Гипотеза не противоречит эксперименту

%Часть 2. Критерий Пирсона

%Теоретические вероятности pr=df(xs,a)*h; chi2=n*sum((p-pr).^2/pr)

chi2=0.1360

% Плотность распределения хи-квадрат fx=inline(...

't.^(n/2-1).*exp(-t/2)/2^(n/2)/gamma(n/2)',...

't','n'); dfx=inline('quad(f,0,y,[],[],n)-(1-alpha)',...

'y','f','n','alpha'); zx=inline('fzero(df,z0,[],f,n,alpha)',...

'f','df','n','alpha','z0'); r=k-1; w=zx(fx,dfx,r,alpha,r)

w=16.9190

if chi2<w

sprintf('Гипотеза не противоречит эксперименту') else

sprintf('Гипотеза противоречит эксперименту') end

Гипотеза не противоречит эксперименту

Пример 5.2 (Mathcad)

n := 100

 

j := 0.. n 1

 

a := 2 ε := 102

f(x) := 1 exp(a x)

 

g(x) := −

ln(1 x)

 

df(x) := d f(x)

 

a

Y := runif(n ,0,1 − ε)

 

 

dx

Xj := g(Yj)

 

 

 

 

 

 

Y := sort ( X)

R

:= Yn1

 

R = 2.186

 

 

 

Y0

 

k := 10

i := 0.. k 1

h :=

R h = 0.219

 

 

 

 

 

k

 

52

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

 

 

 

xri+1 + xri

xr0 := Y0

 

 

 

 

 

xri+1 := xri + h

xrk := xrk +

10

 

 

 

 

xsi :=

 

2

m := hist(xr,Y)

 

 

 

 

T

 

36

23

15

11

5

 

 

2

 

3

2

1

2

 

 

 

 

 

 

 

 

 

m =

 

 

 

m

Fg0

:= p0

 

 

 

j := 1.. k 1

 

Fgj := Fgj1 + p j

 

 

p := n

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

α := 0.05

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Fti := f(xsi)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Fgi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

εi :=

Ft

i

Fg

i

 

 

0.5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

f(y)

 

 

 

 

 

 

 

 

 

 

 

 

 

Dn := max(ε)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Dn = 0.159

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

2

 

 

 

λ1 :=

k Dn

 

 

 

 

 

 

 

 

 

 

 

 

xsi ,y

 

 

 

 

λ1 = 0.504

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

)

 

 

 

 

 

 

 

j := 1.. n

 

 

 

 

 

PL := −2

 

 

j

 

 

2

2

 

 

 

PL = 0.961

 

 

 

 

 

 

 

(1) exp(2 j

λ1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j

 

 

 

 

 

 

 

 

 

 

 

 

 

if(PL > α,"True" ,"False" )

= "True"

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n 1

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

fx(x,n) :=

x2

 

e

2

 

 

 

 

r := k

1

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

2

Γ

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(pi

pri)2

 

 

 

 

 

 

 

 

pri := df(xsi) h

 

 

 

 

 

χ2 := n

 

 

χ2 = 4.165

 

 

 

 

 

 

 

 

pr

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y := r

 

 

 

 

 

 

 

y

 

 

 

 

 

 

 

 

 

w = 16.893

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

w := root

 

fx(x,r) dx − (1 − α),y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

if2 < w,"True" ,"False" ) = "True"

 

 

 

 

 

 

 

 

 

 

 

 

Пример 5.3 (Maple)

>restart: with(stats): with(transform): randomize():

53

>n:=100:

>f:=x->1-exp(-a*x);

>df0:=diff(f(x),x): df:=unapply(df0,x);

>g0:=solve(f(x)=y,x): g:=unapply(g0,y);

>a:=2:

>eps:=1e-2: Y:=[random[uniform[0,1-eps]](n)]:

>X:=map(g,Y): Y:=sort(X):

>k:=10: R:=Y[n]-Y[1]; h:=R/k;

>xr:=[Y[1]+i*h $i=0..k]: xr[k+1]:=xr[k+1]+1e-4:

>xrr:=[(xr[i]..xr[i+1]) $i=1..k]:

>xs:=evalf([xr[i]+0.5*h $i=1..k],3):

>xp:=scaleweight[1/n](statsort(tallyinto(Y,xrr))):

>p:=evalf(frequency(xp),3):

>F:=x->sum(p[i]*Heaviside(x-xs[i]),i=1..k):

>plot([F,f],Y[1]..Y[n],0..1,labels=['Y','F']);

>alpha:=0.05:

>Fg:=cumulativefrequency(xp): Ft:=map(f,xs):

>epsilon:=map(abs,Ft-Fg):

>Dn:=max(op(epsilon));

>lambda1:=evalf(sqrt(k)*Dn);

>PL:=-2*sum((-1)^j*exp(-2*j^2*lambda1^2),j=1..n);

>`if`(PL<alpha,'false','true');

>pr:=map(df,xs)*h:

>chi2:=n*sum((p[i]-pr[i])^2/pr[i],i=1..k)/n;

>fx:=(x,n)->x^((n-2)/2)*exp(-x/2)/2^(n/2)/ GAMMA(n/2);

>r:=k-1:

>w:=fsolve(int(fx(t,r),t=0..y)-(1-alpha),y);

>`if`(chi2<w,'true','false');

Пример 5.4 (Mathematica)

<<Calculus`DiracDelta`; <<Graphics`Colors` <<Statistics`ContinuousDistributions` <<Statistics`DataManipulation`

n=100; a=2; eps=0.01; f[x_]:=1-Exp[-a*x]; df[x_]=D[f[x],x]; g[x_]:=-Log[1-x]/a;

Y=RandomArray[UniformDistribution[0,1-eps],n]; X=Map[g,Y]; Y=Sort[X];

k=10; R=Y[[n]]-Y[[1]]; h=R/k xs=Table[Y[[1]]+(i-1/2)*h,{i,k}]; m=BinCounts[Y,{Y[[1]],Y[[n]],h}]; m[[1]]+=1; m p=N[m/n];

54

F[y_]:=Sum[p[[i]]*UnitStep[y-xs[[i]]],{i,k}]; Plot[{F[y],f[y]},{y,Y[[1]],Y[[n]]},

PlotStyle->{Red,Green}]; alpha=0.05;

Fg=CumulativeSums[p]; Ft=Map[f,xs]; epsilon=Abs[Ft-Fg]; Dn=Max[epsilon]

lambda1=Sqrt[k]*Dn PL=-2*Sum[(-1)^j*Exp[-2*j^2*lambda1^2],{j,n}] If[PL>alpha,"true","false"]

pr=df[xs]*h; chi2=n*Sum[(p[[i]]-pr[[i]])^2/pr[[i]],{i,k}] fx[x_,n_]:=x^((n-2)/2)*Exp[-x/2]/2^(n/2)/

Gamma[n/2]; r=k-1; w=z/.FindRoot[

Integrate[fx[y,r],{y,0,z}]-(1-alpha)==0,{z,r}] If[chi2<w,"true","false"]

Задание

1.Получить выборку значений случайной величины, распределенной по показательному закону с заданным параметром a .

2.Используя критерий согласия Колмогорова, проверить гипотезу о том, что генеральная совокупность, выборка которой получена ра-

нее, распределена по закону F (x) =1eax . Уровень значимости

α= 0,05 .

3.Используя критерий согласия Пирсона, проверить гипотезу о заданном распределении той же генеральной совокупности. Критерий значимости α = 0,05 .

4.Провести расчеты по документу для объемов выборок 20, 50 и 100.

Контрольные вопросы

1.Что такое критерий согласия?

2.Какие критерии согласия Вы знаете?

3.Опишите схему применения критериев согласия Колмогорова и Пирсона.

4.Запишите плотность распределения закона χ2 с n m 1 степенью свободы.

5.Могут ли опытные данные одновременно согласовываться с несколькими гипотезами о законе распределения?

6.Решить задачи № 6.8, 6.12–6.16 гл. 15[2].

55

6. Equation Section (Next)Зависимость случайных величин, регрессия.

Оценка регрессии методом наименьших квадратов

Рассмотрим двумерную случайную величину (ξ,η) , т.е. упорядоченную пару случайных величин. Пусть, например, ξ – диаметр деревьев некоторого леса, а η – высота деревьев. Тогда mξ и mη – средние диаметр и высота деревьев, а σξ и ση характеризуют разброс диа-

метра и высоты относительно средних значений.

Интуитивно ясно, что диаметр и высота деревьев связаны некоторой зависимостью, однако эта зависимость не является функциональной, так как для деревьев, имеющих одинаковый диаметр ξ = x высота

η является величиной случайной. Такую зависимость называют веро-

ятностной или стохастической. Однако можно говорить о функциональной зависимости средней высоты деревьев от диаметра

M (η x) = g (x). Здесь M (η x) – условное математическое ожидание,

т.е. средняя высота деревьев, имеющих диаметр x . Если f2 (η x) – условная плотность распределения η , то

 

M (η

 

 

x) = g (x) = yf2 (y

 

x)dy .

(6.1)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

−∞

 

Аналогично

 

 

M (ξ

 

y) = q (y) = xf1 (x

 

y)dx .

(6.2)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

−∞

 

Здесь

M (ξ

 

y) – средний диаметр деревьев высотой

y . Функции

 

y = g (x)

и x = q (y), определенные формулами (6.1) и (6.2), называют-

ся соответственно регрессией величины η на ξ и регрессией величины ξ на η . Графики этих линий называются кривыми регрессии. Плотности распределения f1 (x) и f2 ( y) (компоненты двумерной случайной величины) и условные плотности распределения связаны с плотностью f (x, y) двумерной случайной величины формулой

f (x, y) = f1 (x) f2 (y

 

x) = f2 ( y) f1 (x

 

y) .

(6.3)

 

 

Если η и ξ

связаны функциональной зависимостью, то при ξ = x

величина η

принимает единственное значение

η = g (x) . При

вероятностной зависимости будет неизбежно наблюдаться рассеяние η

56

ностной зависимости будет неизбежно наблюдаться рассеяние η около центра g (x) . Мерой этого рассеяния естественно считать условную дисперсию

 

 

 

D (η

 

x) = (y g (x))2 f2 (y

 

x)dy .

(6.4)

 

 

 

 

 

 

 

 

 

 

 

 

(

 

)

 

 

−∞

 

 

 

 

 

 

 

 

 

Величину

D η

x

 

можно рассматривать как среднюю квадратич-

ную погрешность оценки величины η по наблюдаемому значению x случайной величиныξ , если за оценку берется регрессия g (x) . Эта погрешность зависит от x , т.е. от закона распределения ξ . Чтобы получить представление о точности оценки во всем диапазоне изменения

(

 

)

 

 

 

 

ξ , величину D η

x

 

усредняют. С учетом (6.3) и (6.4) получим

 

δ = D (η

 

x) f2 (x)dx = ( y g (x))2 f2 ( y

 

x) f1 (x)dxdy =

 

 

 

 

 

 

 

−∞

 

−∞

(6.5)

= ( y g (x))2

f (x, y)dxdy = M (η g (x))2 .

 

−∞

Известно, что рассеяние, определяемое средним квадратом отклонения, минимально, если его вычислять относительно центра рассея-

ния. Отсюда следует, что величина δ = M (η g (x))2 принимает свое минимальное значение. Другими словами, регрессия η на ξ является

наилучшей (в смысле минимума среднего квадратичного отклонения) оценкой зависимости η от ξ .

Очевидно, что регрессия может служить оценкой зависимости, когда эта регрессия известна. Если регрессия неизвестна, то ищут оценку

η в некотором классе функций случайной величины ξ

и вместо (6.5)

требуют минимума величины

(

 

))

 

 

(

 

2 .

 

ε = M η y%

 

ξ

 

(6.6)

Оценка y (ξ ) случайной величины η ,

принадлежащая определен-

%

 

 

 

 

 

ному классу функций и доставляющая минимум величине η , определяемой формулой (6.6), называется средней квадратичной регрессией η на ξ .

Будем, например, искать оценку y%(ξ ) среди класса линейных функций, т.е. y%(ξ ) =α + βξ . Коэффициенты α и β найдем из условия

минимума ε , т.е. методом наименьших квадратов. Преобразуем снача57

ла (6.6) следующим образом:

 

ε = M (η α βξ )2 =

 

 

 

 

 

 

 

 

 

 

 

= M

 

 

 

 

 

 

 

 

 

 

2

=

(6.7)

 

(η mη )− β (ξ mξ )+(mη α βmξ )

 

 

=ση2 + β2σξ2 +(mη α βmξ )2 2βKξη .

 

 

 

Здесь

Kξη = M

 

 

 

 

 

 

 

 

– корреляционный момент слу-

(ξ

mξ )(η mη )

 

чайных величин ξ

и η .

 

 

 

 

 

 

 

 

 

 

Необходимыми условиями минимума функции (6.7) являются

 

 

ε

=

0 ,

ε

= 0

 

 

 

 

 

 

 

 

 

 

 

 

α

 

β

 

 

 

 

 

 

 

 

 

 

 

 

или

 

 

 

 

mη α βmξ = 0,

 

 

 

 

 

 

 

 

 

 

 

 

(6.8)

 

 

 

 

 

 

 

 

βσ 2

K

 

= 0.

 

 

 

 

 

 

 

 

 

 

 

 

ξ

 

ξη

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Решая систему (6.8), найдем α , β и вместе с тем линейную оценку

регрессии

 

 

 

 

 

 

σ

 

 

 

 

 

 

 

 

%

 

 

 

= mη

+ ρ

η

(ξ mξ ).

 

(6.9)

 

 

 

 

y (ξ ) =α + βξ

σ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ξ

 

 

 

 

Здесь ρ =

Kξη

– коэффициент корреляции. Линия

 

 

 

 

 

 

 

σξση

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y = mη

+ ρ

ση

(x mξ )

 

 

(6.10)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

σξ

 

 

 

 

 

 

называется прямой линией регрессии η на ξ . Коэффициент

 

β1 = ρ

ση

 

называется коэффициентом регрессии.

 

σξ

 

 

 

 

 

 

Аналогично можно получить прямую регрессии ξ

на η

 

 

 

x = mξ + ρ

σξ

(y mη ) .

(6.11)

 

 

 

 

 

 

 

ση

 

Прямые (6.10) и (6.11) не совпадают, но обе проходят через центр

распределения

(mξ , mη ) . Коэффициент корреляции

ρ служит мерой

линейной корреляционной связи между ξ и η . Если ρ = ±1 , то ξ и η связаны линейной функциональной зависимостью, если ρ = 0 , то они не коррелированы. Прямые регрессии в этом случае параллельны осям

58

координат.

Если числовые характеристики, входящие в уравнения регрессии,

неизвестны, то их заменяют оценками

mξ

= M x ; mη = M y ;

ση = Sy ; Kξη = Kxy ; ρ = r =

Kxy

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Sx Sy

 

 

 

 

 

 

 

 

где

 

1

 

 

 

 

 

1

 

 

 

 

 

 

 

1

 

 

 

 

 

 

n

 

 

 

 

n

 

 

 

 

 

n

M x

=

 

xi

; Sx2 =

(xi M x )2

=

xi2 M x2 ;

 

 

 

 

 

 

 

 

n i =1

 

 

n i =1

 

 

 

 

n i =1

 

 

 

1

n

 

 

 

1

 

n

 

 

 

 

 

1

n

M y

=

 

yi

; Sy2 =

 

( yi M y )2 =

yi2 M y2

 

 

 

 

 

 

 

 

n i =1

 

 

 

n i =1

 

 

 

 

 

n i =1

 

 

1

 

n

 

 

 

 

 

 

 

 

1

 

n

 

 

 

 

Kxy

=

(xi M x )( yi M y )

=

xi yi M x M y .

 

 

 

 

n i =1

 

 

 

 

 

 

 

 

n i=1

 

 

 

 

σξ = Sx ;

(6.12)

В результате получим эмпирические прямые регрессии

y = M y

+ r

Sy

(x M x )

 

 

 

 

 

 

 

Sx

 

x = M x

+ r

Sx

(y M y ).

(6.13)

 

 

 

 

Sy

 

Задача нахождения регрессии тесно связана с задачей сглаживания экспериментально полученной зависимости по методу наименьших квадратов. В подтверждение этого можно сравнить формулы (6.13) и (1.9).

Если генеральная совокупность имеет нормальное распределение, то можно считать при n 30 выборочный коэффициент корреляции r

нормально распределенным:

 

N r,

(1r2 )

. Выборочные коэффициен-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

ты регрессии b

= r

Sy

 

и b

= r

S

x

 

также распределены нормально:

 

 

1

 

 

Sx

 

2

 

 

 

Sy

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N b ,

Sy

 

(1r

2

)

 

 

 

 

Sx

 

 

(1r

2

)

 

 

 

 

,

N b

,

 

 

 

 

.

 

1

Sx

 

 

n

 

 

 

 

 

2

 

Sy

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Учитывая это, можно легко построить доверительные интервалы для ρ , β1 и β2 .

Линейная регрессия имеет важное практическое значение, поскольку генеральная совокупность чаще всего распределена нормально. В противном случае возможна нелинейная регрессия, а при большом диапазоне изменения величин линеаризация регрессии

59

неправомерна. В этом случае поступают следующим образом. Для каждого xi выборки вычисляют среднее значение yi . Наносят точки

(xi , yi ) и соединяют их ломаной линией. По этой ломаной линии

решают вопрос о виде нелинейной зависимости. Затем проводят сглаживание.

Следующие примеры демонстрируют применение методов нахождения регрессии. Для моделирования стохастической зависимости генерируется массив нормально распределенных значений x и массив случайных величин v с нулевым математическим ожиданием (помеха). Величина y получается путем суммирования значений x и помехи v .

Изменяя параметр σ для помехи v , можно регулировать степень случайности связи величин x и y , что оценивается визуально по виду графика, на котором наносятся точки.

По данным из массивов x и y строятся эмпирические прямые рег-

рессии. Для этого вычисляются оценки необходимых числовых характеристик и строятся прямые. Для сравнения здесь же еще раз приводится график исходных данных.

Поскольку в данном случае коэффициент корреляции и выборочные коэффициенты регрессии распределены по нормальному закону, задаем надежность и определяем доверительные интервалы путем решения соответствующих функциональных уравнений.

Пример 6.1 (Mathcad)

Получение выборок объёма n для нормально распределённых случайных величин X и Y с заданными параметрами μ и σ

n := 20 i := 0.. n 1

μX := 10 σX := 2

 

μV := 0 σV := 2

Получение выборки в массиве x

 

 

 

 

 

 

 

 

 

 

 

x := rnorm(n XX)

xT =

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

9.961

10.064

 

10.53

10.983

 

Вспомогательная случайная величина

 

 

 

 

 

 

 

 

 

 

v := rnorm(n VV)

vT =

 

 

 

 

 

 

 

 

 

 

 

 

 

-0.818

-1.348

 

-0.264

 

2.036

 

 

Получение выборки в массиве y

 

 

 

 

 

 

 

 

 

 

y := x + v

yT =

 

 

 

 

 

 

 

 

 

 

 

9.143

 

 

8.716

 

10.266

 

13.019

 

10.838

 

Изображение полученных точек

 

 

 

 

 

 

 

 

 

 

60

Соседние файлы в папке MATLAB00