
MATLAB00 / method112ML_СТАТИСТИКА
.pdft1 |
|
|
t2 |
|
|
|
∞ |
|
|
|
|
|
|
|
|||
Поскольку ∫ f (x)dx + |
∫ f (x)dx + ∫ f |
(x)dx =1, то, учитывая равен- |
|||||||||||||||
−∞ |
|
|
t1 |
|
|
|
t2 |
|
|
|
|
|
|
|
|
||
ства (4.5) и (4.6), получим |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
t1 |
|
|
|
|
|
∞ |
(x)dx =1− β . |
|
|
|
|
|
|
||||
2 ∫ f (x)dx =1− β , |
2∫ f |
|
|
|
|
|
(4.7) |
||||||||||
−∞ |
|
|
|
|
|
t2 |
|
|
|
|
|
|
|
|
|
|
|
Из (4.7) найдем t |
и t |
|
, а решая неравенство |
t |
< |
nS 2 |
< t |
|
, найдем |
||||||||
|
σ 2 |
|
|||||||||||||||
1 |
|
2 |
|
|
|
|
|
|
|
|
|
1 |
|
|
2 |
|
|
доверительный интервал l = |
nS 2 |
, |
nS 2 |
|
. |
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
t2 |
|
|
t1 |
|
|
|
|
|
|
|
|
|
|
Применение методов получения доверительных интервалов для оценок параметров иллюстрируют примеры 4.1-4.4. В начале примера создается выборка нормально распределенных чисел с заданными параметрами (математическим ожиданием и дисперсией). Далее в документе вычисляются оценки для этих параметров по методу моментов. Для дальнейших вычислений вводятся плотности распределений Стью-
дента, χ2 и нормального. Далее находятся доверительные интервалы
для математического ожидания при известной и неизвестной дисперсии. В следующем разделе примеров решается задача определения доверительного интервала для дисперсии при известном и неизвестном математических ожиданиях.
Пример 4.1 (Mathematica)
Получение выборки с заданными μ и σ
<<Statistics`ContinuousDistributions`
<<Statistics`ConfidenceIntervals`
Объём выборки n=50;
Заданные параметры нормального закона muX=3; sigmaX=2;
Выборка с нормальным распределением x=RandomArray[NormalDistribution[muX,sigmaX],n];
Вычисление моментов 1-й начальный момент (оценка математического ожидания)
Mx=1/n*Apply[Plus,x]
2.91748
2-й центральный момент (оценка дисперсии)
Dx=1/n*Apply[Plus,(x-Mx)^2]
4.63328
Оценка ср. кв. отклонения
41
sigma=Sqrt[Dx]
2.1525
Плотность распределения нормального закона fn[x_,sigma_]:=Exp[-x^2/2/sigma^2]/
Sqrt[2*Pi*sigma^2];
Плотность распределения Стьюдента ft[t_,n_]:=Gamma[(n+1)/2]/Gamma[n/2]/
Sqrt[Pi*n]*(1+t^2/n)^(-(n+1)/2);
Плотность распределения χ2
fx[x_,n_]:=x^((n-2)/2)*Exp[-x/2]/2^(n/2)/ Gamma[n/2];
Случай 1. Оценка мат. ожидания при известной дисперсии Доверительная вероятность
beta=0.95;
Заданная дисперсия
S=sigmaX^2;
sigma1=Sqrt[S/n];
Нахождение доверительного интервала delta=z/.FindRoot[
2*Integrate[fn[y,sigma1],{y,0,z}]-beta==0,{z,0}]
0.554362 dz=delta*sigma1; m={Mx-dz,Mx+dz};
Доверительный интервал для мат. ожидания
Print["Mx=",Mx," ",m]
Mx=2.91748 {2.76068,3.07428}
Случай 2. Оценка мат. ожидания при неизвестной дисперсии Оценка дисперсия
S=Dx;
Нахождение доверительного интервала delta=z/.FindRoot[
2*Integrate[ft[y,n-1],{y,0,z}]-beta==0,{z,0}]
2.00958 dz=delta*Sqrt[S/n]; m={Mx-dz,Mx+dz};
Доверительный интервал для мат. ожидания
Print["Mx=",Mx," ",m]
Mx=2.91748 {2.30574,3.52921}
Случай 3. Оценка дисперсии при известном мат. ожидании alpha=1-beta
0.05
delta1=z/.FindRoot[ Integrate[fx[y,n],{y,0,z}]-alpha/2==0,{z,n}]
32.3574
42

delta2=z/.FindRoot[ Integrate[fx[y,n],{y,z,20*n}]-alpha/2==0,{z,n}]
71.4202 dz=n*S; s={dz/delta2,dz/delta1};
Доверительный интервал для дисперсии
Print["Dx=",Dx," ",s]
Dx=4.63328 {3.24367,7.15954}
Случай 4. Оценка дисперсии при неизвестном мат. ожидании delta1=z/.FindRoot[
Integrate[fx[y,n-1],{y,0,z}]-alpha/2==0,{z,n}]
31.5549
delta2=z/.FindRoot[ Integrate[fx[y,n-1],{y,z,2*n}]-alpha/2==0,{z,n}]
70.2173 dz=(n-1)*S; s={dz/delta2,dz/delta1};
Доверительный интервал для дисперсии
Print["Dx=",Dx," ",s]
Dx=4.63328 {3.23325,7.19477}
Пример 4.2 (Matlab)
n=50; muX=3; sigmaX=2; x=normrnd(muX,sigmaX,1,n);
Mx=1/n*sum(x)
Dx=1/(n-1)*sum((x-Mx).^2), sigma=sqrt(Dx)
fn=inline(...
'exp(-x.^2/2/sigma^2)/sqrt(2*pi*sigma^2)',...
'x','sigma');
ft=inline(strcat('gamma((n+1)/2)/gamma(n/2)/',...
'sqrt(pi*n)*(1+t.^2/n).^(-(n+1)/2)'),'t','n');
fx=inline(...
'x.^(n/2-1).*exp(-x/2)/2^(n/2)/gamma(n/2)',...
'x','n');
df1=inline('2*quad(f,0,y,[],[],theta)-lambda',...
'y','f','theta','lambda');
df2=inline('2*quad(f,y,n,[],[],theta)-lambda',...
'y','f','theta','lambda','n');
zf1=inline('fzero(df,z,[],f,theta,beta)',...
'f','df','z','theta','beta');
zf2=inline('fzero(df,z,[],f,theta,beta,n)',...
'f','df','z','theta','beta','n');
beta=0.95; S=sigmaX^2; sigma1=sqrt(S/n)
delta=zf1(fn,df1,0,sigma1,beta), dz=delta*sigma1;
Mx, m=[Mx-dz,Mx+dz]
S=Dx; delta=zf1(ft,df1,0,n-1,beta)
43
dz=delta*sqrt(S/n); Mx, m=[Mx-dz,Mx+dz] alpha=1-beta, delta1=zf1(fx,df1,n,n,alpha) delta2=zf2(fx,df2,n,n,alpha,5*n), dz=n*S; Dx, m=[dz/delta2,dz/delta1] delta1=zf1(fx,df1,n,n-1,alpha)
delta2=zf2(fx,df2,n,n-1,alpha,5*n), dz=(n-1)*S; Dx, m=[dz/delta2,dz/delta1]
Пример 4.3 (Matcad)
n := 50 |
i := 0.. n − 1 |
|
|
μX := 3 σX := 2 |
|
|
|
|
|
|
|
x := rnorm(n ,μX,σX) |
|||||||||||||||||||||||||||
Mx := n1 ∑xi |
|
Mx = 2.919 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||
|
|
|
i |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
∑(xi − |
Mx) |
2 |
|
Dx = 3.203 |
σ := |
|
|
|
|
|
|
σ = 1.79 |
|
|||||||||||||||||||||||||
Dx |
|
|
|
|
|
|
|||||||||||||||||||||||||||||||||
Dx:= |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
|
|
i |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
− |
n+1 |
||
|
|
|
|
|
|
|
|
|
|
|
|
|
− |
|
x |
|
|
|
|
Γ |
|
n + |
1 |
|
|
|
|
|
|
2 |
|
2 |
|||||||
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|||||||||||||||||||
|
|
|
|
|
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
t |
|
||||||||||||
( ,σ) |
:= |
|
|
|
|
|
|
|
e |
|
2 σ |
|
|
ft(t,n) |
|
|
|
|
|
|
1 |
|
|
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||
fn x |
|
|
|
2 π σ |
2 |
|
|
|
|
|
|
|
|
:= |
Γ |
n |
|
|
π n |
|
|
+ n |
|
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
n |
|
|
|
|
x |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
−1 |
|
− |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
fx(x,n) := |
x2 |
e |
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
2 |
2 |
Γ |
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
β := 0.95 |
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
S := σX2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
σ1 := |
|
S |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
z := 0 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
⌠ |
z |
|
|
|
|
|
|
|
|
|
|
|
|
δ = 0.554 |
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
δ := root 2 |
⌡ |
|
fn(y ,σ1) dy − β,z |
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0 |
Mx + dz )T |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
dz := δ σ1 |
|
|
|
|
|
|
m := ( Mx − dz |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||
Mx = 2.919 |
|
|
|
|
mT = ( 2.762 3.075) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||
S := Dx |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
44

z := 0 |
δ := root |
|
⌠z |
|
δ = 2.008 |
|
|
2 ft(y ,n − 1) dy − β,z |
|
||||
|
|
|
⌡ |
|
||
|
|
|
|
0 |
|
|
|
|
|
m := ( Mx − dz Mx + dz )T |
|
|
|
dz := δ |
S |
|
|
|||
n |
|
|
|
|
||
Mx = 2.919 |
mT = ( 2.41 3.427) |
|
|
α:= 1 − β
α= 0.05
|
|
|
⌠ |
z |
|
|
|
|
|
|
|
z := n |
δ1 := root |
fx(y ,n) dy − α |
,z |
|
|
δ1 = 32.394 |
|||||
|
|
|
⌡ |
|
|
2 |
|
|
|
|
|
|
|
|
0 |
|
|
|
|
|
|
|
|
|
|
|
⌠ |
20 n |
|
|
|
|
|
|
|
z := n |
δ2 := root |
|
fx(y ,n) dy − |
|
α ,z |
|
δ2 = 71.394 |
||||
|
|
|
⌡ |
|
|
|
|
2 |
|
|
|
|
|
|
z |
|
dz T |
|
|
|
|
|
|
dz := n S |
|
s |
:= |
dz |
|
|
|
|
|
||
|
|
δ2 |
|
δ1 |
|
|
|
|
|
||
Dx = 3.203 |
sT = ( 2.244 4.945) |
|
|
|
|
|
|||||
|
|
|
⌠ |
z |
|
|
|
|
|
|
|
z := n |
δ1 := root |
fx(y ,n − 1) dy − |
α |
,z |
δ1 = 31.584 |
||||||
|
|
|
⌡ |
|
|
|
|
2 |
|
|
|
|
|
|
0 |
|
|
|
|
|
|
||
|
|
|
⌠ |
20 n |
|
|
|
|
|
|
|
z := n |
δ2 := root |
|
fx(y ,n − 1) dy − |
α |
,z |
δ2 = 70.201 |
|||||
|
|
|
⌡ |
|
|
|
|
|
2 |
|
|
|
|
|
z |
|
dz T |
|
|
|
|
|
|
dz := (n − 1) S |
s |
:= |
dz |
|
|
|
|
|
|||
|
|
δ2 |
|
δ1 |
|
|
|
|
|
||
Dx = 3.203 |
sT = ( 2.236 4.97) |
|
|
|
|
|
Пример 4.4 (Maple)
>restart: with(stats): with(describe): randomize():
>n:=50: muX:=3: sigmaX:=2:
>x:=[random[normald[muX,sigmaX]](n)]:
>Mx:=moment[1](x);
>Dx:=moment[2,mean,0](x); sigma:=sqrt(Dx);
>fn:=(x,sigma)->exp(-x^2/2/sigma^2)/ sqrt(2*Pi*sigma^2):
45
>ft:=(t,n)->GAMMA((n+1)/2)/GAMMA(n/2)/ sqrt(Pi*n)*(1+t^2/n)^(-(n+1)/2);
>fx:=(x,n)->x^((n-2)/2)*exp(-x/2)/2^(n/2)/ GAMMA(n/2);
>beta:=0.95:
>S:=sigmaX^2: sigma1:=evalf(sqrt(S/n));
>delta:=fsolve(2*int(fn(y,sigma1),y=0..z)-beta,z);
>dz:=delta*sigma1: m:=[Mx-dz, Mx+dz]: 'Mx'=Mx, m;
>S:=Dx:
>delta:=fsolve(2*int(ft(y,n-1),y=0..z)-beta,z);
>dz:=delta*sqrt(S/n): m:=[Mx-dz, Mx+dz]:
>'Mx'=Mx, m;
>alpha:=1-beta;
>delta1:=fsolve(int(fx(y,n),y=0..z)-alpha/2,z);
>delta2:=fsolve(int(fx(y,n),y=z..20*n)-alpha/2,z);
>dz:=n*S: s:=[dz/delta2, dz/delta1]: 'Dx'=Dx, s;
>delta1:=fsolve(int(fx(y,n-1),y=0..z)-alpha/2, z,0..n);
>delta2:=fsolve(int(fx(y,n-1),y=z..20*n)-alpha/2, z,n..20*n);
>dz:=(n-1)*S: s:=[dz/delta2, dz/delta1]:
>'Dx'=Dx, s;
Задание
1.В условиях примера 1 записать формулы доверительного интервала математического ожидания mξ = a , считая дисперсию σ 2 известной.
2.В условиях примера 1 записать формулы для доверительного интервала дисперсии Dξ =σ 2 , считая математическое ожидание известной величиной.
3.Используя выборку из примера 2.1 (первая часть) и полагая, что доверительная вероятность β = 0,8;0,9;0,95, вычислить довери-
тельные интервалы:
1)для математического ожидания, считая дисперсию: а) известной величиной σ 2 = S 2 , б) неизвестной величиной (использовать оценку);
2)для дисперсии, считая математическое ожидание а) известной величиной mξ = Mx , в) неизвестной величиной. Результаты сравнить.
Указание к заданию 1. Учесть, что статистика tn (x, a) = Mx −a рас-
пределена по нормальному закону |
N |
0, |
σ |
. |
|
||||
|
|
|
n |
|
|
46 |
|
|
|

Указание к заданию 2. Рассмотреть статистику tn (x,σ 2 ) = nS 2 /σ 2 .
Замечание к заданию 3. Считать, что генеральная совокупность, из которой взята выборка, распределена по нормальному закону. При этом
в случае больших n распределения |
χ2 |
и Стьюдента сходятся к нор- |
||||||
мальному закону, поэтому при n > 30 |
можно считать, что статисти- |
|||||||
киt n = |
Mx −a |
n −1 , t n = |
S |
2n − |
2n −1 , t n = |
S |
2n − 2n −3 рас- |
|
S |
σ |
σ |
пределены по нормальному закону N (0,1) .
4.Провести расчеты доверительных интервалов для μ и σ , заданных
преподавателем (смотри примеры 4.1-4.4), при объеме выборок 10, 50 и 100.
Контрольные вопросы
1.Что называется доверительным интервалом и доверительной вероятностью?
2.Дайте общую схему построения доверительного интервала.
3.Как изменяется доверительный интервал с увеличением надежности? С увеличением объема выборки?
4.Как изменяется доверительный интервал в зависимости от того, известны ли другие параметры точно или нет?
Выборочные оценки в задачах 5-8 определялись по результатам n наблюдений. Используя эти данные, найти 90%-ные и 99%-ные доверительные интервалы для математического ожиданияследующих характеристик (Задачи № 3.1–3.4 гл.15 [2]):
5. Ёмкость конденсатора, если x = 20 мкФ, n =16 , с.к.о. известно и равно 4 мкФ.
6. Время безотказной работы электронной лампы, если x = 500 ,
n=100 , с.к.о. известно и равно 10 ч.
7.Диаметр вала, если x = 30 мм, n = 9 , s2 = 9 мм2.
8. Содержание углерода в единице продукта, если x =18 г, n = 25 , s = 4 г.
47
5. Equation Section (Next)Критерии согласия
Допустим, что построенную по выборке статистическую функцию распределения Fn (x) мы сгладили с помощью некоторой гипотетиче-
ской функции распределения F (x). Возникает вопрос: а верна ли гипотеза о том, что функция распределения именно F (x), а не какая-либо другая? Точнее, не противоречит ли гипотеза о законе распределения F (x) результатам эксперимента? Чтобы ответить на этот вопрос, пользуются критериями согласия.
Под критерием согласия понимают некоторую величину (Fn , F ) , которая отражает количественную меру расхождения гипотетического F (x) и эмпирического Fn (x) распределений. Эту величину можно
выбрать многими способами, в соответствии с которыми получаются и различные критерии проверки интересующей нас гипотезы. Например, можно положить
(Fn , F ) = Dn = sup |
|
Fn (x)− F (x) |
|
(5.1) |
|
|
или
(Fn , F ) =ω2 = ∞∫ Fn (x)− F (x) 2 dF (x) .
−∞
В первом случае получаем критерий Колмогорова, во втором – критерий Мизеса.
Схема применения критерия согласия следующая. Возьмём α > 0 настолько малым, чтобы осуществление события с вероятностью α можно было считать практически невозможным в единичном опыте.
Зная закон распределения случайной величины |
= |
(Fn , F ) , найдем ее |
возможное значение 0 из уравнения P ( > |
0 ) =α . По данной вы- |
|
борке вычислим значение критерия согласия |
1 = |
(Fn , F ). Если ока- |
жется, что 1 > 0 , то это значит, что произошло практически неверо-
ятное событие. Следовательно, эксперимент опровергает нашу гипотезу, и она отбрасывается. При этом вероятность того, что мы отбросили
верную гипотезу, равна α . Если 1 < |
0 , то гипотеза не противоречит |
эксперименту и должна быть принята. |
Число α называется уровнем |
значимости критерия.
Колмогоров нашел предельную функцию распределения величины λ = nDn . Эту функцию обычно обозначают K (x) :
48

K (x) = lim P |
( |
nD |
< x |
) |
= |
∞ |
(−1)k e−2k2 x2 , x > 0 . |
(5.2) |
n→∞ |
n |
|
|
∑ |
|
|
||
|
|
|
|
|
|
k =−∞ |
|
|
Формулой (5.2) можно пользоваться для больших n .
Чтобы воспользоваться критерием согласия Колмогорова, нужно построить графики гипотетической и выборочной функций распределе-
ния, |
по |
графикам найти статистику |
Dn |
и |
вычислить величину |
|
λ1 = |
nDn . Найти вероятность события |
nDn |
> λ1 |
по формуле |
|
|
|
|
|
∞ |
|
|
|
|
|
P ( nDn > λ1 ) =1− K (λ1 ) = −2∑(−1)k e−2k2λ12 . |
(5.3) |
|||
|
|
|
k =1 |
|
|
|
Если |
эта вероятность меньше α , |
то гипотеза отвергается, |
если |
больше, то признается непротиворечащей эксперименту. Предположим теперь, что, например, из физических соображений
мы можем высказать гипотезу только о виде закона распределения, а параметры, входящие в него, неизвестны. Тогда критерий согласия Колмогорова не применим. В таких случаях часто используют критерий согласия Пирсона.
Всю числовую ось разобьем на r непересекающихся разрядов точками −∞ = x0 < x1 < x2 < ... < xr = ∞ . Примем гипотезу о функции рас-
пределения. Неизвестные параметры, входящие в нее, заменим их
оценками. Таким образом, гипотетическая |
функция |
распределения |
||||
F (x) будет известна, |
и |
можно |
будет найти |
вероятности |
||
pi = F (xi )− F (xi −1 ) попадания |
|
случайной |
величины |
в i -й разряд. |
||
Возьмем статистику |
|
|
(m −np )2 |
|
|
|
tn = χ2 |
r |
|
|
(5.4) |
||
= ∑ |
i |
i . |
|
|||
|
i=1 |
|
npi |
|
|
|
Здесь n – объем выборки, r – число разрядов, mi – число значений в i -м разряде.
За меру расхождения между гипотетической F (x) и эмпирической Fn (x) функциями распределения примем статистику tn = (Fn , F ), определенную формулой (5.4). Фишером доказано, что предельным законом распределения статистики tn является распределение χ2 с
r −m −1 степенями свободы, если параметры оценены по методу максимального правдоподобия. Здесь m – число параметров, входящих в гипотетическую функцию распределения. Доказано также, что при объеме выборки n > 30 с достаточной точностью можно пользоваться предельным законом распределения, если npi > 5 .
49
Схема применения критерия Пирсона следующая. По формуле (5.4) вычисляют значение статистики tn = 0 . Вычисляют вероятность
p ( > 0 ) = ∞∫ f (x)dx . |
(5.5) |
0 |
|
Здесь f (x) определяется формулой (2.5), а n |
следует заменить на |
r −m −1 . Если эта вероятность меньше уровня значимости α , то гипотезу следует отбросить.
Применение критериев согласия иллюстрируют примеры 5.1-5.4. В начале генерируется (по методу обратных функций) выборка значений случайной величины, распределенной по показательному закону с заданным параметром a . Далее выборка группируется и находится группированная функция распределения, что необходимо для критерия Колмогорова. В соответствии со схемой применения критерия Колмо-
горова, задается теоретическая функция распределения F (x), и по этим значениям вычисляется статистика Dn . Вычисляется вероятность
по формуле (5.3) и сравнивается с уровнем значимости α .
В следующем разделе примеров применяется критерий Пирсона, Отметим, что, поскольку критерий Пирсона работает с плотностью распределения, для него может понадобиться другая группировка той же исходной выборки. Теоретическая плотность распределения может быть получена дифференцированием ранее введенной функции распределения. Теперь можно вычислить значение статистики и оценить вероятность (5.5), сравнивая ее с уровнем значимости α .
Пример 5.1 (Matlab)
%Часть 1. Критерий Колмогорова
%Получение выборки заданного объема n n=100;
%Теоретическая функция распределения f=inline('1-exp(-a*x)','x','a');
%Теоретическая плотность распределения df=inline('a*exp(-a*x)','x','a');
%Обратная функция распределения g=inline('-log(1-x)/a','x','a');
%Параметр закона распределения
a=2;
%Равномерно распределённые случайные числа eps=1*1e-2; Y=unifrnd(0,1-eps,1,n);
%Числа, распределённые по показательному закону
X=g(Y,a);
50

%Группировка для критерия Колмогорова
%Вариационный ряд
Y=sort(X);
%Число разрядов для группировки k=10;
%Размах выборки
R=Y(n)-Y(1)
R=2.0231
% Длина разряда h=R/k
h=0.2023
%Определение абсолютных частот и середин разрядов
[m,xs]=hist(Y,k);
%Относительные частоты
p=m/n;
%Накопленные частоты
Fg=cumsum(p);
%График эмпирической функций распределения stairs(xs,Fg), hold on
%График теоретической функций распределения x1=Y(1):0.1:Y(n); y1=f(x1,a); plot(x1,y1,'r'), hold off, pause
% Уровень значимости alpha=0.05; Ft=f(xs,a); epsilon=abs(Ft-Fg); Dn=max(epsilon)
Dn=0.1466
lambda1=sqrt(k)*Dn
lambda1=0.4637
51
j=1:n; PL=-2*sum((-1).^j.*exp(-2*j.^2*lambda1^2))
PL=0.9826
if PL>alpha
sprintf('Гипотеза не противоречит эксперименту') else
sprintf('Гипотеза противоречит эксперименту') end
Гипотеза не противоречит эксперименту
%Часть 2. Критерий Пирсона
%Теоретические вероятности pr=df(xs,a)*h; chi2=n*sum((p-pr).^2/pr)
chi2=0.1360
% Плотность распределения хи-квадрат fx=inline(...
't.^(n/2-1).*exp(-t/2)/2^(n/2)/gamma(n/2)',...
't','n'); dfx=inline('quad(f,0,y,[],[],n)-(1-alpha)',...
'y','f','n','alpha'); zx=inline('fzero(df,z0,[],f,n,alpha)',...
'f','df','n','alpha','z0'); r=k-1; w=zx(fx,dfx,r,alpha,r)
w=16.9190
if chi2<w
sprintf('Гипотеза не противоречит эксперименту') else
sprintf('Гипотеза противоречит эксперименту') end
Гипотеза не противоречит эксперименту
Пример 5.2 (Mathcad)
n := 100 |
|
j := 0.. n − 1 |
|
a := 2 ε := 10− 2 |
||||
f(x) := 1 − exp(−a x) |
|
g(x) := − |
ln(1 − x) |
|
df(x) := d f(x) |
|||
|
a |
|||||||
Y := runif(n ,0,1 − ε) |
|
|
dx |
|||||
Xj := g(Yj) |
|
|||||||
|
|
|
|
|
||||
Y := sort ( X) |
R |
:= Yn−1 − |
|
R = 2.186 |
|
|||
|
|
Y0 |
|
|||||
k := 10 |
i := 0.. k − 1 |
h := |
R h = 0.219 |
|
||||
|
|
|
|
k |
|
52

|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
− 4 |
|
|
|
xri+1 + xri |
||||
xr0 := Y0 |
|
|
|
|
|
xri+1 := xri + h |
xrk := xrk + |
10 |
|
|
|
|
xsi := |
|
2 |
|||||||||
m := hist(xr,Y) |
|
|
|
|
T |
|
36 |
23 |
15 |
11 |
5 |
|
|
2 |
|
3 |
2 |
1 |
2 |
|||||
|
|
|
|
|
|
|
|
|
m = |
|
|
|
||||||||||||
m |
Fg0 |
:= p0 |
|
|
|
j := 1.. k − 1 |
|
Fgj := Fgj−1 + p j |
|
|
||||||||||||||
p := n |
|
|
|
|
|
|
|
|
|
|
||||||||||||||
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
α := 0.05 |
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Fti := f(xsi) |
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
Fgi |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
εi := |
Ft |
i |
− Fg |
i |
|
|
||
0.5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
f(y) |
|
|
|
|
|
|
|
|
|
|
|
|
|
Dn := max(ε) |
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Dn = 0.159 |
|
|
|
|||||
|
|
|
|
|
|
|
|
|
1 |
|
|
2 |
|
|
|
λ1 := |
k Dn |
|
|
|
||||
|
|
|
|
|
|
|
|
|
xsi ,y |
|
|
|
|
λ1 = 0.504 |
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
) |
|
|
|
|
|
|
|
|||
j := 1.. n |
|
|
|
|
|
PL := −2 |
|
|
j |
|
|
2 |
2 |
|
|
|
PL = 0.961 |
|||||||
|
|
|
|
|
|
|
∑(−1) exp(−2 j |
λ1 |
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
j |
|
|
|
|
|
|
|
|
|
|
|
|
|
if(PL > α,"True" ,"False" ) |
= "True" |
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
|
|
n −1 |
|
− x |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
fx(x,n) := |
x2 |
|
e |
2 |
|
|
|
|
r := k |
− 1 |
|
|
|
|
|
|
|
|
|
|||||
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
2 |
Γ |
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
(pi |
− pri)2 |
|
|
|
|
|
|
|
|
||||
pri := df(xsi) h |
|
|
|
|
|
χ2 := n ∑ |
|
|
χ2 = 4.165 |
|
|
|||||||||||||
|
|
|
|
|
|
pr |
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
y := r |
|
|
|
|
|
|
|
y |
|
|
|
|
|
|
|
|
|
w = 16.893 |
|
|
||||
|
|
|
|
|
⌠ |
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
w := root ⌡ |
|
fx(x,r) dx − (1 − α),y |
|
|
|
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
0 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
if(χ2 < w,"True" ,"False" ) = "True" |
|
|
|
|
|
|
|
|
|
|
|
|
Пример 5.3 (Maple)
>restart: with(stats): with(transform): randomize():
53
>n:=100:
>f:=x->1-exp(-a*x);
>df0:=diff(f(x),x): df:=unapply(df0,x);
>g0:=solve(f(x)=y,x): g:=unapply(g0,y);
>a:=2:
>eps:=1e-2: Y:=[random[uniform[0,1-eps]](n)]:
>X:=map(g,Y): Y:=sort(X):
>k:=10: R:=Y[n]-Y[1]; h:=R/k;
>xr:=[Y[1]+i*h $i=0..k]: xr[k+1]:=xr[k+1]+1e-4:
>xrr:=[(xr[i]..xr[i+1]) $i=1..k]:
>xs:=evalf([xr[i]+0.5*h $i=1..k],3):
>xp:=scaleweight[1/n](statsort(tallyinto(Y,xrr))):
>p:=evalf(frequency(xp),3):
>F:=x->sum(p[i]*Heaviside(x-xs[i]),i=1..k):
>plot([F,f],Y[1]..Y[n],0..1,labels=['Y','F']);
>alpha:=0.05:
>Fg:=cumulativefrequency(xp): Ft:=map(f,xs):
>epsilon:=map(abs,Ft-Fg):
>Dn:=max(op(epsilon));
>lambda1:=evalf(sqrt(k)*Dn);
>PL:=-2*sum((-1)^j*exp(-2*j^2*lambda1^2),j=1..n);
>`if`(PL<alpha,'false','true');
>pr:=map(df,xs)*h:
>chi2:=n*sum((p[i]-pr[i])^2/pr[i],i=1..k)/n;
>fx:=(x,n)->x^((n-2)/2)*exp(-x/2)/2^(n/2)/ GAMMA(n/2);
>r:=k-1:
>w:=fsolve(int(fx(t,r),t=0..y)-(1-alpha),y);
>`if`(chi2<w,'true','false');
Пример 5.4 (Mathematica)
<<Calculus`DiracDelta`; <<Graphics`Colors` <<Statistics`ContinuousDistributions` <<Statistics`DataManipulation`
n=100; a=2; eps=0.01; f[x_]:=1-Exp[-a*x]; df[x_]=D[f[x],x]; g[x_]:=-Log[1-x]/a;
Y=RandomArray[UniformDistribution[0,1-eps],n]; X=Map[g,Y]; Y=Sort[X];
k=10; R=Y[[n]]-Y[[1]]; h=R/k xs=Table[Y[[1]]+(i-1/2)*h,{i,k}]; m=BinCounts[Y,{Y[[1]],Y[[n]],h}]; m[[1]]+=1; m p=N[m/n];
54

F[y_]:=Sum[p[[i]]*UnitStep[y-xs[[i]]],{i,k}]; Plot[{F[y],f[y]},{y,Y[[1]],Y[[n]]},
PlotStyle->{Red,Green}]; alpha=0.05;
Fg=CumulativeSums[p]; Ft=Map[f,xs]; epsilon=Abs[Ft-Fg]; Dn=Max[epsilon]
lambda1=Sqrt[k]*Dn PL=-2*Sum[(-1)^j*Exp[-2*j^2*lambda1^2],{j,n}] If[PL>alpha,"true","false"]
pr=df[xs]*h; chi2=n*Sum[(p[[i]]-pr[[i]])^2/pr[[i]],{i,k}] fx[x_,n_]:=x^((n-2)/2)*Exp[-x/2]/2^(n/2)/
Gamma[n/2]; r=k-1; w=z/.FindRoot[
Integrate[fx[y,r],{y,0,z}]-(1-alpha)==0,{z,r}] If[chi2<w,"true","false"]
Задание
1.Получить выборку значений случайной величины, распределенной по показательному закону с заданным параметром a .
2.Используя критерий согласия Колмогорова, проверить гипотезу о том, что генеральная совокупность, выборка которой получена ра-
нее, распределена по закону F (x) =1−e−ax . Уровень значимости
α= 0,05 .
3.Используя критерий согласия Пирсона, проверить гипотезу о заданном распределении той же генеральной совокупности. Критерий значимости α = 0,05 .
4.Провести расчеты по документу для объемов выборок 20, 50 и 100.
Контрольные вопросы
1.Что такое критерий согласия?
2.Какие критерии согласия Вы знаете?
3.Опишите схему применения критериев согласия Колмогорова и Пирсона.
4.Запишите плотность распределения закона χ2 с n −m −1 степенью свободы.
5.Могут ли опытные данные одновременно согласовываться с несколькими гипотезами о законе распределения?
6.Решить задачи № 6.8, 6.12–6.16 гл. 15[2].
55
6. Equation Section (Next)Зависимость случайных величин, регрессия.
Оценка регрессии методом наименьших квадратов
Рассмотрим двумерную случайную величину (ξ,η) , т.е. упорядоченную пару случайных величин. Пусть, например, ξ – диаметр деревьев некоторого леса, а η – высота деревьев. Тогда mξ и mη – средние диаметр и высота деревьев, а σξ и ση характеризуют разброс диа-
метра и высоты относительно средних значений.
Интуитивно ясно, что диаметр и высота деревьев связаны некоторой зависимостью, однако эта зависимость не является функциональной, так как для деревьев, имеющих одинаковый диаметр ξ = x высота
η является величиной случайной. Такую зависимость называют веро-
ятностной или стохастической. Однако можно говорить о функциональной зависимости средней высоты деревьев от диаметра
M (η x) = g (x). Здесь M (η x) – условное математическое ожидание,
т.е. средняя высота деревьев, имеющих диаметр x . Если f2 (η x) – условная плотность распределения η , то
|
M (η |
|
|
x) = g (x) = ∞∫ yf2 (y |
|
x)dy . |
(6.1) |
|||||
|
|
|
|
|||||||||
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
−∞ |
|
||||
Аналогично |
|
|||||||||||
|
M (ξ |
|
y) = q (y) = ∞∫ xf1 (x |
|
y)dx . |
(6.2) |
||||||
|
|
|
||||||||||
|
|
|
|
|||||||||
|
|
|
|
|
|
|
−∞ |
|
||||
Здесь |
M (ξ |
|
y) – средний диаметр деревьев высотой |
y . Функции |
||||||||
|
||||||||||||
y = g (x) |
и x = q (y), определенные формулами (6.1) и (6.2), называют- |
ся соответственно регрессией величины η на ξ и регрессией величины ξ на η . Графики этих линий называются кривыми регрессии. Плотности распределения f1 (x) и f2 ( y) (компоненты двумерной случайной величины) и условные плотности распределения связаны с плотностью f (x, y) двумерной случайной величины формулой
f (x, y) = f1 (x) f2 (y |
|
x) = f2 ( y) f1 (x |
|
y) . |
(6.3) |
|
|
|
|||||
Если η и ξ |
связаны функциональной зависимостью, то при ξ = x |
|||||
величина η |
принимает единственное значение |
η = g (x) . При |
вероятностной зависимости будет неизбежно наблюдаться рассеяние η
56
ностной зависимости будет неизбежно наблюдаться рассеяние η около центра g (x) . Мерой этого рассеяния естественно считать условную дисперсию
|
|
|
D (η |
|
x) = ∞∫ (y − g (x))2 f2 (y |
|
x)dy . |
(6.4) |
|
|
|
|
|
|
|||||
|
|
|
|
|
|
||||
|
( |
|
) |
|
|
−∞ |
|
||
|
|
|
|
|
|
|
|
||
Величину |
D η |
x |
|
можно рассматривать как среднюю квадратич- |
ную погрешность оценки величины η по наблюдаемому значению x случайной величиныξ , если за оценку берется регрессия g (x) . Эта погрешность зависит от x , т.е. от закона распределения ξ . Чтобы получить представление о точности оценки во всем диапазоне изменения
( |
|
) |
|
|
|
|
|||
ξ , величину D η |
x |
|
усредняют. С учетом (6.3) и (6.4) получим |
|
|||||
δ = ∞∫ D (η |
|
x) f2 (x)dx = ∫ ∞∫ ( y − g (x))2 f2 ( y |
|
x) f1 (x)dxdy = |
|
||||
|
|
|
|||||||
|
|
|
|||||||
−∞ |
|
−∞ |
(6.5) |
||||||
= ∫ ∞∫ ( y − g (x))2 |
f (x, y)dxdy = M (η − g (x))2 . |
||||||||
|
−∞
Известно, что рассеяние, определяемое средним квадратом отклонения, минимально, если его вычислять относительно центра рассея-
ния. Отсюда следует, что величина δ = M (η − g (x))2 принимает свое минимальное значение. Другими словами, регрессия η на ξ является
наилучшей (в смысле минимума среднего квадратичного отклонения) оценкой зависимости η от ξ .
Очевидно, что регрессия может служить оценкой зависимости, когда эта регрессия известна. Если регрессия неизвестна, то ищут оценку
η в некотором классе функций случайной величины ξ |
и вместо (6.5) |
||||
требуют минимума величины |
( |
|
)) |
|
|
( |
|
2 . |
|
||
ε = M η − y% |
|
ξ |
|
(6.6) |
|
Оценка y (ξ ) случайной величины η , |
принадлежащая определен- |
||||
% |
|
|
|
|
|
ному классу функций и доставляющая минимум величине η , определяемой формулой (6.6), называется средней квадратичной регрессией η на ξ .
Будем, например, искать оценку y%(ξ ) среди класса линейных функций, т.е. y%(ξ ) =α + βξ . Коэффициенты α и β найдем из условия
минимума ε , т.е. методом наименьших квадратов. Преобразуем снача57
ла (6.6) следующим образом:
|
ε = M (η −α − βξ )2 = |
|
|
|
|
|
|
|
|
|
|
|||||||
|
= M |
|
|
|
|
|
|
|
|
|
|
2 |
= |
(6.7) |
||||
|
(η −mη )− β (ξ −mξ )+(mη −α − βmξ ) |
|
||||||||||||||||
|
=ση2 + β2σξ2 +(mη −α − βmξ )2 −2βKξη . |
|
|
|
||||||||||||||
Здесь |
Kξη = M |
|
|
|
|
|
|
|
|
– корреляционный момент слу- |
||||||||
(ξ |
−mξ )(η −mη ) |
|
||||||||||||||||
чайных величин ξ |
и η . |
|
|
|
|
|
|
|
|
|
|
|||||||
Необходимыми условиями минимума функции (6.7) являются |
|
|||||||||||||||||
|
∂ε |
= |
0 , |
∂ε |
= 0 |
|
|
|
|
|
|
|
|
|
|
|
||
|
∂α |
|
∂β |
|
|
|
|
|
|
|
|
|
|
|
|
|||
или |
|
|
|
|
mη −α − βmξ = 0, |
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
(6.8) |
|||||||||
|
|
|
|
|
|
|
|
βσ 2 |
− K |
|
= 0. |
|
|
|
|
|||
|
|
|
|
|
|
|
|
ξ |
|
ξη |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
Решая систему (6.8), найдем α , β и вместе с тем линейную оценку |
||||||||||||||||||
регрессии |
|
|
|
|
|
|
σ |
|
|
|
|
|
||||||
|
|
|
% |
|
|
|
= mη |
+ ρ |
η |
(ξ − mξ ). |
|
(6.9) |
||||||
|
|
|
|
y (ξ ) =α + βξ |
σ |
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
ξ |
|
|
|
|
|
Здесь ρ = |
Kξη |
– коэффициент корреляции. Линия |
|
|||||||||||||||
|
|
|||||||||||||||||
|
|
|
|
σξση |
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
y = mη |
+ ρ |
ση |
(x −mξ ) |
|
|
(6.10) |
|||||
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
σξ |
|
|
|
|
|
|
||
называется прямой линией регрессии η на ξ . Коэффициент |
|
β1 = ρ |
ση |
|
называется коэффициентом регрессии. |
|
||
σξ |
|
|||||
|
|
|
|
|
||
Аналогично можно получить прямую регрессии ξ |
на η |
|||||
|
|
|
x = mξ + ρ |
σξ |
(y −mη ) . |
(6.11) |
|
|
|
|
|||
|
|
|
ση |
|
||
Прямые (6.10) и (6.11) не совпадают, но обе проходят через центр |
||||||
распределения |
(mξ , mη ) . Коэффициент корреляции |
ρ служит мерой |
линейной корреляционной связи между ξ и η . Если ρ = ±1 , то ξ и η связаны линейной функциональной зависимостью, если ρ = 0 , то они не коррелированы. Прямые регрессии в этом случае параллельны осям
58

координат.
Если числовые характеристики, входящие в уравнения регрессии,
неизвестны, то их заменяют оценками |
mξ |
= M x ; mη = M y ; |
||||||||||||||||||||
ση = Sy ; Kξη = Kxy ; ρ = r = |
Kxy |
, |
|
|
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
Sx Sy |
|
|
|
|
|
|
|
|
||||||
где |
|
1 |
|
|
|
|
|
1 |
|
|
|
|
|
|
|
1 |
|
|
||||
|
|
|
|
n |
|
|
|
|
n |
|
|
|
|
|
n |
|||||||
M x |
= |
|
∑xi |
; Sx2 = |
∑(xi − M x )2 |
= |
∑xi2 − M x2 ; |
|||||||||||||||
|
|
|
|
|
|
|||||||||||||||||
|
|
n i =1 |
|
|
n i =1 |
|
|
|
|
n i =1 |
||||||||||||
|
|
|
1 |
n |
|
|
|
1 |
|
n |
|
|
|
|
|
1 |
n |
|||||
M y |
= |
|
∑yi |
; Sy2 = |
|
∑( yi − M y )2 = |
∑yi2 − M y2 |
|||||||||||||||
|
|
|
|
|
||||||||||||||||||
|
|
|
n i =1 |
|
|
|
n i =1 |
|
|
|
|
|
n i =1 |
|||||||||
|
|
1 |
|
n |
|
|
|
|
|
|
|
|
1 |
|
n |
|
|
|
|
|||
Kxy |
= |
∑(xi − M x )( yi − M y ) |
= |
∑xi yi − M x M y . |
||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
n i =1 |
|
|
|
|
|
|
|
|
n i=1 |
|
|
|
|
σξ = Sx ;
(6.12)
В результате получим эмпирические прямые регрессии
y = M y |
+ r |
Sy |
(x − M x ) |
|
||
|
|
|
||||
|
|
|
Sx |
|
||
x = M x |
+ r |
Sx |
(y − M y ). |
(6.13) |
||
|
|
|||||
|
|
Sy |
|
Задача нахождения регрессии тесно связана с задачей сглаживания экспериментально полученной зависимости по методу наименьших квадратов. В подтверждение этого можно сравнить формулы (6.13) и (1.9).
Если генеральная совокупность имеет нормальное распределение, то можно считать при n ≥ 30 выборочный коэффициент корреляции r
нормально распределенным: |
|
N r, |
(1−r2 ) |
. Выборочные коэффициен- |
||||||||||||||||||||
|
|
|
||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
|
|||
ты регрессии b |
= r |
Sy |
|
и b |
= r |
S |
x |
|
также распределены нормально: |
|||||||||||||||
|
|
1 |
|
|
Sx |
|
2 |
|
|
|
Sy |
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
N b , |
Sy |
|
(1−r |
2 |
) |
|
|
|
|
Sx |
|
|
(1−r |
2 |
) |
|
|
|||||||
|
|
, |
N b |
, |
|
|
|
|
. |
|||||||||||||||
|
1 |
Sx |
|
|
n |
|
|
|
|
|
2 |
|
Sy |
|
|
|
|
n |
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Учитывая это, можно легко построить доверительные интервалы для ρ , β1 и β2 .
Линейная регрессия имеет важное практическое значение, поскольку генеральная совокупность чаще всего распределена нормально. В противном случае возможна нелинейная регрессия, а при большом диапазоне изменения величин линеаризация регрессии
59
неправомерна. В этом случае поступают следующим образом. Для каждого xi выборки вычисляют среднее значение yi . Наносят точки
(xi , yi ) и соединяют их ломаной линией. По этой ломаной линии
решают вопрос о виде нелинейной зависимости. Затем проводят сглаживание.
Следующие примеры демонстрируют применение методов нахождения регрессии. Для моделирования стохастической зависимости генерируется массив нормально распределенных значений x и массив случайных величин v с нулевым математическим ожиданием (помеха). Величина y получается путем суммирования значений x и помехи v .
Изменяя параметр σ для помехи v , можно регулировать степень случайности связи величин x и y , что оценивается визуально по виду графика, на котором наносятся точки.
По данным из массивов x и y строятся эмпирические прямые рег-
рессии. Для этого вычисляются оценки необходимых числовых характеристик и строятся прямые. Для сравнения здесь же еще раз приводится график исходных данных.
Поскольку в данном случае коэффициент корреляции и выборочные коэффициенты регрессии распределены по нормальному закону, задаем надежность и определяем доверительные интервалы путем решения соответствующих функциональных уравнений.
Пример 6.1 (Mathcad)
Получение выборок объёма n для нормально распределённых случайных величин X и Y с заданными параметрами μ и σ
n := 20 i := 0.. n − 1 |
μX := 10 σX := 2 |
|
μV := 0 σV := 2 |
||||||||||||
Получение выборки в массиве x |
|
|
|
|
|
|
|
|
|
|
|
||||
x := rnorm(n ,μX,σX) |
xT = |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
9.961 |
10.064 |
|
10.53 |
10.983 |
|
||||||||
Вспомогательная случайная величина |
|
|
|
|
|
|
|
|
|
|
|||||
v := rnorm(n ,μV,σV) |
vT = |
|
|
|
|
|
|
|
|
|
|
|
|
||
|
-0.818 |
-1.348 |
|
-0.264 |
|
2.036 |
|
|
|||||||
Получение выборки в массиве y |
|
|
|
|
|
|
|
|
|
|
|||||
y := x + v |
yT = |
|
|
|
|
|
|
|
|
|
|
|
|||
9.143 |
|
|
8.716 |
|
10.266 |
|
13.019 |
|
10.838 |
|
|||||
Изображение полученных точек |
|
|
|
|
|
|
|
|
|
|
60