MATLAB00 / method112ML_СТАТИСТИКА

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский государственный университет приборостроения и информатики

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

f (x, y) = f1 (x) f2 (y

x) = f2 ( y) f1 (x

Если η и ξ

связаны функциональной зависимостью, то при ξ = x

величина η

принимает единственное значение

η = g (x) . При

.pdf

Скачиваний:

115

Добавлен:

09.04.2015

Размер:

753.56 Кб

Скачать

☆

<<< < Предыдущая 1 23 / 43 4 > Следующая >>>

∞

Поскольку ∫ f (x)dx +

∫ f (x)dx + ∫ f

(x)dx =1, то, учитывая равен-

−∞

ства (4.5) и (4.6), получим

∞

(x)dx =1− β .

2 ∫ f (x)dx =1− β ,

2∫ f

(4.7)

−∞

Из (4.7) найдем t

и t

, а решая неравенство

nS 2

< t

, найдем

σ 2

доверительный интервал l =

nS 2

Применение методов получения доверительных интервалов для оценок параметров иллюстрируют примеры 4.1-4.4. В начале примера создается выборка нормально распределенных чисел с заданными параметрами (математическим ожиданием и дисперсией). Далее в документе вычисляются оценки для этих параметров по методу моментов. Для дальнейших вычислений вводятся плотности распределений Стью-

дента, χ2 и нормального. Далее находятся доверительные интервалы

для математического ожидания при известной и неизвестной дисперсии. В следующем разделе примеров решается задача определения доверительного интервала для дисперсии при известном и неизвестном математических ожиданиях.

Пример 4.1 (Mathematica)

Получение выборки с заданными μ и σ

<<Statistics`ContinuousDistributions`

<<Statistics`ConfidenceIntervals`

Объём выборки n=50;

Заданные параметры нормального закона muX=3; sigmaX=2;

Выборка с нормальным распределением x=RandomArray[NormalDistribution[muX,sigmaX],n];

Вычисление моментов 1-й начальный момент (оценка математического ожидания)

Mx=1/n*Apply[Plus,x]

2.91748

2-й центральный момент (оценка дисперсии)

Dx=1/n*Apply[Plus,(x-Mx)^2]

4.63328

Оценка ср. кв. отклонения

sigma=Sqrt[Dx]

2.1525

Плотность распределения нормального закона fn[x_,sigma_]:=Exp[-x^2/2/sigma^2]/

Sqrt[2*Pi*sigma^2];

Плотность распределения Стьюдента ft[t_,n_]:=Gamma[(n+1)/2]/Gamma[n/2]/

Sqrt[Pi*n]*(1+t^2/n)^(-(n+1)/2);

Плотность распределения χ2

fx[x_,n_]:=x^((n-2)/2)*Exp[-x/2]/2^(n/2)/ Gamma[n/2];

Случай 1. Оценка мат. ожидания при известной дисперсии Доверительная вероятность

beta=0.95;

Заданная дисперсия

S=sigmaX^2;

sigma1=Sqrt[S/n];

Нахождение доверительного интервала delta=z/.FindRoot[

2*Integrate[fn[y,sigma1],{y,0,z}]-beta==0,{z,0}]

0.554362 dz=delta*sigma1; m={Mx-dz,Mx+dz};

Доверительный интервал для мат. ожидания

Print["Mx=",Mx," ",m]

Mx=2.91748 {2.76068,3.07428}

Случай 2. Оценка мат. ожидания при неизвестной дисперсии Оценка дисперсия

S=Dx;

Нахождение доверительного интервала delta=z/.FindRoot[

2*Integrate[ft[y,n-1],{y,0,z}]-beta==0,{z,0}]

2.00958 dz=delta*Sqrt[S/n]; m={Mx-dz,Mx+dz};

Доверительный интервал для мат. ожидания

Print["Mx=",Mx," ",m]

Mx=2.91748 {2.30574,3.52921}

Случай 3. Оценка дисперсии при известном мат. ожидании alpha=1-beta

0.05

delta1=z/.FindRoot[ Integrate[fx[y,n],{y,0,z}]-alpha/2==0,{z,n}]

32.3574

delta2=z/.FindRoot[ Integrate[fx[y,n],{y,z,20*n}]-alpha/2==0,{z,n}]

71.4202 dz=n*S; s={dz/delta2,dz/delta1};

Доверительный интервал для дисперсии

Print["Dx=",Dx," ",s]

Dx=4.63328 {3.24367,7.15954}

Случай 4. Оценка дисперсии при неизвестном мат. ожидании delta1=z/.FindRoot[

Integrate[fx[y,n-1],{y,0,z}]-alpha/2==0,{z,n}]

31.5549

delta2=z/.FindRoot[ Integrate[fx[y,n-1],{y,z,2*n}]-alpha/2==0,{z,n}]

70.2173 dz=(n-1)*S; s={dz/delta2,dz/delta1};

Доверительный интервал для дисперсии

Print["Dx=",Dx," ",s]

Dx=4.63328 {3.23325,7.19477}

Пример 4.2 (Matlab)

n=50; muX=3; sigmaX=2; x=normrnd(muX,sigmaX,1,n);

Mx=1/n*sum(x)

Dx=1/(n-1)*sum((x-Mx).^2), sigma=sqrt(Dx)

fn=inline(...

'exp(-x.^2/2/sigma^2)/sqrt(2*pi*sigma^2)',...

'x','sigma');

ft=inline(strcat('gamma((n+1)/2)/gamma(n/2)/',...

'sqrt(pi*n)*(1+t.^2/n).^(-(n+1)/2)'),'t','n');

fx=inline(...

'x.^(n/2-1).*exp(-x/2)/2^(n/2)/gamma(n/2)',...

'x','n');

df1=inline('2*quad(f,0,y,[],[],theta)-lambda',...

'y','f','theta','lambda');

df2=inline('2*quad(f,y,n,[],[],theta)-lambda',...

'y','f','theta','lambda','n');

zf1=inline('fzero(df,z,[],f,theta,beta)',...

'f','df','z','theta','beta');

zf2=inline('fzero(df,z,[],f,theta,beta,n)',...

'f','df','z','theta','beta','n');

beta=0.95; S=sigmaX^2; sigma1=sqrt(S/n)

delta=zf1(fn,df1,0,sigma1,beta), dz=delta*sigma1;

Mx, m=[Mx-dz,Mx+dz]

S=Dx; delta=zf1(ft,df1,0,n-1,beta)

dz=delta*sqrt(S/n); Mx, m=[Mx-dz,Mx+dz] alpha=1-beta, delta1=zf1(fx,df1,n,n,alpha) delta2=zf2(fx,df2,n,n,alpha,5*n), dz=n*S; Dx, m=[dz/delta2,dz/delta1] delta1=zf1(fx,df1,n,n-1,alpha)

delta2=zf2(fx,df2,n,n-1,alpha,5*n), dz=(n-1)*S; Dx, m=[dz/delta2,dz/delta1]

Пример 4.3 (Matcad)

n := 50

i := 0.. n − 1

μX := 3 σX := 2

x := rnorm(n ,μX,σX)

Mx := n1 ∑xi

Mx = 2.919

∑(xi −

Mx)

Dx = 3.203

σ :=

σ = 1.79

Dx:=

−

n+1

−

n +

( ,σ)

2 σ

ft(t,n)

fn x

2 π σ

π n

+ n

−1

−

fx(x,n) :=

β := 0.95

S := σX2

σ1 :=

z := 0

⌠

δ = 0.554

δ := root 2

⌡

fn(y ,σ1) dy − β,z

Mx + dz )T

dz := δ σ1

m := ( Mx − dz

Mx = 2.919

mT = ( 2.762 3.075)

S := Dx

z := 0	δ := root		⌠z	δ = 2.008
z := 0	δ := root		2 ft(y ,n − 1) dy − β,z	δ = 2.008
			⌡
			0
		m := ( Mx − dz Mx + dz )T
dz := δ	S	m := ( Mx − dz Mx + dz )T
dz := δ	n
Mx = 2.919		mT = ( 2.41 3.427)

α:= 1 − β

α= 0.05

			⌠	z
z := n	δ1 := root		⌠	fx(y ,n) dy − α			,z				δ1 = 32.394
			⌡			2
			0
			⌠	20 n
z := n	δ2 := root		⌠		fx(y ,n) dy −			α ,z			δ2 = 71.394
			⌡					2
			z			dz T
dz := n S		s	:=	dz		dz T
		s	:=	δ2		δ1
Dx = 3.203		sT = ( 2.244 4.945)
			⌠	z
z := n	δ1 := root		⌠	fx(y ,n − 1) dy −				α	,z		δ1 = 31.584
			⌡					2
			0
			⌠	20 n
z := n	δ2 := root		⌠		fx(y ,n − 1) dy −				α	,z	δ2 = 70.201
			⌡						2
			z			dz T
dz := (n − 1) S		s	:=	dz		dz T
		s	:=	δ2		δ1
Dx = 3.203		sT = ( 2.236 4.97)

Пример 4.4 (Maple)

>restart: with(stats): with(describe): randomize():

>n:=50: muX:=3: sigmaX:=2:

>x:=[random[normald[muX,sigmaX]](n)]:

>Mx:=moment[1](x);

>Dx:=moment[2,mean,0](x); sigma:=sqrt(Dx);

>fn:=(x,sigma)->exp(-x^2/2/sigma^2)/ sqrt(2*Pi*sigma^2):

>ft:=(t,n)->GAMMA((n+1)/2)/GAMMA(n/2)/ sqrt(Pi*n)*(1+t^2/n)^(-(n+1)/2);

>fx:=(x,n)->x^((n-2)/2)*exp(-x/2)/2^(n/2)/ GAMMA(n/2);

>beta:=0.95:

>S:=sigmaX^2: sigma1:=evalf(sqrt(S/n));

>delta:=fsolve(2*int(fn(y,sigma1),y=0..z)-beta,z);

>dz:=delta*sigma1: m:=[Mx-dz, Mx+dz]: 'Mx'=Mx, m;

>S:=Dx:

>delta:=fsolve(2*int(ft(y,n-1),y=0..z)-beta,z);

>dz:=delta*sqrt(S/n): m:=[Mx-dz, Mx+dz]:

>'Mx'=Mx, m;

>alpha:=1-beta;

>delta1:=fsolve(int(fx(y,n),y=0..z)-alpha/2,z);

>delta2:=fsolve(int(fx(y,n),y=z..20*n)-alpha/2,z);

>dz:=n*S: s:=[dz/delta2, dz/delta1]: 'Dx'=Dx, s;

>delta1:=fsolve(int(fx(y,n-1),y=0..z)-alpha/2, z,0..n);

>delta2:=fsolve(int(fx(y,n-1),y=z..20*n)-alpha/2, z,n..20*n);

>dz:=(n-1)*S: s:=[dz/delta2, dz/delta1]:

>'Dx'=Dx, s;

Задание

1.В условиях примера 1 записать формулы доверительного интервала математического ожидания mξ = a , считая дисперсию σ 2 известной.

2.В условиях примера 1 записать формулы для доверительного интервала дисперсии Dξ =σ 2 , считая математическое ожидание известной величиной.

3.Используя выборку из примера 2.1 (первая часть) и полагая, что доверительная вероятность β = 0,8;0,9;0,95, вычислить довери-

тельные интервалы:

1)для математического ожидания, считая дисперсию: а) известной величиной σ 2 = S 2 , б) неизвестной величиной (использовать оценку);

2)для дисперсии, считая математическое ожидание а) известной величиной mξ = Mx , в) неизвестной величиной. Результаты сравнить.

Указание к заданию 1. Учесть, что статистика tn (x, a) = Mx −a рас-

пределена по нормальному закону	N	0,	σ	.

			n
	46

Указание к заданию 2. Рассмотреть статистику tn (x,σ 2 ) = nS 2 /σ 2 .

Замечание к заданию 3. Считать, что генеральная совокупность, из которой взята выборка, распределена по нормальному закону. При этом


в случае больших n распределения					χ2	и Стьюдента сходятся к нор-
мальному закону, поэтому при n > 30						можно считать, что статисти-
киt n =	Mx −a	n −1 , t n =	S	2n −	2n −1 , t n =		S	2n − 2n −3 рас-
	S		σ				σ

пределены по нормальному закону N (0,1) .

4.Провести расчеты доверительных интервалов для μ и σ , заданных

преподавателем (смотри примеры 4.1-4.4), при объеме выборок 10, 50 и 100.

Контрольные вопросы

1.Что называется доверительным интервалом и доверительной вероятностью?

2.Дайте общую схему построения доверительного интервала.

3.Как изменяется доверительный интервал с увеличением надежности? С увеличением объема выборки?

4.Как изменяется доверительный интервал в зависимости от того, известны ли другие параметры точно или нет?

Выборочные оценки в задачах 5-8 определялись по результатам n наблюдений. Используя эти данные, найти 90%-ные и 99%-ные доверительные интервалы для математического ожиданияследующих характеристик (Задачи № 3.1–3.4 гл.15 [2]):

5. Ёмкость конденсатора, если x = 20 мкФ, n =16 , с.к.о. известно и равно 4 мкФ.

6. Время безотказной работы электронной лампы, если x = 500 ,

n=100 , с.к.о. известно и равно 10 ч.

7.Диаметр вала, если x = 30 мм, n = 9 , s2 = 9 мм2.

8. Содержание углерода в единице продукта, если x =18 г, n = 25 , s = 4 г.

5. Equation Section (Next)Критерии согласия

Допустим, что построенную по выборке статистическую функцию распределения Fn (x) мы сгладили с помощью некоторой гипотетиче-

ской функции распределения F (x). Возникает вопрос: а верна ли гипотеза о том, что функция распределения именно F (x), а не какая-либо другая? Точнее, не противоречит ли гипотеза о законе распределения F (x) результатам эксперимента? Чтобы ответить на этот вопрос, пользуются критериями согласия.

Под критерием согласия понимают некоторую величину (Fn , F ) , которая отражает количественную меру расхождения гипотетического F (x) и эмпирического Fn (x) распределений. Эту величину можно

выбрать многими способами, в соответствии с которыми получаются и различные критерии проверки интересующей нас гипотезы. Например, можно положить

(Fn , F ) = Dn = sup		Fn (x)− F (x)		(5.1)

или

(Fn , F ) =ω2 = ∞∫ Fn (x)− F (x) 2 dF (x) .

−∞

В первом случае получаем критерий Колмогорова, во втором – критерий Мизеса.

Схема применения критерия согласия следующая. Возьмём α > 0 настолько малым, чтобы осуществление события с вероятностью α можно было считать практически невозможным в единичном опыте.

Зная закон распределения случайной величины	=	(Fn , F ) , найдем ее
возможное значение 0 из уравнения P ( >	0 ) =α . По данной вы-
борке вычислим значение критерия согласия	1 =	(Fn , F ). Если ока-

жется, что 1 > 0 , то это значит, что произошло практически неверо-

ятное событие. Следовательно, эксперимент опровергает нашу гипотезу, и она отбрасывается. При этом вероятность того, что мы отбросили

верную гипотезу, равна α . Если 1 <	0 , то гипотеза не противоречит
эксперименту и должна быть принята.	Число α называется уровнем

значимости критерия.

Колмогоров нашел предельную функцию распределения величины λ = nDn . Эту функцию обычно обозначают K (x) :

K (x) = lim P	(	nD	< x	)	=	∞	(−1)k e−2k2 x2 , x > 0 .	(5.2)
n→∞	(	n		)		∑
						k =−∞

Формулой (5.2) можно пользоваться для больших n .

Чтобы воспользоваться критерием согласия Колмогорова, нужно построить графики гипотетической и выборочной функций распределе-

ния,	по	графикам найти статистику	Dn	и	вычислить величину
λ1 =	nDn . Найти вероятность события		nDn	> λ1	по формуле
			∞
		P ( nDn > λ1 ) =1− K (λ1 ) = −2∑(−1)k e−2k2λ12 .				(5.3)
			k =1
Если		эта вероятность меньше α ,	то гипотеза отвергается,			если

больше, то признается непротиворечащей эксперименту. Предположим теперь, что, например, из физических соображений

мы можем высказать гипотезу только о виде закона распределения, а параметры, входящие в него, неизвестны. Тогда критерий согласия Колмогорова не применим. В таких случаях часто используют критерий согласия Пирсона.

Всю числовую ось разобьем на r непересекающихся разрядов точками −∞ = x0 < x1 < x2 < ... < xr = ∞ . Примем гипотезу о функции рас-

пределения. Неизвестные параметры, входящие в нее, заменим их

оценками. Таким образом, гипотетическая					функция	распределения
F (x) будет известна,	и	можно		будет найти		вероятности
pi = F (xi )− F (xi −1 ) попадания			случайной		величины	в i -й разряд.
Возьмем статистику			(m −np )2
tn = χ2	r		(m −np )2			(5.4)
tn = χ2	= ∑		i	i .		(5.4)
	i=1		npi

Здесь n – объем выборки, r – число разрядов, mi – число значений в i -м разряде.

За меру расхождения между гипотетической F (x) и эмпирической Fn (x) функциями распределения примем статистику tn = (Fn , F ), определенную формулой (5.4). Фишером доказано, что предельным законом распределения статистики tn является распределение χ2 с

r −m −1 степенями свободы, если параметры оценены по методу максимального правдоподобия. Здесь m – число параметров, входящих в гипотетическую функцию распределения. Доказано также, что при объеме выборки n > 30 с достаточной точностью можно пользоваться предельным законом распределения, если npi > 5 .

Схема применения критерия Пирсона следующая. По формуле (5.4) вычисляют значение статистики tn = 0 . Вычисляют вероятность

p ( > 0 ) = ∞∫ f (x)dx .	(5.5)
0
Здесь f (x) определяется формулой (2.5), а n	следует заменить на

r −m −1 . Если эта вероятность меньше уровня значимости α , то гипотезу следует отбросить.

Применение критериев согласия иллюстрируют примеры 5.1-5.4. В начале генерируется (по методу обратных функций) выборка значений случайной величины, распределенной по показательному закону с заданным параметром a . Далее выборка группируется и находится группированная функция распределения, что необходимо для критерия Колмогорова. В соответствии со схемой применения критерия Колмо-

горова, задается теоретическая функция распределения F (x), и по этим значениям вычисляется статистика Dn . Вычисляется вероятность

по формуле (5.3) и сравнивается с уровнем значимости α .

В следующем разделе примеров применяется критерий Пирсона, Отметим, что, поскольку критерий Пирсона работает с плотностью распределения, для него может понадобиться другая группировка той же исходной выборки. Теоретическая плотность распределения может быть получена дифференцированием ранее введенной функции распределения. Теперь можно вычислить значение статистики и оценить вероятность (5.5), сравнивая ее с уровнем значимости α .

Пример 5.1 (Matlab)

%Часть 1. Критерий Колмогорова

%Получение выборки заданного объема n n=100;

%Теоретическая функция распределения f=inline('1-exp(-a*x)','x','a');

%Теоретическая плотность распределения df=inline('a*exp(-a*x)','x','a');

%Обратная функция распределения g=inline('-log(1-x)/a','x','a');

%Параметр закона распределения

a=2;

%Равномерно распределённые случайные числа eps=1*1e-2; Y=unifrnd(0,1-eps,1,n);

%Числа, распределённые по показательному закону

X=g(Y,a);

%Группировка для критерия Колмогорова

%Вариационный ряд

Y=sort(X);

%Число разрядов для группировки k=10;

%Размах выборки

R=Y(n)-Y(1)

R=2.0231

% Длина разряда h=R/k

h=0.2023

%Определение абсолютных частот и середин разрядов

[m,xs]=hist(Y,k);

%Относительные частоты

p=m/n;

%Накопленные частоты

Fg=cumsum(p);

%График эмпирической функций распределения stairs(xs,Fg), hold on

%График теоретической функций распределения x1=Y(1):0.1:Y(n); y1=f(x1,a); plot(x1,y1,'r'), hold off, pause

% Уровень значимости alpha=0.05; Ft=f(xs,a); epsilon=abs(Ft-Fg); Dn=max(epsilon)

Dn=0.1466

lambda1=sqrt(k)*Dn

lambda1=0.4637

j=1:n; PL=-2*sum((-1).^j.*exp(-2*j.^2*lambda1^2))

PL=0.9826

if PL>alpha

sprintf('Гипотеза не противоречит эксперименту') else

sprintf('Гипотеза противоречит эксперименту') end

Гипотеза не противоречит эксперименту

%Часть 2. Критерий Пирсона

%Теоретические вероятности pr=df(xs,a)*h; chi2=n*sum((p-pr).^2/pr)

chi2=0.1360

% Плотность распределения хи-квадрат fx=inline(...

't.^(n/2-1).*exp(-t/2)/2^(n/2)/gamma(n/2)',...

't','n'); dfx=inline('quad(f,0,y,[],[],n)-(1-alpha)',...

'y','f','n','alpha'); zx=inline('fzero(df,z0,[],f,n,alpha)',...

'f','df','n','alpha','z0'); r=k-1; w=zx(fx,dfx,r,alpha,r)

w=16.9190

if chi2<w

sprintf('Гипотеза не противоречит эксперименту') else

sprintf('Гипотеза противоречит эксперименту') end

Гипотеза не противоречит эксперименту

Пример 5.2 (Mathcad)

n := 100		j := 0.. n − 1				a := 2 ε := 10− 2
f(x) := 1 − exp(−a x)				g(x) := −		ln(1 − x)	df(x) := d f(x)
						a
Y := runif(n ,0,1 − ε)							dx
				Xj := g(Yj)

Y := sort ( X)		R	:= Yn−1 −			R = 2.186
					Y0
k := 10	i := 0.. k − 1			h :=	R h = 0.219
					k

− 4

xri+1 + xri

xr0 := Y0

xri+1 := xri + h

xrk := xrk +

xsi :=

m := hist(xr,Y)

m =

Fg0

:= p0

j := 1.. k − 1

Fgj := Fgj−1 + p j

p := n

α := 0.05

Fti := f(xsi)

Fgi

εi :=

− Fg

0.5

f(y)

Dn := max(ε)

Dn = 0.159

λ1 :=

k Dn

xsi ,y

λ1 = 0.504

)

j := 1.. n

PL := −2

PL = 0.961

∑(−1) exp(−2 j

λ1

if(PL > α,"True" ,"False" )

= "True"

n −1

− x

fx(x,n) :=

r := k

− 1

(pi

− pri)2

pri := df(xsi) h

χ2 := n ∑

χ2 = 4.165

y := r

w = 16.893

⌠

w := root ⌡

fx(x,r) dx − (1 − α),y

if(χ2 < w,"True" ,"False" ) = "True"

Пример 5.3 (Maple)

>restart: with(stats): with(transform): randomize():

>n:=100:

>f:=x->1-exp(-a*x);

>df0:=diff(f(x),x): df:=unapply(df0,x);

>g0:=solve(f(x)=y,x): g:=unapply(g0,y);

>a:=2:

>eps:=1e-2: Y:=[random[uniform[0,1-eps]](n)]:

>X:=map(g,Y): Y:=sort(X):

>k:=10: R:=Y[n]-Y[1]; h:=R/k;

>xr:=[Y[1]+i*h $i=0..k]: xr[k+1]:=xr[k+1]+1e-4:

>xrr:=[(xr[i]..xr[i+1]) $i=1..k]:

>xs:=evalf([xr[i]+0.5*h $i=1..k],3):

>xp:=scaleweight[1/n](statsort(tallyinto(Y,xrr))):

>p:=evalf(frequency(xp),3):

>F:=x->sum(p[i]*Heaviside(x-xs[i]),i=1..k):

>plot([F,f],Y[1]..Y[n],0..1,labels=['Y','F']);

>alpha:=0.05:

>Fg:=cumulativefrequency(xp): Ft:=map(f,xs):

>epsilon:=map(abs,Ft-Fg):

>Dn:=max(op(epsilon));

>lambda1:=evalf(sqrt(k)*Dn);

>PL:=-2*sum((-1)^j*exp(-2*j^2*lambda1^2),j=1..n);

>`if`(PL<alpha,'false','true');

>pr:=map(df,xs)*h:

>chi2:=n*sum((p[i]-pr[i])^2/pr[i],i=1..k)/n;

>fx:=(x,n)->x^((n-2)/2)*exp(-x/2)/2^(n/2)/ GAMMA(n/2);

>r:=k-1:

>w:=fsolve(int(fx(t,r),t=0..y)-(1-alpha),y);

>`if`(chi2<w,'true','false');

Пример 5.4 (Mathematica)

<<Calculus`DiracDelta`; <<Graphics`Colors` <<Statistics`ContinuousDistributions` <<Statistics`DataManipulation`

n=100; a=2; eps=0.01; f[x_]:=1-Exp[-a*x]; df[x_]=D[f[x],x]; g[x_]:=-Log[1-x]/a;

Y=RandomArray[UniformDistribution[0,1-eps],n]; X=Map[g,Y]; Y=Sort[X];

k=10; R=Y[[n]]-Y[[1]]; h=R/k xs=Table[Y[[1]]+(i-1/2)*h,{i,k}]; m=BinCounts[Y,{Y[[1]],Y[[n]],h}]; m[[1]]+=1; m p=N[m/n];

F[y_]:=Sum[p[[i]]*UnitStep[y-xs[[i]]],{i,k}]; Plot[{F[y],f[y]},{y,Y[[1]],Y[[n]]},

PlotStyle->{Red,Green}]; alpha=0.05;

Fg=CumulativeSums[p]; Ft=Map[f,xs]; epsilon=Abs[Ft-Fg]; Dn=Max[epsilon]

lambda1=Sqrt[k]*Dn PL=-2*Sum[(-1)^j*Exp[-2*j^2*lambda1^2],{j,n}] If[PL>alpha,"true","false"]

pr=df[xs]*h; chi2=n*Sum[(p[[i]]-pr[[i]])^2/pr[[i]],{i,k}] fx[x_,n_]:=x^((n-2)/2)*Exp[-x/2]/2^(n/2)/

Gamma[n/2]; r=k-1; w=z/.FindRoot[

Integrate[fx[y,r],{y,0,z}]-(1-alpha)==0,{z,r}] If[chi2<w,"true","false"]

Задание

1.Получить выборку значений случайной величины, распределенной по показательному закону с заданным параметром a .

2.Используя критерий согласия Колмогорова, проверить гипотезу о том, что генеральная совокупность, выборка которой получена ра-

нее, распределена по закону F (x) =1−e−ax . Уровень значимости

α= 0,05 .

3.Используя критерий согласия Пирсона, проверить гипотезу о заданном распределении той же генеральной совокупности. Критерий значимости α = 0,05 .

4.Провести расчеты по документу для объемов выборок 20, 50 и 100.

Контрольные вопросы

1.Что такое критерий согласия?

2.Какие критерии согласия Вы знаете?

3.Опишите схему применения критериев согласия Колмогорова и Пирсона.

4.Запишите плотность распределения закона χ2 с n −m −1 степенью свободы.

5.Могут ли опытные данные одновременно согласовываться с несколькими гипотезами о законе распределения?

6.Решить задачи № 6.8, 6.12–6.16 гл. 15[2].

6. Equation Section (Next)Зависимость случайных величин, регрессия.

Оценка регрессии методом наименьших квадратов

Рассмотрим двумерную случайную величину (ξ,η) , т.е. упорядоченную пару случайных величин. Пусть, например, ξ – диаметр деревьев некоторого леса, а η – высота деревьев. Тогда mξ и mη – средние диаметр и высота деревьев, а σξ и ση характеризуют разброс диа-

метра и высоты относительно средних значений.

Интуитивно ясно, что диаметр и высота деревьев связаны некоторой зависимостью, однако эта зависимость не является функциональной, так как для деревьев, имеющих одинаковый диаметр ξ = x высота

η является величиной случайной. Такую зависимость называют веро-

ятностной или стохастической. Однако можно говорить о функциональной зависимости средней высоты деревьев от диаметра

M (η x) = g (x). Здесь M (η x) – условное математическое ожидание,

т.е. средняя высота деревьев, имеющих диаметр x . Если f2 (η x) – условная плотность распределения η , то

M (η

x) = g (x) = ∞∫ yf2 (y

x)dy .

(6.1)

−∞

Аналогично

M (ξ

y) = q (y) = ∞∫ xf1 (x

y)dx .

(6.2)

−∞

Здесь

M (ξ

y) – средний диаметр деревьев высотой

y . Функции

y = g (x)

и x = q (y), определенные формулами (6.1) и (6.2), называют-

ся соответственно регрессией величины η на ξ и регрессией величины ξ на η . Графики этих линий называются кривыми регрессии. Плотности распределения f1 (x) и f2 ( y) (компоненты двумерной случайной величины) и условные плотности распределения связаны с плотностью f (x, y) двумерной случайной величины формулой

вероятностной зависимости будет неизбежно наблюдаться рассеяние η

ностной зависимости будет неизбежно наблюдаться рассеяние η около центра g (x) . Мерой этого рассеяния естественно считать условную дисперсию

			D (η		x) = ∞∫ (y − g (x))2 f2 (y	x)dy .	(6.4)
							(6.4)

	(		)		−∞
	(		)
Величину	D η	x		можно рассматривать как среднюю квадратич-

ную погрешность оценки величины η по наблюдаемому значению x случайной величиныξ , если за оценку берется регрессия g (x) . Эта погрешность зависит от x , т.е. от закона распределения ξ . Чтобы получить представление о точности оценки во всем диапазоне изменения


(			)
ξ , величину D η		x		усредняют. С учетом (6.3) и (6.4) получим
δ = ∞∫ D (η	x) f2 (x)dx = ∫ ∞∫ ( y − g (x))2 f2 ( y				x) f1 (x)dxdy =


−∞				−∞		(6.5)
= ∫ ∞∫ ( y − g (x))2				f (x, y)dxdy = M (η − g (x))2 .		(6.5)
= ∫ ∞∫ ( y − g (x))2				f (x, y)dxdy = M (η − g (x))2 .

−∞

Известно, что рассеяние, определяемое средним квадратом отклонения, минимально, если его вычислять относительно центра рассея-

ния. Отсюда следует, что величина δ = M (η − g (x))2 принимает свое минимальное значение. Другими словами, регрессия η на ξ является

наилучшей (в смысле минимума среднего квадратичного отклонения) оценкой зависимости η от ξ .

Очевидно, что регрессия может служить оценкой зависимости, когда эта регрессия известна. Если регрессия неизвестна, то ищут оценку

η в некотором классе функций случайной величины ξ					и вместо (6.5)
требуют минимума величины	(		))
(	(		))	2 .
ε = M η − y%		ξ		2 .	(6.6)
Оценка y (ξ ) случайной величины η ,			принадлежащая определен-
%

ному классу функций и доставляющая минимум величине η , определяемой формулой (6.6), называется средней квадратичной регрессией η на ξ .

Будем, например, искать оценку y%(ξ ) среди класса линейных функций, т.е. y%(ξ ) =α + βξ . Коэффициенты α и β найдем из условия

минимума ε , т.е. методом наименьших квадратов. Преобразуем снача57

ла (6.6) следующим образом:

ε = M (η −α − βξ )2 =

= M

(6.7)

(η −mη )− β (ξ −mξ )+(mη −α − βmξ )

=ση2 + β2σξ2 +(mη −α − βmξ )2 −2βKξη .

Здесь

Kξη = M

– корреляционный момент слу-

(ξ

−mξ )(η −mη )

чайных величин ξ

и η .

Необходимыми условиями минимума функции (6.7) являются

∂ε

0 ,

∂ε

= 0

∂α

∂β

или

mη −α − βmξ = 0,

(6.8)

βσ 2

− K

= 0.

ξη

Решая систему (6.8), найдем α , β и вместе с тем линейную оценку

регрессии

= mη

+ ρ

(ξ − mξ ).

(6.9)

y (ξ ) =α + βξ

Здесь ρ =

Kξη

– коэффициент корреляции. Линия

σξση

y = mη

+ ρ

ση

(x −mξ )

(6.10)

σξ

называется прямой линией регрессии η на ξ . Коэффициент

β1 = ρ	ση	называется коэффициентом регрессии.
	σξ

Аналогично можно получить прямую регрессии ξ					на η
		x = mξ + ρ	σξ	(y −mη ) .	(6.11)

		ση
Прямые (6.10) и (6.11) не совпадают, но обе проходят через центр
распределения		(mξ , mη ) . Коэффициент корреляции			ρ служит мерой

линейной корреляционной связи между ξ и η . Если ρ = ±1 , то ξ и η связаны линейной функциональной зависимостью, если ρ = 0 , то они не коррелированы. Прямые регрессии в этом случае параллельны осям

координат.

Если числовые характеристики, входящие в уравнения регрессии,

неизвестны, то их заменяют оценками

mξ

= M x ; mη = M y ;

ση = Sy ; Kξη = Kxy ; ρ = r =

Kxy

Sx Sy

где

M x

∑xi

; Sx2 =

∑(xi − M x )2

∑xi2 − M x2 ;

n i =1

M y

∑yi

; Sy2 =

∑( yi − M y )2 =

∑yi2 − M y2

n i =1

Kxy

∑(xi − M x )( yi − M y )

∑xi yi − M x M y .

n i =1

n i=1

σξ = Sx ;

(6.12)

В результате получим эмпирические прямые регрессии

Задача нахождения регрессии тесно связана с задачей сглаживания экспериментально полученной зависимости по методу наименьших квадратов. В подтверждение этого можно сравнить формулы (6.13) и (1.9).

Если генеральная совокупность имеет нормальное распределение, то можно считать при n ≥ 30 выборочный коэффициент корреляции r

нормально распределенным:

N r,

(1−r2 )

. Выборочные коэффициен-

ты регрессии b

= r

и b

= r

также распределены нормально:

N b ,

(1−r

)

(1−r

)

N b

Учитывая это, можно легко построить доверительные интервалы для ρ , β1 и β2 .

Линейная регрессия имеет важное практическое значение, поскольку генеральная совокупность чаще всего распределена нормально. В противном случае возможна нелинейная регрессия, а при большом диапазоне изменения величин линеаризация регрессии

неправомерна. В этом случае поступают следующим образом. Для каждого xi выборки вычисляют среднее значение yi . Наносят точки

(xi , yi ) и соединяют их ломаной линией. По этой ломаной линии

решают вопрос о виде нелинейной зависимости. Затем проводят сглаживание.

Следующие примеры демонстрируют применение методов нахождения регрессии. Для моделирования стохастической зависимости генерируется массив нормально распределенных значений x и массив случайных величин v с нулевым математическим ожиданием (помеха). Величина y получается путем суммирования значений x и помехи v .

Изменяя параметр σ для помехи v , можно регулировать степень случайности связи величин x и y , что оценивается визуально по виду графика, на котором наносятся точки.

По данным из массивов x и y строятся эмпирические прямые рег-

рессии. Для этого вычисляются оценки необходимых числовых характеристик и строятся прямые. Для сравнения здесь же еще раз приводится график исходных данных.

Поскольку в данном случае коэффициент корреляции и выборочные коэффициенты регрессии распределены по нормальному закону, задаем надежность и определяем доверительные интервалы путем решения соответствующих функциональных уравнений.

Пример 6.1 (Mathcad)

Получение выборок объёма n для нормально распределённых случайных величин X и Y с заданными параметрами μ и σ

n := 20 i := 0.. n − 1		μX := 10 σX := 2					μV := 0 σV := 2
Получение выборки в массиве x
x := rnorm(n ,μX,σX)		xT =
x := rnorm(n ,μX,σX)		xT =	9.961	10.064		10.53		10.983
Вспомогательная случайная величина
v := rnorm(n ,μV,σV)		vT =
v := rnorm(n ,μV,σV)		vT =	-0.818	-1.348		-0.264		2.036
Получение выборки в массиве y
y := x + v	yT =
y := x + v	yT =	9.143	8.716		10.266		13.019		10.838
Изображение полученных точек

<<< < Предыдущая 1 23 / 43 4 > Следующая >>>

Соседние файлы в папке MATLAB00

#
09.04.2015168.45 Кб151MATLAB_Команды_Бураков.doc
#
09.04.2015246.27 Кб104MATLAB_Команды_Бураков_01.doc
#
09.04.20152.29 Mб112matlab_ЛАБ_ВЫЧ_Символ.doc
#
09.04.2015512.85 Кб103matlab_ЛАБ_ВЫЧ_Символ.pdf
#
09.04.20152.04 Mб102matlab_ЛАБ_ВЫЧ_Символ_01.doc
#
09.04.2015753.56 Кб115method112ML_СТАТИСТИКА.pdf
#
09.04.2015706.17 Кб112Mironovskiy_Petrova1ML_ВЫЧ.pdf
#
09.04.2015380.76 Кб115pract_ML_Матем.pdf
#
09.04.2015510.98 Кб121taranchukML00_Simulink.doc
#
09.04.2015537.06 Кб114taranchukML00_Simulink.pdf
#
09.04.20152.22 Mб93~WRL0380.tmp