Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

MATLAB00 / method112ML_СТАТИСТИКА

.pdf
Скачиваний:
78
Добавлен:
09.04.2015
Размер:
753.56 Кб
Скачать

В лабораторной работе закон распределения задается функцией

арктангенса с параметрами a0 и a1 :

 

 

 

 

 

F (x) =

1

arctg

(a0

+ a1 x)+

1

,

(2.8)

 

2

 

π

 

 

 

 

Значения параметров задаются преподавателем.

Следующие разделы примеров показывают, как по заданной выборке вычисляются эмпирические характеристики исследуемой случайной величины. Результатом вычислений примеров являются таблицы значений эмпирической функции распределения Fg и середин

разрядов xs .

По этим данным необходимо решить задачу методом наименьших квадратов для двухпараметрической функции (2.8).

В случае, когда задачи получения и обработки выборки и аппроксимации функции распределения решены правильно, полученные при аппроксимации значения оценок параметров a%0 и a%1

будут близки к значениям параметров, заданных при получении выборки, что легко проверить.

Пример 2.1 (Maple)

Часть 1. Обработка выборки малого объёма

>restart: with(stats): with(transform): randomize():

Исходная выборка

>x:=[10,10,10,30,20,12,10,12,20,10]:

Объём выборки

>n:=nops(x):

Вариационный ряд для исходной выборки

> Y:=sort(x);

Y := [ 10, 10, 10, 10, 10, 12, 12, 20, 20, 30]

Построение статистического ряда для исходной выборки Группировка повторяющихся элементов

> xm:=tally(Y);

xm := [ Weight( 10, 5), Weight( 12, 2), Weight( 20, 2), 30]

Неповторяющиеся элементы

> X:=statvalue(xm);

X := [ 10, 12, 20, 30]

Количество неповторяющихся элементов

> k:=nops(X):

Абсолютные частоты для элементов вектора X

> m:=frequency(xm);

21

m := [ 5, 2, 2, 1]

Относительные частоты

> p:=evalf(m/n,1);

p := [ .5, .2, .2, .1]

Статистический ряд для исходной выборки

> 'X'=X,'p'=p;

X = [ 10, 12, 20, 30], p = [ .5, .2, .2, .1]

> xp:=evalf(scaleweight[1./n](xm),1);

xp := [ Weight( 10, .5), Weight( 12, .2), Weight( 20, .2), Weight( 30, .1) ]

Статистическая функция распределения

> F:=y->sum(p[i]*Heaviside(y-X[i]),i=1..k);

k

F := y pi Heaviside( y Xi )

i = 1

График статистической функции распределения

> plot(F,X[1]-1..X[k]+1,0..1,labels=['X','F']);

Часть 2. Обработка выборки большого объёма с группировкой Объём выборки

> n:=500:

Заданная функция распределения

> f:=x->arctan(a[0]+a[1]*x)/Pi+0.5;

f := x

arctan( a0 + a1 x )

+ .5

π

 

 

Плотность распределения

> df0:=diff(f(y),y): df:=unapply(df0,y);

df := y

 

 

a1

 

 

( 1 + ( a

0

+ a

1

y )2 ) π

 

 

 

 

 

Обратная функция распределения

22

> g0:=solve(f(y)=z,y): g:=unapply(g0,z); g := z → −1. a0 + cot( 3.141592654z )

a1

Параметры закона распределения

> a[0]:=0: a[1]:=10:

Равномерно распределённые случайные числа

>eps:=1e-2: Y:=[random[uniform[0+eps,1-eps]](n)]:

Числа, распределённые по закону арктангенса

>X:=map(g,Y):

Вариационный ряд

> Y:=sort(X):

Число разрядов для группировки

>k:=10:

Размаха выборки

>R:=Y[n]-Y[1];

R := 5.183944585

Длина разряда

> h:=R/k;

h := .5183944585

Границы разрядов

>xr:=[Y[1]+i*h $i=0..k]: xr[k+1]:=xr[k+1]+1e-4:

Интервалы разрядов

>xrr:=[(xr[i]..xr[i+1]) $i=1..k]:

Середины разрядов

> xs:=evalf([xr[i]+0.5*h $i=1..k],3);

xs := [ -2.33, -1.81, -1.29, -.771, -.254, .265, .783, 1.30, 1.82, 2.34]

Группированный статистический ряд

>xp:=scaleweight[1/n](statsort(tallyinto(Y,xrr))):

Гистограмма

>pic2:=statplots[histogram](xp):

>plots[display](plot(df,Y[1]..Y[n]),pic2);

23

Относительные частоты

> p:=evalf(frequency(xp),3);

p := [ .00600, .00200, .0200, .0260, .496, .402, .0300, .0100, .00200, .00600]

Группированная статистическая функция распределения

>F:=x->sum(p[i]*Heaviside(x-xr[i]),i=1..k):

>plot([F,f],Y[1]..Y[n],0..1,labels=['Y','F']);

Оценка параметров закона распределения Накопленные частоты

> Fg:=evalf(cumulativefrequency(xp),3);

Fg := [ .00600, .00800, .0280, .0540, .550, .952, .982, .992, .994, 1.]

Линеаризация

>yg:=evalf(map(y->tan((y-0.5)*Pi*(1-2*eps)),Fg)):

Оценка параметров методом наименьших квадратов

>fit[leastsquare[[y,z]]]([xs,yg]);

z = 3.495959435+ 10.72620093y

Пример 2.2 (Mathematica)

<<Calculus`DiracDelta` <<Graphics`Graphics`; <<Graphics`Colors` <<Statistics`ContinuousDistributions` <<Statistics`DataManipulation`

24

x={10,10,10,30,20,12,10,12,20,10}; n=Length[x]; Y=Sort[x]; xm=Frequencies[Y]; X=Column[xm,2] k=Length[X]; m=Column[xm,1]; p=N[m/n] xp=Transpose[{N[Column[xm,1]/n],Column[xm,2]}] f[y_]:=Sum[p[[i]]*UnitStep[y-X[[i]]],{i,k}]; Plot[f[y],{y,X[[1]]-1,X[[k]]+1}];

n=500; a0=0; a1=10; eps=0.01; f[x_]:=ArcTan[a0+a1*x]/Pi+0.5; df=D[f[y],y]; g[z_]:=-( a0+Cot[Pi* z])/a1; Y=RandomArray[UniformDistribution[0+eps,1-eps],n]; X=Map[g,Y]; Y=Sort[X];

k=10; R=Y[[n]]-Y[[1]]; h=R/k xr=Table[Y[[1]]+i*h,{i,0,k}] xs=Table[Y[[1]]+(i-1/2)*h,{i,k}] m=BinCounts[Y,{Y[[1]],Y[[n]],h}]; m[[1]]+=1; m p=N[m/n] p1=BarChart[Transpose[{p,xs}],BarStyle->{Blue}]; p2=Plot[df,{y,Y[[1]],Y[[n]]},PlotStyle->{Red}]; pic1=Show[{p1,p2}]; F[y_]:=Sum[p[[i]]*UnitStep[y-xr[[i]]],{i,k}]; Plot[{F[y],f[y]},{y,Y[[1]],Y[[n]]},

PlotStyle->{Red,Green}]; Fg=CumulativeSums[p]

ygf[y_]:=Tan[(y-0.5)*Pi*(1-2*eps)]; yg=Map[ygf,Fg]; pXY=Transpose[{xs,yg}]; psi=Fit[pXY,{1,y},y]

Пример 2.3 (Matlab)

x=[10,10,10,30,20,12,10,12,20,10]; n=length(x); Y=sort(x), X=[10,12,20,30], k=length(X); m=[0,0,0,0];

for i=1:k, for j=1:n,

if Y(j)==X(i), m(i)=m(i)+1; end end, end

m, p=m/n, f=cumsum(p), stairs(X,f) n=500; a0=0; a1=10; eps=1e-2;

f=inline('atan(a0+a1*x)/pi+0.5','x','a0','a1'); df=inline('a1./((1+(a0+a1*x).^2)*pi)',...

'x','a0','a1'); g=inline('-(cot(pi*x)+a0)/a1','x','a0','a1'); Y=unifrnd(0+eps,1-eps,1,n); X=g(Y,a0,a1); Y=sort(X); k=10; R=Y(n)-Y(1), h=R/k, i=0:k-1; xr=Y(1)+i*h, [m,xs]=hist(Y,k), p=m/n, F=p/h bar(xs,F,'histc'), hold on

25

x1=Y(1):0.1:Y(n); y1=df(x1,a0,a1); plot(x1,y1,'r'), hold off, pause Fg=cumsum(p); stairs(xr,Fg), hold on

y2=f(x1,a0,a1); plot(x1,y2,'r'), hold off, pause yg=tan((Fg-0.5)*pi*(1-2*eps)), c=polyfit(xs,yg,1)

Пример 2.4 (Mathcad)

x := ( 10 10 10 30 20

12

10

12

20 10)T

 

 

n := length (x)

Y := sort (x)

 

 

YT =

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

10

10

 

10

10

 

 

10

12

12

20

 

20

30

 

X := ( 10

12

 

 

20

30)T

 

k := length ( X)

 

i := 0.. k 1

 

j := 0.. n 1

mi := if(xj

 

Xi,1,0)

 

mT = ( 5 2 2 1 )

 

 

p :=

m

 

 

 

 

n

 

 

 

 

j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

F(x) := pi Φ(x Xi)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

XT = ( 10 12 20 30)

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

F(y)

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

pT = ( 0.5 0.2 0.2 0.1)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0.5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

10

 

20

 

 

 

 

30

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n := 500

 

 

 

 

 

 

j := 0.. n 1

 

 

a0 := 0

 

a1 := 10

 

ε := 102

f(x) :=

1

atan

(a0

+ a1 x) +

1

 

 

 

g(x) := −

cotx) + a0

 

 

 

 

π

2

 

 

 

 

a

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

df(x) := d f(x)

Y := runif(n ,0 + ε,1 − ε)

 

 

Xj := g(Yj)

 

 

dx

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Y := sort ( X)

 

 

R := Yn1 Y0

R = 5.484

 

 

 

 

 

 

 

 

 

k := 10

 

i := 0.. k 1

 

h :=

R

h = 0.548

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

26

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

 

 

xri+1 + xri

xr0 := Y0

 

xri+1 := xri + h

 

xrk := xrk + 10

 

xsi :=

2

 

m := hist(xr,Y)

 

mT =

5

5

 

5

9

59

391

16

4

2

4

m

 

p

 

 

 

 

j := 1.. k 1

 

 

 

 

 

p := n

F :=

h

Fg0 := p0

 

Fgj := Fgj1 + p j

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

Fi

 

 

 

1

 

 

Fgi

 

 

 

0.5

 

 

 

df(y)

 

 

 

 

 

 

f(y)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

0

 

2

 

 

 

 

2

0

 

2

 

 

 

 

 

xri ,y

 

 

 

 

 

 

 

xri ,y

 

 

 

xsT =

-2.66

-2.11

-1.56

-1.01

-0.46

0.09

0.63

1.18

1.73

2.28

FgT =

0.01

0.02

0.03

0.05

0.17

0.95

0.98

0.99

0.99

 

1

 

g2(x) := tan (x 0.5) π (1 2 ε)

 

 

 

ygi := g2(Fgi)

 

 

 

F1(x) := ( 1 x)T

c := linfit(xs,yg ,F1)

 

 

cT = ( 1.753

9.944)

 

 

 

Задание

1.Изучив теоретическое введение и примеры 2.1-2.4, разработать собственный документ , решающий следующие задачи :

получение выборки случайных чисел заданного объема с заданным законом распределения (2.8) с помощью метода обратных функций для заданный преподавателем значений параметров закона распределения a0 иa1 ;

получение вариационного ряда для негруппированной выборки;

вычисление размаха выборки;

группировка выборки;

построение статистической функции распределения Fn (x) для группированной выборки с разным количеством разрядов;

оценка плотности распределения для группированной выборки.

2.Результатом работы документа должны быть массивы, содержащие значения группированной статистической функции распределения

27

и значения середин разрядов. Эти данные являются исходными для оценки параметров функции распределения по методу наименьших квадратов (подобно тому, как это делалось в работе 1).

3.Аппроксимировать группированную статистическую функцию распределения известной функцией (2.8), используя ранее разработанный документ из работы 1 для решения задачи аппроксимации методом наименьших квадратов с линеаризацией. Формулы для линеаризации зависимости (2.8) вывести самостоятельно.

4.Вычисления повторить для разных объемов исходной выборки - N=100, 500 и 1000. Исследовать влияние количества разрядов группировки на получаемые значения параметров функции распределения для объема выборки 1000.

5.Сравнить полученные по методу наименьших квадратов значения оценок параметров a%0 и a%1 с заданными преподавателем и сделать выводы о правильности проделанной работы.

Контрольные вопросы

1.Дайте определение генеральной совокупности, выборки, размаха выборки и объема выборки.

2.Что мы называем вариационным и статистическим рядом, функцией распределения и статистической функцией распределения?

3.Какими свойствами обладает статистическая функция распределения?

4.Дайте определение группированного статистического ряда. Как строится гистограмма?

5.Дать определение сходимости по вероятности.

6.Что такое гамма-функция?

7. Записать формулы плотности распределения для нормального, χ2 и распределения Стьюдента.

Для каждой из приведённых ниже выборок определить размах, а также построить вариационный и статистический ряды

(Задачи № 1.1-1.3 гл.15 [2]).

8.3, 8, 1, 3, 6, 5, 2, 2, 7.

9.11, 15, 12, 0, 16, 19, 6, 11, 12, 13, 16, 8, 9, 14, 5, 11, 3.

10.17, 18, 16, 16, 17, 18, 19, 17, 15, 17, 19, 18, 16, 16, 18, 18.

11.Решить задачи №1.4–1.15, гл. 15[2].

28

3. Equation Section (Next)Точечная оценка числовых характеристик.

Методы оценок параметров

Наиболее часто применяемыми числовыми характеристиками случайной величины ξ являются начальные и центральные моменты раз-

личного порядка. Для дискретной случайной величины моменты порядка k определяются следующими формулами:

n

n

 

αk = xik pi , μk

= (xi mξ )k pi ,

(3.1)

i =1

i =1

 

для непрерывной случайной величины ξ :

αk = xk f (x)dx , μk = (x mξ )k f (x)dx .

−∞

−∞

Чаще всего используется первый начальный момент α1 = mξ , назы-

ваемый математическим ожиданием случайной величины ξ , и второй центральный момент μ2 = Dξ , называемый дисперсией. Матожидание –

это среднее значение случайной величины, его называют еще центром распределения, дисперсия характеризует разброс случайной величины относительно центра распределения. Часто вместо дисперсии исполь-

зуют среднее квадратичное отклонение σξ = Dξ .

Если закон распределения случайной величины неизвестен, то мы не сможем вычислить числовые характеристики. В этом случае их заменяют оценками, полученными как функции выборки

x = (x1 , x2 ,..., xn ) . Всякую функцию tn (x) от выборки называют стати-

стикой. Подходящую статистику используют в качестве оценки числовой характеристики. Чаще всего оценками начальных и центральных моментов служат соответствующие выборочные начальные и центральные моменты

ak

=

1 xik , mk = 1 (xi Mx)k .

(3.2)

 

 

 

n

 

 

 

 

n

 

 

 

n

i =1

 

 

 

n

i =1

 

Таким образом, оценкой математического ожидания служит выбо-

 

 

 

 

1

n

 

 

 

 

рочное среднее

Mx =

xi

, но в качестве оценки можно взять и, на-

 

 

 

 

 

n i =1

 

 

 

 

пример, величину 0,5 (xmax + xmin ) и другие величины.

Чтобы иметь практическую ценность, оценка некоторого параметра θ должна удовлетворять следующим требованиям:

29

1.Оценка tn (x) должна приближаться к оцениваемому параметру θ по мере увеличения объема выборки. Если оценка стремится по вероятности к оцениваемому параметру, то она называется состоятельной.

2.Оценка не должна содержать систематической ошибки. Это означает, что ее математическое ожидание должно совпадать с оцениваемым параметром θ , т.е. M tn (x) =θ . Такая оценка называется несмещенной.

3.Из всех состоятельных и несмещенных оценок предпочтительнее та, которая имеет наименьшую дисперсию. Такая оценка называется эффективной.

Например, среднее выборочное Mx является состоятельной оцен-

кой математического ожидания, а 0,5 (xmax + xmin )

Второй выборочный центральный момент

m2 = S 2 = 1 n (xi Mx)2 n i=1

– несостоятельной.

(3.3)

является состоятельной оценкой дисперсии, но эта оценка смещенная. Несмещенными являются оценки

 

1

n

1

n

S%2 =

(xi Mx)2 и S 2 =

(xi mξ )2 . (3.4)

 

 

 

(n 1) i=1

(n 1) i=1

Если случайная величина распределена по нормальному закону, то

оценка

S 2 является и эффективной.

 

 

*

 

Пусть закон распределения известен, но зависит от одного или не-

скольких неизвестных параметров. Например,

f (x,θ ) – известная плот-

ность

распределения, а θ = (θ1,θ 2,..,θ s )

неизвестный параметр.

Требуется по выборке x = (x1 , x2 ,.., xn ) оценить параметр θ .

Существует несколько методов оценки параметра θ . Мы рассмотрим два из них – метод моментов и метод функции правдоподобия.

Метод моментов заключается в том, что теоретический момент k -

го порядка αk

=αk (θ )

приравнивают

к соответствующему

выборочному моменту αk . Из полученного уравнения αk (θ ) =αk

на-

ходят неизвестный

параметр

θ . Например,

случайная величина

ξ

(время безотказной работы радиоаппаратуры) распределена по экспоненциальному закону

f (t ) =

1

e

t

 

T

, t 0 ,

(3.5)

 

 

T

 

 

 

 

 

 

30

 

где T – неизвестный параметр. Оценим его по методу моментов. Для этого найдем первый начальный момент

1

t

α1 = tf (t )dt =

te

 

dt = Τ.

Τ

Τ

 

−∞

0

 

 

 

 

 

 

 

Так как первый выборочный момент равен Mx , то из равенства α1 = a1 получим T = Mx . Таким образом, оценкой неизвестного пара-

метра T , найденной по методу моментов, является среднее выборочное

Mx .

Пусть

L (u,θ ) – плотность

распределения

выборочного вектора

x = (x1 , x2 ,.., xn ),

θ = (θ1,θ 2,..,θ s )

– неизвестный параметр. L (u,θ )

функция

двух

аргументов,

неслучайного

θ

и случайного

x= (x1 , x2 ,.., xn ), называется функцией правдоподобия. Так как L (u,θ )

плотность распределения, то оценка параметра θ , доставляющая максимум функции правдоподобия, является наиболее вероятной. Отсюда

L (x,θ )

= 0

или

ln L (x,θ ) = 0

(3.6)

∂θ

 

 

∂θ

 

 

есть необходимые условия существования максимума. Оценка, полученная из условий (3.6), называется оценкой наибольшего правдоподобия.

Пусть x = (x1 , x2 ,.., xn ) – случайная выборка из генеральной совокупности, распределенной по нормальному закону

f (x,θ ) =

1

e

(xμ)2

 

2σ 2 ,

(3.7)

2πσ 2

 

 

 

 

где θ = (μ,σ ) – неизвестный параметр. Запишем функцию правдоподобия. Так как xi – независимые случайные величины, распределенные

по тому же закону, а плотность распределения вектора равна произведению плотностей составляющих вектора, то функция правдоподобия будет следующей:

n

1

 

 

1

 

n

2

 

L (x,θ ) = f (xi ,θ ) =

 

exp

 

 

(xi μ)

.

(3.8)

n

2σ

2

i=1

(2πσ 2 )2

 

 

 

i=1

 

 

Пусть ξ – дискретная случайная величина, закон распределения которой зависит от неизвестного параметра p (ξ = xi ) = pi (θ ) . Будем рассматривать выборку x = (x1 , x2 ,.., xn ) как реализацию того, что случайная величина приняла последовательно значения x1 , x2 ,.., xn . Веро-

31

ятность этого равна произведению вероятностей. Следовательно, функция правдоподобия будет

n

(xi ,θ ) .

 

 

 

L (x,θ ) = P

 

 

(3.9)

i=1

 

 

 

 

 

Например, для дискретной случайной величины, распределенной по

закону Пуассона

 

 

 

 

 

pk = p (ξ = k ) =

μk eμ

,

k = 0,1, 2,3,...

(3.10)

 

 

k !

 

 

 

функция правдоподобия согласно (3.9) может быть записана в виде

n

 

 

 

 

 

xi

 

n

1

(3.11)

L (x, μ) = μ i=1

 

xi !

enμ .

 

 

i=1

 

 

 

Здесь xi – целые неотрицательные числа. Однако при больших n

вычисления по формуле (3.11) могут приводить к переполнениям разрядной сетки.

Получение оценок параметров иллюстрируется примерами 3.1-3.4. В данных примерах создается выборка случайных чисел с нормальным законом распределения при заданных параметрах μ и σ .

По полученной выборке вычисляются первый начальный момент и второй центральный момент, которые могут служить состоятельными несмещенными оценками математического ожидания и дисперсии случайной величины.

Следующий раздел примеров показывает, как оценки этих параметров могут быть получены по методу максимального правдоподобия. Для этого вводятся функции правдоподобия и определяются их экстремумы. В примере приводятся графики функций правдоподобия.

В примере также иллюстрируется использования метода наибольшего правдоподобия к оценке параметров дискретной случайной величины, распределенной по закону Пуассона. Находятся оценки параметра μ по методу моментов и по методу максимального

правдоподобия.

Пример 3.1 (Maple)

Часть 1. Оценка параметров нормального закона распределения

>restart: with(stats): randomize():

Объём выборки

>n:=50:

Заданные параметры нормального закона

> mu:=-1: sigma:=2:

32

Выборка с нормальным распределением

>x:=[random[normald[mu,sigma]](n)]:

Вычисление моментов 1-й начальный момент (оценка математического ожидания)

>m1:=1/n*sum(x[i],i=1..n);

m1 := -1.288963807

2-й центральный момент (оценка дисперсии)

> m2:=1/(n-1)*sum((x[i]-m1)^2,i=1..n); m2 := 3.486378429

оценка ср. кв. отклонения

> s:=sqrt(m2);

s := 1.867184626

Оценка параметров μ и σ нормального распределения Плотность нормального распределения

>f:=(x,mu,sigma)->exp(-(x-mu)^2/2/sigma^2)/ sqrt(2*Pi*sigma^2);

 

 

 

( x − μ )

2

 

 

 

1/2

 

 

 

 

 

 

 

 

σ2

 

 

 

 

 

 

f := ( x, μ, σ)

e

 

 

 

 

 

2 π σ2

 

 

 

 

 

 

Функция правдоподобия

> L:=(mu,sigma)->product(f(x[i],mu,sigma),i=1..n);

n

L := ( μ, σ) f( xi, μ, σ)

i = 1

Поиск наиболее правдоподобных значений параметров μ и σ

>sys:={sigma1>0, diff(ln(L(mu1,sigma1)),mu1)=0, diff(ln(L(mu1,sigma1)),sigma1)=0}:

>M:=solve(sys,{mu1,sigma1});

M := { σ1 = 1.848418476, μ1 = -1.288963807}

Наиболее правдоподобные значения параметров

> m:=subs(M,[mu1,sigma1]);

m := [ -1.288963807, 1.848418476]

Другой способ вычисления

>M:=maximize(L(mu1,sigma1),mu1=-infinity.. infinity,sigma1=0..infinity, location)[2];

 

-31 1

 

M := {

[ σ1 = 1.848418476, μ1 = -1.288963807], .189179040810

 

 

}

 

25

 

 

π

 

 

 

 

 

33

> m:=subs((op@op)(M)[1],[mu1,sigma1]); m := [ -1.288963807, 1.848418476]

График функции правдоподобия

>plot3d(L(mu1,sigma1)/L(m[1],m[2]),mu1=m[1]-1.. m[1]+1,sigma1=m[2]-1..m[2]+1,axes=FRAME);

Часть2. Исследование параметров выборки с распределением Пуассона Объём выборки

> n:=20:

Заданный параметр распределения Пуассона

> mu:=5:

Выборка с распределением Пуассона

>x:=evalf([random[poisson[mu]](n)]);

x:= [ 4., 5., 4., 2., 8., 5., 4., 3., 5., 6., 1., 4., 6., 5., 3., 6., 7., 7., 6., 4.]

1-й начальный момент

> m1:=1/n*sum(x[i],i=1..n);

m1 := 4.750000000

Плотность распределения Пуассона

> p:=(x,mu)->exp(-mu)*mu^x/x!;

 

e

( −μ )

μx

p := ( x, μ)

 

 

x!

 

Функция правдоподобия

> L:=(mu)->product(p(x[i],mu),i=1..n);

n

L:= μ → p( xi, μ)

i= 1

Наиболее правдоподобное значение параметра

> m:=solve(diff(ln(L(mu1)),mu1)=0,mu1); m := 4.750000000

Другой способ вычисления

34

>M:=maximize(evalf(L(mu1)), mu1=0..infinity,location)[2];

M := { [ { μ1 = 4.750000000}, .325905629410-17 ] }

>m:=subs((op@op)(M)[1],mu1);

m := 4.750000000

График функции правдоподобия

> plot(L(mu1)/L(m),mu1=m-2..m+2,labels=['mu','L']);

Пример 3.2 (Matematica)

<<Statistics`ContinuousDistributions`

<<Statistics`DiscreteDistributions` n=50; mu=-1; sigma=2;

x=RandomArray[NormalDistribution[mu,sigma],n];

m1=1/n*Apply[Plus,x] m2=1/n*Apply[Plus,(x-m1)^2] s=Sqrt[m2]

f[x_,mu_,sigma_]:=Exp[-(x-mu)^2/2/sigma^2]/ Sqrt[2*Pi*sigma^2];

L[mu_,sigma_]:=Apply[Times,f[x,mu,sigma]]; M=FindMinimum[-L[mu1,sigma1],{mu1,0},{sigma1, 1}] m={mu1,sigma1}/.M[[2]] Plot3D[L[mu1,sigma1]/L[m[[1]],m[[2]]],{mu1,

m[[1]]-1,m[[1]]+1},{sigma1, m[[2]]-1,m[[2]]+1}, AxesLabel->{"mu","sigma","L"}];

n=20; mu=5; x=N[RandomArray[PoissonDistribution[mu],n]]; m1=1/n*Apply[Plus,x] p[x_,mu_]:=Exp[-mu]*mu^x/x!; L[mu_]:=Apply[Times,p[x,mu]]; M=FindMinimum[-L[mu1],{mu1,1}] m=mu1/.M[[2]] Plot[L[mu1]/L[m],{mu1,m-2,m+2}];

35

Пример 3.3 (Matlab)

n=50; mu=-1; sigma=2; x=normrnd(mu,sigma,1,n); m1=1/n*sum(x)

m2=1/(n-1)*sum((x-m1).^2), s=sqrt(m2) f=inline(...

'exp(-(x-mu).^2/2/sigma^2)/sqrt(2*pi*sigma^2)',...

'x','mu','sigma'); L=inline('-prod(feval(f,x,theta(1),theta(2)))',...

'theta','f','x'); m=fminsearch(L,[0,1],[],f,x)

mu1=m(1)-1:0.1:m(1)+1; sigma1=m(2)-1:0.1:m(2)+1; for i=1:length(mu1), for j=1:length(sigma1)

L1(i,j)=L([mu1(i),sigma1(j)],f,x); end, end

L1=L1/L(m,f,x); surfl(mu1,sigma1,L1), pause n=20; mu=5; x=poissrnd(mu,1,n); m1=1/n*sum(x)

p=inline('exp(-mu)*mu.^x/factorial(x(1))',...

'x','mu'); L=inline('-prod(feval(p,x,theta))',...

'theta','p','x'); m=fminsearch(L,[1],[],p,x) mu2=m-2:0.1:m+2;

for i=1:length(mu2), L2(i)=L(mu2(i),p,x); end L2=L2/L(m,p,x); plot(mu2,L2)

Пример 3.4 (Mathcad)

n := 50 i := 0.. n 1

 

 

 

 

μ := −1 σ :=

m1:= n1 xi

m1 = −1.081

 

 

 

i

 

 

 

 

 

 

 

 

1

(xi

m1)

2

 

m2 = 3.269

m2:=

 

 

 

 

(n 1)

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

1

 

 

−(x − μ)

2

f(x,μ,σ) :=

 

 

 

 

 

 

 

exp

 

 

 

 

 

 

 

2 π σ

2

 

 

2 σ

2

 

 

 

 

 

 

 

 

μ1 := 0

 

σ1 := 1

 

 

 

 

Given

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

36

2

x := rnorm(n ,μ,σ)

s :=m2 s = 1.808

L(μ,σ) := f(xi,μ,σ) i

σ1 > 0

d

 

 

 

d

 

 

 

 

 

ln(L11))

 

0

 

 

 

ln(L11))

 

0

 

dμ1

dσ1

 

 

 

m := Find11)

 

mT = ( 1.081 1.79)

 

 

 

i := 0.. 20

j := 0.. 20

Wi, j

:=

L(m0 1 + 0.1 i,m1 1 + 0.1 j)

 

 

 

 

L(m0

,m1)

 

 

 

 

 

 

 

n := 20

 

i := 0.. n 1

 

 

μ := 5

x := rpois(n ,μ)

m1:= n1 xi

m1 = 4

 

 

 

 

 

i

 

 

 

 

 

 

 

μx

 

L(μ) := p(xi,μ) 10n

 

p(x,μ) :=

x! e− μ

 

 

 

 

 

 

i

 

 

μ1 := 1

 

 

d

 

 

 

m = 4

 

m := root

ln(L1)) ,μ1

 

 

 

dμ1

 

 

 

 

 

 

 

1

 

 

 

 

 

 

L(μ2)

0.5

 

 

 

 

 

 

L(m)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0 2

 

4

 

 

 

 

 

 

 

μ2

 

 

 

 

 

 

37

 

 

Задание

Изучив теоретическое введение и примеры, разработать собственный документ, решающий следующие задачи:

1.получение выборки случайных чисел заданного объема с нормальным законом распределения N (μ,σ ) (непрерывная

случайная величина); 2. получение оценок параметров μ и σ по методу моментов;

3.получение оценки параметров μ и σ по методу максимального правдоподобия;

4.получение выборки случайных чисел заданного объема с распределением по закону Пуассона с заданным параметром μ (дискретная случайная величина);

5.получение оценок параметра μ закона Пуассона по методу

максимального правдоподобия и по методу моментов. Расчитать по двум документам для объемов выборок 10, 50 и 100.

Сравнить полученные результаты с теоретическими и сделать выводы о правильности проделанной работы.

Записать функцию правдоподобия для закона Коши:

f (x) =

1

 

1

 

 

 

 

 

 

 

 

 

 

π

 

1+(x θ )

2

.

 

 

 

 

Можно ли оценить параметр θ

 

по методу наибольшего правдопо-

добия?

Контрольные вопросы

1.Назовите выборочные числовые характеристики.

2.Что такое статистики и для чего они служат?

3.Какими свойствами должны обладать оценки?

4.Приведите примеры состоятельной, несмещенной и эффективной оценок.

5.Что такое функция правдоподобия? В чем сущность метода наибольшего правдоподобия ?

6.Пусть X1 , X 2 ,K, X n – выборка из генеральной совокупности с известным средним m и неизвестной дисперсией σ 2 . Показать, что несмещённой оценкой для σ 2 будет статистика S02 = 1n (Xi m)2

(Задача № 2.13 гл.15 [2]).

7.Решить задачи № 2.14, 2.21, 2.32-2.35 гл. 15 [2].

38

4. Equation Section (Next)Интервальные оценки числовых характеристик

В предыдущей работе были рассмотрены методы, дающие оценку параметра в виде некоторого числа или точки на числовой оси. Такие оценки называют точечными. Точечная оценка без указания степени точности и надежности не имеет практического значения, так как представляет собой только возможное значение случайной величины, т.е. сама точечная оценка является величиной случайной. Можно доказать, что в выборке объема n из генеральной совокупности, распределенной

по нормальному закону N (a,σ ) среднее выборочное Mx распределено также по нормальному закону N (a,σ n ). Величина nS 2 /σ 2 распре-

делена по закону χ2

с n степенями свободы, а tn = (Mx a)

n 1 S

по закону Стьюдента с n 1 степенью свободы.

 

 

 

Чтобы получить представление о точности и надежности оценки θ%

для параметра θ , возьмем достаточно большую вероятность

β и най-

дем такое δ > 0 , для которого P (

 

θ% θ

 

< δ ) = β

)

 

 

 

 

 

 

 

 

 

 

(

 

 

)

(

 

 

 

 

или P

 

δ <θ θ% < δ

 

 

= P θ% δ <θ < δ +θ%

 

= β .

(4.1)

Равенство (4.1) означает, что точное, но неизвестное значение па-

раметра

θ

)

с

 

 

вероятностью

 

β

накрывается

интервалом

(

 

. Этот интервал называют доверительным,

а вероят-

l = θ% δ,θ% +δ

 

ность β

– доверительной вероятностью или надежностью оценки. Оче-

видно, чем меньше δ

для заданного β , тем точнее оценка.

 

В общем

случае интервал, образованный статистиками

U (x) и

V (x) , называется доверительным для оцениваемого параметра θ , если выполняется равенство

(

(

x

)

<θ <V

(

x

))

= β .

(4.2)

P U

 

 

 

 

Здесь x – выборочный вектор, надежность β

выбирается близкой

к единице. Концы интервала называются доверительными границами. Порядок нахождения доверительного интервала следующий. По-

дыскивают подходящую статистику tn (x,θ ) , зависящую от параметра θ , но распределение которой от этого параметра не зависит. Задают надежность β , и по закону распределения статистики tn (x,θ ) находят

доверительные границы из условия (4.2). Затем полученное неравенство

39

решают относительно θ .

Рассмотрим нахождение доверительного интервала на примерах. Пример 1. Найдем доверительный интервал для математического

ожидания mξ = a по заданной выборке x = (x1 , x2 ,..., xn ) из генеральной совокупности, распределенной по нормальному закону N (a,σ ) ,

считая, что Mx и S 2 – точечные оценки математического ожидания и дисперсии.

Рассмотрим статистику tn (x, a) = (Mx a) n 1S . Как отмечалось

выше, она распределена по закону Стьюдента с n 1 степенью свободы. Тогда

 

δ

δ

 

 

 

 

 

 

 

 

 

f (x)dx = 2f

(x)dx = β .

 

 

(4.3)

 

δ

0

 

 

 

 

 

 

 

 

 

В формуле (4.3) плотность

f (x)

 

определяется выражением (2.6), в

которое вместо n следует поставить n 1 . Неизвестное δ

определяет-

ся из (4.3),

а доверительный

 

интервал

 

– из

неравенства

(Mx a) n 1 S < δ .

 

 

 

 

 

 

 

 

 

 

 

 

δ S

 

 

 

δ S

 

 

Таким образом, l = Mx

 

 

 

, Mx +

 

 

 

.

(4.4)

 

n 1

 

n 1

 

 

 

 

 

 

 

Пример 2. В условии примера 1 найдем доверительный интервал

для дисперсии Dξ

=σ 2 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

Для этого выберем статистику tn (x,σ

2 ) =

nS

. Согласно сказанно-

2

 

 

 

 

 

 

 

 

 

σ

 

 

 

му выше она распределена по закону χ2 с n 1 степенью свободы. Определение доверительного интервала аналогично, но осложняется несимметричностью закона распределения χ2 . Действительно, уравнение

t2

 

 

f (x)dx = β

 

(4.5)

t1

 

 

имеет неоднозначное решение относительно

t1

иt2 . Здесь плотность

f (x) определяется формулой (2.5), только

n

следует заменить на

n 1 . Ради однозначности наложим дополнительные условия, а именно будем считать, что

t1

 

f (x)dx = f (x)dx .

(4.6)

−∞

t2

 

 

40

 

Соседние файлы в папке MATLAB00