Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Учебное пособие 411

.pdf
Скачиваний:
2
Добавлен:
30.04.2022
Размер:
410.73 Кб
Скачать

Статистические оценки параметров распределения

В предыдущих разделах шла речь о статистическом описании закона распределения случайной величины X по выборочным данным. Интересно найти возможность статистически «приближенно» оценить параметры, характеризующие X .

Если θ параметр, характеризующий изучаемый признак X , то его стати-

стической оценкой θ

называют случайную величину, значения которой вычис-

ляются для любой

выборки по определенной формуле. Например, для

θ = M (X )

можно взять в качестве θ выборочную среднюю xв , а для оценки

θ = D (X )

взять θ = Dв .

Качество оценки θ для параметра θ определяют следующими понятия-

ми:

● несмещенность оценки

M (θ )=θ ,

т.е. формула для θ не завышает или не занижает, в среднем, приближенные значения по сравнению с θ .

● состоятельность оценки – возможность «приближать» значения θ к θ , увеличивая объем n выборки.

Выборочное среднее xв является несмещенной оценкой математического ожидания M (X ) генеральной совокупности, так как

M (xв )= M (X ).

Выборочная дисперсия Dв является смещенной оценкой дисперсии D (X ) генеральной совокупности, так как

M (Dв )= n n1 D (X ).

Поэтому вводят « исправленную» дисперсию

S 2 = n n1 Dв ,

являющуюся несмещенной оценкой D (X ), так как

M (S 2 )= D (X ).

Соответственно,

11

S =

n

 

σ

в

.

(5)

n 1

 

 

 

 

называют исправленным средним квадратическим отклонением. Предположим, что мы получили точечную оценку θn* параметра θ . Есте-

ственно возникает вопрос о точности этой оценки, т.е. находится δ > 0 , для которого можно утверждать, что θn* θ <δ , где δ называют точностью точеч-

ной оценки. Качественное отличие вероятностного мира от обычного состоит в том, что выполнение этого неравенства гарантировать нельзя. Можно говорить только о вероятности γ случайного события, заключающегося в том, что мы

получим оценку θn* с точностью δ , т.е.

p(θn* θ <δ)=γ .

Вероятность γ называется доверительной вероятностью или надежностью точечной оценки θn* , а интервал (θn* δ , θn* +δ) доверительным ин-

тервалом. Обычно задаются надежностью γ равной 0,95; 0,99; 0,999. Если найдена оценка θn* с точностью δ и надежностью γ = 0,95, то это означает, что доверительный интервал

θn* δ <θ <θn* +δ

(6)

накрывает параметр θ в среднем для 95% выборок объема n .

Пусть генеральная совокупность распределена по нормальному закону с параметрами a и σ . Найдем доверительный интервал для математического

ожидания a при известном σ . Случайная величина

y =

xв a

, где

n – объем

σ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

выборки, распределена по нормальному закону с параметрами a0 = 0

и σ0 =1.

По формуле

 

 

 

 

 

P (

 

x a

 

 

δ

 

 

 

 

 

 

 

 

 

 

 

 

<δ )= 2Φ ,

 

 

 

 

 

 

 

 

 

σ

 

 

 

 

известной из курса теории вероятностей, при a = 0 и σ =1 получим

P ( y < t )= 2Φ(t ).

Подставив в эту формулу выражение для y и положив эту вероятность равной надежности γ, будем иметь

12

 

 

xв a

 

 

 

 

 

или P

 

 

 

 

 

 

 

σ

= 2Φ(t )=γ

P

 

 

 

 

<t

= 2Φ(t )=γ

 

x

a

 

< t

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

σ

 

 

 

 

 

 

 

 

 

в

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Следовательно, в нашем случае точность δ оценки xв равна

 

 

 

 

 

 

 

 

 

δ =

tσ

 

,

 

 

 

 

 

(7)

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где t находится из условия Φ(t)=

γ по таблице для функции Лапласа. Подста-

вив в (6) θ = a , θ* = x

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

и данное δ , получим доверительный интервал для ма-

 

 

 

n

 

 

в

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

тематического ожидания a

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

t σ

< a < x

+

t σ

.

(8)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

в

n

 

в

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Из формулы (7) видно, что при возрастании объема выборки точность оценки улучшается, а при увеличении надежностиγ (и соответственно t ) –

ухудшается. Формула (7) позволяет оценить минимальный объем выборки, обеспечивающей заданную точность и надежность:

n

t2σ2

.

(9)

 

 

δ2

 

Очевидно, чем меньше число δ (т.е. с увеличением точности) или больше надежность γ (а следовательно и t ), тем больше надо брать объем выборки.

Пример 3. С надежностью γ = 0,99 найти доверительный интервал для математического ожидания генеральной совокупности, распределенный по нормальному закону с известным σ =3, если взята выборка объемом n =100 , для которой подсчитано выборочное среднее xв =86,5 .

Решение. По таблице [2, 3, 5] найдем аргумент t , при котором значение функции Лапласа равно γ 2 :

Φ(t )=

0,99

= 0, 495 t = 2,58.

2

 

 

Следовательно, по формуле (7)

δ = tσn = 2,581003 = 710,74 = 0,774

13

и по формуле (8)

86,5 0,774 < a <86,5 +0,774.

Ответ: 85,726 < a <87,274.

Пример 4. Генеральная совокупность распределена по нормальному закону с известным σ = 2 . Требуется определить минимальный объем выборки, чтобы оценить математическое ожидание с точностью δ = 0,1 и надежностью

γ = 0,95.

Решение. По таблице [2, 3, 5] найдем аргумент t , при котором значение функции Лапласа равно γ 2:

Φ(t )=

0,95

= 0,475

t =1,96.

 

 

 

 

 

 

2

 

 

 

 

 

 

 

Подставив найденное значение t =1,96 и заданные σ = 2 и δ = 0,1 в фор-

мулу (9), получим

 

 

 

 

 

 

 

 

 

 

n

1,962 4

=15,3664

100 =1536,64.

 

 

2

 

 

 

0,1

 

 

 

 

 

 

 

 

Ответ: n =1537.

 

 

 

 

 

 

 

 

 

 

Если σ неизвестно, то в формуле (8) σ заменятся на исправленное сред-

нее квадратическое отклонение S ; t заменяется на значение tγ

= t(γ, n), которое

находится по таблице [2, 3, 5] и доверительный интервал принимает вид

 

x

tγ S

< a < x +

tγ S

 

(10)

 

 

 

 

в

 

 

 

n

в

n

 

 

 

 

 

 

 

 

Доверительный интервал для оценки среднего квадратического отклонения σ нормального распределения с данной надежностью γ находится по фор-

муле

 

S (1 q)<σ < S (1 + q).

(11)

где S – исправленное среднее квадратическое отклонение,

определяемое по

формуле (5), а q = q(γ ,n) находится по таблице [2, 3, 5] по заданным γ и n .

Пример 5. Дано распределение частот выборки

13,5

16,15

19,5

22,5

25,5

28,5

 

 

 

 

 

 

2

6

12

19

7

4

 

 

 

 

 

 

14

Найти доверительные интервалы для математического ожидания a и среднего квадратического отклонения σ с доверительной вероятностью γ = 0,95, если известно, что генеральная совокупность распределена по нормальному закону.

Решение. Если в таблице распределения частот выборки увеличить все частоты в 10 раз, то получится таблица распределения частот выборки в примере 2. Так как относительные частоты для обеих таблиц совпадают для одинаковых значений вариант, то в обоих примерах xв и σв совпадают. Следовательно,

xв = 21,6 и σв =3,6 . Так как в нашем случае объем выборки равен 6

ni = 50 , то

 

 

i =1

 

по формуле (5) исправленное среднее квадратическое отклонение равно

S =

50

3,6 3,636.

 

49

 

 

 

 

По таблице [2, 3, 5] найдем tγ

=γ (0,95; 50)= 2,009. Подставив найден-

ные значения в формулу (10), получим доверительный интервал для математического ожидания a :

21,6

2,009 3,636

< a < 21,6 +

2,009 3,636

 

50

 

50

или

20,57 < a < 22,63 .

По таблице [2, 3, 5] найдем q (0,95; 50)= 0,25 и по формуле (11) получаем доверительный интервал для среднего квадратического отклонения

3,636(1 0,25)<σ < 3,636(1+0,25)

или

2,727 <σ < 4,545.

Ответ: 20,57 < a < 22,63 и 2,727 <σ < 4,545.

 

Корреляционная зависимость.

 

Выборочное уравнение прямой регрессии

Пусть рассматривается выборка объема n , и нас интересует пара призна-

ков X

и Y , характеризующих элементы выборки. Полученные значения вели-

чин X

и Y - это пары (xi ; yi ), i =1,..., n . Описывают эти данные корреляци-

15

онной таблицей (табл. 3)

Таблица 3

Корреляционная таблица

 

 

x

x1

 

 

xm

ny

 

 

y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y1

 

n11

 

 

n1m

ny1

 

 

#

 

#

 

 

#

#

 

 

yk

 

nk1

 

 

nkm

nyk

 

 

nx

 

nx1

 

 

nxk

= n

 

Здесь x1,..., xm наблюдаемые значения признака X (или середины интер-

валов в интервальном распределении

X ), nx

- частоты этих значений. Анало-

гично, y1 ,..., yk - варианты для Y , а ny

- их частоты. Соответственно, nij - со-

вместные частоты пар (xj ; yi )

m

k

= nij = n .

и nxj = nyi

 

j=1

i=1

i, j

Изучается зависимость величин X и Y . X и Y называют зависимыми, если закон распределения каждой из них меняется в зависимости от того, какие значения принимает другая величина. Если математическое ожидание, например, величины Y функционально зависит от значений величины X , т.е.

M (Y X = x)= g (x),

(12)

то зависимость называют корреляционной, а уравнение (12) называют уравне-

нием регрессии Y на X .

В статистике по корреляционной таблице строят выборочное уравнение регрессии, где M (Y X = x)в уравнении (12) заменяется его оценкой Yx , т.е.

Yx = g* (x).

Например, если Y – урожай зерна, X – количество удобрений, то выборочное уравнение регрессии выражает функциональную зависимость среднего

урожая Yx от количества внесенных удобрений X . Простейшее уравнение регрессии – линейное

M (Y / X = x) = ax +b .

Соответственно выборочное уравнение имеет вид

Yx = ax +b ,

а его график называют выборочной прямой регрессии. Это уравнение удобно

16

искать в виде

 

 

 

 

σy

(x x ),

(13)

Y

 

y = r

 

 

 

x

в σ

 

 

 

 

 

x

 

где x = xв , y = yв , σx , σy – выборочные средние квадратичные отклонения X и Y , а rв - выборочный коэффициент корреляции, вычисляемый по формуле

nij xj yi n x y

r = i, j . (14)

в

n σx σx

 

Выборочный коэффициент корреляции – это оценка числовой характеристики пары случайных величин:

r= M (X Y )M (X ) M (Y ) .

σ(X ) σ(Y )

Величина r называется коэффициентом корреляции. Известно, что r 1, и если между X и Y линейная функциональная зависимость, то r =1.

Выборочный коэффициент корреляции rв ( rв 1) характеризует тесноту

линейной связи между количественными признаками X и Y в выборке: чем ближе rв к единице, тем линейная связь теснее. Если rв близок к нулю, то счи-

тают, что X и Y не связаны линейной корреляционной зависимостью.

Пример 6. Найти выборочное уравнение прямой регрессии Y на X по данной корреляционной таблице и оценить тесноту линейной корреляционной связи между признаками.

y

x

5

10

15

20

25

30

ny

 

 

 

 

 

 

 

 

 

 

10

3

5

-

-

-

-

8

 

20

-

4

4

-

-

-

8

 

30

-

-

7

35

8

-

50

 

40

-

-

2

10

8

-

20

 

50

-

-

-

5

6

3

14

 

nx

3

9

13

50

22

3

100

Решение. Выпишем распределение частот nx выборки для x . Соответст-

вующие частоты получаются при суммировании столбцов. Например, для x4 = 20

n4 = 35 +10 +5 = 50.

17

 

 

 

 

 

 

x j

 

 

5

 

 

10

 

15

 

20

 

 

25

 

 

 

 

30

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

nxj

 

 

3

 

 

9

 

13

 

50

 

 

22

 

 

 

 

 

 

 

3

 

 

 

Найдем xв = x и σx

по формулам (2) и (3)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x =

5 3 +10 9 +15 13 + 20 50 + 25 22 +30 3

=

1940

=19,4 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

100

 

 

 

 

100

 

 

 

 

 

 

 

 

 

 

=

 

25 3 +100 9 + 225 13 + 400 50 +625 22 +900 3

=

 

40350

 

 

 

 

x2

= 403,5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

100

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

100

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(xв )2 =

403,5 (19,4)2 =

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

σx =

 

 

x2

27,14 = 5,21.

 

 

 

 

 

Аналогично, суммируя частоты по строкам, получим таблицу распреде-

ления частот ny для

 

 

y :

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yi

 

10

 

 

20

 

30

 

40

 

 

 

 

 

50

 

 

 

 

 

 

 

 

 

 

nyi

 

8

 

 

8

 

 

50

 

20

 

 

 

 

 

 

14

 

 

 

 

Найдем yв = y

 

 

и σy

по формулам (2) и (3)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y =

10 8 + 20 8 +30 50 + 40 20 +50 14

=

3240

 

=32,4 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

100

 

 

 

 

100

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

100 8 + 400 8 +900 50 +1600 20 + 2500 14

=

116000

=

 

 

 

 

y2

1160 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

100

 

 

 

 

100

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(yв )2 =

1160 (32,4)2 =

 

 

 

 

 

 

 

 

 

 

 

 

σy =

 

y2

110,24 =10,5.

 

 

 

 

Находим

nij xj yi =3 5 10 +5 10 10 + 4 10 20 + 4 15 20 +7 15 30 + 2 15 40 +

i, j

+35 20 30 +10 20 40 +5 20 50 +8 25 30 +8 25 40 +6 25 50 +

+3 30 50 = 67000.

Теперь вычислим выборочный коэффициент корреляции rв по формуле

(14):

18

 

 

nij xj yi n x y

 

 

 

 

 

4144

 

r

=

i, j

 

=

67000 100 19, 4 32, 4

=

 

0,76.

 

 

 

 

 

в

 

n σx σx

100 5, 21 10,5

5470,5

 

 

 

 

Так как значение rв 0,76 «близко» к 1, то линейная связь между призна-

ками Y и X достаточно тесная.

 

 

 

 

 

 

 

Подставив

в формулу

(13)

вычисленные

ранее значения

x =19,4;

y =32,4;

σx =5,21; σy

=10,5;

rв = 0,76

получим выборочное урав-

нение прямой регрессии Y на X :

 

 

 

32, 4 = 0,76

10,5

(x 19, 4)

 

 

 

 

 

 

Y

 

Y

 

=1,53(x 19, 4)+32, 4 Y =1,53x + 2,72.

 

 

 

x

5, 21

 

x

 

x

 

 

 

 

 

 

 

 

 

Ответ: Yx =1,53x + 2,72.

КОНТРОЛЬНАЯ РАБОТА № 2

ВАРИАНТ 1 1. Задано интервальное распределение выборки.

31,2-31,8

31,8-32,4

32,4-33,0

33,0-33,6

33,6-34,2

34,2-34,8

34,8-35,4

10

15

28

25

12

8

2

Составить вариационный ряд. Найти эмпирическую функцию распределения и построить ее график. Построить полигон частот и гистограмму относи-

тельных частот. Найти выборочное среднее хв и выборочную дисперсию Dв .

Предполагая, что распределение нормальное, найти доверительный интервал для математического ожидания с надежностью γ = 0,95 и доверительный интервал для среднего квадратического отклонения с надежностью γ = 0,99 .

2. По заданной корреляционной таблице:

а) оценить тесноту линейной корреляционной связи между признаками; б) найти уравнения прямых регрессии Yx .

 

x

5

8

11

14

17

20

ny

y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

10

 

2

4

-

-

-

-

6

20

 

-

3

7

-

-

-

10

30

 

-

-

5

30

10

-

45

40

 

-

-

7

10

8

-

25

50

 

-

-

-

5

6

3

14

nx

 

2

7

19

45

24

3

100

19

ВАРИАНТ 2 1. Задано интервальное распределение выборки.

52,3-52,7

52,7-53,1

53,1-53,5

53,5-53,9

53,9-54,3

54,3-54,7

54,7-55,1

8

17

26

27

11

8

3

Составить вариационный ряд. Найти эмпирическую функцию распределения и построить ее график. Построить полигон частот и гистограмму относи-

тельных частот. Найти выборочное среднее хв и выборочную дисперсию Dв .

Предполагая, что распределение нормальное, найти доверительный интервал для математического ожидания с надежностью γ = 0,95 и доверительный интервал для среднего квадратического отклонения с надежностью γ = 0,99 .

2. По заданной корреляционной таблице:

а) оценить тесноту линейной корреляционной связи между признаками; б) найти уравнения прямых регрессии Yx .

 

x

10

15

20

25

30

35

ny

y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

7

 

3

3

-

-

-

-

6

10

 

-

4

6

-

-

-

10

13

 

-

-

8

28

9

-

45

16

 

-

-

7

10

8

-

25

19

 

-

-

-

5

6

3

14

nx

 

3

7

21

43

23

3

100

ВАРИАНТ 3 1. Задано интервальное распределение выборки.

31,7-32,9

32,9-34,1

34,1-35,3

35,3-36,5

36,5-37,7

37,7-38,9

38,9-40,1

9

16

25

28

10

8

4

Составить вариационный ряд. Найти эмпирическую функцию распределения и построить ее график. Построить полигон частот и гистограмму относи-

тельных частот. Найти выборочное среднее хв и выборочную дисперсию Dв .

Предполагая, что распределение нормальное, найти доверительный интервал для математического ожидания с надежностью γ = 0,95 и доверительный интервал для среднего квадратического отклонения с надежностью γ = 0,99 .

2. По заданной корреляционной таблице:

а) оценить тесноту линейной корреляционной связи между признаками; б) найти уравнения прямых регрессии Yx .

20