Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Теорія ймовірності - high_math

.pdf
Скачиваний:
1191
Добавлен:
10.03.2016
Размер:
6.54 Mб
Скачать

2.21.

γ = 0,99;

σ = 6 т;

α = 0,02;

нормальний

 

 

 

 

розподіл.

2.22.

γ = 0,999;

σ = 7 шт.;

α = 0,05;

розподіл

 

 

 

 

пуассона.

2.23.

γ = 0,95;

σ = 8,6 м;

α = 0,1;

нормальний

 

 

 

 

розподіл.

2.24.

γ = 0,99;

σ = 1,5 м/с;

α = 0,01;

показниковий

 

 

 

 

розподіл.

2.25.

γ = 0,999;

σ = 8,7 кг;

α = 0,02;

нормальний

 

 

 

 

розподіл.

2.26.

γ = 0,95;

σ = 3 шт.;

α = 0,55;

рівномірний

 

 

 

 

розподіл.

2.27.

γ = 0,99;

σ = 1,2 м;

α = 0,01;

рівномірний

 

 

 

 

розподіл.

2.28.

γ = 0,999;

σ = 1,5 °С;

α = 0,1;

нормальний

 

 

 

 

розподіл.

2.29.

γ = 0,95;

σ = 3,9 м/с;

α = 0,02;

рівномірний

 

 

 

 

розподіл.

2.30.

γ = 0,99;

σ = 2,2 мкм;

α = 0,55;

рівномірний

 

 

 

 

розподіл.

Тема 3. ДВОВИМІРНИЙ РОЗПОДІЛ.

СТАТИСТИЧНІ ГІПОТЕЗИ. ЕЛЕМЕНТИ КОРЕЛЯЦІЙНОГО ТА РЕГРЕСІЙНОГО АНАЛІЗУ

Вибірка, двовимірний статистичний розподіл, парний статистичний розподіл. Статистичні оцінки параметрів системи. Перевірка гіпотези про незалежність системи двох випадкових величин. Перевірка гіпотези про однорідність вибірок. Рівняння лінійної регресії. Нелінійна регресія. Метод найменших квадратів.

Література: [3, розділ 1, § 1.3]; [8, розділ 4, тема 12, п. 4, 5]; [9, розділ 3, § 3, 5]

Т.3 ОСНОВНІ ТЕОРЕТИЧНІ ВІДОМОСТІ ТА ТИПОВІ ПРИКЛАДИ

3.1. Вибірка. Статистичний розподіл вибірки

Нехай над системою випадкових величин ( X , Y ) в однакових умовах проведено n незалежних випробувань. Вибіркою обсягом n

221

є послідовність ( x1, y1 ); ( x2 , y2 ); … ( xn , yn ) пар значень, яких набу-

вають складові X та Y системи в цих випробуваннях. Попереднє уявлення про залежність між X та Y можна дістати, якщо нанести

елементи вибірки ( xi , yi ), i = 1, 2, 3 ... n у вигляді точок на площині

у вибраній системі координат. Таке подання вибірки системи двох випадкових величин називається діаграмою розсіювання.

Якщо у вибірці обсягом n елемент xj спостерігається nj раз, а елемент yi ni раз, то послідовність пар {(xj ,nj ); ( yi , ni )} називають

статистичним рядом. При цьому ni = n i nj = n .

i j

Перелік варіант Y = yi , X = xj та відповідних їм частот nij спільної

їх появиутворюють двовимірнийстатистичнийрозподіл вибірки.

У табличній формі цей розподіл має такий вигляд:

Y = yi

 

 

X = xj

 

 

nyi

 

 

 

 

 

x1

x2

x3

 

 

xm

 

y

 

 

n

n

n

n

 

ny

 

 

 

1

11

12

13

 

1m

1

 

 

y

2

 

n

n

n

n

 

ny

 

 

 

21

22

23

 

2m

2

 

 

y

3

 

n

n

n

n

 

ny

 

 

 

31

32

33

 

3m

3

 

 

 

 

 

 

y

k

 

n

n

n

n

 

ny

 

 

 

 

k1

k 2

k 3

 

km

 

k

 

 

nx

j

 

nx

nx

nx

nx

 

 

 

 

 

 

1

2

3

 

m

 

 

 

Тут nij

— частота спільної появи варіант Y = yi , X = xj

 

ny

 

m

 

 

nx

=

k

 

i

= nij ,

 

nij ,

 

 

j=1

 

 

j

i=1

 

 

 

 

 

 

 

k

 

m

k

 

m

= n .

 

∑∑ nij

= ny

= nx

 

i=1 j=1

i=1

i

j=1

j

 

 

 

Умовним статистичним розподілом ознаки Y при фіксованому

значенні

X = xj називають перелік варіант ознаки Y та відповідних

їм частот при фіксованому значенні X .

Y X = xj

222

Y = yi

y1

y2

y3

yk

 

 

 

 

 

 

nij

n1 j

n2 j

n3 j

nkj

k

Тут nij = nx j .

i=1

Умовним статистичним розподілом ознаки

X при Y = yi нази-

вають перелік варіант ознаки X

та відповідних їм частот,

узятих

при фіксованому значенні Y.

 

 

 

 

 

 

 

X /Y = yi

 

 

 

 

 

 

 

 

 

 

 

X = xj

x1

x2

x3

 

 

xm

nij

n

ni2

n

 

 

nim

 

i1

 

i3

 

 

 

 

m

Тут nij = nyi .

j=1

Якщо частота спільної появи ознак X і Y nij = 1 для всіх варі-

ант, то в цьому разі двовимірний статистичний розподіл набирає такого вигляду:

X = xi

x1

x2

x3

xn

Y = yi

y1

y2

y3

yn

 

 

 

 

 

 

Його називають парним статистичним розподілом вибірки.

Для системи двох та більшої кількості випадкових величин, як і для однієї випадкової величини, розглядають таке поняття, як інтервальний статистичний ряд розподілу, будують полігон і гістограму частот (для кожної випадкової величини, що входить у систему).

3.2. Статистичні оцінки параметрів системи

Система випадкових величин (X,Y) характеризується такими параметрами: математичними сподіваннями M(X) i M(Y) випадкових величин, що визначають положення центра розподілу (M(X), M(Y)); дисперсіями D(X) i D(Y), що визначають розсіювання розподілу від-

носно центра; кореляційним моментом K XY , який крім розсіювання випадкових величин X та Y може характеризувати взаємозв’язок цих

223

випадкових величин, та коефіцієнтом кореляції rXY , який визначає ступінь цього взаємозв’язку.

Результати випробувань ( xi , yi ), i = 1, 2, 3, , n, є незалежними

системами випадкових величин, математичні сподівання, дисперсії і кореляційні моменти яких однакові, тобто

M (Xi ) = M (X ), M (Yi ) = M (Y ), D(Xi ) = D(X ),

D(Yi ) = D(Y ), Kxi yi = KXY .

Оскільки невідомі математичні сподівання M(X), M(Y) і дисперсії D(X) i D(Y) є характеристиками окремих випадкових величин, що входять у систему, то для їхніх статистичних оцінок використовують формули:

 

 

m k

 

 

m

 

 

x

 

∑∑ xj nij

 

 

xj nx j

;

= j=1 i=1

 

= j=1

 

B

 

n

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

m k

 

 

 

 

 

 

∑∑(xj xB )2 nij

 

 

sX2 =

 

j=1 i=1

 

 

 

 

 

 

n 1

 

 

 

 

 

 

 

 

k m

 

k

 

 

 

 

∑∑ yi nij

 

yi ny

i

 

yB =

i=1 j =1

=

i=1

;

n

 

n

 

 

 

 

 

 

 

 

m

 

 

 

 

 

 

(xj xB )2 nx j

 

 

=

j=1

 

;

 

 

 

 

 

 

 

 

n 1

 

 

 

 

 

(3.12)

(3.13)

 

 

 

 

 

k m

 

k

( yi yB )2 ny

 

 

 

 

 

 

 

 

 

∑∑ ( yi yB )2 nij

 

 

 

 

 

 

 

s2 = i=1 j=1

= i=1

i .

 

 

 

 

 

 

Y

 

n 1

 

 

n 1

 

 

 

 

Числа

x , y

B

 

називають вибірковими середніми,

s2

та

s2

ви-

 

B

 

 

 

 

 

 

X

 

Y

 

правленими вибірковими дисперсіями.

Оцінкою для середнього квадратичного відхилення σ(X ) та σ(Y ) є виправлене вибіркове середнє квадратичне відхилення

σ

ÂX

= s2

та

σ

BY

= s2 .

(3.14)

 

X

 

 

Y

 

Оцінка кореляційного момента обчислюється за формулою

 

 

 

1

m k

 

K

XY =

∑∑ (xj xB )( yi yB )nij .

(3.15)

 

 

 

 

n 1 j=1 i=1

 

Для парного статистичного розподілу формули (3.12) — (3.15) набирають вигляду

 

n

 

 

 

 

n

 

 

 

xi

 

 

 

 

yi

 

 

x =

i=1

;

y

 

=

i=1

;

(3.16)

n

B

n

B

 

 

 

 

 

 

 

 

 

 

 

 

224

sX2 =

1 (xi xB )2 ; sY2 =

1 ( yi yB )2

;

(3.17)

 

 

 

n

 

 

 

 

n

 

 

 

n 1

i=1

 

 

 

n 1

i=1

 

 

 

 

 

 

 

1

n

 

 

 

 

 

 

 

K

XY =

(xi

xB )( yi yB ).

 

(3.18)

 

 

 

 

 

 

 

 

 

n 1 i=1

 

 

 

 

 

Якщо для системи випадкових величин побудовано інтервальний статистичний розподіл, точкові оцінки невідомих математичних сподівань, дисперсії, кореляційного момента також знаходять за фо-

рмулами (3.12) — (3.18), в які замість xi та yi підставляються середини (центри) xi* та yi* відповідних інтервалів.

Приклад 3.13. За даним двовимірним статистичним розподілом вибірки ознак X i Y

Y = yi

 

 

X = xj

 

nyi

 

 

 

 

 

10

20

 

30

40

 

 

 

2

2

 

4

4

10

4

10

8

 

6

6

30

6

5

10

 

5

20

8

15

 

15

10

40

nx j

30

20

 

30

20

 

знайти статистичні оцінки параметрів.

 

 

 

 

 

 

 

 

 

 

 

 

 

4

4

 

 

 

 

 

Розв’язання. Оскільки n = ∑∑ nij = 100, то за формулами (3.12) —

(3.15) дістаємо:

 

 

 

 

 

 

 

 

i=1 j=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xj nx

j

 

10

30 + 20

20 + 30 30 + 40 20 = 2400 = 24,

x

 

=

j=1

 

=

B

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

100

 

 

100

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yi ny

 

 

2 10

+ 4

30 + 6 20 + 8 40

= 580

 

 

 

yB =

i=1

 

 

i

 

=

= 5,8.

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

100

 

 

100

 

 

 

4

(xj xB )2 nx

 

 

 

 

 

 

 

 

 

 

 

 

 

j

 

= (10 24)

2

30 + (20

24)

2

20 +

 

 

sX2 = j=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n 1

 

 

 

 

 

 

99

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

225

 

 

 

 

 

+

(30 24)2 30 + (40

24)2 20

=

 

 

 

 

 

 

 

 

 

99

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= 196 30 + 16 20 + 36 30 + 256 20 =

12400 =

125, 25.

 

 

 

 

 

 

99

 

 

 

 

 

 

 

99

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

( yi yB )2 ny

(2 5,8)

2

 

10 + (4 5,8)

2

30 +

 

 

s2

=

i=1

i

=

 

 

 

 

Y

 

 

n

1

 

 

 

 

 

99

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

+

(6 5,8)2

20 + (8 5,8)2 40

=

 

 

 

 

 

 

 

 

 

99

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

14,44 10 + 3,24 30 + 0,04 20 + 4,84 40 = 4, 40;

 

 

 

 

 

 

99

 

 

 

 

 

 

 

 

 

 

 

 

 

 

σBX =

125,25 11,19; σBY

=

4,40 2,1.

 

 

 

4

4

xB )( yi yB )nij

 

 

 

 

 

 

 

 

 

 

 

∑∑ (xi

1

 

 

 

 

 

 

 

XY =

i=1 j=1

 

 

 

=

 

[(10 24)((2 5,8) 0 +

K

 

 

 

n 1

 

 

 

 

 

 

 

 

 

 

99

 

 

 

 

 

+(4 5,8) 10 + (6 5,8) 5 + (8 5,8) 15) + (20 24)((2 5,8) 2 +

+(4 5,8) 8 + (6 5,8) 10 + (8 5,8) 0) + (30 24)((2 5,8) 4 +

+(4 5,8) 6 + (6 5,8) 5 + (8 5,8) 15) + (40 24)((2 5,8) 4 +

+(4 5,8) 6 + (6 5,8) 0 + (8 5,8) 10)] = 991 [(14) (18 + 1+ 33) − − 4 (7,6 14, 4 + 2) + 6 (15, 2 10,8 + 1+ 33) + 16 (15,2

10,8 + 22)] = 991 (224 + 80 + 48 64) ≈ −1,62.

Оскільки KXY = −1,62, то це свідчить про те, що між ознаками X

i Y існує від’ємний кореляційний зв’язок.

Для вимірювання тісноти цього зв’язку обчислимо вибірковий

коефіцієнт кореляції

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

rB =

K

XY

=

 

1,62

 

= − 0,07.

σBX σBY

11,19 2,1

 

 

 

Тіснота кореляційного зв’язку між ознаками X i Y є слабкою.

226

3.3. Перевірка гіпотези про незалежність системи двох випадкових величин

Гіпотезу про незалежність двох випадкових величин Х та Y можна перевірити за критерієм χ2 . У цьому випадку величина χ2 визначається формулою

l m

 

2

 

 

(nij mij )

 

 

χ2 = ∑∑

,

(3.19)

 

i=1 j=1

mij

 

 

 

де nij — кількість випадків, коли одночасно спостерігались значення

X = x , Y = y

j

,

m =

ni0n0 j

,

 

i

 

ij

n

 

 

 

 

ni0 , n0 j — загальна кількість випадків, коли спостерігались відповідно значення X = xi , Y = y j , l та m — кількість значень, що їх на-

бувають відповідно величини X та Y за умови, що обсяг вибірки дорівнює n.

Гіпотеза H0 про незалежність випадкових величин X та Y приймається на рівні значущості α, якщо χ2 ≤ χα2 , де значення χα2 береться з таблиць розподілу χ2 з k = (n 1)(m 1) ступенями свободи (дод. 3). Інакше кажучи, гіпотеза Н0 відхіляється на рівні значущості

α, якщо χ2 ≥ χ2−α .

1

Для обчислення вибіркового значення статистики (3.19) критерію

зручно використовувати формулу

 

 

 

 

 

 

 

 

l

1

 

m

n2

 

 

 

χ2 = n

 

 

ij

 

1 .

(3.20)

 

 

 

i=1 n

j=1 n

 

 

 

 

 

 

i0

 

 

0 j

 

 

Результати перевірки гіпотези можна подати у вигляді таблиці спряженості ознак l × m (табл. 3.11), яка являє собою сукупний результат послідовності повторень випадкового експерименту (прицьому результати класифікуються за двома змінними ознаками).

Нехай є k різних експериментів, що складаються з n1, n2 , ..., nk одиничних спостережень, тобто k різних вибірок обсягу n1,

n2 , ..., nk .

Потрібно перевірити гіпотезу про те, що k вибірок вибрано з однієї і тієї самої сукупності або, інакше кажучи, гіпотезу про те, що ці вибірки однорідні.

227

 

 

 

 

 

 

Таблиця 3.11

 

 

 

 

 

 

 

 

 

Y

 

 

 

 

m

 

X

 

y1

y2

ym

nij = ni0

 

 

 

 

 

i=1

 

x1

 

n11

n12

n1m

n10

 

x2

 

n21

n22

n2m

n20

 

 

 

 

 

 

 

 

 

 

 

xl

 

nl1

nl 2

n1m

nl 0

 

l

 

 

 

 

 

l m

= n

nij = n0 j

 

n01

n02

n0m

∑∑nij

i=1

 

 

 

 

 

i=1 j =1

 

У кожному екперименті спостерігається деяка змінна ознака і результати кожного зі спостережень розбиваються за значеннями цієї

ознаки на l груп. Кількість результатів спостережень в i-й групі j-го ряду позначимо nij . Тоді всі дані розміщуються в таблиці такого са-

мого вигляду, як і таблиця 3.11, причому суми за стовпцями в ній дорівнюють n j .

Проте в цьому випадку таблиця є результатом спостережень не однієї послідовності, як у випадку табл. 3.11, а k незалежних спостережень, кожному з яких відповідає один стовпець. Для перевірки гіпотези про однорідність використовують той самий критерій, що й для перевірки незалежності двох ознак.

Приклад 3.14. У 20 рейсах при різних погодних умовах здійснювались вимірювання максимальної швидкості і висоти польоту. Відхилення від розрахункових (у м/с і відповідно в м) наведено в табл. 3.12.

Таблиця 3.12

і

1

2

3

4

5

6

7

8

9

10

X

– 10

– 2

4

10

– 1

– 16

– 8

– 1

6

8

Y

– 8

– 10

22

55

2

– 30

– 15

5

10

18

Закінчення табл. 3.12

11

12

13

14

15

16

17

18

19

20

– 1

4

12

20

– 11

2

14

6

– 12

1

3

– 2

28

62

– 10

– 8

22

3

– 32

8

228

а) Скласти інтервальний статистичний ряд розподілу системи (X, Y); б) знайти точкові оцінки математичного сподівання, дисперсії,

кореляційного момента та коефіцієнта кореляції; в) перевірити гіпотезу про незалежність цих випадкових величин

на рівні значущості α = 0,05.

Розв’язання.

а) Випишемо різні значення варіант, які потрапили у вибірку, у порядку їх зростання. Дістанемо дискретний варіаційний ряд:

X:

– 16,

– 12,

– 11,

– 10,

– 8,

– 2,

– 1, 1, 2, 4,

6, 8,

10,

12,

14,

20

Y:

– 32,

– 30,

– 15,

– 10,

– 8,

– 2,

2, 3, 5, 8,

10, 18,

22,

28,

55,

62.

Визначаємо за обсягом вибірки n = 20 орієнтовну кількість m = 5 частинних інтервалів в інтервальному статистичному розподілі. За формулами

hx = (xmax xmin ) / m та hy = ( ymax ymin ) / m

обчислюємо крок інтервалів

hx = (20 + 16) / 5 = 7,2; hy = (62 + 32) / 5 = 18,8.

Підсумуємо частоти варіант, які потрапили в кожний із частинних інтервалів, при цьому частоти варіант, які збіглися з межами інтервалів, поділимо порівну між суміжними інтервалами.

Тоді інтервальний статистичний розподіл вибірки можна подати у вигляді табл. 3.13.

 

 

 

 

 

 

 

 

Таблиця 3.13

 

 

 

 

 

 

 

 

 

 

i

 

 

 

1

2

3

4

 

5

 

 

 

 

 

 

 

 

 

(xi1, xi )

 

[– 16; – 8,8]

[– 8,8; – 1,6]

[– 1,6; 5,6]

[5,6; 12,8]

 

[12,8; 20]

 

 

 

 

 

 

 

 

 

 

ni

 

 

 

4

3

6

5

 

2

 

 

 

 

 

 

 

 

 

( yi1, yi )

 

[– 32; – 13,2]

[– 13,2; 5,6]

[5,6; 24,4]

[24,4; 43,2]

 

[43,2; 62]

 

 

 

 

 

 

 

 

 

 

ni

 

 

 

2

10

5

1

 

2

б) За формулами (3.16) — (3.18) обчислюємо:

 

 

x =

1

(16 12 1110 8 2 2 1 2 + 1+ 2 + 4 2 +

 

 

B

20

 

 

 

 

 

 

 

 

+ 6 2 + 8 + 10 + 12 + 14 + 20) = 1,2,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

229

yB = 201 (32 30 15 10 2 8 2 2 + 2 + 3 2 + 5 + 8 + +10 + 18 + 22 2 + 28 + 55 + 62) = 6,15,

sX2 = 191 ((16 1, 2)2 + (12 1,2)2 + (111, 2)2 +

+(10 1,2)2 + (8 1,2)2 + (2 1, 2)2 2 + (11,2)2 2 +

+(11,2)2 + (2 1,2)2 + (4 1,2)2 2 + (6 1, 2)2 2 +

+(8 1, 2)2 + (10 1, 2)2 + (12 1, 2)2 +

+(14 1, 2)2 + (20 1,2)2 ) = 88,38,

sY2 = 191 ((32 6,15)2 + (30 6,15)2 + (15 6,15)2 +

+(10 6,15)2 2 + (8 6,15)2 2 + (2 6,15)2 + (2 6,15)2 +

+(3 6,15)2 2 + (5 6,15)2 + (8 6,15)2 + (10 6,15)2 +

+(18 6,15)2 + (22 6,15)2 2 + (28 6,15)2 + (55 6,15)2 +

+(62 6,15)2 ) = 572,66.

KXY = 191 [(10 1,2)(8 6,15) + (2 1, 2)(10 6,15) +

+(4 1,2)(22 6,15) + (10 1,2)(55 6,15) +

+(11, 2)(2 6,15) + (16 1,2)(30 6,15) +

+(8 1,2)(15 6,15) + (2 1,2)(5 6,15) +

+(6 1,2)(10 6,15) + (8 1,2)(18 6,15) +

+(11,2)(3 6,15) + (4 1, 2)(2 6,15) +

+(12 1, 2)(28 6,15) + (20 1, 2)(62 6,15) +

+(111,2)(10 6,15) + (2 1,2)(8 6,15) +

+(14 1, 2)(22 6,15) + (6 1,2)(3 6,15) +

+(12 1, 2)(32 6,15) + (11, 2)(8 6,15)] = 197,86.

Для обчислення коефіцієнта кореляції застосуємо формулу

r

 

 

 

/(

s2

 

s2 )

(3.21)

= K

XY

B

 

 

 

X

 

Y

 

rB =

 

 

197,86

 

 

= 0,88.

 

88,38

572,66

 

 

 

 

230