Теорія ймовірності - high_math
.pdf2.21. |
γ = 0,99; |
σ = 6 т; |
α = 0,02; |
нормальний |
|
|
|
|
розподіл. |
2.22. |
γ = 0,999; |
σ = 7 шт.; |
α = 0,05; |
розподіл |
|
|
|
|
пуассона. |
2.23. |
γ = 0,95; |
σ = 8,6 м; |
α = 0,1; |
нормальний |
|
|
|
|
розподіл. |
2.24. |
γ = 0,99; |
σ = 1,5 м/с; |
α = 0,01; |
показниковий |
|
|
|
|
розподіл. |
2.25. |
γ = 0,999; |
σ = 8,7 кг; |
α = 0,02; |
нормальний |
|
|
|
|
розподіл. |
2.26. |
γ = 0,95; |
σ = 3 шт.; |
α = 0,55; |
рівномірний |
|
|
|
|
розподіл. |
2.27. |
γ = 0,99; |
σ = 1,2 м; |
α = 0,01; |
рівномірний |
|
|
|
|
розподіл. |
2.28. |
γ = 0,999; |
σ = 1,5 °С; |
α = 0,1; |
нормальний |
|
|
|
|
розподіл. |
2.29. |
γ = 0,95; |
σ = 3,9 м/с; |
α = 0,02; |
рівномірний |
|
|
|
|
розподіл. |
2.30. |
γ = 0,99; |
σ = 2,2 мкм; |
α = 0,55; |
рівномірний |
|
|
|
|
розподіл. |
Тема 3. ДВОВИМІРНИЙ РОЗПОДІЛ.
СТАТИСТИЧНІ ГІПОТЕЗИ. ЕЛЕМЕНТИ КОРЕЛЯЦІЙНОГО ТА РЕГРЕСІЙНОГО АНАЛІЗУ
Вибірка, двовимірний статистичний розподіл, парний статистичний розподіл. Статистичні оцінки параметрів системи. Перевірка гіпотези про незалежність системи двох випадкових величин. Перевірка гіпотези про однорідність вибірок. Рівняння лінійної регресії. Нелінійна регресія. Метод найменших квадратів.
Література: [3, розділ 1, § 1.3]; [8, розділ 4, тема 12, п. 4, 5]; [9, розділ 3, § 3, 5]
Т.3 ОСНОВНІ ТЕОРЕТИЧНІ ВІДОМОСТІ ТА ТИПОВІ ПРИКЛАДИ
3.1. Вибірка. Статистичний розподіл вибірки
Нехай над системою випадкових величин ( X , Y ) в однакових умовах проведено n незалежних випробувань. Вибіркою обсягом n
221
є послідовність ( x1, y1 ); ( x2 , y2 ); … ( xn , yn ) пар значень, яких набу-
вають складові X та Y системи в цих випробуваннях. Попереднє уявлення про залежність між X та Y можна дістати, якщо нанести
елементи вибірки ( xi , yi ), i = 1, 2, 3 ... n у вигляді точок на площині
у вибраній системі координат. Таке подання вибірки системи двох випадкових величин називається діаграмою розсіювання.
Якщо у вибірці обсягом n елемент xj спостерігається nj раз, а елемент yi – ni раз, то послідовність пар {(xj ,nj ); ( yi , ni )} називають
статистичним рядом. При цьому ∑ ni = n i ∑ nj = n .
i j
Перелік варіант Y = yi , X = xj та відповідних їм частот nij спільної
їх появиутворюють двовимірнийстатистичнийрозподіл вибірки.
У табличній формі цей розподіл має такий вигляд:
Y = yi |
|
|
X = xj |
|
|
nyi |
|
|
|
|
|
||
x1 |
x2 |
x3 |
… |
|
||
|
xm |
|
y |
|
|
n |
n |
n |
… |
n |
|
ny |
|
|
|
|
1 |
11 |
12 |
13 |
|
1m |
1 |
|
|||
|
y |
2 |
|
n |
n |
n |
… |
n |
|
ny |
|
|
|
|
21 |
22 |
23 |
|
2m |
2 |
|
||||
|
y |
3 |
|
n |
n |
n |
… |
n |
|
ny |
|
|
|
|
31 |
32 |
33 |
|
3m |
3 |
|
||||
|
… |
|
… |
… |
… |
… |
… |
|
… |
|
||
|
y |
k |
|
n |
n |
n |
… |
n |
|
ny |
|
|
|
|
|
k1 |
k 2 |
k 3 |
|
km |
|
k |
|
||
|
nx |
j |
|
nx |
nx |
nx |
… |
nx |
|
|
|
|
|
|
|
1 |
2 |
3 |
|
m |
|
|
|
Тут nij |
— частота спільної появи варіант Y = yi , X = xj |
|||||||
|
ny |
|
m |
|
|
nx |
= |
k |
|
i |
= ∑ nij , |
|
∑ nij , |
||||
|
|
j=1 |
|
|
j |
i=1 |
||
|
|
|
|
|
|
|||
|
k |
|
m |
k |
|
m |
= n . |
|
|
∑∑ nij |
= ∑ ny |
= ∑ nx |
|||||
|
i=1 j=1 |
i=1 |
i |
j=1 |
j |
|||
|
|
|
||||||
Умовним статистичним розподілом ознаки Y при фіксованому |
||||||||
значенні |
X = xj називають перелік варіант ознаки Y та відповідних |
їм частот при фіксованому значенні X .
Y X = xj
222
Y = yi |
y1 |
y2 |
y3 |
… |
yk |
|
|
|
|
|
|
nij |
n1 j |
n2 j |
n3 j |
… |
nkj |
k
Тут ∑ nij = nx j .
i=1
Умовним статистичним розподілом ознаки |
X при Y = yi нази- |
||||||
вають перелік варіант ознаки X |
та відповідних їм частот, |
узятих |
|||||
при фіксованому значенні Y. |
|
|
|
|
|
||
|
|
X /Y = yi |
|
|
|
||
|
|
|
|
|
|
|
|
X = xj |
x1 |
x2 |
x3 |
|
… |
|
xm |
nij |
n |
ni2 |
n |
|
… |
|
nim |
|
i1 |
|
i3 |
|
|
|
|
m
Тут ∑ nij = nyi .
j=1
Якщо частота спільної появи ознак X і Y nij = 1 для всіх варі-
ант, то в цьому разі двовимірний статистичний розподіл набирає такого вигляду:
X = xi |
x1 |
x2 |
x3 |
… |
xn |
Y = yi |
y1 |
y2 |
y3 |
… |
yn |
|
|
|
|
|
|
Його називають парним статистичним розподілом вибірки.
Для системи двох та більшої кількості випадкових величин, як і для однієї випадкової величини, розглядають таке поняття, як інтервальний статистичний ряд розподілу, будують полігон і гістограму частот (для кожної випадкової величини, що входить у систему).
3.2. Статистичні оцінки параметрів системи
Система випадкових величин (X,Y) характеризується такими параметрами: математичними сподіваннями M(X) i M(Y) випадкових величин, що визначають положення центра розподілу (M(X), M(Y)); дисперсіями D(X) i D(Y), що визначають розсіювання розподілу від-
носно центра; кореляційним моментом K XY , який крім розсіювання випадкових величин X та Y може характеризувати взаємозв’язок цих
223
sX2 = |
1 ∑(xi − xB )2 ; sY2 = |
1 ∑( yi − yB )2 |
; |
(3.17) |
|||||||
|
|
|
n |
|
|
|
|
n |
|
|
|
|
n − 1 |
i=1 |
|
|
|
n − 1 |
i=1 |
|
|
||
|
|
|
|
|
1 |
n |
|
|
|
|
|
|
|
K |
XY = |
∑(xi |
− xB )( yi − yB ). |
|
(3.18) |
||||
|
|
|
|
||||||||
|
|
|
|
|
n − 1 i=1 |
|
|
|
|
|
Якщо для системи випадкових величин побудовано інтервальний статистичний розподіл, точкові оцінки невідомих математичних сподівань, дисперсії, кореляційного момента також знаходять за фо-
рмулами (3.12) — (3.18), в які замість xi та yi підставляються середини (центри) xi* та yi* відповідних інтервалів.
Приклад 3.13. За даним двовимірним статистичним розподілом вибірки ознак X i Y
Y = yi |
|
|
X = xj |
|
nyi |
|
|
|
|
|
|
||
10 |
20 |
|
30 |
40 |
||
|
|
|
||||
2 |
– |
2 |
|
4 |
4 |
10 |
4 |
10 |
8 |
|
6 |
6 |
30 |
6 |
5 |
10 |
|
5 |
– |
20 |
8 |
15 |
– |
|
15 |
10 |
40 |
nx j |
30 |
20 |
|
30 |
20 |
|
знайти статистичні оцінки параметрів.
|
|
|
|
|
|
|
|
|
|
|
|
|
4 |
4 |
|
|
|
|
|
|
Розв’язання. Оскільки n = ∑∑ nij = 100, то за формулами (3.12) — |
||||||||||||||||||||
(3.15) дістаємо: |
|
|
|
|
|
|
|
|
i=1 j=1 |
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
∑ xj nx |
j |
|
10 |
30 + 20 |
20 + 30 30 + 40 20 = 2400 = 24, |
||||||||||||
x |
|
= |
j=1 |
|
= |
|||||||||||||||
B |
|
|
n |
|
|
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
100 |
|
|
100 |
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
∑ yi ny |
|
|
2 10 |
+ 4 |
30 + 6 20 + 8 40 |
= 580 |
|
||||||||
|
|
yB = |
i=1 |
|
|
i |
|
= |
= 5,8. |
|||||||||||
|
|
|
n |
|
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
100 |
|
|
100 |
|
||||
|
|
4 |
(xj − xB )2 nx |
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
∑ |
j |
|
= (10 − 24) |
2 |
30 + (20 |
− 24) |
2 |
20 + |
||||||||
|
|
sX2 = j=1 |
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
n − 1 |
|
|
|
|
|
|
99 |
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
225 |
|
|
|
|
|
+ |
(30 − 24)2 30 + (40 − |
24)2 20 |
= |
|
|
|||||||
|
|
|
|
|
|
|
99 |
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
= 196 30 + 16 20 + 36 30 + 256 20 = |
12400 = |
125, 25. |
|||||||||||||
|
|
|
|
|
|
99 |
|
|
|
|
|
|
|
99 |
|
|
|
|
|
|
|
|
4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
∑( yi − yB )2 ny |
(2 − 5,8) |
2 |
|
10 + (4 − 5,8) |
2 |
30 + |
||||||
|
|
s2 |
= |
i=1 |
i |
= |
|
|
|||||||||
|
|
Y |
|
|
n |
− 1 |
|
|
|
|
|
99 |
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
+ |
(6 − 5,8)2 |
20 + (8 − 5,8)2 40 |
= |
|
|
|||||||
|
|
|
|
|
|
|
99 |
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
14,44 10 + 3,24 30 + 0,04 20 + 4,84 40 = 4, 40; |
||||||||||||||
|
|
|
|
|
|
99 |
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
σBX = |
125,25 ≈ 11,19; σBY |
= |
4,40 ≈ 2,1. |
|||||||||
|
|
|
4 |
4 |
− xB )( yi − yB )nij |
|
|
|
|
|
|
|
|||||
|
|
|
|
∑∑ (xi |
1 |
|
|
|
|
|
|||||||
|
|
XY = |
i=1 j=1 |
|
|
|
= |
|
[(10 − 24)((2 − 5,8) 0 + |
||||||||
K |
|
|
|||||||||||||||
|
n − 1 |
|
|
|
|
||||||||||||
|
|
|
|
|
|
99 |
|
|
|
|
|
+(4 − 5,8) 10 + (6 − 5,8) 5 + (8 − 5,8) 15) + (20 − 24)((2 − 5,8) 2 +
+(4 − 5,8) 8 + (6 − 5,8) 10 + (8 − 5,8) 0) + (30 − 24)((2 − 5,8) 4 +
+(4 − 5,8) 6 + (6 − 5,8) 5 + (8 − 5,8) 15) + (40 − 24)((2 − 5,8) 4 +
+(4 − 5,8) 6 + (6 − 5,8) 0 + (8 − 5,8) 10)] = 991 [(−14) (−18 + 1+ 33) − − 4 (−7,6 − 14, 4 + 2) + 6 (−15, 2 − 10,8 + 1+ 33) + 16 (−15,2 −
−10,8 + 22)] = 991 (−224 + 80 + 48 − 64) ≈ −1,62.
Оскільки KXY = −1,62, то це свідчить про те, що між ознаками X
i Y існує від’ємний кореляційний зв’язок.
Для вимірювання тісноти цього зв’язку обчислимо вибірковий
коефіцієнт кореляції |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
rB = |
K |
XY |
= |
|
−1,62 |
|
= − 0,07. |
||
σBX σBY |
11,19 2,1 |
||||||||
|
|
|
Тіснота кореляційного зв’язку між ознаками X i Y є слабкою.
226
3.3. Перевірка гіпотези про незалежність системи двох випадкових величин
Гіпотезу про незалежність двох випадкових величин Х та Y можна перевірити за критерієм χ2 . У цьому випадку величина χ2 визначається формулою
l m |
|
2 |
|
|
|
(nij − mij ) |
|
|
|||
χ2 = ∑∑ |
, |
(3.19) |
|||
|
|||||
i=1 j=1 |
mij |
|
|
|
де nij — кількість випадків, коли одночасно спостерігались значення
X = x , Y = y |
j |
, |
m = |
ni0n0 j |
, |
|
|||||
i |
|
ij |
n |
||
|
|
|
|
ni0 , n0 j — загальна кількість випадків, коли спостерігались відповідно значення X = xi , Y = y j , l та m — кількість значень, що їх на-
бувають відповідно величини X та Y за умови, що обсяг вибірки дорівнює n.
Гіпотеза H0 про незалежність випадкових величин X та Y приймається на рівні значущості α, якщо χ2 ≤ χα2 , де значення χα2 береться з таблиць розподілу χ2 з k = (n − 1)(m − 1) ступенями свободи (дод. 3). Інакше кажучи, гіпотеза Н0 відхіляється на рівні значущості
α, якщо χ2 ≥ χ2−α .
1
Для обчислення вибіркового значення статистики (3.19) критерію
зручно використовувати формулу |
|
|
|
|
|
|
|
||
|
l |
1 |
|
m |
n2 |
|
|
|
|
χ2 = n |
∑ |
|
|
∑ |
ij |
|
− 1 . |
(3.20) |
|
|
|
|
|||||||
i=1 n |
j=1 n |
|
|
|
|||||
|
|
|
i0 |
|
|
0 j |
|
|
Результати перевірки гіпотези можна подати у вигляді таблиці спряженості ознак l × m (табл. 3.11), яка являє собою сукупний результат послідовності повторень випадкового експерименту (прицьому результати класифікуються за двома змінними ознаками).
Нехай є k різних експериментів, що складаються з n1, n2 , ..., nk одиничних спостережень, тобто k різних вибірок обсягу n1,
n2 , ..., nk .
Потрібно перевірити гіпотезу про те, що k вибірок вибрано з однієї і тієї самої сукупності або, інакше кажучи, гіпотезу про те, що ці вибірки однорідні.
227
|
|
|
|
|
|
Таблиця 3.11 |
|
|
|
|
|
|
|
|
|
|
Y |
|
|
|
|
m |
|
X |
|
y1 |
y2 |
… |
ym |
∑nij = ni0 |
|
|
|
|
|
|
i=1 |
|
|
x1 |
|
n11 |
n12 |
… |
n1m |
n10 |
|
x2 |
|
n21 |
n22 |
… |
n2m |
n20 |
|
… |
|
… |
… |
… |
… |
… |
|
|
|
|
|
|
|
|
|
xl |
|
nl1 |
nl 2 |
… |
n1m |
nl 0 |
|
l |
|
|
|
|
|
l m |
= n |
∑nij = n0 j |
|
n01 |
n02 |
… |
n0m |
∑∑nij |
|
i=1 |
|
|
|
|
|
i=1 j =1 |
|
У кожному екперименті спостерігається деяка змінна ознака і результати кожного зі спостережень розбиваються за значеннями цієї
ознаки на l груп. Кількість результатів спостережень в i-й групі j-го ряду позначимо nij . Тоді всі дані розміщуються в таблиці такого са-
мого вигляду, як і таблиця 3.11, причому суми за стовпцями в ній дорівнюють n j .
Проте в цьому випадку таблиця є результатом спостережень не однієї послідовності, як у випадку табл. 3.11, а k незалежних спостережень, кожному з яких відповідає один стовпець. Для перевірки гіпотези про однорідність використовують той самий критерій, що й для перевірки незалежності двох ознак.
Приклад 3.14. У 20 рейсах при різних погодних умовах здійснювались вимірювання максимальної швидкості і висоти польоту. Відхилення від розрахункових (у м/с і відповідно в м) наведено в табл. 3.12.
Таблиця 3.12
і |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
X |
– 10 |
– 2 |
4 |
10 |
– 1 |
– 16 |
– 8 |
– 1 |
6 |
8 |
Y |
– 8 |
– 10 |
22 |
55 |
2 |
– 30 |
– 15 |
5 |
10 |
18 |
Закінчення табл. 3.12
11 |
12 |
13 |
14 |
15 |
16 |
17 |
18 |
19 |
20 |
– 1 |
4 |
12 |
20 |
– 11 |
2 |
14 |
6 |
– 12 |
1 |
3 |
– 2 |
28 |
62 |
– 10 |
– 8 |
22 |
3 |
– 32 |
8 |
228
а) Скласти інтервальний статистичний ряд розподілу системи (X, Y); б) знайти точкові оцінки математичного сподівання, дисперсії,
кореляційного момента та коефіцієнта кореляції; в) перевірити гіпотезу про незалежність цих випадкових величин
на рівні значущості α = 0,05.
Розв’язання.
а) Випишемо різні значення варіант, які потрапили у вибірку, у порядку їх зростання. Дістанемо дискретний варіаційний ряд:
X: |
– 16, |
– 12, |
– 11, |
– 10, |
– 8, |
– 2, |
– 1, 1, 2, 4, |
6, 8, |
10, |
12, |
14, |
20 |
Y: |
– 32, |
– 30, |
– 15, |
– 10, |
– 8, |
– 2, |
2, 3, 5, 8, |
10, 18, |
22, |
28, |
55, |
62. |
Визначаємо за обсягом вибірки n = 20 орієнтовну кількість m = 5 частинних інтервалів в інтервальному статистичному розподілі. За формулами
hx = (xmax − xmin ) / m та hy = ( ymax − ymin ) / m
обчислюємо крок інтервалів
hx = (20 + 16) / 5 = 7,2; hy = (62 + 32) / 5 = 18,8.
Підсумуємо частоти варіант, які потрапили в кожний із частинних інтервалів, при цьому частоти варіант, які збіглися з межами інтервалів, поділимо порівну між суміжними інтервалами.
Тоді інтервальний статистичний розподіл вибірки можна подати у вигляді табл. 3.13.
|
|
|
|
|
|
|
|
Таблиця 3.13 |
|
|
|
|
|
|
|
|
|
|
|
i |
|
|
|
1 |
2 |
3 |
4 |
|
5 |
|
|
|
|
|
|
|
|
|
|
(xi−1, xi ) |
|
[– 16; – 8,8] |
[– 8,8; – 1,6] |
[– 1,6; 5,6] |
[5,6; 12,8] |
|
[12,8; 20] |
||
|
|
|
|
|
|
|
|
|
|
ni |
|
|
|
4 |
3 |
6 |
5 |
|
2 |
|
|
|
|
|
|
|
|
|
|
( yi−1, yi ) |
|
[– 32; – 13,2] |
[– 13,2; 5,6] |
[5,6; 24,4] |
[24,4; 43,2] |
|
[43,2; 62] |
||
|
|
|
|
|
|
|
|
|
|
ni |
|
|
|
2 |
10 |
5 |
1 |
|
2 |
б) За формулами (3.16) — (3.18) обчислюємо: |
|
|
|||||||
x = |
1 |
(−16 − 12 − 11− 10 − 8 − 2 2 − 1 2 + 1+ 2 + 4 2 + |
|||||||
|
|||||||||
|
B |
20 |
|
|
|
|
|
|
|
|
|
+ 6 2 + 8 + 10 + 12 + 14 + 20) = 1,2, |
|
|
|||||
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
229 |
yB = 201 (−32 − 30 − 15 − 10 2 − 8 2 − 2 + 2 + 3 2 + 5 + 8 + +10 + 18 + 22 2 + 28 + 55 + 62) = 6,15,
sX2 = 191 ((−16 − 1, 2)2 + (−12 − 1,2)2 + (−11− 1, 2)2 +
+(−10 − 1,2)2 + (−8 − 1,2)2 + (−2 − 1, 2)2 2 + (−1− 1,2)2 2 +
+(1− 1,2)2 + (2 − 1,2)2 + (4 − 1,2)2 2 + (6 − 1, 2)2 2 +
+(8 − 1, 2)2 + (10 − 1, 2)2 + (12 − 1, 2)2 +
+(14 − 1, 2)2 + (20 − 1,2)2 ) = 88,38,
sY2 = 191 ((−32 − 6,15)2 + (−30 − 6,15)2 + (−15 − 6,15)2 +
+(−10 − 6,15)2 2 + (−8 − 6,15)2 2 + (−2 − 6,15)2 + (2 − 6,15)2 +
+(3 − 6,15)2 2 + (5 − 6,15)2 + (8 − 6,15)2 + (10 − 6,15)2 +
+(18 − 6,15)2 + (22 − 6,15)2 2 + (28 − 6,15)2 + (55 − 6,15)2 +
+(62 − 6,15)2 ) = 572,66.
KXY = 191 [(−10 − 1,2)(−8 − 6,15) + (−2 − 1, 2)(−10 − 6,15) +
+(4 − 1,2)(22 − 6,15) + (10 − 1,2)(55 − 6,15) +
+(−1− 1, 2)(2 − 6,15) + (−16 − 1,2)(−30 − 6,15) +
+(−8 − 1,2)(−15 − 6,15) + (−2 − 1,2)(5 − 6,15) +
+(6 − 1,2)(10 − 6,15) + (8 − 1,2)(18 − 6,15) +
+(−1− 1,2)(3 − 6,15) + (4 − 1, 2)(−2 − 6,15) +
+(12 − 1, 2)(28 − 6,15) + (20 − 1, 2)(62 − 6,15) +
+(−11− 1,2)(−10 − 6,15) + (2 − 1,2)(−8 − 6,15) +
+(14 − 1, 2)(22 − 6,15) + (6 − 1,2)(3 − 6,15) +
+(−12 − 1, 2)(−32 − 6,15) + (1− 1, 2)(8 − 6,15)] = 197,86.
Для обчислення коефіцієнта кореляції застосуємо формулу
r |
|
|
|
/( |
s2 |
|
s2 ) |
(3.21) |
|
= K |
XY |
||||||||
B |
|
|
|
X |
|
Y |
|
||
rB = |
|
|
197,86 |
|
|
= 0,88. |
|
||
88,38 |
572,66 |
|
|||||||
|
|
|
230