Теорія ймовірності - high_math
.pdfВибірковою оцінкою параметра θ називається число θ* , знай-
дене за даними вибірки або за статистичним розподілом, залежне від x1, x2 , …, xn і таке, що наближено дорівнює оцінюваному параметру:
θ* ≈ θ.
Ця оцінка, яка визначається у даній вибірці одним числом, точкою, називається точковою.
Оскільки θ* є випадковою величиною, то вона може бути зміщеною і незміщеною. Коли математичне сподівання цієї оцінки точно дорівнює оцінюваному параметру θ, тобто:
M (θ* ) = θ,
то оцінка θ* називається незміщеною.
Якщо M (θ* ) ≠ θ, то статистична оцінка θ* називається зміщеною
відносно параметра θ генеральної сукупності. Різниця
θ* − θ = δ
називається зміщенням статистичної оцінки θ*.
Точкова статистична оцінка θ* називається спроможною, якщо, у разі необмеженого збільшення обсягу вибірки, θ* наближається до оцінюваного параметра θ:
lim P{ θ* − θ < δ } = 1.
n→∞
Оцінюваний параметр може мати кілька точкових незміщених статистичних оцінок. Точкова статистична оцінка називається ефективною, коли при заданому обсязі вибірки вона має мінімальну дисперсію.
Для невідомого математичного сподівання M (X ) досліджуваної ознаки X точковою оцінкою є вибіркова середня, яка позначається xB і обчислюється за формулою
xB = 1 |
k |
|
∑ xi ni . |
(3.2) |
|
n i=1 |
|
Вона задовольняє всі три перелічені умови. Для невідомої дисперсії D(X ) спроможною оцінкою є вибіркова дисперсія DB , обчислювана за формулою
201
DB = 1 ∑k (xi − xB )2 ni . n i=1
Проте ця оцінка є зміщеною. Тому для оцінки невідомої дисперсії застосовують так звану виправлену дисперсію, яку позначають
s2 і обчислюють за формулою
|
n |
|
|
1 |
k |
|
s2 = |
|
DB = |
∑(xi − xB )2 ni . |
(3.3) |
||
n − 1 |
|
|||||
|
|
n − 1 i=1 |
|
|||
Оцінкою для середнього квадратичного відхилення σ(X ) |
є ви- |
|||||
правлене вибіркове середнє квадратичне відхилення |
|
|||||
|
|
|
σB = |
s2 . |
(3.4) |
Для неперервної ознаки X , для якої побудовано інтервальний
статистичний розподіл, точкові оцінки невідомих математичного сподівання і дисперсії також знаходять за формулами (3.2) і (3.3), в
які замість варіант xi підставляють середини (центри) xi* інтервалів.
Приклад 3.4. Знайти точкові оцінки математичного сподівання, дисперсії і середнього квадратичного відхилення добової виручки авіакомпанії за даними вибірки з прикладу 3.1.
Розв’язання. За дискретним статистичним розподілом (табл. 3.2) обчислюємо вибіркову середню xB , виправлену вибіркову диспер-
сію s2 і виправлене вибіркове середнє квадратичне відхилення σB , використовуючи формули (3.2) — (3.4):
xB = 401 (0,81 3 + 0,82 4 + 0,85 6 + 0,87 9 + 0,9 8 + +0,94 6 + 0,97 2 + 0,99 2) = 0,885;
s2 = 391 [(0,81− 0,885)2 3 + (0,82 − 0,885)2 4 + +(0,85 − 0,885)2 6 + (0,87 − 0,885)2 9 + +(0,9 − 0,885)2 8 + (0,94 − 0,885)2 6 +
+(0,97 − 0,885)2 2 + (0,99 − 0,885)2 2] = 0,0025; σB = 0,05.
202
Знайдемо оцінки xB , s2 і σB за інтервальним статистичним розподілом (табл. 3.3), замінюючи у формулах (3.2) і (3.3) xi центрами частинних інтервалів xi*. Для цього перейдемо спочатку від інтерва-
льного статистичного розподілу до дискретного, який набирає такого вигляду:
* |
h |
0,825 |
0,855 |
0,885 |
0,915 |
0,945 |
0,975 |
|
xi = xi −1 + |
2 |
|||||||
|
|
|
|
|
|
|||
ni |
|
7 |
10 |
9 |
4 |
6 |
4 |
|
|
|
|
|
|
|
|
|
Тоді
xB = 401 (0,825 7 + 0,855 10 + 0,885 9 + 0,915 4 + +0,945 6 + 0,975 4) = 0,888;
s2 = 391 [(0,825 − 0,888)2 7 + (0,855 − 0,888)2 10 + (0,885 − 0,888)2 9 +
+(0,915 − 0,888)2 4 + (0,945 − 0,888)2 6 + (0,975 − 0,888)2 4] = 0,0023; σB = 0,048.
2.2. Інтервальні статистичні оцінки. Довірча ймовірність та довірчий інтервал
Точкові оцінки параметрів розподілу не дають можливості зробити висновки про їхню точність та надійність, оскільки є по суті випадковими величинами. Щоб мати уявлення про точність та надійність оцінки, у математичній статистиці користуються довірчими ймовірностями та довірчими інтервалами.
Інтервал (θ1* ; θ*2 ) називається довірчим для оцінюваного параметра θ з довірчою ймовірністю (надійністю) γ, якщо він покриває цей параметр θ з імовірністю, не меншою за γ, тобто
P{θ1* < θ < θ*2} ≥ γ.
Межі θ1* i θ*2 довірчого інтервалу називаються довірчими межа-
ми для оцінюваного параметра θ. Статистична оцінка, що визначається двома числами — кінцями інтервалів, називається інтерваль-
203
ною. Надійність γ вибирається, як правило, достатньо великою, на-
приклад, 0,9, 0,95 або 0,99.
Як приклад наведемо схему побудови довірчого інтервалу для невідомого параметра a нормально розподіленої ознаки X . При ві-
домому параметрі σ довірчим для a є інтервал |
|
|||||
|
σ |
|
σ |
|
|
|
xB − t |
|
; xB + t |
|
|
, |
(3.5) |
n |
|
|||||
|
|
n |
|
|
де xB |
— вибіркова середня; n — обсяг вибірки; t |
— розв’язок рів- |
||||
няння |
2Φ(t) = γ |
при заданій надійності γ. Для |
функції Лапласа |
|||
Φ(x) |
складено таблицю значень (дод. 2), за допомогою якої за за- |
|||||
даним значенням |
|
γ |
функції знаходять значення аргументу t . |
|||
2 |
||||||
|
|
|
|
Приклад 3.5. Маємо такі дані про розміри виручки (у тис. грн) на 30 випадково вибраних рейсах:
42 |
24 |
49 |
67 |
45 |
27 |
39 |
21 |
58 |
40 |
28 |
78 |
44 |
66 |
20 |
62 |
70 |
81 |
7 |
68 |
94 |
76 |
63 |
88 |
65 |
14 |
46 |
20 |
72 |
91 |
Побудувати інтервальний статистичний розподіл із довжиною кроку h = 20 (тис. грн). Припускаючи, що виручка розподілена за нормальним законом, знайти з надійністю γ = 0,95 довірчий інтер-
вал для невідомого математичного сподівання, якщо середнє квадратичне відхилення σ = 25 (тис. грн).
Розв’язання. Інтервальний статистичний розподіл буде таким:
Інтервал |
[7; 27) |
[27; 47) |
[47; 67) |
[67; 87) |
[87; 107) |
|
|
|
|
|
|
ni |
6 |
8 |
6 |
7 |
3 |
|
|
|
|
|
|
Для визначення xB необхідно побудувати дискретний статистичний розподіл, що має такий вигляд:
x* |
17 |
37 |
57 |
77 |
97 |
i |
|
|
|
|
|
ni |
6 |
8 |
6 |
7 |
3 |
|
|
|
|
|
|
де xi* — середини відповідних інтервалів.
204
Тоді
x = |
∑ xi*ni |
= 17 6 + 37 8 + 57 6 + 77 7 + 97 3 ≈ 52,3. |
|
i |
|||
n |
|||
B |
30 |
||
|
Для побудови довірчого інтервалу із заданою надійністю γ = 0,95 необхідно знайти t :
|
Φ(t) = |
γ |
= 0,475. Звідси t = 1,96 (дод. 2). |
|||||
|
|
|||||||
|
|
|
|
|
2 |
|
|
|
Знаходимо межі інтервалу: |
|
|||||||
x |
− |
tσ |
= 52,3 − 1,96 25 |
= 52,3 − 1,96 25 = 43,4 |
||||
|
|
|||||||
B |
|
|
n |
30 |
5,5 |
|||
|
|
|
||||||
x |
+ |
tσ |
|
= 52,3 + 1,96 25 |
= 52,3 + 1,96 25 = 61,2. |
|||
|
||||||||
B |
|
|
n |
30 |
5,5 |
|||
|
|
|
Отже, з ймовірністю, не меншою за 0,95, середнє значення виручки на даному рейсі міститься в межах від 43,4 до 61,2 тис. грн.
Приклад 3.6. Визначити обсяг вибірки n нормально розподіленої випадкової величини, за якого похибка ε = 0,01 при обчисленні математичного сподівання гарантується з імовірністю 0,999, якщо
середнє квадратичне відхилення σ = 5. |
|
|
|
||||||
Розв’язання. Оскільки ε = t |
|
σ |
, то звідси |
n = t2σ2 |
. Значення t |
||||
|
|
||||||||
|
γ |
|
|
n |
|
ε2 |
|
||
знаходимо з рівняння Φ(t) = |
|
= 0,999 |
= 0,4995. За таблицею функ- |
||||||
|
|||||||||
2 |
|
2 |
|
(3,4)2 52 |
|
||||
ції Лапласа (дод. 2) знаходимо t = 3,4, отже, n = |
= 2 890 000. |
||||||||
|
|
|
|
|
|
|
(0,01)2 |
|
Оскільки при розв’язуванні задач математичної статистики ми, як правило, маємо в розпорядженні лише вибірку, тобто параметр σ невідомий, то для знаходження наближених меж довірчого інтервалу замість σ використовується його вибіркова точкова оцінка σB .
При великих обсягах вибірки така заміна приводить до цілком прийнятних похибок.
При малих вибірках для оцінювання математичного сподівання якщо невідоме значення середнього квадратичного відхилення, застосовується випадкова величина t , що має розподіл Стьюдента з
205
k = n − 1 ступенями свободи. При цьому для кожного γ : (0 < γ < 1) існує єдине значення tγ , яке визначається за таблицею t -розподілу (розподілу Стьюдента) з n − 1 ступенями свободи (дод. 4).
Обчисливши за даним статистичним розподілом xB , s2 і визначивши за таблицею розподілу Стьюдента значення tγ , будуємо довірчий інтервал
|
|
|
t |
γ |
s2 |
|
|
t |
γ |
s2 |
|
|
x |
|
− |
|
|
; x |
+ |
|
|
. |
(3.6) |
||
|
|
|
n |
|
|
n |
||||||
|
B |
|
|
|
B |
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
Приклад 3.7. Побудувати довірчий інтервал з надійністю γ = 0,99
для математичного сподівання максимальної швидкості, м/с, літака, припускаючи, що вона має нормальний розподіл, за даними 20 вимірювань:
504,5 |
485,2 |
512,0 |
497,1 |
502,4 |
488,3 |
491,9 |
489,3 |
502,7 |
509,2 |
514,3 |
502,3 |
497,8 |
511,3 |
515,7 |
506,3 |
499,2 |
497,4 |
485,2 |
507,8 |
Розв’язання. Для побудови довірчого інтервалу знайдемо середнє вибіркове і виправлену дисперсію.
xB = 201 (504,5 + 485, 2 + 512,0 + 497,1+ 502, 4 + 488,3 + 491,9 +
+489,3 + 502,7 + 509, 2 + 514,3 + 502,3 + 497,8 + 511,3 + 515,7 + +506,3 + 499, 2 + 497, 4 + 485, 2 + 507,8) ≈ 501;
s2 = 191 (3,52 + 15,82 + 112 + 3,92 + 1,42 + 12,72 + 9,12 + 11,72 + +1,72 + 8,22 + 13,32 + 1,32 + 3,22 + 10,32 + 14,72 + 5,32 + 1,82 +
+3,62 + 15,82 + 6,82 ) = 191 (12,25 + 249,64 + 121+ 15,21+ 1,96 +
+161,29 + 82,81+ 136,89 + 2,89 + 67,24 + 176,89 + 1,69 + 10,24 + +106,09 + 216,09 + 28,09 + 3,24 + 12,96 + 249,64 + 46,24) ≈ 89,6.
За таблицею розподілу Стьюдента (дод. 4) за даною надійністю γ = 0,99 і кількістю ступенів свободи k = n − 1 = 20 – 1 = 19 знахо-
димо значення tγ = 2,861. Обчислимо межі довірчого інтервалу:
206
Обчислимо значення xB :
xB = |
|
1 |
(78 + 80 2 + 85 3 + 88 3 + 89 3 + 90 2 + 92 + 93) = 86,8; |
|||||||
16 |
||||||||||
|
|
|
1 |
|
|
|
|
|||
|
|
s |
2 = |
(8,82 + 6,82 2 + 1,82 3 + 1,22 3 + 2,22 3 + |
||||||
|
|
|
||||||||
|
|
|
|
15 |
+ 3, 22 2 + 5, 22 + 6,22 ) = 19. |
|
||||
|
|
|
|
|
|
|
||||
За формулами (3.9) дістаємо: |
|
|
|
|||||||
F(χ2 |
(γ)) = |
1− 0,95 = 0,025; |
F(χ2 |
(γ)) = 1+ 0,95 |
= 0,975. |
|||||
|
1 |
|
|
2 |
2 |
2 |
|
|||
|
|
|
|
|
|
|
|
За таблицею значень величини χ2 (дод. 3) з n − 1= 15 ступенями
свободи знаходимо χ22 = 6, χ12 = 25 і за формулами (3.7) та (3.8) діс-
таємо довірчі інтервали відповідно для дисперсії та середнього квадратичного відхилення (11,4; 47,5) і (3,4; 6,9).
2.3. Перевірка статистичних гіпотез. Критерій узгодження χ2 (хі-квадрат) Пірсона
Оскільки висновки про параметри і закони розподілу ознаки X генеральної сукупності робляться на основі обмеженого вибіркового матеріалу, вони не можуть бути категоричними і мають сприйматись лише як деякі припущення. Такі припущення про закони розподілу або їхні параметри називаються статистичними гіпотезами. Наприклад, статистичною гіпотезою є припущення: ознака X генеральної сукупності розподілена за нормальним законом.
Задача статистичної перевірки гіпотези полягає в побудові за вибірковими даними статистичного критерію (критерію узгодження), який дає змогу прийняти або відхилити висунуту гіпотезу.
Загальна схема статистичної перевірки гіпотези така. Нехай відносно закону розподілу ознаки X висунуто гіпотезу H0 , яка нази-
вається основною або нульовою. Для перевірки гіпотези вибирається статистичний критерій R (випадкова величина з відомим законом розподілу), який характеризує ступінь розбіжності гіпотетичного розподілу в генеральній сукупності і вибіркового розподілу. Для вибраної достатньо малої ймовірності α за певними правилами
знаходять таке число R0 , для якого виконується умова
P(R ≥ R0 ) = α. |
(3.10) |
208
Число α називається рівнем значущості критерію, а R0 — межею значущості, або критичною точкою критерію.
Якщо за даними вибірки знайдено значення R* критерію R і R* > R0 , то в разі правильності гіпотези H0 відбудеться практично неможлива подія, оскільки в умові (3.10) імовірність α достатньо мала. У цьому випадку гіпотеза H0 може бути відхилена. А якщо R* < R0 , то
гіпотеза H 0 може бути прийнята. Імовірність відхилити правильне припущення про закон розподілу в цьому випадку не більше від α.
Для статистичної перевірки гіпотези H 0 відносно закону розпо-
ділу ознаки X генеральної сукупності широко застосовується критерій Пірсона (або його ще називають критерієм χ2 — хі-квадрат).
Схема застосування критерію χ2 : |
|
|
|
|
||||||
1. Усю множину значень |
X |
розбивають на r інтервалів, що не |
||||||||
перетинаються: |
1, |
2 , …, r . |
|
|
|
|
|
|||
2. Підраховують n1 , n2 ,…nr |
— кількість вибіркових значень, що |
|||||||||
потрапили в 1, |
2 , …, |
r відповідно (тобто частоти варіант у час- |
||||||||
|
|
|
r |
= n ). |
|
|
|
|
|
|
тинних інтервалах, |
∑ ni |
|
|
|
|
|
|
|||
|
|
|
i=1 |
|
|
|
|
|
|
|
3. Обчислюють |
pi — імовірності потрапляння ознаки X |
в і-й |
||||||||
|
r |
|
|
|
|
|
|
|
|
|
інтервал |
i ( ∑ pi = 1) за теоретичним законом розподілу F(x). |
|
||||||||
|
i=1 |
|
|
|
|
|
|
|
|
|
4. Обчислюють значення критерію R* за формулою |
|
|||||||||
|
|
|
|
r |
(n − np )2 |
r |
n2 |
|
|
|
|
|
R* = χ2 = ∑ |
i |
i |
= ∑ |
i |
− n. |
(3.11) |
||
|
|
|
npi |
|
||||||
|
|
|
|
i=1 |
|
i=1 npi |
|
|
||
5. Використовуючи таблицю розподілу χ2 |
(дод. 3) і заданий за |
|||||||||
умовою рівень значущості α, |
знаходять χα2 |
з k = r − l − 1 ступенями |
свободи ( l — кількість параметрів розподілу F(x) , які оцінюються за вибіркою).
6.Гіпотеза H приймається на заданому рівні значущості, якщо
χ2 < χα2 . У протилежному випадку гіпотеза відхиляється.
На практиці для ефективності критерію Пірсона частоти ni в частинних інтервалах мають бути не надто малими (ni > 5), інакше
209
перед застосуванням критерію доцільно об’єднати суміжні інтервали з малими частотами.
Приклад 3.9. У бригаді 5 людей. Протягом 100 днів фіксували кількість робітників, що перевиконували план. Дістали такі результати:
Кількість і робітників, що переви- |
1 |
2 |
3 |
4 |
5 |
|
конували план |
||||||
|
|
|
|
|
||
|
|
|
|
|
|
|
Кількість зафіксованих випадків ni |
31 |
23 |
11 |
8 |
2 |
|
|
|
|
|
|
|
Перевірити за допомогою критерію Пірсона при рівні значущості α = 0,05 гіпотезу про розподіл Пуассона кількості робітників, які
перевиконували план.
Розв’язання. За розподілом Пуассона ймовірність того, що випадкова величина X набула значення, яке дорівнює i , обчислюється за формулою:
P(i, a) = e− a ai , i!
де a — математичне сподівання даної випадкової величини.
За даними спостереження обчислюємо статистичну оцінку xB параметра a закону розподілу Пуассона за формулою
x = |
∑ini |
= 1 31+ 2 23 + 3 11+ 4 8 |
+ 5 2 = 152 ; |
||
i |
|||||
n |
|||||
B |
|
31+ 23 + 11+ 8 + 2 |
75 |
||
|
|
||||
|
|
x |
=2,0267; e−2,0267 = 0,1318. |
||
|
|
B |
|
|
Подальші обчислення подаємо у вигляді табл. 3.6.
Таблиця 3.6
i |
pi |
npi |
n − np |
(n − np ) |
2 |
|
(n − np )2 |
|||
|
|
i |
i |
|||||||
|
|
|
|
|||||||
|
|
|
i |
i |
i |
i |
|
|
|
npi |
|
|
|
|
|
|
|
|
|
|
|
1 |
0,2671 |
20,0325 |
10,9675 |
120,2861 |
|
6,0045 |
||||
2 |
0,2707 |
20,3025 |
2,6975 |
|
7,2765 |
|
|
0,3584 |
||
3 |
0,1829 |
13,7175 |
– 2,7175 |
7,3848 |
|
|
0,5383 |
|||
4 |
0,0927 |
6,9525 |
1,0475 |
|
1,0973 |
|
|
0,1578 |
||
|
|
|
|
|
|
|
|
|||
5 |
0,0376 |
2,8167 |
– 0,8167 |
0,6670 |
|
|
0,2368 |
|||
|
|
|
|
|
|
|
|
|
|
|
210