Учебное пособие Теории вероятностей и математическая статистика
.pdfx |
s |
|
t |
(n 1) m x |
s |
|
t |
(n 1) . |
||
|
|
|
|
|
|
|||||
в |
n 1 / 2 |
в |
n 1 / 2 |
|
Пример: По нормально распределённой выборке объёма п = 16 найдены xв 20,2 и s 0,8. Оценить доверительный интервал с
надёжностью γ = 0,95.
Решение. По таблицам распределения Стьюдента при γ = 0,95 и п
= 16 находим tγ = 2,13. t |
s |
|
2,13 |
0,8 |
|
0,426 , откуда |
||
|
|
|
|
|
|
|||
|
|
|
||||||
|
|
n |
16 |
|
|
xв 19,774, xв
Следовательно,
Замечание. При n , а практически при n > 30, распределение Стьюдента переходит в нормальное распределение.
4.7.3 Интервальная оценка дисперсии нормального распределения
Рассмотрим выборку Х объёма п значений нормально распределённой СВ. Пусть параметры (m, σ ) нормального распределения неизвестны. Построить интервальную оценку дисперсии.
Используя элементы выборки x1, x2 ,..., xn , определим исправлен-
ную выборочную дисперсию s2 и введём в рассмотрение статистику
s2 (n 1)2
Данная величина распределена по закону хи-квадрат с (п – 1) степенями свободы.
(Распределение с п степенями свободы называется распределение суммы квадратов с п независимыми с.в., распределёнными по нормальному закону N (0,1))
Для определения доверительного интервала задаём уровень значи-
мости |
|
|
и введём две квантили |
|||||||
|
|
( |
|
|
) |
и |
|
|
( |
) , |
которые определяются равенствами |
||||||||||
P |
2 / 2; P |
2 |
1 / 2 |
|||||||
1 |
|
|
1 |
|
2 |
2 |
|
|||
Интервал |
|
2 |
2 |
|
|
|
|
|
||
|
1 |
, 2 |
накрывает случайную величину с доверительной |
вероятностью γ :
91
P |
|
2 |
|
s2 (n 1) |
2 |
|
P P |
|
|
|
|
||||||
|
1 |
|
|
2 |
2 |
2 1 |
||
|
|
|
|
|
|
|
|
Этой доверительной вероятности соответствует следующее соотно-
|
1 |
|
|
|
2 |
|
|
1 |
|
s2 |
(n 1) |
|
|
шение: P |
|
|
|
|
|
|
|
|
|
P |
|
|
2 |
2 |
s |
2 |
(n |
1) |
2 |
|
2 |
||||||
|
1 |
|
|
|
2 |
|
|
1 |
|
которое определяет доверительный интервал для σ:
s |
|
n 1 |
|
s |
|
n 1 |
||
|
|
|
|
|
|
|
|
|
|
2 |
2 |
||||||
|
2 |
|
|
|
1 |
|
s2 (n 1)2 ,
2
Пример. По нормальной выборке объёмом п = 30 найдена исправ-
ленная выборочная дисперсия |
. Найти доверительный ин- |
|||||||||||||
тервал для σ при γ = 0,90. |
|
|
||||||||||||
Решение. По таблице для |
находим |
|||||||||||||
|
2 |
2 |
|
2 (0,95;29) 17,7; |
|
|||||||||
|
1 |
|
0,95;30 1 |
|
|
|
|
|
|
|
||||
|
2 |
2 |
|
2 (0,05;29) 42,6. |
||||||||||
|
2 |
|
0,05;30 1 |
|
|
|
|
|
|
|
||||
Следовательно, доверительный интервал для σ имеет вид |
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
30 1 1,5 |
|
30 1 1,5 |
|
||||||||||
|
|
|
|
|
|
|
; |
|
|
|
|
|
1,238 |
1,92. |
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
42,6 |
|
17,7 |
|
|||||||||
|
|
|
|
|
|
|
|
4.8. Проверка статистических гипотез
4.8.1. Основные определения. Виды гипотез. Критерии значимости
92
В ходе статистической обработки выборочной совокупности возникают предположения о тех или иных характеристиках генеральной совокупности (ГС). Речь может идти о виде предполагаемого распределения или, если закон распределения известен, о значении параметров этого распределения. Любое такое утверждение называют
статистической гипотезой.
Выдвинутое для проверки предположение называют основной или нулевой гипотезой Н0 .
Примеры основных гипотез
1.ГС распределена по а) нормальному закону; б) закону Пуассона;
2.Генеральная средняя равна а0; дисперсии 2-х распределений равны и т. д.
Вместе с основной гипотезой выдвигаются одна или несколько противоречащие ей гипотезы Н1 (Нr , r = 1,2 … ), которые называются
альтернативными.
Выдвинутая гипотеза называется простой, если она однозначно определяет параметр или вид распределения случайной величины. Гипотеза называется сложной, если она определяет некоторую область значений параметра. Например, гипотеза Н0: xB a0 – простая,
Н1: xB a0 – сложная.
В ходе статистической проверки гипотезы Н0 при данной альтернативной Н1 одна из них признаётся не противоречащей наблюдаемым данным, другая отвергается. Критерием значимости К для проверки статистической гипотезы является любое правило, определяющее выбор между гипотезами Н0 и Н1 в соответствие с наблюдаемыми значениями признака. Обычно такой критерий задаётся в виде некоторой функции выборки – K x1, x2 ,..., xn и, следовательно, является
случайной величиной. Чаще всего в качестве критерия используется статистика в виде нормированной нормальной величины, например, распределения хи-квадрат, Стьюдента, Колмогорова, Фишера и т. д.
Вычисляя по произведённой выборке значение критерия, которое называется наблюдаемым – Кнабл, мы делаем вывод о том, принимается или нет нулевая гипотеза, и тем самым отвергается или принимается альтернативная Н1. При этом вычисленное значение сравнивается с теоретическим, отвечающим уровню значимости, имеющему очень малую вероятность α.
93
4.8.2Критическая область. Алгоритм проверки гипотез
Суровнем значимости α тесно связана так называемая критическая область значения критерия К. Те значения К, при которых гипотеза
Н0 принимается, образует множество, которое называется областью принятия гипотезы (ОПГ). Всё остальное множество точек, на ко-
торых значения критерия Кнабл , вычисленного при условии истинности Н0 , равна уровню значимости α, называют критической областью (КО). Таким образом, ОПГ соответствует вероятности (1 – α) попадания в неё значения К. Различают одностороннюю (правосто-
ронняя, если К > Kкр, интервал (Kкр , ), и левосторонняя, если К < Kкр, интервал ( , Kкр )) и двухстороннюю
(K Kкр1, K Kкп2 , Kкп2 Kкр1 ) критические области (см. рис. 4.6 ).
Алгоритм проверки гипотезы состоит из следующих этапов.
1. Формулируется нулевая Н0 и альтернативная Н1 гипотезы.
2.Задаётся уровень значимости α, значение которого обычно достаточно малым – обычно порядка 0,1 или меньше.
3.Выбирается статистика К критерия значимости, распределение которой известно.
4.Определяется тип критической области (односторонняя или двухсторонняя) и граничные значения Ккр.
5.На основе выборочных данных вычисляется наблюдаемое значение КВ.
94
6.Проверяется выполнение критерия. Если КВ попадает в критическую область, то нулевая гипотеза отвергается; если КВ попадает в допустимую область ОПГ, то считается, что данные вы-
борки не противоречат выдвинутой гипотезе Н0 и она принимается.
Возможные результаты проверки приведены в таблице. Поясним эти ситуации.
1.Вероятность отвергнуть проверяемую гипотезу Н0, когда она истинна. Эта вероятность как раз равна уровню значимости α.
2.Вероятность принять Н0 в случае, когда она истинна, и она рав-
на 1 – α.
3.Вероятность 1 – β означает, что отклоняется Н0, когда она ложна (т. е. истинна альтернативная гипотеза Н1 ).
4.Вероятность β есть вероятность того, что принимается гипотеза Н0, когда она ложна.
Вероятности α и β называются вероятностями ошибок первого и второго рода.
Ошибкой 1-го рода называется ошибка отклонения истинной гипоте-
зы Н0 .
Ошибка 2-го рода: отвергается альтернативная гипотеза Н1 , когда она на самом деле верна. Вероятность ошибки 1-го рода (равной α) называется уровнем значимости критерия. Чем она меньше, тем меньше вероятность отклонить верную гипотезу.
Величину 1 – β , т. е. вероятность недопущения ошибки 2-го рода называется мощностью критерии. Правильным решениям соответствуют недиагональные элементы таблицы (1 – α и 1 – β).
Примеры ошибок первого и второго родов.
1) Если отвергается истинное утверждение: «Студент Иванов заслуживает оценки 2», то он получает оценку «3» или выше – это
95
ошибка 1-го рода. Если же принимается ложное утверждение: «студент Иванов заслуживает оценки «2», то это ошибка 2-го рода.
2) Отвергнуто правильное решение: «продолжить строительство жилого дома» – ошибка 1-го рода, принято неверное решение: «продолжить строительство» – ошибка 2-го рода. Цена каждой ошибки зависит от конкретных условий.
Исследователю важно повысить вероятность правильных решений, т. е. одновременно уменьшить вероятности α и β. Однако попытка при том же объёме выборки уменьшить α будет приводить к увеличению вероятности β. Наоборот, при увеличении α вероятность β будет уменьшаться. Единственный способ улучшения обоих критериев – увеличение объёма выборки.
4.8.3 Проверка гипотез о виде распределения
Виды гипотез, которые приходится решать в статистике, можно разделить на два класса: гипотезы о параметрах распределения, которое приблизительно известно, и о характере самого распределения. Здесь мы рассмотрим вторую задачу.
При исследовании статистических данных по виду гистограмм можно сделать предварительное заключение о виде закона распределения. Здесь ставится задача с помощью критерия согласия подтвердить или опровергнуть характер распределения. Наиболее часто используются критерии согласия Пирсона и Колмогорова.
1) Критерий 2 (хи-квадрат) К. Пирсона
Пусть требуется проверить гипотезу Н0 о законе распределения с.в. Х с функцией распределения F (x). В качестве альтернативной гипотезы принимается положение, что гипотеза Н0 не выполняется. Для проверки используется выборка объёма п.
Всю область значений с. в. Х разбивают на m промежутков
с граничными точками x1 x2 ... xm 1 . В общем случае, когда значения с. в. занимают всю числовую ось, промежутки
i (i 1, m) соответствуют отрезкам ( , x1 ],(x1, x2 ],... (xm 1, ) . Подсчитывают вероятности рi (i 1, m) попадания в интервал , ис-
96
пользуя формулу P X F( ) F , |
pi 1. С их по- |
|||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
i |
|
|
|
|
мощью находят значения теоретических частот |
ni n pi , причём |
|||||||||||||||||
ni n . Эти частоты обычно относят к серединам интервалов. В ка- |
||||||||||||||||||
i |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
честве критерия проверки гипотезы Н0 используют с. в. |
|
|
|
|
||||||||||||||
|
|
|
m |
ni |
ni |
2 |
m |
2 |
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|||||||||
|
2 |
|
|
ni |
|
n набл2 . |
(4.12) |
|
|
|
||||||||
|
|
ni |
|
|
|
|
|
|
||||||||||
|
|
|
i 1 |
|
|
|
i 1 |
npi |
|
|
|
|
|
|||||
Согласно теореме Пирсона, при n статистика (4.12) имеет |
||||||||||||||||||
2 распределение |
с s m r 1 степенями свободы, где |
|
|
число |
||||||||||||||
интервалов, |
r – число параметров, оцениваемых по выборке. В част- |
|||||||||||||||||
ности, для нормального распределения r = 2, и |
s m 3; для закона |
|||||||||||||||||
Пуассона r = 1 и s m 2 . |
|
|
|
|
|
|
|
|
|
|||||||||
Задавая значение α, по таблице критических точек |
|
распре- |
||||||||||||||||
деления находится |
K |
кр |
2 |
(s) |
с значением s, определённым выше. |
|||||||||||||
|
|
|
|
|
|
|
|
1 |
|
|
|
|
|
|
|
|
||
Если 2 |
|
K |
кр |
, то гипотеза Н |
принимается. При 2 |
K |
кр |
гипо- |
||||||||||
набл |
|
|
|
|
|
|
|
|
0 |
|
|
набл |
|
|
|
теза Н0 противоречит выборочным данным на уровне значимости α, и она отклоняется.
При практическом применении критерия Пирсона желательно, чтобы разбиения на интервалы проводилось таким образом, чтобы
теоретические частоты |
ni n pi удовлетворяли условиям пi 5 , (в |
[7] рекомендуется |
), а число разрядов должно быть не менее 7 |
– 8. Другие практические рекомендации заключаются в следующем. Первоначально находятся середины промежутков xi , которым
соответствуют заданные частоты ni . По этим данным определяются
значения выборочного среднего |
̅и СКО |
в |
по формулам (3) и (5): |
||||||||
|
|
|
|
|
|
|
|
в |
|
||
|
|
1 |
k |
|
|
|
1 |
k |
|
|
|
xв |
|
xi ni , (3); |
Dв |
в |
2 |
(xi xв )2 |
ni . (5) |
||||
|
|
||||||||||
|
|
n i 1 |
|
|
|
n i 1 |
|
|
Нормируют с. в. Х, т. е. переходят к вспомогательной с. в.
zi xi xв / в (4.13) с
соответствующей функцией распределения F(x) (для нормального распределения это будет функция N (0, 1)) и вычисляют теоретические вероятности рi попадания в интервал
97
p1 F (z1 ), p2 F (z2 ) F (z1 ),..., pm F (zm ), |
pi |
1, |
|
i |
ni pi n; ni n . |
после чего вычисляются теоретические частоты |
i
Современная компьютерная техника позволяет вести расчёт по исходным формулам, например, в среде Mathcad или Excel. Однако если такого технического оснащения нет, то приходится пользоваться малой техникой, и тогда ручной счёт становится объёмным и утомительным. Для его облегчения можно воспользоваться следующим приёмом, который мы рассмотрим на примере.
Пример 1. При измерении размеров двухсот деталей получены следующие результаты, которые приведены в таблице
xi – |
6,67- |
6,69- |
6,71- |
6,73- |
6,75- |
6,77- |
6,79- |
6,81- |
6,83- |
xi+1 |
6,69 |
6,71 |
6,73 |
6,75 |
6,77 |
6,79 |
6,81 |
6,83 |
6,85 |
ni |
2 |
13 |
19 |
44 |
52 |
43 |
16 |
10 |
1 |
Выяснить, можно ли при уровне значимости α = 0,05 считать, что размер детали имеет нормальный закон распределения.
Решение. Для упрощения вычислений выборочных среднего и
|
1 |
|
|
|
|
|
дисперсии введём с.в. u |
(x C), |
i 1, m, где – ширина ин- |
||||
|
||||||
i |
|
i |
|
|
|
|
|
|
|
|
|
тервала, С – константа, равная выборочной моде. Тогда выборочная средняя и дисперсия для с.в. Х через с.в. U запишется в виде:
x |
|
, |
D 2 |
D |
|
|
|
|
|
|
|
|||
u |
|
|
|
|
|
|
|
|||||||
в |
|
X |
U |
|
|
|
|
|
|
|
||||
В нашем случае |
0,02; |
C 52. Вычисление выше названных |
||||||||||||
величин представим в виде таблицы: |
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
i |
|
xi |
ui |
ni |
|
ni ui |
ni u2i |
ni(ui+1)2 |
|
|
|
|
|
|
1 |
|
6,68 |
-4 |
2 |
|
-8 |
32 |
18 |
|
|
|
|
|
|
2 |
|
6,70 |
-3 |
13 |
|
-39 |
117 |
52 |
|
|
|
|
|
|
3 |
|
6,72 |
-2 |
19 |
|
-38 |
76 |
19 |
|
|
|
|
|
|
4 |
|
6,74 |
-1 |
44 |
|
-44 |
44 |
0 |
|
|
|
|
|
|
5 |
|
6,76 |
0 |
52 |
|
0 |
0 |
52 |
|
Послед- |
|
6 |
|
6,78 |
1 |
43 |
|
43 |
43 |
172 |
ний столбец |
|||
таблицы слу- |
|
7 |
|
6,80 |
2 |
16 |
|
32 |
64 |
144 |
жит для кон- |
|||
троля вычис- |
|
8 |
|
6,82 |
3 |
10 |
|
30 |
90 |
160 |
лений при по- |
|||
мощи тожде- |
|
9 |
|
6,84 |
4 |
1 |
|
4 |
16 |
25 |
ства |
|||
|
|
|
|
|
Σ |
|
– |
– |
200 |
-20 |
482 |
642 |
|
|
|
|
|
|
|
|
|
|
|
|
|
98 |
|
|
|
ni (ui 1) niui2 2 niui ni ,
Подставляя сюда числа из последней строки таблицы, получим
200 – 40 + 482 = 642.
Из данных таблицы находим
|
|
20 |
0,1; |
D |
1 |
(482 200 ( 0,1)2 ) 2,4 |
|
u |
|||||||
|
|
||||||
200 |
|
U |
200 |
|
|||
|
|
|
|||||
Отсюда находим xв |
0,02 ( 0,1) 6,76 6,758; |
D |
(0,02)2 2, 4 0,00096; s |
|
D |
0,031. |
|
|
|
|||||||||
X |
|
|
|
|
|
|
X |
|
|
|
|
|
|
|
|
|
Далее вычисляем |
2 |
, для чего снова составляем следующую таб- |
||||||||||||||
|
|
|
|
набл. |
|
|
|
|
|
|
|
|
|
|
|
|
лицу: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
I |
|
zi |
0 (zi ) |
pi |
|
n np |
|
ni |
|
(ni ni )2 |
|
|
|
|||
|
|
|
|
|
|
i |
|
i |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ni |
Здесь zi |
опреде- |
||||
|
|
|
|
|
|
|
|
|
|
|
|
|||||
0 |
|
-∞ |
-0,5 |
0,0142 |
2,84 |
|
|
|
2 |
|
|
|
||||
|
|
|
|
|
|
|
ляется по форму- |
|||||||||
1 |
|
-2,194 |
-0,4858 |
0,0466 |
12,16 |
|
15 |
0,663 |
|
|||||||
|
9,32 |
|
|
|
13 |
|
ле (4.13), причём |
|||||||||
|
|
|
|
|
|
24,50 |
|
|
19 |
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
первый и по- |
|||||
2 |
|
-1,548 |
-0,4392 |
0,1225 |
42,96 |
|
|
44 |
1,235 |
|
||||||
|
|
|
|
следний интерва- |
||||||||||||
3 |
|
-0,903 |
-0,3167 |
0,2148 |
50,50 |
|
|
52 |
0,025 |
|
||||||
|
|
|
|
лы распростра- |
||||||||||||
4 |
|
-0,258 |
-0,1019 |
0,2525 |
39,68 |
|
|
43 |
0,045 |
|
||||||
|
|
|
|
няются на всю |
||||||||||||
5 |
|
0,387 |
0,1506 |
0,1984 |
20,84 |
|
|
16 |
0,278 |
|
||||||
|
|
|
|
вещественную |
||||||||||||
6 |
|
1,032 |
0,3490 |
0,1042 |
7,34 |
|
|
|
10 |
1,124 |
|
|||||
|
9,36 |
|
|
ось в соответ- |
||||||||||||
7 |
|
1,677 |
0,4532 |
0,0367 |
|
|
11 |
|
|
|
||||||
|
2, 02 |
|
|
|
1 |
|
|
|
ствие с опреде- |
|||||||
8 |
|
2,326 |
0,4899 |
0,0101 |
|
|
|
|
|
0,287 |
|
|||||
|
|
|
|
|
|
|
лением нормаль- |
|||||||||
9 |
|
+∞ |
0,5 |
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
ного распределе- |
|||||
Σ |
|
– |
– |
1,0000 |
200 |
|
|
|
набл2 . |
4, 062 |
||||||
|
|
|
|
ния; |
|
(z ) |
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0 |
i |
находятся по таблицам нормированного нормального распределения, а pi по формулам (4.14). Первые и последние интервалы объединены, поскольку требуется, чтобы было ni > 5. В итоге получили 7 интервалов и число степеней свободы s = 7 – 3 = 4. По таблицам определяем критическое значение ̃ ( ) ̃ ( ) набл, из чего делаем заключение, что гипотеза о нормальном распределении размеров деталей принимается.
Можно найти максимальный уровень значимости, при котором это согласие имеет место. По таблицам находим максимальное значе-
ние , для которого справедливо макс |
( ̃ ( ) |
набл). В дан- |
|
ном случае макс |
т е имеем хорошее согласие гипотезы со |
||
статистическими данными. |
|
|
|
|
99 |
|
|
Пример 2. ОТК проверил 200 партий одинаковых изделий и по-
лучил результаты, приведённые в |
|
|
|
|
|
|||||
таблице: |
|
|
|
|
|
|
|
|
|
|
|
xi |
0 |
|
1 |
2 |
3 |
4 |
|
||
|
|
|
|
|
||||||
|
|
|
ni |
116 |
|
56 |
22 |
4 |
2 |
|
Здесь в первой строке указано количество xi нестандартных дета- |
||||||||||
лей, во второй – количество партий, содержащих xi нестандартных |
изделий. При уровне значимости α = 0,05 проверить гипотезу о том, что число нестандартных изделий распределено по закону Пуассона.
Решение. По заданному распределению находим выборочную
среднюю: xв |
1 |
ni xi |
|
116 0 56 1 22 2 4 3 2 4 |
0,6 |
|
|||
|
|
|
|||||||
|
n |
200 |
|
|
|
|
|||
и примем её за параметр λ распределения Пуассона |
Pn (i) |
i e |
. |
||||||
i! |
|||||||||
|
|
|
|
|
|
|
|
||
Следовательно, |
λ = 0,6 , а закон Пуассона запишется в виде |
|
|
|
(0,6)i e 0,6 |
|
|
|
|
P (i) |
, i 0,4 . |
||||
|
|||||
200 |
i! |
|
|
|
|
|
|
|
|
Вычисляя по этой формуле вероятности Рi появления нестандартных изделий, а по ним – теоретические частоты, получим данные, по которым составим таблицу:
|
|
|
|
|
|
|
|
|
По уровню значимости α = |
|||
i |
ni |
|
ni |
ni ni |
|
|
(ni ni )2 |
|
0,05 |
и |
числу степеней сво- |
|
|
|
|
|
|
|
|
ni |
боды |
|
|
|
|
0 |
116 |
109,76 |
6,24 |
|
0,3548 |
|
|
|
|
|||
|
|
находим критическое значе- |
||||||||||
1 |
56 |
|
65,86 |
-9,86 |
|
1,4762 |
|
|||||
|
|
|
ние |
2 |
(0,05;2) 6,0 . По- |
|||||||
2 |
22 |
|
19,76 |
2,24 |
|
0,2539 |
|
|
кр |
|
|
|
|
|
|
|
|
набл2 |
кр2 , то гипотеза |
||||||
3 |
4 |
6 |
|
|
|
|
|
|
скольку |
|||
4 |
|
4,62 |
1,38 |
|
0,4122 |
|
о распределении по закону |
|||||
2 |
|
|
|
|||||||||
Σ |
200 |
200 |
набл2 |
2,50 |
Пуассона принимается. |
Аналогично проверяется критерий Пирсона и для других законов распределений непрерывных и дискретных случайных величин.
2) Критерий Колмогорова
Критерий Колмогорова является наиболее простым способом проверки гипотезы, но он ограничен тем, что применим только для
100