Математическая_Статистика_КР8
.pdf37
ν
∑ni = n .
i=1
С помощью критерия Пирсона можно проверить гипотезу о различных законах распределения генеральной совокупности (равномерном, нормальном, показательном и др.)
Схема применения критерия χ2 для проверки гипотезы H0 сводится к следующему.
1. Формулируют основную гипотезу H0 , которая заключается в том, что
исследуемая случайная величина X подчиняется определенному закону распределения.
2.По результатам наблюдений находят оценки неизвестных параметров этой модели (допустим, что их число равно r).
3.Вместо неизвестных параметров подставляют в модель закона найденные
оценки.
4.В результате предполагаемая модель закона оказывается полностью оп-
ределенной и, используя ее, рассчитывают вероятности pi теор = P(X = xi ) , того,
что случайная величина X примет зафиксированные в наблюдениях значения xi , i =1,2,...,ν . Эти вероятности называют теоретическими.
5.Находят теоретические частоты ni′ = npiтеор .
6.В качестве критерия выбирается случайная величина
χ2 = ∑ |
(ni −ni′) |
2 |
(6.16) |
, |
|
||
|
ni′ |
|
|
имеющая закон распределения χ2 с числом степеней свободы k = ν |
– 1 – r, где ν |
– число частичных интервалов выборки или вариант, r – число параметров предполагаемого распределения.
7. Критическая область выбирается правосторонней, и граница ее при заданном уровне значимости α χкр2 (α,k) находится по таблице критических точек
распределения χ2 (см. приложение 4).
Это значит, что если χ2 > χкр2 (α,k) , то гипотеза H0 отвергается, в противном случае принимается.
Замечание: Критерий согласия Пирсона можно использовать лишь в том
случае, когда ni′ ≥ 5. Если в какой-нибудь группе вариационного ряда это усло-
вие не выполняется, то имеет смысл объединить две соседние группы, так поступают до тех пор, пока для каждой новой группы не будет выполняться неравенство ni′ ≥ 5.
38
Приведем некоторые факты, необходимые для построения теоретического распределения по опытным данным.
Пусть по выборке объема n получен дискретный статистический ряд:
Варианты |
x1 |
x2 |
... |
xν |
Частоты |
n1 |
n2 |
... |
nν |
Проверки гипотезы о биномиальном законе распределения
◄ Для проверки гипотезы о биномиальном распределении генеральной совокупности в качестве оценки параметра p принимается p = mx , где m – число испыта-
|
i i |
(1 |
|
|
n−i |
ний в одном опыте. Тогда теоретические частоты ni′ = n pi , где pi = Сn p |
− p) |
|
|||
, i =1,2,...,ν . Биномиальное распределение определяется одним параметром, |
по- |
||||
этому число степеней свободы |
k =ν − 2 . ► |
|
|
|
|
Проверки гипотезы о законе распределения Пуассона
◄ Для проверки гипотезы о распределении генеральной совокупности по закону Пуассона в качестве оценки параметра λпринимается λ = x . Тогда теоретические
частоты ni′ = n pi , где |
pi = |
λi |
|
|
i! |
e−λ , i =1,2,...,ν . Пуассоновское распределение оп- |
|||
|
|
|
k =ν − 2 . ► |
|
ределяется одним параметром, поэтому число степеней свободы |
Пусть по выборке объема n получен интервальный статистический ряд:
Номер интервала |
Границы |
Абсолютные |
|
интервала |
частоты |
1 |
[ x0 ; x1) |
n1 |
2 |
[ x1; x2 ) |
n2 |
… |
… |
… |
i |
[ xi−1; xi ) |
ni |
… |
… |
… |
ν |
[ xν −1 ; xν ) |
nν |
Проверки гипотезы о нормальном законе распределения
◄ Для проверки гипотезы о нормальном распределении генеральной совокупности в качестве оценок параметров a и σ принимается соответственноa = х и
|
2 = s2 . Для n′ = n p |
, где n – объем выборки, |
p |
|
|
|
x |
i+1 |
− x |
|
|
x |
i |
− x |
x |
|||||
σ |
|
= Φ |
|
|
|
|
|
−Φ |
|
|
|
|
, |
|||||||
|
|
|
s |
|
|
|
|
s |
||||||||||||
|
i |
i |
|
|
i |
|
0 |
|
|
|
|
0 |
|
|
|
i |
и xi+1 – левая и правая границы i-го интервала (i =1,2,...,ν ), x - выборочное среднее, s = s2 – выборочное среднее квадратическое отклонение. Поскольку нор-
39
мальное распределение характеризуется двумя параметрами, число степеней свободы k =ν −3. ►
Проверки гипотезы о показательном законе распределения
◄ Для проверки гипотезы о показательном распределении генеральной совокуп-
ности в качестве оценки параметраλ принимается |
|
1 |
. Тогда теоретические |
||||||
λ = |
х |
||||||||
частоты ni′ = n pi , где pi |
|
|
|
|
|
|
|
|
|
вычисляется как разность значений функции распреде- |
|||||||||
ления на концах интервала: p |
i |
= F(x |
i+1 |
) − F(x |
) = e−λxi |
−e−λxi+1 , если x > 0 и |
|||
|
|
|
i |
|
|
|
i |
||
xi+1 > 0 (i =1,2,...,ν ). Если xi ≤ 0 (i = 0,1,2,...,ν ), то F(xi ) = 0. |
|||||||||
Показательное распределение определяется одним параметром, поэтому |
|||||||||
число степеней свободы |
k =ν − 2 . ► |
|
|
|
|
|
Проверки гипотезы о равномерном законе распределения
◄ Для проверки гипотезы о равномерном распределении генеральной совокупности концы интервала, в котором наблюдались возможные значения Х, оценива-
ются |
по |
|
формулам: |
a = x − |
|
s; |
b = x + |
|
s |
или |
||
|
3 |
3 |
||||||||||
a = min{x1, x2 ,..., xn}; |
|
b = max{x1, x2 ,..., xn}. |
|
|
|
|
|
|
||||
|
Тогда |
теоретические |
частоты |
|
|
ni′ = n pi , |
где |
|||||
p |
= F(x |
) − F(x ) = |
(xi+1 − xi ) |
; i = 2,3,...,ν , если и |
|
x |
лежат внутри интервала |
|||||
i |
i+1 |
i |
|
|
|
|
i+1 |
|
|
|
|
|
|
|
|
|
b − a |
|
|
|
|
|
|
|
|
[a;b]. Если xi < a , то F(xi ) = 0, если xi |
> b , то F(xi ) =1 (i = 0,1,2,...,ν ). |
|
Число степеней свободы k =ν − 2 , так как равномерное распределение оценивается двумя параметрами. ►
Пример 6.5. Для выборки, интервальный статистический ряд которой имеет вид
Номер интервала |
Границы интервала |
Эмпирические частоты |
|
|
|
|
|
1 |
2 |
– 5 |
1 |
|
|
|
|
2 |
5 |
– 8 |
8 |
|
|
|
|
3 |
8 – 11 |
20 |
|
|
|
|
|
4 |
11 |
– 14 |
22 |
|
|
|
|
5 |
14 |
– 17 |
14 |
|
|
|
|
6 |
17 |
– 20 |
5 |
|
|
|
|
Проверить при уровне значимости α = 0,05 гипотезу о: а) показательном; б) равномерном; в) нормальном
законе распределения генеральной совокупности с помощью критерия Пирсона.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
40 |
|
|
|
|
|
|
|
|
|
|
|
|
Решение |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Объем выборки n = 70. Будем считать вариантами середины частичных ин- |
|||||||||||||||||||||||||
тервалов: x1 = 3,5, x2 = 6,5,…, x6 |
|
= 18,5. |
|
|
|
|
|
|
|
|
|
|
||||||||||||||
|
Найдем x = 11,86; s2 |
= 11,97; s = 3,46. |
|
|
|
|
|
|
|
|
|
|||||||||||||||
|
а) Вычислим теоретические частоты в предположении о показательном рас- |
|||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
|
0,084 : |
|
||
пределении генеральной совокупности при λ = |
|
|
|
|
= |
|
||||||||||||||||||||
11,86 |
|
|
||||||||||||||||||||||||
|
n1′ = 70(e−0,084 2 −e−0,084 5 )=13,21; |
|
|
|
|
|
|
|
||||||||||||||||||
|
|
|
|
аналогично |
|
n2′ =10,26; |
||||||||||||||||||||
n3′ =8; |
n4′ = 6,2; |
n5′ = 4,8; n6′ = 3,73. Поскольку n6′ = 3,73 < 5 укрупняем интервалы |
||||||||||||||||||||||||
(число |
интервалов |
становится |
|
равным |
5) и |
получаем |
n1′ =13,21; n2′ =10,26; |
|||||||||||||||||||
n3′ =8; |
n4′ = 6,2; |
n5′ =8,53;. |
|
|
|
Наблюдаемое |
|
|
|
|
значение |
критерия |
||||||||||||||
χнабл2 |
= (6 −13,21)2 +... + |
(19 −8,53)2 |
=83,19. Критическая точка χ2 (0,05;3)=7,81; |
|||||||||||||||||||||||
|
|
13,21 |
|
|
|
|
|
|
|
8,53 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
χнабл2 |
> χкр2 , и гипотеза о показательном распределении отклоняется. |
|
||||||||||||||||||||||||
|
б) Для равномерного распределения a =11,43 − |
|
|
4,05 = 4,45; |
|
|||||||||||||||||||||
|
|
3 |
|
|||||||||||||||||||||||
|
b =11,43 + |
|
|
4,05 =18,41. |
|
|
Теоретические частоты: |
|
|
|||||||||||||||||
|
|
3 |
|
|
|
|||||||||||||||||||||
n1′ = 70 |
(F(5) − F(2)) |
= 70 |
( |
|
5 −4,45 |
|
|
−0) = 70 0,0394 = 2,76 |
, |
|
||||||||||||||||
|
|
|
|
|
|
|
||||||||||||||||||||
|
|
|
|
|
|
|
|
18,41−4,45 |
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
ni '= 70 pi |
= 70 |
|
|
|
3 |
|
|
=15,04; |
i = 2,3,...,5, |
|
|
|
|
||||||||||||
|
18,41− 4,45 |
|
|
|
|
|
||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
n6′ = 70 (F(20) − F(17)) = 70 (1− |
|
17 −4,45 |
|
|
) = 70 0,1 = 7 . |
|
|||||||||||||||||||
|
18,41−4,45 |
|
||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
Поскольку n1′ |
= 2,76 < 5 укрупняем первый интервал и получаем |
n1′ =17,8 , |
|||||||||||||||||||||||
ni '=15,04; i = 2,3,4, |
|
|
n5′ = 7 . |
|
|
|
|
|
Наблюдаемое |
|
|
значение |
критерия |
|||||||||||||
χнабл2 |
= (9 −15,04)2 +... + |
(5 −7)2 |
=8,24. |
Критическая точкаχ2 (0,05;2) = 5,99; |
||||||||||||||||||||||
|
|
15,04 |
|
|
|
|
|
|
|
7 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
χнабл2 |
> χкр2 , и гипотеза о равномерном распределении отклоняется. |
|
в) Теоретические частоты для нормального распределения:
′ |
|
|
|
|
5 −11,86 |
|
|
2 −11,86 |
|
|
|
|
||
|
|
Φ0 |
−Φ0 |
|
=1,5 . |
|
|
|||||||
n1 = 70 |
|
|
3,46 |
|
|
3,46 |
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
||
Так |
же |
вычисляются |
Укрупняем |
интервалы и получаем |
n1′ = 9,1, |
|||||||||
n2′ =18,9; |
n3′ = 23; |
|
n4′ =18. |
|
|
Наблюдаемое |
значение |
критерия |
|
|
|
|
41 |
|
χнабл2 = |
(9 −9,1)2 |
+... + |
(19 −18)2 |
= 0,165 Критическая точка |
χ2 (0,05; 1) = 3,84. |
|
9,1 |
|
18 |
|
|
Поскольку χнабл2 |
< χкр2 , гипотеза о нормальном распределении |
генеральной сово- |
купности принимается. ►
Приведем примеры проверки гипотезы о законе распределения случайной величины с помощью критерия Пирсона, выполненной средствами Microsoft Excel.
Пример 6.6. По успеваемости 100 студентов-заочников, которые сдавали 4 экзамена получена выборка. Необходимо проверить гипотезу о биномиальном законе распределения случайной величины.
Решим поставленную задачу с помощью Microsoft Excel.
1. В новой рабочей книге сгенерируем выборку с помощью Пакета анализа (Сервис/Анализ данных/Генерация случайных чисел). Понятно, что необходимо генерировать значения случайной величины, имеющей биномиальное распределение. Зададим вероятность успеха в одном испытании равной 0,8 (см. рис.6.1).
Рисунок 6.1.
Далее считаем, что полученная последовательность – выборка объемом n=100, характеризующая успеваемости 100 студентов-заочников, каждый из которых сдавал 4 экзамена. X — случайная величина равная числу сданных экзаменов одним студентом.
42
2. Выдвигаем основную гипотезу H0 : исследуемая случайная величина X имеет биномиальный закон распределения.
3. Далее выполняем шаги согласно схеме предложенной выше. Получаем лист Excel, представленный на рис.6.2. На рис.6.3 представлен лист Excel с формулами. Обратите внимание, что диапазон F20:F24 содержит формулу массива. Описательную статистику выполняем с помощью Пакета анализа (Сервис/Анализ данных/Описательная статистика).
При вычислении критерия число групп уменьшилось (почему?), число степеней свободы критерия вычислили с.о.: число групп минус один параметр минус единица, получили что число степеней свободы равно1. Задали уровень значимости равный 0,05.
Поскольку χ2 < χкр2 (α,k) , основную гипотезу H0 о виде распределения принимаем.
Пример 6.7. По данным выборочного обследования получена выборка среднедушевого дохода населения в тыс. рублей. Необходимо проверить гипотезу о нормальном законе распределения случайной величины.
Решим поставленную задачу с помощью Microsoft Excel.
1.В новой рабочей книге сгенерируем выборку с помощью Пакета анализа (см. рис.6.4). Будем считать, что СВ X — среднедушевой доход населения подчиняется нормальному закону распределения.
Далее считаем, что полученная выборка объемом n=100 характеризует среднедушевой доход населения.
2.Выдвигаем основную гипотезу H0 : исследуемая случайная величина X имеет
нормальный закон распределения.
43
1. Выполняем
описательную
статистику
2. Находим оценку пара-
метра распределения
3.Определяем ва-
рианты
4.Находим
абсолютные
частоты
Рисунок 6.2.
5. Находим
теоретическую
вероятность
6. Находим
теоретическую
частоту
7. Находим
значения критерия
8. Иллюстрируем
полученный результат
=ХИ2ОБР(D21;1)
Рисунок 6.3.
44
Рисунок 6.4.
3. Далее выполняем шаги согласно схеме предложенной выше. Получаем лист Excel, представленный на рис.6.5 и на рис.6.6 представлен лист Excel с формулами.
Оценки параметров нормального распределения находятся в таблице Описательная статистика (Сервис/Анализ данных/Описательная статистика).
Заметим, что при получении теоретической вероятности для интервального статистического ряда вычисляется вероятность попадания в интервал по формуле
P( a < X < b ) = F( b ) − F( a ).
Обратите внимание, что диапазон G7:G15 содержит формулу массива.
При вычислении критерия диапазоны число групп уменьшилось (почему?), число степеней свободы критерия вычислили с.о.: число групп-два параметра-1, получили что число степеней свободы равно 3. Задали уровень равный 0,05.
Поскольку χ2 < χкр2 (α,k ), основную гипотезу H0 о виде распределения принима-
ем.
3. Записы-
ваем границы интервалов
45
1. Вы-
полняем описательную статистику
Рисунок 6.5.
2. Находим
интервальный статистический ряд
5.Находим
теоретическую вероятность.
6.Находим
теоретическую
частоту.
4. Находим инте-
гральную функцию распределения на концах интервалов
7. Рассчи-
тываем
критерий
46
Рисунок 6.6.