Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Теория вероятностей и математическая статистика. Прикладная статистика с использованием MS EXCEL

.pdf
Скачиваний:
8
Добавлен:
12.11.2023
Размер:
3.04 Mб
Скачать

между нею и гистограммой статистического распределения неизбежны некоторые расхождения.

Естественно возникает вопрос: объясняются ли эти расхождения только случайными причинами или они являются существенными и связаны с тем, что плохо подобрана вероятностная модель. Для ответа на этот вопрос производится проверка нулевой гипотезы с помощью так называемых критериев согласия.

Принципы построения таких критериев и методика проверки остаются практически такими же, как и в случае параметрических гипотез. Для того чтобы принять или опровергнуть гипотезу H0, рассматривают некоторую выборочную статистику (критерий), характеризующую степень расхождения теоретического и статистического распределений. По распределению этой статистики, полученному в предположении истинности нулевой гипотезы, и заданному уровню значимости находятся критические значения и сравниваются с наблюдаемым значением критерия.

Наиболее распространенными из непараметрических критериев значимости являются критерий согласия χ2 Пирсона и λ −критерий А.Н. Колмогорова. Мы подробно рассмотрим здесь только критерий согласия Пирсона. Относительно критерия Колмогорова отметим, что он выгодно отличается простотой вычисления наблюдаемого значения от критерия χ2, но для принятия гипотезы необходимо знать критические точки распределения Колмогорова, не представленные в MS Excel. В пакете STATISTICA при подборе закона распределения для выборки можно одновременно использовать подсчет наблюдаемых значений критериев Колмогорова и Пирсона.

111

На практике приходится сталкиваться с тем, что для одной и той же выборки удовлетворительные результаты аппроксимации распределения дают разные законы. В этом случае следует выбирать тот закон, который дает меньшее значение используемого критерия.

3.3.1. Критерий согласия χ2

(Пирсона)

 

 

Пусть произведено n независимых опытов, в каждом из

которых случайная величина

X приняла определенное значе-

ние. Результаты опытов сгруппированы

в m

разрядов и

оформлены в виде статистического ряда:

 

 

 

 

 

 

 

 

Разряды («карманы»,

(x1, x2 )

 

(x2 , x3 )

(xm , xm+1 )

подынтервалы)

 

Относительные

p

 

p

p

 

 

частоты pj = nj / n

1

 

2

 

m

 

 

 

 

 

 

 

 

 

Зная теоретический (гипотетический) закон распределения, можно найти теоретические вероятности попадания случайной величин в каждый из разрядов: p1, p2 , ..., pm .

Проверяя согласованность теоретического и статистического распределений, будем исходить из расхождений между теоретическими вероятностями pi и наблюденными частотами

pi . Естественно выбрать в качестве меры расхождения между ними сумму квадратов отклонений pi pi , взятых с некоторыми значениями веса ci :

m

K = ci ( pi pi )2.

i=1

Коэффициенты ci (весы разрядов) вводятся потому, что

отклонения нельзя считать равноценными по значимости для всех разрядов: одно и то же по абсолютной величине откло-

112

нение pi pi может быть малозначительным, если сама вероятность pi велика, и очень заметным, если она мала. Поэтому естественно значения веса взять обратно пропорциональными вероятностям pi разрядов.

К. Пирсон показал, что если положить сi = n / pi , то при

больших значениях n закон распределения величины K практически не зависит от функции распределения наблюдаемой случайной величины и от числа опытов, при увеличении их числа приближается к распределению χ2 с ν = m r 1 сте-

пенями свободы ( m число разрядов, r число параметров гипотетической функцииF(x) , оцениваемых по выборке). Та-

ким образом,

 

n( p p )2

 

 

 

m

 

 

K =

i i

→ χ2

.

 

 

pi

n→∞

mr 1

 

 

i=1

 

 

 

Вдальнейшем мы эту статистику будем обозначать

χ2mr 1 и для удобства вычислений записывать в виде:

m

(n np )2

χ2mr 1 =

i

i

, где ni – частота i-го разряда.

 

npi

i=1

 

 

Критерий χ2 использует тот факт, что случайная величина

ni npi , i = 1, 2, …, m имеет распределение, близкое к стан- npi

дартному нормальномуN (0;1). Чтобы это утверждение было достаточно точным, необходимо, чтобы для всех интервалов выполнялось условие npi 5. Если в некоторых интервалах это условие

невыполняется, тоихследует объединитьссоседними.

Таким образом, процедура применения критерия согласия

χ2 (Пирсона) состоит из следующих этапов:

1.По выборке найти точечные оценки неизвестных параметров предполагаемого закона распределения F(x), если они

неизвестны.

113

2.Составить группированный статистический ряд с достаточной длявыполнения условия npi 5 частотой ni разрядов.

3.Вычислить теоретические вероятности pi попадания

случайной величины в каждый из разрядов.

4. Вычислить выборочное значение статистики критерия

m

(n np )2

χнабл2 =

i

i

.

 

 

i=1

 

npi

5. По таблицам распределения χ2 с m r 1 степенями сво-

боды и при уровне значимости α найти квантиль χ21−α; mr1 , яв-

ляющуюсяправостороннейкритическойточкой (χ2 )прав.

 

 

кр, α

6. Принять статистическое решение: если

χ2набл < χ21−α; mr 1,

то данные наблюдений не противоречат гипотезе H0 на уровне

значимости α. Если же окажется χ2

≥ χ2

, то гипотезу

набл

1−α; mr 1

H0 следует отклонить.

Критерий χ2 сконструирован таким образом, что чем

ближе к нулю наблюдаемое значение критерия, тем вероятнее, что нулевая гипотеза справедлива. Поэтому критическая область критерия правосторонняя.

Пример 3.9. В течение 100 дней фиксировалось число автомобильных аварий в некотором районе города. Получены следующие данные:

Числоаварий xi

0

1

2

3

4

5

Частота ni

8

28

31

18

9

6

Проверить гипотезу о том, что число аварий имеет распределение Пуассона. Уровень значимости принять рав-

ным 0,05.

Решение. Согласно условию гипотетическая функция распределения имеет вид

114

 

 

 

x

λ

m

e

−λ

 

 

 

 

 

H0 : F(x) =

 

 

,

 

 

 

 

m=1

 

m!

 

λ:

следуя

методу моментов, найдем

 

оценку параметра

λ =

1

 

ni xi = 2,1.

 

 

 

 

 

 

n

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

Теоретические вероятности pi

 

появления ровно xi

ава-

рий в течение 100 дней вычислим по формуле Пуассона, подставив вместо параметра λ его выборочную оценку λ :

p = p

(x ) =

λxi e−λ

, x = 0;1; 2; 3; 4; 5.

 

i

100

i

xi !

i

 

 

 

 

Результаты дальнейших вычислений сведем в табл. 3.4, представляющую проверку гипотезы о соответствии числа аварий распределению Пуассона (в пренебрежении условием npi 5 для xi = 5):

Таблица 3.4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi

 

0

 

1

 

2

 

3

4

 

5

 

 

ni

 

8

 

28

 

31

 

18

9

 

6

100

 

 

pi

 

0,122

 

0,257

 

0,270

 

0,189

0,099

 

0,042

0,979

 

 

npi

 

12,2

 

25,7

 

27,0

 

18,9

9,9

 

4,2

97,9

 

(n np )2

 

17,64

 

5,29

 

16,00

 

0,81

0,81

 

3,24

 

 

i

i

 

 

 

 

 

 

 

 

 

 

 

 

 

(n np )2

 

 

 

 

 

 

 

 

 

 

 

 

 

i

i

 

 

1,45

 

0,21

 

0,59

 

0,04

0,08

 

0,77

3,14

 

 

npi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таким образом, χнабл2

=3,14. По таблице χ2-распределения

для

уровня

значимости

 

0,05 и числа степеней свободы

ν = m r 1 = 6 11 = 4

найдем

критическое значение

χ0,95;2

4 = 9,488.

Поскольку

 

 

 

 

 

 

 

 

 

 

 

 

 

 

χнабл2 = 3,14 < 9,488 = (χ2 )крправ, α,

 

 

для отклонения нулевой гипотезы нет оснований.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

115

Выше условие npi 5 для xi = 5 не выполнено, объединим два последние подынтервала, сложив соответствующие значения ni и pi . В результате имеем уточненную табл. 3.4*

для m = 5 подынтервалов. Для нее χнабл2

= 2,35.

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 3.4*

 

Проверка гипотезы о соответствии числа аварий

 

 

 

 

распределению Пуассона

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi

 

 

0

1

2

 

 

3

4÷5

 

 

ni

 

 

8

28

31

 

 

18

15

 

100

 

pi

 

 

0,122

0,257

0,270

 

 

0,189

0,141

 

0,979

 

npi

 

 

12,2

25,7

27,0

 

 

18,9

14,1

 

97,9

 

(n np )2

17,64

5,29

16,00

 

 

0,81

0,81

 

 

 

i

i

 

 

 

 

 

 

 

 

 

 

(n np )2

 

 

 

 

 

 

 

 

 

 

i

i

1,45

0,21

0,59

 

 

0,04

0.06

 

2,35

 

npi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

По таблице χ-распределения для уровня значимости 0,05

и числа степеней свободы ν = m r 1 = 5 11 = 3

находим

другое критическое значение χ0,95;2

3 = 7,815. Поскольку

χнабл2 = 2,35 < 7,815 = (χ2 )правкр, α,

для отклонения нулевой гипотезы при уточненной процедуре ее проверки нет оснований.

Значит, с вероятностью ошибки 0,05 принимаем, что число автомобильных аварий в этом районе распределено по закону Пуассона с параметром λ = 2,1.

Выполним проверку этой гипотезы с использованием MS Excel (рис. 3.10). В ячейках А1:F1 зададим названия переменных из первого столбца табл. 3.4, в ячейках А2:А7 – значения xi , в ячейках В2:В7 – значения ni , в ячейке В8 нахо-

дим число дней наблюдения = СУММ(В2:В7), затем в ячейке В10 по методу моментов находим оценку параметра рас-

116

пределения Пуассона с помощью математической функции

СУММПРОИЗВ(массив1; массив2; …) (рис. 3.11):

λ = mx = 1n i ni xi = СУММПРОИЗВ(A2:A7; B2:B7)/100 = 2,1.

Для вычисления теоретических вероятностей pi в ячейке

С2 (рис. 3.12) задаем вызов функции =ПУАССОН(A2;$B$10; ЛОЖЬ), а затем копируем эту формулу протаскиванием в ячейки С3:С7 (здесь задан фиксированный адрес ячейки В10, который не меняется при копировании формулы в другие ячейки в отличие от адреса ячейки А2).

Суммирование вероятностей pi в ячейке С8 дает резуль-

тат, отличающийся от единицы, что связано с приближенным соответствием результатов наблюдений теоретической модели распределения Пуассона.

Рис. 3.10. Результаты вычислений для критерия согласия χ2

117

Вячейку D2 задаем формулу =100* С2 и копируем ее

вячейки D3:D7, в ячейку Е2 – формулу =(B2–D2)^2 и копиру-

ем ее в Е3:Е7, в ячейку F2 – формулу =E2/D2 и копируем ее в F3:F7.

Суммированием содержимого ячеек F2:F7 находим несколько отличающееся (из-за ошибок округления при вычислении значений в табл. 3.4) наблюдаемое значение критерия

χнабл2 = 3,20.

Для подсчета значения правосторонней критической точки для уровня значимости α = 0,05 и числа степеней свободы

ν = 4 в ячейке F11 задаем

(см. рис. 3.12)

формулу

= ХИ2ОБР(0.05;4), имеем (χ2 )прав

= χ2

= 9,4877.

Поскольку

кр, α

1−α,ν

 

 

χнабл2 < (χ2 )правкр, α, основная гипотеза о соответствии заданной выборки закону распределения Пуассона принимается.

Уточненный анализ этой гипотезы при выполнении условия npi 5 для xi = 5 аналогичен по результатам вышеприведенному анализу при ручном счете.

Рис. 3.11. Меню вызова функции СУММПРОИЗВ(массив1; массив2; …)

118

Рис. 3.12. Меню вызова функции ПУАССОН (х; среднее; интегральная)

Рис. 3.13. Меню вызова функции ХИ2ОБР (вероятность; степени свободы)

В MS Excel для проверки непараметрических статистических гипотез по критерию Пирсона служит также специализированная статистическая функция ХИ2ТЕСТ(фактичес-

кий_интервал; ожидаемый_интервал) – возвращает для представленной в выборке случайной величины Х значение вероятности P{x ≥ χнабл2 } для χ2-распределения согласно критерию Пирсона. Аргументами этой функции являются:

119

фактический интервал – это интервал данных, которые содержат наблюдения, подлежащие сравнению с ожидаемыми значениями;

ожидаемый интервал – это интервал данных, который содержит отношение произведений итогов по строкам и столбцам к общему итогу.

Для рассматриваемого примера фактический интервал соответствует значениям ni , ожидаемый интервал – значениям npi , вызов этой функции в ячейке F12 = XИ2ТЕСТ(B2: :B7;D2:D7)

даетвероятность P{x ≥ χнабл2 = 3,20}= 0,669 (рис. 3.14).

Рис. 3.14. Меню вызова функции ХИ2ТЕСТ (фактический интервал; ожидаемый интервал)

Для проверки этого утверждения в ячейке F13 (см. рис. 3.10) с помощью формулы =ХИ2ОБР(F12;5) имеем ранее вычисленное в ячейке F8 значение χнабл2 = 3,20.

Рассмотрим типичную полную статистическую обработку экспериментальных результатов для одномерной выборки с подбором непрерывного закона распределения по критерию Пирсона.

120