Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
метод. указ. М.С..docx
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
1.2 Mб
Скачать

6. Проверка гипотезы о распределении. Критерий Пирсона

При проверке статистических гипотез о соответствии отдельных параметров закона распределения случайных величин предполагалось, что законы распределения этих величин известны. Однако при решении практических задач (особенно экономических) модель закона распределения в общем случае заранее неизвестна, поэтому возникает необходимость выбора модели закона распределения, согласующейся с результатами выборочных наблюдений.

Пусть , ,… - выборка наблюдений случайной величины Х с неизвестной непрерывной функцией распределения F(x).Проверяется гипотеза , утверждающая, что Х распределена по закону, имеющему функцию (x), т.е. проверяется нулевая гипотеза : F(x) = (x).

Критерии, с помощью которых проверяется нулевая гипотеза о неизвестном распределении, называют критериями согласия. Рассмотрим критерий согласия Пирсона.

Схема проверки нулевой гипотезы :

F(x) = (x):

  1. По выборке , ,… строят вариационный ряд; он может быть как дискретным , так и интервальным.

  2. Рассмотрим для определенности дискретный вариационный ряд

  1. По данным предыдущих исследований или по предварительным данным делают предположение (принимают гипотезу) о модели закона распределения случайной величины Х.

По выборочным данным проводят оценку параметров выбранной модели закона распределения. Предположим, что закон распределения имеет r параметров (например, биноминальный закон имеет один параметр р; нормальный – два параметра ( , ) и т.д.)

При этих допущениях можно предположить, что Х подчинена биноминальному закону распределения (нулевая гипотеза), т.е. вероятность того, что абитуриент решит х задач, может быть подсчитана по формуле

P(X=x) = C p q (6.1) Найдем оценку параметра p, входящего в модель (6.1).

Здесь p – это вероятность того, что абитуриент решит задачу. Оценкой вероятности p является относительная частота p , которая вычисляется по формуле p = = , где = среднее число задач, решенных одним абитуриентом; v число задач, решаемое каждым абитуриентом. Тогда оценку для p получим в виде p = = (0 0,043 + 1 0,057 + + 10 0,107)/10=0,6. Подставим значения p = 0,6 и q = 1-0,6=0,4 в выражение (6.1) и при разных x получим теоретические вероятности p и частоты m = p n (табл. 6.1)

Таблица 6.1

Номер

группы i

x

p

m

1

0

0,0001

0,03

2

1

0,0016

0,48

3

2

0,0106

3,18

4

3

0,0425

12,75

5

4

0,1115

33,45

6

5

0,2007

60,21

7

6

0,2508

75,24

8

7

0,2150

64,50

9

8

0,1209

36,27

10

9

0,0403

12,09

11

10

0,0060

1,80

Из табл. 6.1 видно, что для групп 1, 2, 3 и 11 теоретическая частота m <5.

Такие группы обычно объединяются с соседними. Значения m для групп 1, 2 и 3 можно объединить с m . Это представляется естественным, потому что за 0, 1, 2 и 3 решенные задачи на экзамене обычно ставится неудовлетворительная оценка. Объединим также группу 11 с группой 10 и составим табл. 6.2. Таблица 6.2

Номер группы i

1

2

3

4

5

6

7

x

0 – 3

4

5

6

7

8

9–10

m

80

10

9

40

51

45

65

m

16

33

60

75

64

36

14

По данным табл. 6.2 рассчитываем величину критерия согласия:

x = + + + + +

+ + =522,4.

Зададимся уровнем значимости α = 0,05, тогда для l= k r1 = 7 – 1 – 1 = 5

Степеней свободы (x ) = 11,1 (см. Приложение 4).

Величина x =522,4 (11,1; ∞), следовательно, нулевая гипотеза должна быть отвергнута.

Задача. Коммерсант предполагает, что объем продаж нового вида продукции в каждой из пяти торговых точек, расположенных в различных районах, будет одинаков. Фактический объем продаж оказался равным:

Район

i

1

2

3

4

5

Фактический

объем продаж

m

105

117

84

111

83

Оценить, значимы или нет различия между наблюдаемыми и ожидаемыми объемами продаж при уровне значимости 0,01 и 0,05.

Решение: Так как в задаче спрашивается о согласовании ожидаемых (одинаковых) и фактических объемов продаж, то теоретический «закон распределения» определен: во всех районах объем продаж одинаков, т.е.

m = m = m = m = m = = =100. Заметим, что в данном примере нельзя использовать в качестве закона распределения биноминальный или нормальный закон, так как речь идет об одновременном сравнении пяти районов. Составим таблицу

Район

i

1

2

3

4

5

Фактический объем продаж

m

105

117

84

111

83

Ожидаемый

Объем продаж

m

100

100

100

100

100

Тогда x = = (25 + 289 + 256 + 121 + 289) = 9,8.

Выбирая уровень значимости α = 0,01, по таблице x -распределения (см.Приложение 4) для числа степей свободы l = 5 – 1 = 4 находим (x ) = 13,3, а для уровня значимости α = 0,05 при l = 4, соответственно, (x ) = 9,5. Следовательно, для уровня значимости α = 0,01 критическая область представляет собой интервал (13,3; ∞), x = 9,8 не попадает в критическую область, т.е. нулевая гипотеза, состоящая в том, что ожидаемые и фактические объемы продаж согласуются, не отвергается. Для уровня значимости α = 0,05 критической областью является интервал (9,5; ∞), и, так как x = 9,8 попадает в критическую область, нулевая гипотеза должна быть отклонена.

Задача 1. Результаты взвешивания 50 случайным образом отобранных пачек чая приведены ниже (в граммах):

150, 147, 152, 148, 149, 153, 151, 150, 149, 147, 153, 151, 152, 151, 149, 152, 150, 148, 152, 150, 152, 151, 148, 151, 152, 150, 151, 149, 148, 149, 150, 150, 151, 149, 151, 150, 151, 150, 149, 148, 147, 153, 147, 152, 150, 151, 149, 150, 151, 153.

Оценит закон распределения случайной величины X – массы пачки чая – для уровня значимости α = 0,05.

Решение: Масса пачки чая – непрерывная случайная величина, но в силу того, что взвешивание проведено с дискретностью 1 г и размах составляет 147 + 153 г, непрерывная величина может быть представлена дискретным вариационным рядом:

Значение случайной величины Х

x

147

148

149

150

151

152

153

Частота появления

mi

4

5

8

11

11

7

4

В качестве модели закона распределения выберем нормальный закон N , σ ), число параметров которого r = 2: α - математическое ожидание, σ - среднее квадратичное отклонение. По выборочным данным получим оценки параметров нормального закона распределения:

= = 7507/50 = 150,14; s = d = ( s = 1,68.

Для расчета теоретических частот p воспользуемся табличными значениями функции Лапласа Ф(z). Алгоритм вычисления p состоит в следующим:

находим по нормированным значениям случайной величины Z значения Ф(z), а затем F (x):

z = , F (x )=0,5 + Ф(z ).

Например, x = 147; z = (147 – 150,14)/1,68 = -1,87; Ф(-1,87) = -0,46926;

F (147) = 0,03074;

находим p = P(z X< z ) = F ( x ) - F ( x );находим m = p n, и если некоторое m <5, то соответствующие группы объединяются.

Результаты вычисления p , m , x приведены в табл. 6.3.По таблице Приложения 4 находим x по схеме: для уровня значимости α = 0,05 и числа степеней свободы l= k r1 = 6 – 2 – 1 = 3 x = 7,8. Следовательно, критическая область (7,8; ∞).Величина x = 5,267 не входит в критическую область, поэтому гипотеза о том, что случайная величина X – масса пачки чая – подчинена нормальному закону распределение, согласуется с выборочными данными.

Таблица 6.3.