- •Методы выборочного обследования Рекомендовано
- •Введение
- •Ошибки выборки при некоторых способах отбора. Необходимая численность выборки
- •1.1. Собственно-случайная и механическая выборка
- •1.2. Типический (стратифицированный, расслоённый, районированный) отбор
- •1.3. Серийный (гнездовой) отбор
- •1.4. Многоступенчатый отбор (комбинированная выборка)
- •1.5. Малая выборка
- •1.6. Определение необходимой численности выборки
- •1.7. Распространение результатов выборочного наблюдения на генеральную совокупность
- •Контрольные вопросы и задания к главе 1
- •2. Проверка статистических гипотез. Дисперсионный анализ
- •2.1. Понятие статистической гипотезы
- •2.2. Проверка гипотез о распределениях
- •Выразив стандартизованное отклонение через , получим
- •8.3. Результаты статистического обследования фирм, участвовавших в международной выставке, представлены в следующей таблице:
- •2.3. Проверка гипотез о связях
- •2.4. Проверка гипотез о средней и о доле
- •2.5. Дисперсионный анализ
- •Контрольные вопросы и задания к главе 2
- •Заключение
- •Библиографический список
- •Приложение в
- •Методы выборочного обследования
- •Редактор г.С. Одинцова
2.2. Проверка гипотез о распределениях
Одна из важнейших задач анализа вариационных рядов заключается в выявлении закономерности распределения и определении её характера. Для обоснования определённого типа теоретической кривой распределение выдвигается какая-нибудь научная гипотеза.
Графическое изображение ряда в виде изменения частот в вариационном ряду, функционально связанных с изменением значений признака, называется теоретической кривой распределения. Получение кривой распределения из эмпирических данных (полигон, гистограмма) возможно лишь для описания идеального случая. При этом теоретическое распределение играет роль некоторой идеализированной модели эмпирического распределения, а сам анализ вариационных рядов сводится к сопоставлению эмпирического и теоретического распределений и определению степени различия между ними.
В
статистике широко используются различные
виды теоретических распределений:
нормальное распределение, биномиальное
распределение, распределение Пуассона
и др. Каждое из теоретических распределений
имеет специфику и свою область применения.
Однако чаще всего в качестве теоретического
распределения используется нормальное
распределение, которое выражается
формулой
где
– ордината кривой нормального
распределения (вероятность),
и
е
− математические постоянные (
;
)
− варианты
вариационного ряда (значение признака);
− среднее значение признака;
− среднее квадратическое отклонение.
Выразив стандартизованное отклонение через , получим
.
Гипотеза о распределениях заключается в том, что выдвигается предположение о том, что распределение в генеральной совокупности подчиняется какому-то определённому закону. Проверка гипотезы состоит в том, чтобы на основе сравнения эмпирических частот (частостей) с теоретическими сделать вывод о соответствии фактического распределения гипотетическому распределению.
Для
проверки гипотезы о соответствии
эмпирического распределения закону
нормального распределения необходимо
по фактическим данным вычислить
теоретические частоты кривой нормального
распределения
по формуле
где – объём выборки;
− величина интервала вариационного ряда.
Значение
ординат кривой нормального распределения
можно получить по таблице
(Приложение
А).
Например. По материалам обследования качества нити получено 220 проб нити по крепости (таблица 2.2.1).
Таблица 2.2.1 − Распределение проб нити по крепости
Крепость нити,
г
|
120 − 130 |
130 − 140 |
140 − 150 |
150 − 160 |
160 − 170 |
170 −180 |
180 −190 |
190 − 200 |
Итого |
Число проб,
|
9 |
13 |
27 |
59 |
56 |
31 |
17 |
8 |
220 |
Можно ли с 5%-м уровнем значимости считать, что это распределение подчиняется нормальному.
Испытаем
нулевую гипотезу, состоящую в том, что
распределение подчиняется нормальному
закону
.
Вычисляем теоретические частоты,
соответствующие нормальному распределению
(таблица. 2.2.2). Проверяемая гипотеза
формулируется как
,
альтернативная
.
1. Рассчитаем среднюю арифметическую взвешенную:
.
2. Определим дисперсию и среднеквадратическое отклонение:
3. Находим стандартизованное отклонение (таблица 2.2.2, гр.7)
4. На
основе найденного стандартизованного
отклонения определяем значение ординат
кривой нормального распределения
,
которые определяют по таблицам значения
функции (таблица 2.2.2, гр.8):
, (Приложение А).
5. По
фактическим данным вычисляем теоретические
частоты нормального распределения
(таблица 2.2.2, гр.9):
Объективная характеристика соответствия эмпирических частот с теоретическими может быть получена на основе проверки нулевой гипотезы о характере распределения с помощью критерия согласия К. Пирсона, В.И. Романовского, А.Н. Колмогорова и Б.С. Ястремского.
Критерий согласия Пирсона (χ2-хи квадрат) вычисляется по формуле
где
– число категорий ряда распределения,
− номер категории;
−
частота фактического распределения;
− частота теоретического распределения.
равно нулю, если все фактические частоты
равны соответствующим теоретическим
частотам. Кроме того, величина
зависит от числа групп, на которые
разбита совокупность. Чем больше групп
выделяют в сово-купности, тем больше
слагаемых входят в величину
,
а значит, тем больше отклонений
эмпирических частот от теоретических.
Имеются
специальные таблицы критических значений
при 5% и 1% уровнях значимости (Приложение
Б). Табличные значения
зависят от числа степеней свободы (
– degrees of
freedom) и уровня значимости
(
).
Понятие числа степеней свободы означает
следующее: если фактический ряд
распределения имеет (
)
категорий, то фактические частоты
должны быть связаны таким соотношением:
.
Таким
образом, если параметры теоретического
распределения известны, то свободно
варьировать могут только
частот, а последняя частота может быть
определена с помощью вышеуказанного
соотношения. Вместе с тем если
параметров теоретического распределения
неизвестны при нахождении теоретических
частот, то они определяются на основе
данных эмпирического распределения.
Это накладывает на эмпирические
частоты ещё
связей, в результате чего теряется ещё
степеней свободы. Следовательно, число
степеней свободы становится равным
.
Порядок применения критерия согласия 2 сводится к следующему:
1.
Вычисляется хи-квадрат фактическое
(
2
расч.):
.
2.
Определяем число степеней свободы:
3. Выбираем уровень значимости (α=0,05; α=0,01).
4. По
таблицам значений
2
Пирсона (Приложение Б) находят табличное
значение хи-квадрата (
2табл.)
при заданном уровне значимости
и данном числе степеней свободы
.
Таблица 2.2.2 − Расчётные данные
Середина интервала, |
Число проб,
|
|
|
|
|
|
|
|
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
125 |
9 |
1 125 |
-35,5 |
1 260,25 |
11 342,25 |
-2,24 |
0,0325 |
5 |
135 |
13 |
1 755 |
-25,5 |
650,25 |
8 453,25 |
-1,61 |
0,1092 |
15 |
145 |
27 |
3 915 |
-15,5 |
240,25 |
6 486,75 |
-0,98 |
0,2468 |
34 |
155 |
59 |
9 145 |
-5,5 |
30,25 |
1 784,75 |
-0,35 |
0,3752 |
52 |
165 |
56 |
9 240 |
4,5 |
20,25 |
1 134,00 |
0,28 |
0,3836 |
53 |
175 |
31 |
5 425 |
14,5 |
210,25 |
6 517,75 |
0,91 |
0,2637 |
37 |
185 |
17 |
3 145 |
24,5 |
600,25 |
10 204,25 |
1,54 |
0,1219 |
17 |
195 |
8 |
1 560 |
34,5 |
1 190,25 |
9 522,00 |
2,17 |
0,0379 |
5 |
Итого |
220 |
35 310 |
- |
- |
55 445,00 |
- |
- |
218 |
5. Сравниваем
2расч.
с
2табл.
При полном совпадении теоретического
и эмпирического распределений
.
Если
2расч.>
2табл.,
то гипотезу о несущественности
(случайности) расхождений отклоняем. В
случае, если
2расч.
2табл.,
заключаем, что эмпирический ряд хорошо
согласуется с гипотезой о предполагаемом
распределении и что расхождение между
теоретическими и эмпирическими частотами
случайно.
Отметим, что практическое использование критерия согласия Пирсона 2 связано с рядом ограничений, важнейшие из них:
1.
Объём выборки
должен быть не менее 50 единиц.
2. Эмпирические и теоретические частоты всех интервалов должны насчитывать не менее 5 единиц. Если это условие не выполняется, то малонакопленные интервалы объединяются с соседними.
3. В совокупностях малого объёма должен определяться по частотам, а не по частостям.
4. Число интервалов (категорий) ряда распределения должно быть большим, так как оценка χ2 зависит от числа степеней свободы. При малом числе степеней свободы оценки получаются недостаточно надежными.
Например, проверим согласованность эмпирических и теоретических частот с помощью критерия на основе предыдущего примера (таблица 2.2.2). Расчёт χ2расч. представлен в таблице 2.2.3.
Таблица 2.2.3 − Расчётные данные
Частоты |
|
|
|
|
эмпирические,
|
теоретические,
|
|||
1 |
2 |
3 |
4 |
5 |
9 13 27 59 56 31 17 8 |
5 15 34 52 53 37 17 5 |
4 -2 -7 7 3 -6 0 3 |
16 4 49 49 9 36 0 9 |
3,20 0,27 1,44 0,94 0,17 0,97 0 1,8
|
220 |
218 |
- |
- |
8,79 |
1. Находим разность между эмпирическими и теоретическими частотами (таблица 2.2.3, гр.3): =9-5=4; 13-15=-2; 27-34=-7 и т.д.
2. Возводим найденную разность в квадрат (таблица 2.2.3, гр.4)
3. Делим
полученный результат на соответствующие
теоретические частоты (таблица 2.2.3,
гр.5):
4.
Определим число степеней свободы.
Гипотетическое нормальное распределение
зависит от двух параметров (
,
т.е. число параметров Р=2), количество
категорий (количество интервалов) S=8,
следовательно, число степеней свободы
8−(2+1)=5.
Уровень значимости =0,05 (по условию примера).
5. По
таблице значимости
(критерий Пирсона) (Приложение Б) находим
2табл.
=11,07.
Так как
2расч.=8,79<
2табл.=11,07,
выдвинутая гипотеза
принимается и расхождения между
эмпирическими и теоретическими частотами
можно считать случайными.
Критерий
Романовского (С) также используется для
проверки близости эмпирического и
теоретического распределения, определяется
следующим образом:
где χ2 – критерий Пирсона;
− число степеней свободы .
Этот показатель весьма удобен при отсутствии таблиц для χ2. Если С<3, то расхождение между теоретическим и эмпирическим распределением случайно, если же С>3, то не случайны и расхождение между теоретическим распределением не может служить моделью для изучаемого эмпирического распределения.
Проверим выдвинутую гипотезу, в нашем примере, с помощью критерия Романовского: χ2расч.=8,79 и =5;
.
Так как С<3, гипотеза не отвергается. Критерий Романовского также подтверждает, что расхождение между эмпирическими и теоретическими частотами несущественно.
Критерий
Колмогорова λ основан на определении
максимального расхождения между
накопленными частотами или частостями
эмпирических и теоретических распределений:
,
где
– максимальная разность между
накопленными частотами
эмпирического
и теоретического рядов распределений;
– максимальная разность между
накопленными частостями
эмпирического
и теоретического рядов распределений;
– число единиц в совокупности.
Рассчитав значение λ, по таблице Р(λ) (Приложение В) определяют вероятность, с которой можно утверждать, что отклонение эмпирических частот от теоретических случайно. Вероятность Р(λ) может изменяться от 0 до 1. При Р(λ)=1 происходит полное совпадение частот, при Р(λ)=0 – полное расхождение. Если λ принимают значение до 0,3, то Р(λ)=1.
Основное условие для использования критерия Колмогорова достаточно большое число наблюдений.
Например, используя данные таблицы 2.2.3, проверить правильность выдвинутой гипотезы о распределении проб по крепости нити по закону нормального распределения (таблица 2.2.4) с помощью критерия Колмогорова.
Таблица 2.2.4 − Расчётные данные
Крепость нити, г |
Частоты ряда распределения |
Накопленные частоты |
|
||
фактические,
|
теоретические,
|
фактические,
|
теоретические,
|
||
1 |
2 |
3 |
4 |
5 |
6 |
120 − 130 130 − 140 140 − 150 150 − 160 160 − 170
|
9 13 27 59 56
|
5 15 34 52 53
|
9 22 49 108 164
|
5 20 54 106 159
|
4 2 5 max 2 5 max
|
Продолжение таблицы 2.2.4 |
|||||
170 − 180 180 − 190 190 −200 |
31 17 8 |
37 17 5 |
195 212 220 |
196 213 218 |
1 1 2 |
Итого |
220 |
218 |
- |
- |
- |
1. Рассчитаем накопленные частоты и по фактическим и теоретическим частотам распределения (таблица 2.2.4, гр. 4 и5)
2. Находим разность между накопленными частотами:
3. Определим максимальную разность между накопленными частотами (таблица 2.2.4, гр.6). Она равна 5.
4.
Вычисляем критерий Колмогорова
5. По таблице Приложения В находим значение вероятности при λ=0,34; Р(λ)=0,997.
Это означает, что с вероятностью, близкой к единице, можно утверждать, что гипотеза о нормальном распределении не отвергается, а расхождение эмпирического и теоретического распределений носят случайный характер.
Критерий
Ястремского (L) может быть
найден на основе следующего соотношения:
,
где χ2расч. − критерий Пирсона;
S – число групп (категорий) в эмпирическом распределении;
Q – величина, зависящая от числа групп, но при числе групп
меньше 30, не превосходящая 0,6.
Если L 3, то эмпирическое распределение следует избранному теоретическому закону распределения. При L>3 эмпирическое распределение не подчинено предполагаемому теоретическому закону.
Проверим,
подчиняется ли распределение проб по
крепости нити закону нормального
распределения на основе критерия
Ястремского (χ2расч.=8,79;
S=8; Q=0,6):
L 3, следовательно, гипотеза Н0 не отвергается, а расхождения эмпирического и теоретического распределений носят случайный характер.
Задачи
8.1. В течение рабочей недели поводилось наблюдение за работой 50 станков и регистрировались неисправности, требовавшие остановки станков для их регулировки. Результаты наблюдений следующие:
Число неисправностей |
0 |
1 |
2 |
3 |
4 |
5 |
Число станков |
14 |
16 |
10 |
7 |
2 |
1 |
Требуется вычислить вероятности и теоретические частоты числа неисправностей, считая, что распределение последних подчиняется закону нормального распределения.
8.2. По цеху имеются следующие данные о распределении рабочих по стажу работы:
Группы рабочих по стажу работы (лет) |
0 − 2 |
2 − 4 |
4 − 6 |
6 − 8 |
8 − 10 |
10 − 12 |
12 − 14 |
Итого |
Число рабочих |
6 |
8 |
12 |
24 |
17 |
8 |
5 |
80 |
На основе приведённых данных проверить соответствие эмпирического распределения закону нормального распределения, используя критерий согласия К. Пирсона ( = 0,01).
