
Задания по статистике / Гипотезы о дисперсиях и средних
.docПроверка гипотезы о равенстве дисперсий
двух нормально распределенных генеральных
совокупностей (выборки независимые)
Задача проверки гипотезы о равенстве двух дисперсий на практике возникает довольно часто. Например, при анализе стабильности производственного процесса до и после введения технических усовершенствований (сравнивается колеблемость в выпуске продукции); при изучении точности измерительных приборов, инструментов, машин; при изучении степени однородности двух совокупностей в отношении какого-либо признака, например стажа рабочих; при сравнении рисков, связанных с отклонением доходности акций от ожидаемого уровня и т.д.
Пусть
даны две генеральные совокупности Х
и Y,
которые имеют нормальный закон
распределения. Есть основание предположить,
что их генеральные дисперсии равны, то
есть выдвинуть нулевую гипотезу Н0:
D(Х) = D(Y).
Проверим эту гипотезу при заданном
уровне значимости
.
Для
этого проведем независимые выборки из
этих данных генеральных совокупностей
с объемами, соответственно, равными nx
и ny.
По данным выборок находим оценки
генеральных дисперсий - исправленные
выборочные дисперсии
,
,
которые будут несмещенными оценками,
то есть
и
.
Тогда нулевую гипотезу можно записать
и так: Н0:
=
.
Практически же исправленные дисперсии, как правило, будут различаться. Наша задача выявить существенно (значимо) или несущественно (незначимо) это различие, так как:
1) если нулевая гипотеза справедлива, то есть D(Х) = D(Y), то различие исправленных дисперсий случайное (незначимо), например, за счет случайного отбора элементов выборок;
2) если нулевая гипотеза отвергнута, то различие исправленных дисперсий существенное (значимо), оно является следствием того, что генеральные дисперсии различны.
Итак,
необходимо выявить значимость различия
исправленных дисперсий. Воспользуемся
случайной величиной
.
Покажем,
что случайная величина F
имеет распределение Фишера - Снедекора,
если нормально распределенные признаки
Х
и Y
имеют равные дисперсии. Примем для
определенности, что
является оценкой
,
а
- оценкой
.
Тогда
.
Следовательно,
если
,
то случайная величина F
имеет распределение Фишера - Снедекора
и
степенями
свободы. Здесь n1
- объем выборки, по которой рассчитана
,
n2
- соответственно,
.
По
выборочным данным находят
.
Далее нужно найти критическую точку
Fкрит
и критическую
область, которая строится в зависимости
от вида конкурирующей гипотезы.
Чаще всего выбирают конкурирующую гипотезу следующего вида:
Н1: D(Х) > D(Y).
Эта
конкурирующая гипотеза определяет
правостороннюю критическую область
,
которая строится, исходя из требования
(F > Fкрит(a,
k1,
k2))=
(здесь
Fкрит(a,
k1,
k2)=Fкрит.
пр(a,
k1,
k2)).
Рис. 1
Критическую точку Fкрит(a, k1, k2) можно найти по таблице критических точек распределения Фишера - Снедекора (см. прил. 6 файла «Приложения»). Далее сравниваем наблюдаемое и критическое значение критерия и делаем вывод.
При формулировке вывода руководствуются следующим правилом: если наблюдаемое значение критерия Fнабл попало в область принятия гипотезы (Fнабл < Fкрит(a, k1, k2)) (рис. 1), то нет оснований отвергать нулевую гипотезу по данным наблюдения D(Х) = D(Y), и расхождение между исправленными выборочными дисперсиями случайное; если же наблюдаемое значение критерия Fнабл попало в критическую область (Fнабл > Fкрит(a, k1, k2)), то нулевая гипотеза отвергается, а принимается конкурирующая гипотеза D(Х) > D(Y), то есть расхождение между исправленными выборочными дисперсиями значимо.
Замечание.
При проверке гипотезы о равенстве
генеральных дисперсий при заданном
уровне значимости a
контролируется
лишь ошибка первого рода, но нельзя
ничего сказать о степени риска, связанного
с принятием неверной гипотезы
,
то есть с возможностью ошибки второго
рода.
Пример
1. По двум
независимым выборкам, объемы которых
nx = 9
и ny = 16,
извлеченным из нормально распределенных
генеральных совокупностей
Х и Y,
найдены исправленные выборочные
дисперсии
= 34,02
и
= 12,15.
При уровне значимости 0,01 проверить
гипотезу о равенстве генеральных
дисперсий.
Решение. Совокупности Х и Y имеют нормальный закон распределения. Выдвигаем гипотезы:
Н0: D(Х) = D(Y),
Н1: D(Х) > D(Y).
Проверяется
нулевая гипотеза по выборочным данным.
С этой целью сделаны выборки объемами
nx = 9,
ny = 16
и найдены точечные оценки генеральных
дисперсий:
= 34,02
и
= 12,15.
Гипотеза
проверяется с помощью случайной величины
,
которая имеет распределение Фишера -
Снедекора с k1 = nх - 1 = 8
и k2 = ny - 1 = 15
степенями свободы. Находим
.
По таблице критических точек распределения
Фишера - Снедекора (прил. 6) находим
Fкрит(0,01;
8; 15) = 4,0. Сравниваем Fнабл
и Fкрит(0,01;
8; 15). Так как Fнабл < Fкрит(0,01;
8; 15), то есть Fнабл
попало в область принятия гипотезы
(рис. 2), то нет оснований отвергать
нулевую гипотезу по данным наблюдения
D(Х) = D(Y),
а расхождение между исправленными
выборочными дисперсиями случайное.
Пример 2. Для сравнения точности двух станков-автоматов взяты две пробы (выборки), объемы которых n1 = 10 и n2 = 8. В результате измерений контролируемого размера отобранных изделий получены следующие результаты:
xi: 1,08; 1,10; 1,12; 1,14; 1,15; 1,25; 1,36; 1,38; 1,40; 1,42;
yj: 1,11; 1,12; 1,18; 1,22; 1,33; 1,35; 1,36; 1,38.
Можно ли считать, что станки обладают одинаковой точностью при уровне значимости 0,05?
Решение. Признак Х - размер изделия, обработанного на первом станке-автомате. Признак Y - размер изделия, обработанного на втором станке-автомате. Пусть признаки имеют нормальный закон распределения. Выдвигаем гипотезы:
Н0: D(Х) = D(Y),
Н1: D(Х) > D(Y).
Проверим
нулевую гипотезу по выборочным данным
с помощью случайной величины
,
которая имеет распределение Фишера -
Снедекора с
и
степенями свободы, где n1
- объем
выборки, по которой найдена
.
Предварительно по выборочным данным вычислим исправленные выборочные дисперсии исследуемых признаков. Расчеты представим в таблице:
|
xi |
xi2 |
yj |
yj2 |
|
1,08 1,10 1,12 1,14 1,15 1,25 1,36 1,38 1,40 1,42 |
1,1664 1,21 1,2544 1,2996 1,3225 1,5625 1,8496 1,9044 1,96 2,0164 |
1,11 1,12 1,18 1,22 1,33 1,35 1,36 1,38 - - |
1,2321 1,2544 1,3924 1,4884 1,7689 1,8225 1,8496 1,9044 - - |
Итого |
12,4 |
15,5458 |
10,05 |
12,7127 |
Найдем наблюдаемое значение критерия:
»1,51.
По таблице критических точек распределения Фишера - Снедекора (прил. 6) находим Fкрит(a, k1, k2) = Fкрит(0,05; 9, 7) = 3,68. Сравниваем Fнабл и Fкрит(0,05; 9; 7).
Так как Fнабл < Fкрит(0,05; 9; 7), то есть наблюдаемое значение критерия попало в область принятия гипотезы (рис. 2), нет оснований отвергать нулевую гипотезу по данным наблюдения D(Х) = D(Y), расхождение между исправленными выборочными дисперсиями случайное. Следовательно, по данным наблюдения станки обладают одинаковой точностью.
Сравнение средних двух нормально
распределенных генеральных совокупностей,
дисперсии которых неизвестны и одинаковы
(малые независимые выборки)
Даны
две генеральные совокупности Х
и Y,
имеющие нормальное распределение. Есть
основание выдвинуть гипотезу о равенстве
генеральных средних этих совокупностей,
то есть
или Н0: М(Х) = М(Y).
При заданном уровне значимости a
требуется проверить нулевую гипотезу.
Сделаем
независимые выборки, объем которых
nx и ny ( nx , ny <30),
по данным выборок вычислим выборочные
средние
,
а также выборочные исправленные дисперсии
и
.
Выборочные средние, как правило, различаются. Тогда возникает вопрос: значимо (существенно) или незначимо (несущественно) различаются выборочные средние?
Различие между выборочными средними будет значимым, если нулевая гипотеза несправедлива, то есть генеральные средние неодинаковы, что и вызвало различие выборочных средних. А если нулевая гипотеза справедлива, то различие выборочных средних незначимо, оно объясняется случайными причинами.
Для того чтобы выявить значимость различий выборочных средних, воспользуемся случайной величиной
.
Можно показать, что эта случайная величина имеет распределение Стьюдента с k = nx + ny - 2 степенями свободы.
Однако нулевую гипотезу можно проверить по этому критерию только в том случае, если дисперсии данных генеральных совокупностей одинаковы. Поэтому если в условии задачи ничего не известно о генеральных дисперсиях, то предварительно проверяется вспомогательная гипотеза о равенстве генеральных дисперсий. Если получим, что дисперсии равны, то далее проверяется основная гипотеза по критерию Стьюдента, в противном случае решение задачи прекращается.
Итак, если проверка показала, что генеральные дисперсии равны, то находим наблюдаемое значение критерия по данным выборок:
.
Затем нужно найти критическую точку. Для этого необходимо знать критическую область, которая строится в зависимости от вида конкурирующей гипотезы. Возможны несколько способов выбора гипотезы Н1.
1. Н0: М(Х) = М(Y) ; Н1: М(Х) > М(Y).
Такой
вид гипотезы Н1
возможен
только если по
данным
выборок
.
В
этом случае конкурирующая гипотеза
определяет правостороннюю
критическую область
,
которая строится при
справедливости нулевой гипотезы, исходя
из требования
(Т>tкрит
.пр (a,
k))=a
.
Правосторонняя критическая точка находится по таблице критических точек распределения Стьюдента (прил. 5) при уровне значимости a, помещенном в нижней строке таблицы, и по числу степеней свободы k = nx + ny - 2. Затем, сравнивая Тнабл с tкрит. пр(a, k), делают вывод.
Если Тнабл > tкрит. пр(a, k), то есть наблюдаемое значение критерия попало в критическую область (рис. 2), то нулевая гипотеза отвергается, справедлива конкурирующая гипотеза Н1: М(Х) > М(Y); расхождение между выборочными средними значимо (существенно).
А если Тнабл < tкрит. пр(a, k), то есть наблюдаемое значение критерия попало в область принятия гипотезы, то нет оснований отвергать нулевую гипотезу, по данным наблюдения она принимается. Расхождение между выборочными средними несущественно (случайное).
2. Н0: М(Х) = М(Y); Н1: М(Х) < М(Y).
Такой
вид гипотезы Н1
возможен
только если по
данным
выборок
.
Конкурирующая гипотеза определяет
левостороннюю
критическую область
.
Критическая точка tкрит.
л(a,
k)
вычисляется, исходя из требования
(Т<tкрит.
л(a,
k))=a.
Распределение Стьюдента симметрично относительно нуля, тогда tкрит. л = -tкрит. пр. В силу этого предварительно следует найти tкрит. пр (a, k), как было описано в случае 1, а затем уже tкрит. л(a, k))=- tкрит. пр (a, k). Далее сравнивается Тнабл с tкрит. л(a, k).
Если Тнабл < tкрит. л(a, k), то есть наблюдаемое значение критерия попало в критическую область (рис. 4), то нулевая гипотеза отвергается, справедлива конкурирующая гипотеза Н1: М(Х) < М(Y). Расхождение между выборочными средними значимо.
А если Тнабл > tкрит. л(a, k) , то есть наблюдаемое значение критерия попало в область принятия гипотезы, то нет оснований отвергать нулевую гипотезу по данным наблюдения М(Х) = М(Y). Расхождение между выборочными средними случайное (за счет случайности выборки).
3.
Н0: М(Х) = М(Y);
Н1: М(Х) М(Y).
Эта
конкурирующая гипотеза может быть
выдвинута при любом соотношении между
и
.
Она определяет двустороннюю
критическую область
Т<tкрит.
л(a,
k)
или Т>tкрит.
пр (a,
k),
которая строится, исходя из требования
(Т<tкрит.
л(a,
k))+
(Т>tкрит.
пр (a,
k))=a.
Так как распределение Стьюдента симметрично относительно нуля, то и критические точки симметричны относительно нуля, то есть tкрит. л(a, k) = -tкрит.пр (a, k). Поэтому критическая область становится симметричной, а критические точки tкрит. л и tкрит. пр при справедливости нулевой гипотезы находят из условия
(Т<tкрит.
л(a,
k))=
(Т>tкрит.
пр(a,
k))=
.
Отсюда следует, что достаточно найти только tкрит. дв(a, k) = tкрит. пр(a, k). Критическая точка двусторонней критической области tкрит.дв находится по таблице критических точек распределения Стьюдента при заданном уровне значимости a, помещенном в верхней строке таблицы, и по числу степеней свободы k = nx + ny - 2 (прил. 5 файла «Приложения»). Далее сравниваем Тнабл с tкрит. дв(a, k) и делаем вывод.
Если
> tкрит.
дв(a,
k),
то есть наблюдаемое значение критерия
попало в критическую область (рис. 3), то
нулевая гипотеза отвергается, справедлива
конкурирующая гипотеза Н1
: М(Х)
М(Y).
Расхождение между выборочными средними
значимо (существенно).
А
если
< tкрит.
дв(a,
k),
то есть наблюдаемое значение критерия
попало в область принятия гипотезы, то
нет оснований отвергать нулевую гипотезу
по данным наблюдения М(Х) = М(Y).
Расхождение между выборочными средними
случайное.
Рассмотренный критерий имеет широкое практическое применение, например, при сравнении размеров двух партий деталей, изготовленных на двух одинаково настроенных станках, или при сравнении средней производительности труда рабочих двух бригад, работающих в одинаковых условиях, и т.д.
Рис. 2
Рис. 3 Рис. 4
Замечание. При проверке гипотезы о равенстве генеральных средних при заданном уровне значимости a контролируется лишь ошибка первого рода, но нельзя ничего сказать о степени риска, связанного с принятием неверной гипотезы, то есть с возможностью ошибки второго рода.
Пример
3.
По двум независимым выборкам, объемы
которых nx = 12
и ny = 18,
извлеченным из нормально распределенных
генеральных совокупностей
Х
и Y,
найдены выборочные средние
в = 31,2
и
в = 29,2
и исправленные дисперсии
= 0,84
и
= 0,40.
При уровне значимости 0,01 проверить
гипотезу о равенстве генеральных
средних.
Решение. Даны совокупности Х и Y, имеющие нормальный закон распределения. Требуется проверить гипотезу Н0: М(Х) = М(Y).
Так
как о генеральных дисперсиях ничего не
известно, то с помощью случайной величины
,
которая имеет распределение Фишера -
Снедекора с k1 = nх - 1 = 11
и k2 = ny - 1 = 17
степенями свободы (n1 = nх,
так как
- большая),
предварительно проверим вспомогательную
нулевую гипотезу:
Н0: D(Х) = D(Y) при Н1: D(Х) > D(Y).
Находим
Fнабл
=
= 2,1.
Fкрит
(a,k1,k2) = Fкрит
(0,01;11;17) =
3,52. Сравниваем Fнабл
и Fкрит(0,01;
11; 17).
Так как Fнабл < Fкрит (0,01; 11; 17), то есть Fнабл попало в область принятия гипотезы, нет оснований отвергать нулевую гипотезу по данным наблюдения D(Х) = D(Y); расхождение между исправленными выборочными дисперсиями случайное. Следовательно, можно проверить основную гипотезу.
Предварительно
выбираем конкурирующую гипотезу. В
данном случае их может быть две: 1)
Н1: М(Х) ¹ М(Y);
2) Н1: М(Х) > М(Y),
так как
в >
в.
Проверяем гипотезу Н0 в первом случае:
Н0: М(Х) = М(Y),
Н1: М(Х) ¹ М(Y).
Воспользуемся случайной величиной
которая имеет распределение Стьюдента с k=nx+ny-2 = 12+18-2 = 28 степенями свободы.
По данным выборок найдем
Тнабл»
7,09.
По таблице критических точек распределения Стьюдента находим tкрит.дв(0,01; 28) = 2,76 (при двусторонней критической области). Сравниваем Тнабл и tкрит.дв(0,01; 28). Так как ½Тнабл½> tкрит.дв(0,01; 28), то есть Тнабл попало в критическую область (рис. 3), нулевая гипотеза отвергается, справедлива конкурирующая: Н1:М(Х) ¹ М(Y), а следовательно, расхождение между выборочными средними значимо.
Проверим гипотезу Н0 во втором случае:
Н0: М(Х) = М(Y),
Н1: М(Х) > М(Y).
Тнабл » 7,09; tкрит.пр(0,01, 28) = 2,46 (при правосторонней критической области).
Тнабл > tкрит.пр(0,01; 28) (рис. 2), вывод такой же, как и в первом случае.
Пример 4. Из двух партий изделий, изготовленных на двух одинаково настроенных станках, извлечены малые выборки, объемы которых 10 и 12. Получены следующие результаты:
|
Размер изделий первого станка, см |
3,4 |
3,5 |
3,7 |
3,9 |
|
|
|
Число изделий |
2 |
3 |
4 |
1 |
|
|
|
Размер изделий второго станка, см |
3,2 |
3,4 |
3,6 |
|
|
|
|
Число изделий |
2 |
2 |
8 |
|
|
При уровне значимости 0,05 проверить гипотезу о равенстве средних размеров изделий, предполагая, что результаты измерений имеют нормальный закон распределения.
Решение. Признак Х - размер изделий, изготовленных на первом станке. Признак Y - размер изделий, изготовленных на втором станке. Признаки имеют нормальный закон распределения. Требуется проверить гипотезу Н0: М(Х) = М(Y).
Для проверки нулевой гипотезы сделаны выборки объемами nx = 10 и ny = 12. По выборочным данным найдем точечные оценки параметров данных распределений. Расчеты приведем в таблице:
xi |
|
xi
|
|
yj |
|
yj |
|
3,4 3,5 3,7 3,9 |
2 3 4 1 |
6,8 10,5 14,8 3,9 |
23,12 36,75 54,76 15,21 |
3,2 3,4 3,6 - |
2 2 8 - |
6,4 6,8 28,8 - |
20,48 23,12 103,68 - |
Итого |
10 |
36,0 |
129,84 |
- |
12 |
42,0 |
147,28 |