Электронный учебно-методический комплекс по учебной дисциплине «Прикладная математика» для студентов специальности 6-05-0716-01 «Метрология, стандартизация и контроль качества»
.pdfСтатистической гипотезой называется любое предположение относительно генеральной совокупности. Гипотеза называется параметрической, если в ней содержится некоторое утверждение о параметрах распределения случайной величины (когда сам закон распределения считается известным), и
непараметрической – в иных случаях.
Нулевой (основной) гипотезой H0 называется предположение, которого
мы придерживаемся изначально, пока наблюдения не заставят нас признать обратное.
Альтернативной (конкурирующей) гипотезой H1 называется гипотеза,
которая противоречит H0 , и которую мы принимаем, если отвергаем основную гипотезу.
Случайная величина K, построенная по наблюдениям для проверки нулевой гипотезы, называется статистикой критерия. В каждом конкретном случае статистику критерия подбирают, обычно из следующих: U – нормаль-
ное распределение, 2 – распределение хи-квадрат (Пирсона), t – распределение Стьюдента, F – распределение Фишера-Снедекора.
Схема построения критерия такова: все выборочное пространство делится на две взаимодополняющие области: область отклонения основной гипотезы H0 и область принятия этой гипотезы. Область, при попадании в ко-
торую выборочной точки отвергается основная гипотеза, называется крити-
ческой.
При проверке гипотезы H0 возможны следующие ошибки:
ошибка первого рода – отвергнуть гипотезу H0 при её правильности.
Вероятность допустить ошибку первого рода называется уровнем значимо-
сти ;
ошибка второго рода – принятие гипотезы H0 при правильности аль-
тернативной гипотезы.
Вероятность принять верную гипотезу называется уровнем доверия
1 .
Вероятность принять альтернативную гипотезу, если она верна, называ-
ется мощностью критерия.
Вычисленное по выборке значение критерия называют наблюдаемым значением Kнабл.
Критическими точками (границами) называют точки kкр , отделяющие
критическую область от области принятия гипотезы. Критические точки разделяются на правосторонние и левосторонние области. Правосторонняя об-
ласть определяется неравенством K kкр , левосторонняя – K kкр . Это односторонние области.
Существуют также и двусторонние области, определяемые неравенствами K k1кр , K k2кр , где k2кр k1кр и k2кр – критические точки). Для
21
каждого критерия, т.е. соответствующего распределения, обычно составлены таблицы, по которым находят kкр (для нахождения критических точек можно
использовать стандартные функции математически пакетов).
После того как критическая точка найдена, по данным выборки вычисляют наблюдаемое значение критерии. Если Kнабл kкр (для правосторонней
области) нулевую гипотезу отвергают, если наоборот, то принимают.
Проверку нулевой гипотезы можно проводить с помощью так называемой статистической значимости. Статистическую значимость находят с помощью p-значения, которое соответствует вероятности данного события при предположении, что некоторое утверждение (нулевая гипотеза) истинно. Если p-значение меньше заданного уровня статистической значимости (обычно это 0,05) – нулевая гипотеза неверна, поэтому нужно перейти к рассмотрению альтернативной гипотезы.
3.1.2 Оценка соответствия выборочных данных теоретическому закону распределения
Пусть x1, x2,...,xn – выборка наблюдений случайной величины Х с неизвестной функцией распределения F x . Проверяется гипотеза H0 , утвер-
ждающая, что Х распределена по закону, имеющему функцию распределения F x , равную функции F0 x , т.е. проверяется нулевая гипотеза
H0 : F x F0 x . Критерии, с помощью которых проверяется нулевая гипо-
теза о неизвестном распределении, называются критериями согласия. Рассмотрим критерий согласия Пирсона (хи-квадрат распределения).
Схема проверки нулевой гипотезы H0 : F x F0 x :
1.По выборке x1, x2,...,xn строят вариационный ряд; он может быть как дискретным, так и интервальным.
2.По данным предыдущих исследований или по предварительным данным делают предположение (принимают гипотезу) о модели закона распределения случайной величины Х.
3.По выборочным данным проводят оценку параметров выбранной модели закона распределения. Предположим, что закон распределения имеет r
параметров (например, биномиальный закон имеет один параметр p ; нормальный – два параметра a, и т.д.)
4.Подставляя выборочные оценки значений параметров распределения,
находят теоретические значения вероятностей pi P X xi .
5.Рассчитывают теоретические частоты n n pi , где n – объем вы-
борки.
6.Рассчитывают значение критерия согласия Пирсона
22
2 |
l |
|
2 |
(3.1) |
|
ni ni |
|||
|
i 1 |
ni |
|
|
Здесь ni – частоты данного статистического распределения, ni – теоре-
тические частоты, найденные с помощью функции распределения предполагаемого закона;
Эта величина при n стремится к распределению 2 с k l r 1
степенями свободы, где l – число интервалов для интервального вариационного ряда или число групп для дискретного ряда, r – число параметров предполагаемого распределения. В частности, если предполагаемое распределение является нормальным, то оценивается два параметра, поэтому число степеней свободы k l 3.
7. Задавая уровень значимости , находят критическую область: она всегда правосторонняя – кр2 ; ; значение кр2 определяют из соотношения
P 2 кр2 . Если численное значение набл2 попадает в интервал кр2 ; , то гипотеза H0 : F x F0 x отклоняется и принимается альтернативная ги-
потеза о том, что выбранная модель закона распределения не подтверждается выборочными данными, при этом допускается ошибка, вероятность которой равна .
Критерий согласия Пирсона можно использовать только в том случае, когда n pi 5. Поэтому тот интервал, для которого это условие не выполня-
ется, объединяют с соседним и соответственно уменьшают число интервалов. Замечание 3.1. Критическое значение статистики (3.1) можно найти:
–в пакете Excel с помощью стандартной функции ХИ2.ОБР.ПХ(α, k), где α
–уровень значимости; k – число степеней свободы;
–в пакете Mathcad с помощью стандартной функции qchisq 1 , k . Замечание 3.2. В качестве меры близости эмпирического и теоретического
распределений В.И. Романовский предложил использовать величину 2 , но с
учетом числа степеней свободы k : c |
|
2 |
k |
|
. |
|
|
||||
|
|
|
|
||
|
|
2k |
|
||
Если величина этого выражения меньше 3, т.е. c 3, то это дает основание |
|||||
для проверки гипотезы H0 , в противном случае, когда c 3, расхождения считаются существенными и гипотеза H0 о нормальном законе не принимается.
Замечание 3.3. В практике часто используется приближенная проверка на нормальность, в основе которой лежит более простые рекомендации, использующие значения числовых характеристик и свойства нормального распределения
– известно, что если случайная величина подчиняется нормальному закону распределения, то ее значения удовлетворяют следующим условиям:
23
– промежуток x 0,3 В содержит примерно |
1 |
часть всей совокупности значе- |
|
ний; |
|
4 |
|
1 |
|
||
– промежуток x 0,7 В содержит примерно |
часть; |
||
|
2 |
|
|
– промежуток x 1,1 В содержит примерно |
3 |
часть; |
|
|
4 |
|
|
– промежуток x 3 В содержит примерно 0,99 всех значений.
Если эти соотношения выполняются одновременно для данной эмпирической совокупности и вычисленных x, В , то гипотеза о нормальном законе рас-
пределения может быть принята.
Критерий Колмогорова предназначен для проверки гипотезы о законе распределения только непрерывных случайных величин. Он позволяет срав-
нить эмпирическую функцию F* x и теоретическую функцию распределения F x .
Схема применения критерия Колмогорова:
1)Для предполагаемого закона распределения нужно определить F x для значений аргументов, соответствующих правым концам интервалов.
2)Вычислить значение статистики
n maxxi F xi F* xi .
3)По уровню значимости из таблицы 3.1 найти критическую точку
кр . Если кр , то различия между эмпирическим и предполагаемым тео-
ретическим распределениями несущественны. Если кр , то различия
между эмпирическим и предполагаемым теоретическим распределениями существенны.
Таблица 3.1
|
0.15 |
0.1 |
0.05 |
0.025 |
0.02 |
0.01 |
0.005 |
0.001 |
кр |
1.138 |
1.2238 |
1.3581 |
1.4802 |
1.5174 |
1.6276 |
1.738 |
1.9495 |
ТЕМА 3.2 Проверка параметрических гипотез
Статистическая гипотеза, которая выдвигает предположение относительно значений параметров функции распределения определённого вида,
называется параметрической.
3.2.1. Проверка гипотезы о математическом ожидании нормально распределённой случайной величины при неизвестной дисперсии.
Пусть случайная величина X ~ N a, , среднее квадратическое откло-
нение и математическое ожидание a – неизвестны. Есть основания предполагать, что a a0 . Тогда H0 : a a0 ; H1 : a a0 a a0; a a0 .
24
Для проверки нулевой гипотезы извлекается выборка объёма n . В качестве критерия выбирается статистика:
T |
x a0 |
n |
(3.2) |
|
s |
||||
|
|
|
которая при справедливости H0 имеет распределение Стьюдента с k n 1 степенями свободы.
Для |
того чтобы при заданном |
уровне значимости проверить |
H0 : a a0 |
при альтернативной гипотезе |
H1 : a a0 , по таблице распределе- |
ния Стьюдента находят квантили tкр t ; k из равенства P T t( ,k) . |
||
Если Tнабл tкр , то нулевая гипотеза отвергается на уровне значимости
; в противном случае нет оснований отвергнуть нулевую гипотезу.
При альтернативной гипотезе H1 : a a0 , по таблице распределения
Стьюдента находят квантиль tкр t ; k из равенства P T t( ,k) 1 . Если Tнабл tкр , то нулевая гипотеза отвергается на уровне значимости
; в противном случае нет оснований отвергнуть нулевую гипотезу.
При альтернативной гипотезе H1 : a a0 , сравнивают модуль статистической характеристики T с квантилем tкр t ; k распределения Стьюдента,
|
|
|
|
|
|
|
|
||
найденным из равенства P T t |
2 |
;k |
P T t |
2 |
;k |
2 |
|||
|
|
|
|
|
|
|
|||
Если Tнабл tкр , то нет оснований отвергнуть нулевую гипотезу, в про-
тивном случае нулевая гипотеза отвергается на уровне значимости . Замечание 3.4. В пакете MS Excel квантиль распределения Стьюдента
можно найти с помощью стандартных функций СТЬЮДЕНТ.ОБР.2Х(α; k) для двусторонней критической области и СТЬЮДЕНТ.ОБР(1–α; k) – для односторонней; в пакете Statistica – с помощью вероятностного
калькулятора; в пакете Mathcad – с помощью функции |
|
|
|
(или |
qt 1 |
2 |
, k |
||
qt 1 , k ). |
|
|
|
|
|
|
|
|
3.2.2. Проверка гипотезы о дисперсии случайной величины X, распределённой по нормальному закону.
Дисперсия характеризует такие важные технологические и конструкторские показатели, как точность машин, погрешность показаний контрольно-измерительных приборов, ритмичность производства, устойчивость работы автоматических линий и др.
Пусть случайная величина X распределена по нормальному закону. Генеральная дисперсия не известна, то есть основания по теоретическим пред-
положениям или по предыдущим опытам считать ее равной 02 . Из генераль-
25
ной совокупности производится выборка объемом n и вычисляется «исправленная» выборочная дисперсия s2 . Чтобы при заданном уровне значимостипроверить основную гипотезу H0 о равенстве генеральной дисперсии 2 значению 02 применяется статистика
|
|
2 n 1 s |
(3.3) |
|
|
02 |
|
которая при справедливости гипотезы H0 |
имеет распределение Пирсона с |
||
n 1 степенями свободы. |
|
|
|
Возможны три случая выдвижения альтернативной гипотезы: |
|||
1. H : 2 |
2 . В этом случае критическая область ищется, как правосто- |
||
1 |
0 |
|
|
ронняя из условия P 2 кр2 |
( ; k) , а критическую точку ищут по таблицам |
||
квантилей распределения 2 |
(или с помощь стандартных функций математиче- |
||
ских пакетов). После этого вычисляем по данной выборке наблюдаемое значение
критерия. Если набл2 |
кр2 ; k , то нулевая гипотеза принимается. |
|
|
|||||||||||||
2. H : 2 |
2 |
. В этом случае критическую область ищут как левосторон- |
||||||||||||||
1 |
0 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
нюю. Критическая точка ищется как кр2 (1 ; k). Тогда, если набл2 |
кр2 ; k , |
|||||||||||||||
то нулевая гипотеза принимается. |
|
|
|
|
|
|
|
|
|
|
|
|||||
3. H : 2 |
2 |
. В этом случае критическая область ищется как двусторон- |
||||||||||||||
1 |
0 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
няя. Критические точки находятся из условий: |
|
|
|
|
|
|
|
|||||||||
|
|
|
2 |
2 |
|
|
|
|
|
2 |
2 |
|
|
|
. |
|
|
P |
|
лев 1 |
|
2 |
; P |
|
прав |
;k |
2 |
|
|||||
|
|
|
|
|
2 |
|
|
|
|
|
2 |
|
|
|
||
Если 2лев набл2 прав2 – нет оснований отвергнуть нулевую гипотезу. Если набл2 2лев или набл2 прав2 – нулевую гипотезу отвергают.
3.2.3. Проверка гипотезы о дисперсиях двух случайных величин, распределённых по нормальному закону.
Задача сравнения дисперсий возникает при сравнении точности приборов, инструментов и др. Прибор, который обеспечивает наименьшую дисперсию, является лучшим.
Пусть исследуются 2 случайные величины X и Y , распределённые по нормальному закону с неизвестными параметрами a1, 1 и a2, 2 . Из ге-
неральных совокупностей выполнены выборки объёмами n1 и n2 , и вычислены точечные оценки x, y, sx2, s2y . Выдвигается нулевая гипотеза, состоящая
26
в том, что генеральные дисперсии рассматриваемых совокупностей равны между собой: H0 : 12 22.
Для проверки нулевой гипотезы вычисляется наблюдаемое значение критерия
s2
Fнабл s2Б (3.4)
М
где sБ2 , sМ2 – соответственно большая и меньшая «исправленные» дисперсии.
Случайная величина F имеет распределение Фишера с k1 n1 1 и k2 n2 1 степенями свободы. Критическая область строится в зависимости от вида конкурирующей гипотезы.
1) H0 : 12 22; H1 : 12 22 .
В этом случае строят двустороннюю критическую область, исходя из требования, чтобы вероятность попадания критерия в эту область, в предположении справедливости нулевой гипотезы, была равна принятому уровню значимости α. Наблюдаемое значение критерия вычисляется по формуле (3.4).
Если Fнабл Fкр , то гипотеза о равенстве дисперсий принимается. Если Fнабл Fкр – нулевую гипотезу отвергают.
2) H0 : 12 22; H1 : 12 22 .
В этом случае строят правостороннюю критическую область, исходя из требования, чтобы вероятность попадания критерия F в эту область в предположении справедливости нулевой гипотезы была равна принятому уровню значимости: P F Fкр ( ;k1;k2) .
Наблюдаемое значение критерия вычисляется по формуле (3.4).
Если Fнабл Fкр , то гипотеза о равенстве дисперсий принимается. Если Fнабл Fкр – нулевую гипотезу отвергают.
Критическое значение статистики (3.4) можно найти:
–в пакете Excel с помощью стандартной функции F.ОБР.ПХ(α, k1, k2), где α
–уровень значимости; k1 – число степеней свободы большей дисперсии;
–в пакете Mathcad с помощью стандартной функции qF 1 , k1,k2 для
|
|
|
|
,k ,k |
|
|
односторонней критической области; |
qF 1 |
2 |
|
|
||
|
|
1 |
2 |
– для двусторонней. |
27
3.2.4. Проверка гипотез о равенстве математических ожиданий двух случайных величин, распределённых по нормальному закону.
Обозначим через n1 и n2 объёмы малых независимых выборок, по которым найдены соответствующие выборочные средние x и y , а также исправ-
ленные выборочные дисперсии sx2 и s2y .
1) Проверяемая гипотеза H0 : a1 a2 , дисперсии равны, но неизвестны. Принимается, что оценками 2x и 2y являются sx2 и s2y . Статистикой критерия является величина:
T |
x y |
|
n1n2 n1 n2 |
2 |
|
(3.5) |
|||
|
n1 1 sx2 n2 1 s2y |
|
n1 n2 |
|
|
|
|
В том случае, когда проверяемая гипотеза верна, статистика, определяемая формулой (3.5), имеет распределение Стьюдента с n1 n2 2 степенями
свободы. Область принятия гипотезы H0 для двусторонней критической области (альтернативная гипотеза H1 : a1 a2 ) имеет вид: Tнабл tдвуст.кр. ;k
Здесь
Tнабл – наблюдаемое значение критерия – находится по формуле (3.5);
k n1 n2 2 – число степеней свободы;
tдвуст.кр. ;k – критическая точка двусторонней критической области.
При конкурирующей гипотезе H1 : a1 a2 находят критическую точку tправост.кр. ;k для односторонней критической области.
Если Tнабл tправост.кр. ;k – нет оснований отвергнуть нулевую гипо-
тезу.
Если Tнабл tправост.кр. ;k – нулевую гипотезу отвергают.
Если H1 : a1 a2 , то находят сначала критическую точку tправост.кр. ;k
и полагают tлевост.крит ;k tправост.кр. ;k . Если Tнабл tправост.кр. ;k
– нет оснований отвергнуть нулевую гипотезу. Если Tнабл tправост.кр. ;k – нулевую гипотезу отвергают.
2) Если дисперсии генеральных совокупностей неизвестны и не предполагаются равными, то можно приближённо считать, что статистика
T |
|
x y |
|
|
||
|
sx2 |
|
s2y |
(3.6) |
||
|
|
|||||
|
|
n |
n |
|
|
|
|
|
|
|
|
||
|
|
1 |
|
2 |
|
|
28
также подчинена распределению Стьюдента. Но число степеней свободы уже не является целым числом:
|
|
|
|
|
|
|
2 |
|
|
|
2 |
2 |
2 |
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
sx |
|
sy |
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
n |
n |
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
k |
|
|
|
1 |
|
|
|
2 |
|
|
|
|
|
(3.7) |
|||
|
|
2 |
2 |
|
|
s |
2 |
|
||||||||||
|
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
sx |
|
|
|
|
|
|
|
y |
|
|
|||
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
n |
|
|
|
|
|
n2 |
|
|
||||||
|
|
|
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
n 1 |
|
n |
2 |
1 |
|
|||||||||
|
|
|
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
Область принятия гипотезы |
для |
двусторонней |
критической области |
|||||||||||||||
(альтернатива H1 : a1 a2 ) имеет вид: |
|
|
|
|
|
|
|
|
|
|||||||||
|
T |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
(3.8) |
||
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
tдвуст.крит. |
|
;k |
|||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
||
3.2.5.Сравнение двух средних нормальных генеральных совокупностей
снеизвестными дисперсиями (зависимые выборки)
Пусть генеральные совокупности X и Y распределены нормально, причём их дисперсии неизвестны. Из этих совокупностей извлечены зависимые выборки одинакового объёма n , варианты которых соответственно равны xi
и yi . Введём следующие обозначения:
di xi yi – разности вариант с одинаковыми номерами,
|
|
|
di |
|
|
|
|
|
|
|
||
|
|
|
i |
|
|
– средняя разностей вариант с одинаковыми номерами; |
||||||
d |
|
|
||||||||||
|
n |
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
di |
|
|
|
|
|
|
|
|
di2 |
|
|
i |
|
|
|
|
|
|
|
|
|
|
n |
|
|
||||
sd |
|
i |
|
|
|
|
|
«исправленное» среднее квадратическое отклоне- |
||||
|
|
|
n 1 |
|
|
|||||||
ние. |
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
||||
Для того чтобы при заданном уровне значимости α проверить нулевую гипотезу H0 : a1 a2 о равенстве двух средних нормальных совокупностей и
с неизвестными дисперсиями (в случае зависимых выборок одинакового
объёма) при конкурирующей гипотезе H1 : a1 a2 нужно: |
|
|
|
|||
1) вычислить наблюдаемое значение критерия |
T |
|
d |
|
n ; |
|
|
|
|||||
|
набл |
|
sd |
|
||
|
|
|
|
|||
29
2) по таблице критических точек распределения Стьюдента (см. [4]), по заданному уровню значимости для двусторонней критической области и числу степеней свободы k n 1 найти критическую точку
tдвуст.крит. ;k ;
3)если Tнабл tдвуст.крит. – нет оснований отвергать нулевую гипотезу. Если Tнабл tдвуст.крит. – нулевую гипотезу отвергают.
3.2.6.Сравнение нескольких дисперсий нормальных генеральных совокупностей по выборкам одинакового объёма. Критерий Кохрена.
Пусть генеральные совокупности X1, X2,...,Xl распределены нормально. Из этих совокупностей извлечено l выборок одинакового объёма n и по ним найдены исправленные выборочные дисперсии s12, s22,...,sl2 , все с одина-
ковым числом степеней свободы k n 1. Требуется по исправленным дисперсиям при заданном уровне значимости проверить нулевую гипотезу, состоящую в том, что генеральные дисперсии рассматриваемых совокупностей равны между собой: D X1 D X2 ... D Xl .
Другими словами, требуется проверить, значимо или незначимо различаются исправленные выборочные дисперсии.
В качестве критерия проверки нулевой гипотезы примем критерий Кохрена – отношение максимальной исправленной дисперсии к сумме всех исправленных дисперсий:
s2
G 2 2max 2 . (3.9)
s1 s2 ... sl
Распределение этой случайной величины зависит только от числа степеней свободы k n 1 и количества выборок l .
Критическую точку строят правостороннюю, исходя из требования, чтобы вероятность попадания критерия в эту область, в предположении спра-
ведливости нулевой гипотезы, была равна принятому уровню значимости |
|||||||
P G Gkp( ,k,l) . |
|||||||
|
Критическую точку Gkp ;k;l ) находят по таблице (см. например [4]), |
||||||
или |
|
с |
помощью |
стандартной функции пакета Excel БЕТА.ОБР |
|||
|
|
; |
n 1 |
; |
l n 1 |
|
|
1 |
l |
2 |
|
2 |
. Тогда правосторонняя критическая область определя- |
||
|
|
|
|
|
|||
ется неравенством G Gkp , а область принятия нулевой гипотезы – G Gkp .
При условии однородности дисперсий независимых выборок одинакового объема в качестве оценки генеральной дисперсии принимают среднюю арифметическую исправленных дисперсий.
30
