- •Глава 1 Случайные события
- •1.1. Вводные понятия
- •1.2. Алгебра событий
- •1.4. Схема геометрической вероятности
- •1.5. Условные вероятности. Независимость событий
- •1.6. Правила вычисления вероятностей сложных событий
- •1.8. Обобщения схемы Бернулли
- •Глава 2 Случайные величины
- •2.1. Основные понятия, связанные со случайной величиной
- •2.3. Закон распределения случайной величины дискретного типа
- •2.5. Случайные величины непрерывного типа и их законы распределения
- •2.7. Нормальное распределение
- •Глава 3Случайные векторы
- •3.1. Основные понятия. Свойства функции распределения
- •3.2. Случайные векторы дискретного типа и их законы распределения
- •3.4. Числовые характеристики случайного вектора дискретного типа
- •3.5. Случайные векторы непрерывного типа и их законы распределения
- •Глава 4. Функции от случайных величин
- •4.1. Теоремы о математическом ожидании функций
- •4.3. Характеристическая функция и ее свойства
- •4.4. Законы распределения функций
- •Глава 5 Законы больших чисел и предельные теоремы теории вероятностей
- •5.1. Законы больших чисел
- •5.2. Центральная предельная теорема
- •5.3. Следствия ЦПТ для схемы Бернулли
- •Глава 6. Статистическое оценивание
- •6.1. Первичная обработка выборки
- •6.2. Точечное оценивание неизвестных характеристик генерального
- •6.4. Интервальное оценивание
- •Глава 7.Проверка статистических гипотез
- •7.1. Общие понятия. Методика проверки
- •7.2. Выбор критической области
- •7.4. Проверка гипотез о законе распределения
- •Глава 8.Корреляционный анализ
- •Глава 9Регрессионный анализ
- •Глава 10.Однофакторный дисперсионный анализ
- •Литература
где р - неизвестная вероятность, общая для обеих генеральных
|
p* − p* |
|
|
|
|
|
n p q |
>>1, |
|||||
cтатистика: Z = |
1 |
2 |
|
|
|
H |
|
1 |
1 |
1 |
|
>>1. |
|
|
|
|
|
|
|
~ N(0,1) при n p |
|
q |
|
||||
|
1 |
|
1 |
|
0 |
2 |
|
2 |
|
2 |
|
||
|
|
|
|
|
|
|
|
|
|
|
|||
|
p(1− p) n |
+ n |
|
|
|
|
|
|
|
|
|
||
|
|
1 |
2 |
|
|
|
|
|
|
|
|
|
|
Неизвестное р оценивается по объединенной выборке следующим образом:
~ |
|
m1 |
+ m2 |
|
p |
= |
n |
+ n |
. |
|
|
1 |
2 |
|
Таким образом, окончательно статистика Z приобретает вид:
|
p* − p* |
|
|
|
||
Z1 = |
1 |
2 |
|
|
. |
|
|
|
|
|
|
||
|
1 |
|
|
1 |
|
|
~ |
~ |
|
|
|||
p(1 |
− p) n |
+ n |
|
|||
|
|
1 |
|
2 |
|
|
7.4. Проверка гипотез о законе распределения
Общие положения, постановка задачи
Пусть закон распределения генеральной случайной величины неизвестен, но имеются те или иные основания предполагать, что генеральная распределена по закону, описываемому известной функцией распределения: FX (x / Θ) , где Θ - вектор параметров, которыми опре-
деляется данная функция (например, высказывается предположение,
что X ~ N (m,σ2 ) .
Таким образом, формулируем основную гипотезу:
H0 : X ~ FX (x / Θ).
132
Альтернативной всегда выступает гипотеза H1 = H 0 , т.е. отрицающая H0 . Критерии, используемые для проверки указанной основ-
ной гипотезы, носят название критериев согласия.
В данном параграфе рассмотрим два наиболее важных для практики критерия согласия: критерий Колмогорова и критерий Пирсона (критерий хи-квадрат), но вначале обсудим некоторые общие положения, связанные с проблемой построения критериев согласия. Заметим, что, как и в случае проверки уже известных нам гипотез о параметрах, для реализации критерия согласия нужна подходящая статистика, являющаяся мерой расхождения в данном случае между гипотетической функцией, утверждаемой в H0 , и эмпирической функцией распределе-
ния, наблюдаемой в выборке. Обозначим эмпирическую функцию распределения Fn*(x) , подчеркивая этим ее зависимость от объема выборки. Всякая подходящая статистика Z должна очевидно быть функцией как от FX (x) , так и от Fn*(x) , т.е. Z = Z (FX (x / Θ), Fn*(x)). Но так как истинная функция распределения неизвестна, то гипотеза H0 оказыва-
ется сложной, даже если вектор параметров Θ известен. В этом состоит одна из трудностей построения критериев согласия. Основное требование, предъявляемое к подходящей статистике, заключается в том, чтобы ее закон распределения при условии H0 по крайней мере асимптотиче-
ски (при n → ∞) не зависел от гипотетической функции распределения.
Критерий согласия Колмогорова
Большое значение для построения подходящей статистики имеет факт применимости закона больших чисел к эмпирической функции распределения, а именно имеет место следующая теорема.
Теорема 7.5. Пусть Fn*(x) - эмпирическая функция распределения, построенная по выборке x1, x2,..., xn из генеральной совокупности
X ~ F |
(x) . Тогда для x R F *(x) |
p |
F |
X |
(x) . |
|
n → ∞ |
||||||
X |
n |
|
|
Имеем по определению: Fn*(x) = P*{X < x}, т.е. при каждом действительном x Fn*(x) есть относительная частота события {X < x}
133
("успеха") в n опытах по схеме Бернулли с вероятностью "успеха" Fn (x) . Поэтому, в силу закона больших чисел в формулировке Бернул-
ли, следует утверждение теоремы. 
Колмогоровым была изучена статистика ∆n = Sup Fn* (x) − FX (x) -
x R
точная верхняя грань отклонения эмпирической функции распределения от теоретической на всей оси и на ее основе разработан критерий согласия. Имеет место следующая теорема.
Теорема 7.6. (Колмогорова). Пусть Х - СВНТ с функцией распределения
FX (x) t > 0 : lim P{ n ∆n < t}= K(t) = |
∞ |
}. |
∑(−1)i exp{− 2i2 t2 |
||
n→∞ |
i=−∞ |
|
|
|
Доказательство см., напр., в [4], § 3.2]. 
Функция K (t) - функция распределения Колмогорова - табулиро-
вана и может быть использована для проверки гипотезы о законе распределения непрерывной генеральной случайной величины с помощью
статистики Zn =
n ∆n уже при n ≥ 20 .
На практике экстремум заменяется на максимум, который достигается в одной из точек скачка эмпирической функции распределения (если она строится для простой выборки). Несколько сложнее осуществляется поиск максимума отклонения для интервальной выборки. При этом возникает не простой вопрос о зависимости мощности критерия от числа интервалов, если эти интервалы не порождены естественной классификацией признаков в номинальной шкале.
Критерий согласия хи-квадрат
Критерий хи-квадрат более алгоритмичен, чем критерий Колмогорова, и имеет более широкий спектр приложений, поскольку применяется как для дискретной, так и для непрерывной генеральной совокупности. Основан этот критерий на поразрядном сравнении частот и вероятностей, поэтому предварительно выборка приводится к частотному
134
FX(x)
1
|
I2 I3 |
Il |
||
|
|
|
|
|
|
|
|
|
|
a1 a2 a3 |
al–1 |
x |
||
|
||||
Рис.7.5.
виду. При этом в зависимости от типа генерального по разному трактуется понятие "разряд".
СВДТ
Если генеральная X
СВНТ
разряды для сравнения частот - это возможные значения x в группированной выборке;
разряды - это интервалы, полу-
чаемые при интервальном представлении выборки.
Рассмотрим более подробно структуру критерия для непрерывной Х. Пусть гипотеза H0 - простая, т.е. полностью определяет закон распределения X.
Разобьем множество значений EX на l интервалов точками деления a0,a1, a2,...,al , как показано на рис.7.5, так что IK = [ak −1, ak ),
k = 2,3,..,l −1; I1 = (−∞, a1), Il =[al −1,+∞).
Так как Н0 - простая, то теоретическая вероятность попадания на интервал IK : 
P{X Ik } = P{ak −1 ≤ X < ak } = = FX (ak ) − FX (ak −1) = pk -
точно известна. Пусть получена выборка: x1, x2,..., xn. Распределим ее по интервалам: пусть mk - число выборочных значений, попавших в Ik . Очевиднодолжновыполнятьсяусловие:
l |
|
∑mk = n. |
(7.5) |
k =1
135
Рассмотрим меру расхождения, основанную на среднеквадратичной близости:
l |
|
|
|
|
|
|
|
|
|
|
|
|
mk |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Z = ∑ck ( pk* − pk )2 , где pk* = |
|
. Имеет место следующая теорема. |
|||||||||||||||||||||||||||
n |
|||||||||||||||||||||||||||||
k =1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
Теорема 7.7. Если Н0 - простая, |
c |
|
= |
n |
, |
n >>1 , то |
|
|
|
||||||||||||||||||||
|
|
|
|
|
|||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
k |
|
pk |
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
Z |
= |
l |
|
n |
|
( p* − p )2 ~ χ2 (l −1). |
|
|
|
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||
|
|
|
|
∑ p |
|
|
|
|
|
|
|
||||||||||||||||||
|
|
|
|
|
|
k |
|
|
|
k |
|
k |
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
k =1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
Преобразуем |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
Z = |
l |
n |
m |
− p |
|
2 |
= |
|
l (m |
|
− np |
k |
)2 |
= |
n |
m |
k |
− np |
|
2 |
|||||||||
∑ pk |
|
k |
k |
|
|
∑ |
k |
npk |
|
|
∑ |
|
npk |
k . |
|||||||||||||||
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
|
k =1 |
|
|
|
|
|
|
|
|
|
|
k =1 |
|
|
|
|
|
|
|
|
k =1 |
|
|
|
|
|
|||
Обозначим |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
Zk = mk − npk |
|
|
|
|
|
l |
|
|
|
|
|
|
|
|||||||||||
|
|
|
|
|
Z = ∑Zk2. |
|
|
|
|
(7.6) |
|||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
npk |
|
|
|
k =1 |
|
|
|
|
|
|
|
|||||||
Можно показать, что при больших n mk ~ Pu(npk ) , т.е. Zk - стан-
дартизованная пуассоновская величина.
Известно, что пуассоновское распределение асимптотически нор-
мально (см. |
задачу 14.572 в [2]). |
Поэтому при n >>1, |
таких, что |
λk = npk >>1 |
для всех k =1,2,...,l |
можно считать, что |
Zk ~ N (0,1) . |
Отсюда, согласно (7.6), статистика Z представляет собой сумму квадратов стандартизованных нормальных величин. Если бы Z1, Z2,.., Zn были
независимы в совокупности, то в соответствии с теоремой Пирсона 6.3 Z ~ χ2 (l) . Однако утверждение о независимости в данном случае не имеет места, так как на случайные величины Z1, Z2,.., Zn наложено одно линейное условие связи. Действительно, как следует из (7.6):
mk =
npk Zk + npk .
Учитывая (7.5), получаем
136
l |
l |
l |
|
∑mk = ∑( npk Zk + npk ) = n |
∑ npk Zk = 0 - |
линейная зависи- |
|
k =1 |
k =1 |
k =1 |
|
мость между величинами Z1, Z2,.., Zn . При этом, |
согласно основной |
||
концепции распределения хи-квадрат, "теряется одна степень свободы", в результате получаем:
l |
|
|
2 |
~ χ2 |
(l −1). |
Z = ∑ mk −n pk |
|||||
|
n p |
k |
|
|
|
k =1 |
|
|
|
|
|
Пример 2. Исследуя вероятностные законы наследственности, Грегор Мендель проводил в течение 8 лет (с 1857 по 1865 г.) эксперименты по селекции гороха. За это время он вырастил и детально изучил около 10000 растений гороха, прежде чем решился опубликовать свои результаты в одном из научных журналов. Однако после этого потребовалось целых 35 лет, чтобы ученый мир понял и оценил значение сделанного им открытия. В одном из своих экспериментов Мендель наблюдал частоты в схожести различных видов семян, получаемых при скрещивании растений с круглыми желтыми семенами и растений с морщинистыми зелеными семенами. Данные наблюдений Менделя и теоретически рассчитанные вероятности приведены в табл.7.1.
Таблица 7.1
Номер |
|
|
Теоретические |
|
Виды семян |
Частота mk |
вероятности |
||
разряда |
||||
|
|
Pk |
||
k |
|
|
|
|
1 |
Круглые и желтые |
315 |
9 16 |
|
2 |
Морщинистые и |
101 |
3 16 |
|
|
желтые |
|||
|
|
|
||
3 |
Круглые и зеленые |
108 |
3 16 |
|
4 |
Морщинистые и |
32 |
1 16 |
|
|
зеленые |
|||
|
|
|
||
|
∑ |
N = 556 |
1 |
137
Проверить на уровне значимости α = 0,05 основную гипотезу о
соответствии наблюдаемых частот теоретическим вероятностям.
В данном примере разрядами являются значения качественных признаков: X1 - форма (круглые или морщинистые), X 2 - цвет (желтый
или зеленый), по которым вся популяция гороха (генеральная совокупность) разделилась на 4 непересекающихся класса. Статистика Пирсона принимает вид:
4 |
|
|
|
2 |
|
|
mk −n pk |
|
(3). |
|
|||
Z = ∑ |
n p |
|
~ χ |
|
|
|
k =1 |
k |
|
|
χ2(3) находим: t |
(3)= |
|
Из таблицы квантилей распределения |
||||||
= t0,95 (3)= 7,81. Вычисляем |
|
|
|
|
1−α |
|
выборочное |
|
значение статистики: |
||||
Zвыб = 0,47 . Так как 0,47<<7,81 ( Zвыб G1−α ), то гипотеза H0 принимается с хорошей надежностью. 
Замечание 1. Критическую область для проверки основной гипотезы H0 следует выбирать на правом хвосте распределения χ2(l −1), так как
это максимизирует мощность критерия. Действительно, если гипотеза H0 - ложная, т.е. pk не являются истинными вероятностями k-го раз-
ряда, то каждое слагаемое в сумме (7.5) будет иметь порядок n и сумма будет неограниченно возрастать вместе с объемом выборки. Таким об-
разом, если Gα ={z z > zкр} , то при достаточно большом n событие {Z > zкр
H1} будет иметь вероятность, близкую к единице, и ложная
гипотеза будет почти наверняка отвергнута.
Замечание 2. Выбор интервалов - не простая задача при практическом использовании критерия хи-квадрат. Следует иметь в виду, что преобразование выборки к интервальному виду (в случае непрерывной Х) связано с некоторой потерей информации. Однако для эффективной работы критерия Пирсона группировка является необходимой операцией, позволяющей параметризировать критерий. Но при этом число интервалов l не должно быть ни слишком малым, иначе будет потеряно слишком много информации о распределении генеральной совокупности, ни слишком большим, так как в этом случае получаются слабо наполненные разряды и мощность критерия падает. Теоретически этот вопрос исследовался в [7], где показано, что при проверке на нормаль-
138
