- •Глава 1 Случайные события
- •1.1. Вводные понятия
- •1.2. Алгебра событий
- •1.4. Схема геометрической вероятности
- •1.5. Условные вероятности. Независимость событий
- •1.6. Правила вычисления вероятностей сложных событий
- •1.8. Обобщения схемы Бернулли
- •Глава 2 Случайные величины
- •2.1. Основные понятия, связанные со случайной величиной
- •2.3. Закон распределения случайной величины дискретного типа
- •2.5. Случайные величины непрерывного типа и их законы распределения
- •2.7. Нормальное распределение
- •Глава 3Случайные векторы
- •3.1. Основные понятия. Свойства функции распределения
- •3.2. Случайные векторы дискретного типа и их законы распределения
- •3.4. Числовые характеристики случайного вектора дискретного типа
- •3.5. Случайные векторы непрерывного типа и их законы распределения
- •Глава 4. Функции от случайных величин
- •4.1. Теоремы о математическом ожидании функций
- •4.3. Характеристическая функция и ее свойства
- •4.4. Законы распределения функций
- •Глава 5 Законы больших чисел и предельные теоремы теории вероятностей
- •5.1. Законы больших чисел
- •5.2. Центральная предельная теорема
- •5.3. Следствия ЦПТ для схемы Бернулли
- •Глава 6. Статистическое оценивание
- •6.1. Первичная обработка выборки
- •6.2. Точечное оценивание неизвестных характеристик генерального
- •6.4. Интервальное оценивание
- •Глава 7.Проверка статистических гипотез
- •7.1. Общие понятия. Методика проверки
- •7.2. Выбор критической области
- •7.4. Проверка гипотез о законе распределения
- •Глава 8.Корреляционный анализ
- •Глава 9Регрессионный анализ
- •Глава 10.Однофакторный дисперсионный анализ
- •Литература
ность оптимальное число интервалов группировки определятся соотношением
l =[1,87 (n −1)2 / 5 ],
где [a] - целая часть числа a, которое может служить ориентиром и для проверки других типов распределений, отличных от нормального.
Обобщение критерия на случай сложной гипотезы осуществляется следующим образом.
Пусть гипотеза H0 - сложная, т.е. гипотетическая функция распределения FX (x / Θ1,Θ2...Θs ) зависит от s неизвестных параметров. В этом случае теоретические вероятности pk попадания на интервал Ik при условии H0 не могут быть вычислены точно, так как они сами являются функциями этих неизвестных параметров:
pk = FX (ak / Θ1,Θ2...Θs )− FX (ak −1 / Θ1,Θ2...Θs ).
Необходимо оценить значения параметров Θ1, Θ2,...,Θs по выборке, что приведет к оценкам теоретических вероятностей ~pk вместо точных значений pk . Возникает вопрос: как это повлияет на закон распределе-
ния статистики Z? Как доказано Фишером, если параметры оцениваются методом максимального правдоподобия для интервальной выборки, то
при достаточно больших n Z ~ χ2(l −1− s), т.е. снова получаем распре-
деление хи-квадрат, но теряем дополнительно s степеней свободы - по числу оцениваемых параметров.
Глава 8.Корреляционный анализ
139
Корреляционный анализ - это совокупность мето-
дов обнаружения так называемой корреляционной зависимости между случайными величинами. Для двух случайных величин Х и Y корреляционный анализ состоит из следующих этапов:
1)построение корреляционного поля и составление корреляционной таблицы;
2)вычисление выборочного коэффициента корреляции;
3)проверка статистической гипотезы о значимости корреляцион-
ной связи.
Рассмотрим подробнее каждый из указанных этапов.
Корреляционное поле и корреляционная таблица являются исходными данными при корреляционном анализе. Пусть (xk , yk ) , k = 1,2,…,n -
результаты парных наблюдений над случайными величинами Х и Y . Изображая полученные результаты в виде точек в декартовой системе координат, получим корреляционное поле. По характеру расположения точек поля можно составить предварительное представление о форме зависимости случайных величин (например, о том, что одна из них в среднем возрастает или убывает с возрастанием другой).
При большом объеме выборки результаты группируются и представляются в виде корреляционной таблицы. Последняя представляет собой l1 ×l2 - клеточную таблицу, где l1 и l2 - числа интервалов соот-
ветственно для Х и Y, а в каждой клетке таблицы приводится число ni j тех пар (x,y), которые попадают в прямоугольник Пi j , определяемый
границами i-го и j-го интервалов по соответствующим осям.
Выборочный коэффициент корреляции Пирсона для группирован-
ной корреляционной таблицы определяется формулой
|
|
|
|
* |
|
|
|
SX ,Y |
|
|
|
|
|
|
|
ρX ,Y |
= |
|
|
, |
|
||
где |
|
|
|
SX SY |
|
||||||
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
S |
|
= |
1 |
l1 |
l2 |
|
(x) |
− x)(y) − y)n - |
|||
|
X ,Y |
|
n |
∑∑ |
|
i |
|
j |
ij |
||
|
|
|
|
|
|
|
|
||||
i=1 j=1
(8.1)
(8.2)
140
выборочнаяковариация; xi и y j - центрысоответствующихинтервалов;
|
|
|
S |
X |
= S |
2 |
, S |
= |
|
|
S 2 |
, |
|
|
|||
|
|
|
|
|
X |
Y |
|
|
|
|
Y |
|
|
|
|||
S 2 |
= |
1 |
l1 ni•(x)i − x)2, |
SY2 |
= |
1 |
|
l2 |
n• j (y)j − y)2 - |
(8.3) |
|||||||
n |
n |
∑ |
|||||||||||||||
X |
|
∑ |
|
|
|
|
|
|
|
|
|
||||||
|
|
|
i=1 |
|
|
|
|
|
|
|
|
|
i=1 |
|
|
|
|
соответствующие выборочные дисперсии. |
|
|
|
|
|
|
|||||||||||
Для выборочной ковариации S X ,Y |
справедлива формула |
|
|||||||||||||||
S |
|
= α* − x y = |
1 |
l1 |
l2 |
n |
x) y) |
− x y - |
(8.4) |
||||||||
|
|
n |
∑∑ |
||||||||||||||
|
X ,Y |
|
1,1 |
|
|
|
|
ij |
i |
j |
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|||||||
i=1 j=1
аналог формулы K X ,Y = α1,1 −mX mY в теории вероятностей. Для про-
стой (не группированной выборки) формулы (8.2) - (8.4) упрощаются и приобретают вид:
|
|
SX ,Y |
= |
1 |
|
n (xk − x))(yk − y)), |
|||||||||||
|
|
n |
|||||||||||||||
|
|
|
|
|
|
∑ |
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
k =1 |
|
|
|
|
|
|
|
||
|
|
|
|
|
α* |
= |
1 |
n |
x |
|
y , |
|
|||||
|
|
|
|
|
n |
∑ |
|
|
|||||||||
|
|
|
|
|
1,1 |
|
|
k |
|
k |
|
|
|||||
|
|
|
|
|
|
|
k =1 |
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
S 2 |
= |
1 |
n |
(xk − x)2 , S 2 = |
1 n |
(yk − y)2. |
|||||||||||
n |
∑ |
n ∑ |
|||||||||||||||
X |
|
|
|
|
|
|
|
Y |
|
|
|
|
|||||
|
|
|
k =1 |
|
|
|
|
|
|
|
|
|
|
|
k =1 |
|
|
Выборочный коэффициент корреляции ρ*X ,Y обладает всеми свойствами, которыми обладает теоретико-вероятностный коэффициент корреляции ρX ,Y (см. § 4.2). Вчастности, длялюбойвыборки ρ*X ,Y ≤1.
При этом чем ближе ρ*X ,Y к 1 (или к –1), тем сильнее выражена
линейная зависимость между X и Y. Однако значимость такой зависимости должна быть подкреплена проверкой гипотезы.
141
Проверка гипотезы о наличии корреляции выполняется следующим образом. Основная гипотеза H0: ρ = 0; альтернативной может вы-
ρ < 0;
ступать любая из трех возможныхH1 : ρ ≠ 0;
ρ > 0.
В тех случаях, когда справедливо предположение о нормальном распределении двумерного генерального вектора (X,Y), подходящей статистикой для проверки основной гипотезы является стъюдентова статистика
Z = r
n −2 ~ St(n −2) ,
1−r2
где r = ρ*X ,Y - выборочный коэффициент корреляции, а объем выборки
(число степеней свободы n – 2) предполагается большим.
Пример 1. В табл.8.1. представлены результаты измерений роста Х и веса Y 50 мужчин - слушателей военной академии. Вычислить выборочный коэффициент корреляции и проверить гипотезу о значимости корреляционной связи.
|
|
|
|
|
Таблица 8.1 |
|
|
|
|
|
|
|
|
Х, см |
|
|
Y, кг |
|
|
|
|
|
|
|
|
|
|
[55,65) |
[65,75) |
[75,85) |
[85,95) |
|
ni• |
|
|
|
|||||
[155,165) |
2 |
5 |
4 |
1 |
|
12 |
[165,175) |
2 |
8 |
9 |
4 |
|
23 |
[175,185) |
0 |
4 |
6 |
5 |
|
15 |
n• j |
4 |
17 |
19 |
10 |
|
50 |
По формулам интервальной выборки вычисляем средние:
|
1 |
|
|
3 |
) |
|
8530 |
|
|
|
||
x = |
|
|
|
∑ |
xi ni• = |
|
|
=170,6 |
; |
|||
n |
50 |
|||||||||||
|
|
|
|
i=1 |
|
|
|
|
|
|
|
|
|
|
1 |
|
4 |
|
) |
|
3850 |
|
|
||
y = |
|
|
|
∑ |
y j n• j |
= |
|
|
= 77 |
|
||
n |
50 |
|
||||||||||
|
|
|
|
|
j=1 |
|
|
|
|
|
|
|
142
и выборочные вторые начальные моменты:
α |
= |
1 |
|
|
|
3 |
|
x)2 |
n |
= 29158 ; |
|||
n |
∑ |
||||||||||||
2,0 |
|
|
i |
|
i• |
|
|||||||
|
|
|
|
|
|
i=1 |
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|||
α |
= |
1 |
|
4 |
|
y) |
2 |
n |
= 6006 ; |
||||
|
n |
∑ |
|||||||||||
0,2 |
|
|
|
|
|
j |
• j |
|
|||||
|
|
|
|
|
|
j=1 |
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
α |
=13156 . |
|||||||||
|
|
|
|
|
|
1,1 |
|
|
|
|
|
||
Далее, используя формулы (8.2) - (8.4), получаем
SX2 = α2,0 − x2 = 53,64 ;
SY2 = α0,2 − y2 = 77 ;
SX ,Y = α1,1 − x y =19,8 .
Наконец, по формуле (8.1) определяем
r = |
19,8 |
= 0,308 . |
7,3239 8,7749 |
Проверим значимость коэффициента корреляции при двусторонней альтернативе и α = 0,05 . Из таблицы распределения Стьюдента находим
квантиль t0,975(48) = 2,01. ВыборочноезначениестатистикиZ равно
Zвыб = |
0,308 48 = 2,2429 . |
|
1− (0,308)2 |
Так как Zвыб Gα , то |
H0 отклоняется в пользу H1, корреляция |
значима.
Замечание. Несколько обескураживающий результат предыдущего
примера ( H0 отвергнута при достаточно малом значении r) объясняется
сильной зависимостью стъюдентовой статистики от объема выборки n. В следующем параграфе при анализе регрессии будет показано, что линейная связь может оказаться значимой и при малых значениях коэффициента корреляции r. Однако для получения надежных выводов при использовании статистики Z следует иметь более 100 наблюдений. Менее чувствительной к объему выборки является статистика U, основанная на преобразовании Фишера:
V = 12 ln 11+−rr .
143
Фишером было доказано, что при n ≥ 30 случайная величина V имеет приближеннонормальноераспределениеснезависящейотr дисперсией:
σV2 = n 1−3
и математическим ожиданием:
mV = 12 ln 11+−ρρ + 2nρ− 2 ≈ 12 ln 11+−ρρ при n ≥ 30,
где ρ - истинное, но неизвестное, значение коэффициента корреляции
двумерного генерального вектора (X,Y).
Стандартизируя V, получим подходящую статистику (Фишера):
U = |
V − mV |
~ N (0,1) . |
(8.5) |
|
σ |
||||
|
|
|
||
|
V |
|
|
Заметим, что с помощью указанной статистики можно проверять более общую гипотезу о сравнении с эталоном:
H0 : ρ = ρ0 против любой из трех альтернатив.
Вэтомслучае mV заменяется наусловноематематическоеожидание:
M[V H0 ] = 1 ln 1 + ρ0 2 1−ρ0
и центрирование статистики V в формуле (8.5) осуществляется на эту величину.
Пример 2. Проведены парные измерения производительности труда Y в зависимости от уровня механизации работ X для 28 промышленных предприятий Московской области. В результате получен выборочный коэффициент корреляции r = 0,51. Решить следующие две задачи.
1) В условиях двусторонней альтернативы найти критическое значение уровня значимости α0 такое, что при α < α0 гипотеза H0 будет при-
ниматьсядляполученноговданнойвыборкекоэффициентакорреляции.
|
2) |
Для α = 0,05 |
и правосторонней альтернативы найти критиче- |
||||||
ское значение rкр такое, что при r > rкр гипотеза H0 |
будет отвергаться |
||||||||
в пользу H1 . |
|
|
|
||||||
|
|
|
1. |
Воспользуемся фишеровской статистикой (8.5). Так |
как |
||||
ρ0 = 0 |
(проверяется |
значимость коэффициента |
корреляции), |
то |
|||||
m = |
1 |
ln |
1 |
+ρ0 |
= 0 , поэтому статистика U принимает вид: |
|
|||
|
|
|
|
||||||
V |
2 |
1 |
−ρ0 |
|
|
|
|||
|
|
|
|
||||||
144 |
|
|
|
|
|
|
|
|
|
