Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Литература / книга.pdf
Скачиваний:
150
Добавлен:
17.04.2013
Размер:
1.36 Mб
Скачать

ность оптимальное число интервалов группировки определятся соотношением

l =[1,87 (n 1)2 / 5 ],

где [a] - целая часть числа a, которое может служить ориентиром и для проверки других типов распределений, отличных от нормального.

Обобщение критерия на случай сложной гипотезы осуществляется следующим образом.

Пусть гипотеза H0 - сложная, т.е. гипотетическая функция распределения FX (x / Θ1,Θ2...Θs ) зависит от s неизвестных параметров. В этом случае теоретические вероятности pk попадания на интервал Ik при условии H0 не могут быть вычислены точно, так как они сами являются функциями этих неизвестных параметров:

pk = FX (ak / Θ1,Θ2...Θs )FX (ak 1 / Θ1,Θ2...Θs ).

Необходимо оценить значения параметров Θ1, Θ2,...,Θs по выборке, что приведет к оценкам теоретических вероятностей ~pk вместо точных значений pk . Возникает вопрос: как это повлияет на закон распределе-

ния статистики Z? Как доказано Фишером, если параметры оцениваются методом максимального правдоподобия для интервальной выборки, то

при достаточно больших n Z ~ χ2(l 1s), т.е. снова получаем распре-

деление хи-квадрат, но теряем дополнительно s степеней свободы - по числу оцениваемых параметров.

Глава 8.Корреляционный анализ

139

Корреляционный анализ - это совокупность мето-

дов обнаружения так называемой корреляционной зависимости между случайными величинами. Для двух случайных величин Х и Y корреляционный анализ состоит из следующих этапов:

1)построение корреляционного поля и составление корреляционной таблицы;

2)вычисление выборочного коэффициента корреляции;

3)проверка статистической гипотезы о значимости корреляцион-

ной связи.

Рассмотрим подробнее каждый из указанных этапов.

Корреляционное поле и корреляционная таблица являются исходными данными при корреляционном анализе. Пусть (xk , yk ) , k = 1,2,…,n -

результаты парных наблюдений над случайными величинами Х и Y . Изображая полученные результаты в виде точек в декартовой системе координат, получим корреляционное поле. По характеру расположения точек поля можно составить предварительное представление о форме зависимости случайных величин (например, о том, что одна из них в среднем возрастает или убывает с возрастанием другой).

При большом объеме выборки результаты группируются и представляются в виде корреляционной таблицы. Последняя представляет собой l1 ×l2 - клеточную таблицу, где l1 и l2 - числа интервалов соот-

ветственно для Х и Y, а в каждой клетке таблицы приводится число ni j тех пар (x,y), которые попадают в прямоугольник Пi j , определяемый

границами i-го и j-го интервалов по соответствующим осям.

Выборочный коэффициент корреляции Пирсона для группирован-

ной корреляционной таблицы определяется формулой

 

 

 

 

*

 

 

 

SX ,Y

 

 

 

 

 

 

ρX ,Y

=

 

 

,

 

где

 

 

 

SX SY

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S

 

=

1

l1

l2

 

(x)

x)(y) y)n -

 

X ,Y

 

n

∑∑

 

i

 

j

ij

 

 

 

 

 

 

 

 

i=1 j=1

(8.1)

(8.2)

140

выборочнаяковариация; xi и y j - центрысоответствующихинтервалов;

 

 

 

S

X

= S

2

, S

=

 

 

S 2

,

 

 

 

 

 

 

 

X

Y

 

 

 

 

Y

 

 

 

S 2

=

1

l1 ni(x)i x)2,

SY2

=

1

 

l2

nj (y)j y)2 -

(8.3)

n

n

X

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

i=1

 

 

 

соответствующие выборочные дисперсии.

 

 

 

 

 

 

Для выборочной ковариации S X ,Y

справедлива формула

 

S

 

= α* x y =

1

l1

l2

n

x) y)

x y -

(8.4)

 

 

n

∑∑

 

X ,Y

 

1,1

 

 

 

 

ij

i

j

 

 

 

 

 

 

 

 

 

 

 

 

i=1 j=1

аналог формулы K X ,Y = α1,1 mX mY в теории вероятностей. Для про-

стой (не группированной выборки) формулы (8.2) - (8.4) упрощаются и приобретают вид:

 

 

SX ,Y

=

1

 

n (xk x))(yk y)),

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k =1

 

 

 

 

 

 

 

 

 

 

 

 

α*

=

1

n

x

 

y ,

 

 

 

 

 

 

n

 

 

 

 

 

 

 

1,1

 

 

k

 

k

 

 

 

 

 

 

 

 

 

k =1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S 2

=

1

n

(xk x)2 , S 2 =

1 n

(yk y)2.

n

n

X

 

 

 

 

 

 

 

Y

 

 

 

 

 

 

 

k =1

 

 

 

 

 

 

 

 

 

 

 

k =1

 

Выборочный коэффициент корреляции ρ*X ,Y обладает всеми свойствами, которыми обладает теоретико-вероятностный коэффициент корреляции ρX ,Y (см. § 4.2). Вчастности, длялюбойвыборки ρ*X ,Y 1.

При этом чем ближе ρ*X ,Y к 1 (или к –1), тем сильнее выражена

линейная зависимость между X и Y. Однако значимость такой зависимости должна быть подкреплена проверкой гипотезы.

141

Проверка гипотезы о наличии корреляции выполняется следующим образом. Основная гипотеза H0: ρ = 0; альтернативной может вы-

ρ < 0;

ступать любая из трех возможныхH1 : ρ ≠ 0;

ρ > 0.

В тех случаях, когда справедливо предположение о нормальном распределении двумерного генерального вектора (X,Y), подходящей статистикой для проверки основной гипотезы является стъюдентова статистика

Z = r n 2 ~ St(n 2) ,

1r2

где r = ρ*X ,Y - выборочный коэффициент корреляции, а объем выборки

(число степеней свободы n – 2) предполагается большим.

Пример 1. В табл.8.1. представлены результаты измерений роста Х и веса Y 50 мужчин - слушателей военной академии. Вычислить выборочный коэффициент корреляции и проверить гипотезу о значимости корреляционной связи.

 

 

 

 

 

Таблица 8.1

 

 

 

 

 

 

 

Х, см

 

 

Y, кг

 

 

 

 

 

 

 

 

 

[55,65)

[65,75)

[75,85)

[85,95)

 

ni

 

 

[155,165)

2

5

4

1

 

12

[165,175)

2

8

9

4

 

23

[175,185)

0

4

6

5

 

15

nj

4

17

19

10

 

50

По формулам интервальной выборки вычисляем средние:

 

1

 

 

3

)

 

8530

 

 

 

x =

 

 

 

xi ni=

 

 

=170,6

;

n

50

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

1

 

4

 

)

 

3850

 

 

y =

 

 

 

y j nj

=

 

 

= 77

 

n

50

 

 

 

 

 

 

j=1

 

 

 

 

 

 

142

и выборочные вторые начальные моменты:

α

=

1

 

 

 

3

 

x)2

n

= 29158 ;

n

2,0

 

 

i

 

i

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

α

=

1

 

4

 

y)

2

n

= 6006 ;

 

n

0,2

 

 

 

 

 

j

j

 

 

 

 

 

 

 

j=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

α

=13156 .

 

 

 

 

 

 

1,1

 

 

 

 

 

Далее, используя формулы (8.2) - (8.4), получаем

SX2 = α2,0 x2 = 53,64 ;

SY2 = α0,2 y2 = 77 ;

SX ,Y = α1,1 x y =19,8 .

Наконец, по формуле (8.1) определяем

r =

19,8

= 0,308 .

7,3239 8,7749

Проверим значимость коэффициента корреляции при двусторонней альтернативе и α = 0,05 . Из таблицы распределения Стьюдента находим

квантиль t0,975(48) = 2,01. ВыборочноезначениестатистикиZ равно

Zвыб =

0,308 48 = 2,2429 .

 

1(0,308)2

Так как Zвыб Gα , то

H0 отклоняется в пользу H1, корреляция

значима. Замечание. Несколько обескураживающий результат предыдущего

примера ( H0 отвергнута при достаточно малом значении r) объясняется

сильной зависимостью стъюдентовой статистики от объема выборки n. В следующем параграфе при анализе регрессии будет показано, что линейная связь может оказаться значимой и при малых значениях коэффициента корреляции r. Однако для получения надежных выводов при использовании статистики Z следует иметь более 100 наблюдений. Менее чувствительной к объему выборки является статистика U, основанная на преобразовании Фишера:

V = 12 ln 11+rr .

143

Фишером было доказано, что при n 30 случайная величина V имеет приближеннонормальноераспределениеснезависящейотr дисперсией:

σV2 = n 13

и математическим ожиданием:

mV = 12 ln 11+−ρρ + 2nρ2 12 ln 11+−ρρ при n 30,

где ρ - истинное, но неизвестное, значение коэффициента корреляции

двумерного генерального вектора (X,Y).

Стандартизируя V, получим подходящую статистику (Фишера):

U =

V mV

~ N (0,1) .

(8.5)

σ

 

 

 

 

V

 

 

Заметим, что с помощью указанной статистики можно проверять более общую гипотезу о сравнении с эталоном:

H0 : ρ = ρ0 против любой из трех альтернатив.

Вэтомслучае mV заменяется наусловноематематическоеожидание:

M[V H0 ] = 1 ln 1 + ρ0 2 1−ρ0

и центрирование статистики V в формуле (8.5) осуществляется на эту величину.

Пример 2. Проведены парные измерения производительности труда Y в зависимости от уровня механизации работ X для 28 промышленных предприятий Московской области. В результате получен выборочный коэффициент корреляции r = 0,51. Решить следующие две задачи.

1) В условиях двусторонней альтернативы найти критическое значение уровня значимости α0 такое, что при α < α0 гипотеза H0 будет при-

ниматьсядляполученноговданнойвыборкекоэффициентакорреляции.

 

2)

Для α = 0,05

и правосторонней альтернативы найти критиче-

ское значение rкр такое, что при r > rкр гипотеза H0

будет отвергаться

в пользу H1 .

 

 

 

 

 

 

1.

Воспользуемся фишеровской статистикой (8.5). Так

как

ρ0 = 0

(проверяется

значимость коэффициента

корреляции),

то

m =

1

ln

1

0

= 0 , поэтому статистика U принимает вид:

 

 

 

 

 

V

2

1

−ρ0

 

 

 

 

 

 

 

144