Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Учебное пособие по ТВ и МС

.pdf
Скачиваний:
59
Добавлен:
08.03.2016
Размер:
3.21 Mб
Скачать

Предложение 11.2. В случае парной линейной модели регрессии ϕ (x) индекс корреляции Ryx = r . #

Упражнение 11.1. Доказать предложение 11.2.

Пример 11.5. Для данных примера 11.2 получить оценку корреляционного отношения для пары компонентов (U,Z), между которыми из диаграммы рассеяния можно предположить наличие нелинейной статистической связи.

Решение. Получим оценки эмпирических корреляционных отношений ηzu ηuz. Рассмотрим два случая:

1)U – объясняющая переменная, Z – объясняемая переменная;

2)Z – объясняющая переменная, U – объясняемая переменная. Определим вначале по формуле (6.1) количество групп: L=5.

Случай 1. Сгруппируем данные относительно объясняющей переменной U:

 

 

Таблица 11.3

Номер группы

Интервалы групп

Значения zj, попавшие в j

 

 

 

 

z j

j

по U

группу

 

 

 

 

 

 

 

 

 

 

1

10 22,2

30, 19

24,5

2

22,2 34,4

27, 30, 29

28,667

3

34,4 46,6

37

37

4

46,6 58,8

44, 43, 43, 43

43,25

5

58,8 71

69, 78, 48, 79, 65, 56, 80, 64

67,375

Оценки z = 49,111 , sz2 = 356,432 . Вычислим δ2z по (11.6):

δ2z = 181 [(24,5 49,111)2 2 + (28,667 49,111)2 3 +K+ (67,375 49,111)2 8]=

=300,997.

Следовательно, согласно (11.7) ηzu =

300,997 = 0,919 .

 

 

 

 

 

 

 

 

356,432

 

 

 

 

Случай 2. Сгруппируем данные относительно объясняющей переменной Z:

 

 

 

 

Таблица 11.4

 

Номер группы

Интервалы групп

Значения uj, попавшие в j

 

 

 

 

 

u j

 

 

j

по Z

 

группу

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

19 31,2

 

29, 25, 16, 32, 10

22,4

 

 

2

31,2 43,4

 

49, 58, 49, 36

48

 

 

3

43,4 55,6

 

56, 60

58

 

 

4

55,6 67,8

 

65, 68, 64

65,667

 

 

5

67,8 80

 

70, 69, 71, 62

68

 

171

Оценки u = 49,389 , su2 = 368,238 . Вычислим δu2 по (11.6):

δu2 = 181 [(22,4 49,389)2 5 + (48 49,389)2 4 +K+ (68 49,389)2 4]=

=332,136.

Следовательно, согласно (11.6) ηuz =

332,136

= 0,950 .

 

368,238

 

Полученные результаты свидетельствуют о следующем:

1)ηzu ηuz, причем разница составляет по модулю 0,950,919 = 0,031 или 3,4%.

2)Оба эмпирических корреляционных отношения оказались существенно больше (в среднем более чем на 5%) коэффициента корреляции, равного 0,888. Это говорит о нелинейности статистической связи между переменными U и Z.

Проверка значимости эмпирического корреляционного отношения η основана на том, что распределение статистики

F =

 

η2

(n L)

 

(1

η2 )(L 1)

 

в условиях

выполнения гипотезы H0: η = 0 с ростом n

Fраспределению Фишера с k1 = L1 и k2 = nL степеням свободы. Поэтому η значимо отличается от нуля, если Fрасч > Fα (L 1,n

уровень значимости.

(11.8)

стремится к

L) , где α

Индекс корреляции R двух переменных значим, если значение статистики

F = R2 (n 2) 1 R2

больше табличного Fα (k1 ,k2 ) , где k1 = 1 и k2 = n2.

Пример 11.6. Для оценки ηuz = 0,950 , полученной в примере 11.5, проверить значимость нелинейной статистической связи между переменными U и Z для уровня значимости α = 0,01.

Решение. Определим по формуле (11.8) расчетное значение критической статистики:

Fрасч =

0,952

(18

5)

=

0,9025 13

= 30,083.

(1

0,95

2

) (5

1)

(1 0,9025) 4

 

 

 

 

Критическое значение равно: F0,01 (L 1, n L) = F0,01 (4,13) = 5,205 .

172

Поскольку 30,083 > 5,205, то нелинейная корреляционная связь между переменными U и Z является значимой.

Расхождение между η2 и R2 (или r2 для парной линейной модели) может быть использовано для проверки линейности корреляционной зависимости.

Рассмотрим частный случай парной линейной модели.

Проверка значимости линейной корреляционной зависимости основана на том, что распределение статистики

F =

(η2 r2 )(n L)

(11.9)

(1 η2 )(L 2)

подчиняется Fраспределению Фишера с k1 = L2 и k2 = nL степеням свободы. Значимое значение Fотношения (11.9) соответствует значимому

отклонению от линейности.

Пример 11.7. Для оценок ηuz = 0,950 , ruz = 0,888, полученных для данных примера 11.2, проверить гипотезу о нелинейности связи между стоимостью квартир и общей площадью на уровне значимости α = 0,05.

Решение. Имеем n=18, L=5. По формуле (11.9) расчетное значение критической статистики равно:

Fрасч =

(0,952

0,8882 )(18 5)

= 5,065.

(1

0,95

2

)(5 2)

 

 

 

Критическое значение составляет F0,05 (5 2,18 5) = F0,05 (3,13) = 3,411. Т.к. 5.065 > 3.411, то отклонение от линейности значимо.

11.4. Анализ множественных количественных связей

Экономические явления чаще адекватно описываются многофакторными моделями. Поэтому обобщим рассмотренную выше двумерную корреляционную модель на случай нескольких переменных.

Определение 11.4. Пусть имеется совокупность случайных переменных X1, X2, , Xm, имеющих совместное нормальное распределение. Матрицу

 

1

ρ12

K ρ1m

 

 

 

1

 

 

 

Qm =

ρ21

K ρ2m

,

 

L

L

L

L

 

ρm1

ρm2

K

 

 

 

1

 

173

составленную из парных коэффициентов корреляции ρij = ρ(Xi,Xj), (i,j=1, …, m), определяемых по формуле (2.7), называют корреляционной матрицей.

Основная задача многомерного корреляционного анализа состоит в оценке корреляционной матрицы Qm по выборке.

Эта задача решается определением матрицы выборочных коэффициентов корреляции:

1

R = r21

m L

rm1

r12

K r1m

1

K

r

 

 

2m

L L L .

rm2

K

 

1

В многомерном корреляционном анализе рассматриваются две типовые задачи:

-определение тесноты связи одной из переменных с совокупностью остальных m−1 переменных;

-определение тесноты связи между переменными при фиксировании или исключении остальных переменных.

Эти задачи решаются с помощью множественных и частных коэффициентов корреляции.

11.4.1. Множественный коэффициент корреляции

Множественный (или совокупный) коэффициент корреляции ρi.12…m

является мерой тесноты линейной связи между одной случайной переменной Xi и совокупностью других m−1 переменных. Выборочный множественный

коэффициент корреляции Ri.12…m, являющийся оценкой ρi.12…m равен

 

 

 

 

 

 

Ri.12Km = 1 −

Rm

,

(11.10)

 

 

R

 

 

 

 

ii

 

 

где Rm − определитель матрицы Rm, Rii − алгебраическое дополнение элемента rii матрицы Rm.

В частности, для трех переменных (m=3) формула (11.10) примет вид:

Ri. jk =

r2

+ r2

− 2r

r

r

jk

 

 

ij

ik

ij

ik

 

.

(11.11)

 

 

1 − rjk2

 

 

 

174

Основные свойства множественного коэффициента корреляции:

1.0 Ri.12…m 1, т.е. позволяет оценить лишь тесноту связи, но не ее направление.

2.Он не меньше, чем абсолютная величина любого парного или частного коэффициента корреляции с таким же первичным индексом.

3.Величина Ri2.12Km показывает, какую долю вариации исследуемой переменной объясняет вариация остальных переменных.

Можно показать, что множественный коэффициент корреляции значимо (на уровне значимости α) отличается от нуля, если значение статистики

F =

 

R2 (n m)

> Fα (m 1,n m) .

(11.12)

(1

2

)(m 1)

 

R

 

 

Пример 11.8. Для данных примера 11.2 получить оценку множественного коэффициент корреляции Rz.yu между переменной Z и совокупностью переменных Y и U. Проверить значимость множественной статистической связи между переменными для уровня значимости α = 0,05.

Решение. Имеем случай трех переменных (m=3). Определим предварительно все парные коэффициенты корреляции ruz = 0,888, ryz = 0,988, ryu = 0,908 и подставим их в (11.11):

Rz. yu =

(0,988)2

+ 0,8882 2 0,888 0,988 0,908

= 0,988 .

 

1

(0,908)

2

 

 

 

 

Из (11.11) находим расчетное и критическое значения статистики:

Fрасч =

 

R2 (n m)

=

0,9882 (18 3)

= 312,18

,

(1

R

2

)(m 1)

(1 0,988

2

) (3 1)

 

 

 

 

 

 

Fкр = Fα (m 1, n m) = F0,05 (2,15) = 3,68 .

Условие (11.11) выполняется, т.е. значимость множественная статистическая связь между переменными значима при α = 0,05.

11.4.2. Частный коэффициент корреляции

Иногда в практических ситуациях не удается интерпретировать на содержательном уровне выявленную парную связь между исследуемыми переменными. Причиной часто является опосредованное влияние на исследуемые переменные некоторого третьего фактора – неучтенных переменных. Необходимо введение измерителей корреляционной связи, «очищенных» от такого влияния.

175

В качестве измерителя степени тесноты связи между переменными X и Y при фиксированных значениях других переменных используются частные коэффициенты корреляции.

Определение 11.5. Пусть имеется совокупность случайных переменных X1, X2, , Xm, имеющих совместное нормальное распределение. Выборочным частным коэффициентом корреляции между переменными Xi и Xj при фиксированных значениях остальных m2 переменных называется выражение

rij\12Km =

Rij

,

(11.13)

Rii R jj

 

 

 

где Rij, Rjj алгебраические дополнения элемента rij, rjj матрицы Rm.

В частности, для трех переменных (m=3) формула (11.13) примет вид:

rij\k

=

rij rik rjk

 

.

(11.14)

(1

r2 )(1

r2

)

 

 

 

ik

jk

 

 

 

Частный

коэффициент корреляции

rij\12Km , как и парный коэффициент

корреляции rij, может принимать значения от 1 до 1. Кроме того, для исходной многомерной выборки объема n, он имеет такое же распределение, что и rij, вычисленный по nm+2 наблюдениям. Поэтому значимость частного коэффициента корреляции rij\12Km оценивают так же, как и коэффициента

корреляции rij, полагая n` = nm+2.

Пример 11.9. Для данных примера 11.2 определить степень тесноты частной связи между стоимостью квартиры и удаленностью ее от областного центра при фиксированном значении площади квартир.

Решение. Воспользуемся выражением (11.14):

ryz\u =

ryz ryu rzu

=

0,988 (0,908) 0,888

= −0,943.

(1

r2

)(1 r2 )

(1 0,9082 )(1 0,8882 )

 

 

yu

zu

 

 

 

Зависимость стоимости квартиры от ее удаленности от областного центра без учета площади квартиры оказалась ниже (ryz = 0,988). Это можно объяснить тем, что площадь квартиры весьма существенно влияет на ее цену.

11.5. Ранговая корреляция

Ранговые коэффициенты корреляции могут использоваться для измерения связи как порядковых, так и количественных признаков. При этом анализ

176

конкретных значений признаков не проводится, используется лишь информация об их взаимной упорядоченности типа «большеменьше», которая не меняется при замене единиц измерений.

Примерами таких признаков являются: структура бюджета семьи, качество жилищных условий, экзаменационные оценки и т.д.

Исходный статистический материал представляется упорядочениями (ранжировками) n объектов (выборок) по некоторым свойствам.

Ранги – это порядковые номера значений признака, расположенных в порядке возрастания или убывания их величин. Если значения признака имеют одинаковую количественную оценку, то ранги называют связными, а их значение считаем равным средней арифметической по всей данной группе.

Отсутствие каких-либо исходных предпосылок о законе распределения генеральной совокупности позволяет отнести ранговые коэффициенты корреляции к непараметрическим мерам оценки зависимости.

Ранговая корреляция отражает статистическую связь между порядковыми переменными.

11.5.1. Коэффициент ранговой корреляции Спирмена

Коэффициент ранговой корреляции Спирмена между переменными X и Y

находится по формуле:

 

 

 

6

n

 

ρx / y =1

 

 

(ri si )2 ,

(11.15)

n

3

 

 

 

n i=1

 

где ri и si ранги i-го объекта по переменным X и Y, n число пар наблюдений.

Формула (11.15) справедлива при отсутствии в ранжировках связных рангов. Если они имеются, то коэффициент Спирмена определяют в виде:

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

(ri si )2

 

 

 

 

ρx /

y =1

 

 

 

i=1

 

 

 

,

 

(11.16)

 

1

 

 

 

 

 

 

 

 

 

 

 

(n3 n) (T + T )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6

 

 

r

s

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

mr

 

 

 

1

ms

 

 

где Tr =

(tri3

tri ) , Ts =

(tsi3

tsi ) ,

(11.17)

 

 

 

 

 

12 i=1

 

 

 

12 i=1

 

 

mr, ms число групп одинаковых рангов у переменных X и Y,

tri, tsi число рангов, входящих в i-ю группу неразличимых рангов переменных X и Y.

177

Очевидно, что

ρx / y = ρy / x .

Если ранги всех объектов равны (ri = si, i = 1,

, n), то ρx / y =1.

Это случай

полной прямой связи. При полной обратной

ранговой связи ранги объектов расположены в обратном порядке. Во всех остальных случаях 1 < ρx / y <1.

При проверке значимости ρx / y исходят из того, что в случае

справедливости гипотезы H0 об отсутствии корреляционной связи между переменными (при n>10) статистика

t =

ρx / y

n 2

 

(11.18)

1ρx2

/ y

 

 

 

 

имеет tраспределение Стьюдента с k = n2 степенями свободы.

Поэтому ρx / y значим на доверительном уровне α, если расчетное значение

tрасч > tα (n 2) .

2

Пример 11.10. Для данных примера 11.2 определить с помощью коэффициента Спирмена зависимость между стоимостью квартиры и ее удаленностью от областного центра. Проверить значимость найденного коэффициента с α = 0,05.

Решение. Составим таблицу:

Таблица 11.5

yi

74

47

92

48

93

 

72

42

 

50

64

 

78

39

96

74

88

55

80

99

85

zi

44

69

27

78

30

 

48

79

 

65

56

 

43

80

30

43

29

64

43

19

37

ri

9,5

3

15

4

16

 

8

2

 

 

5

7

 

11

1

17

9,5

14

6

12

18

13

si

10

15

2

16

4,5

 

11

17

 

14

12

 

8

18

4,5

8

3

13

8

1

6

risi

-0,5

-12

13

-12

11,5

 

-3

-15

 

-9

-5

 

3

-17

12,5

1,5

11

-7

4

17

7

(risi)2

0,25

144

169

144

132,3

 

9

225

81

25

 

9

289

156,3

2,25

121

49

16

289

49

По формуле (11.15) ρy / z

=1

 

 

 

6

 

1910 = −0,971. Однако при этом не

18

3

18

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

учтены связные ранги.

По переменной Y имеем mr = 1 – одну группу неразличимых рангов с tr1 = 2 рангами. По переменной Z имеем ms = 2 – две группы неразличимых рангов с ts1 = 2 ранга и ts2 = 3 ранга. Поэтому по формуле (11.17):

T =

 

1

(23 2) = 0,5

,

T =

 

1

[(23 2) + (33 3)]= 2,5

.

r

12

 

 

 

 

 

 

s

12

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Отсюда находим по формуле (11.16)

 

ρy / z

=1

 

 

 

1910

 

 

 

= −0,977 .

 

 

1

(183

 

 

 

 

 

 

 

 

 

 

 

 

 

18) (0,5 + 2,5)

 

 

 

 

 

 

 

6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

178

Для проверки значимости ρy/z на основе (11.18) вычислим

= 0,977 18 2 = −

tрасч 1 0,9772 18,327 .

Далее найдем tα (18 2) = t0,025 (16) = 2,473. Поскольку tрасч > t0,025 (16) , то

2

коэффициент ρy/z для данных переменных значим на 5%-ном уровне.

11.5.2. Коэффициент ранговой корреляции Кендалла

Коэффициент ранговой корреляции Кендалла между переменными X и Y

находится по формуле:

τx / y =1

4K

,

(11.19)

n(n 1)

 

 

 

где K – статистика Кендалла, представляющая собой минимальное число обменов между элементами последовательности s, необходимое для приведения ее к упорядочиванию, аналогичному последовательности r.

Для определения статистики K необходимо ранжировать объекты по одной переменной (пусть, для определенности по X) в порядке возрастания (при этом

ее ранги будут упорядочены ( r1 r2 ≤K≤ rn ) и определить соответствующие

им ранги si, i = 1, , n, переменной Y. Статистика K равна общему числу инверсий (нарушений порядка, когда большее число стоит слева от меньшего),

в ранговой последовательности s1 , s2 ,K, sn .

Формула (11.19) справедлива при отсутствии в ранжировках связных рангов. Если они имеются, то коэффициент Кендалла определяют в виде:

 

 

 

τx / y

 

2(Vr

+Vs )

 

 

 

 

τ

=

 

 

n(n

1)

 

,

(11.20)

 

 

 

 

 

 

 

2Vr

 

 

 

 

 

2Vs

 

x / y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

1

 

 

 

 

 

 

 

 

 

n(n

 

 

 

n(n 1)

 

 

 

 

 

1)

 

 

 

 

где Vr =

1

mr

tri ) , Vs =

1

 

ms

tsi ) ,

 

(tri2

(tsi2

(11.21)

 

2 i=1

 

 

 

 

 

2 i=1

 

 

 

my, ms, tri, tsi те же, что и при расчете коэффициента Спирмена.

Отметим, что в данном случае группы связных рангов не требуется приравнивать их средней арифметической по всей данной группе.

Свойства коэффициента Кендалла аналогичны свойствам коэффициента Спирмена.

179

При проверке значимости τx/y исходят из того, что в случае справедливости гипотезы H0 об отсутствии корреляционной связи между переменными (при n>10) статистика

u =τ

9n(n 1)

(11.22)

 

2(2n + 5)

 

имеет стандартное нормальное распределение N(0,1).

Поэтому τx/y значим на доверительном уровне α, если расчетное значение

uрасч > u1−α2 .

Пример 11.11. Для данных примера 11.2 определить с помощью коэффициента Кендалла зависимость между стоимостью квартиры и ее удаленностью от областного центра. Проверить значимость найденного коэффициента с α = 0,05.

Решение. Составим таблицу, предварительно выполнив упорядочение всех пар (yi, zi) по возрастанию значений yi:

Таблица 11.6

yi

39

 

42

47

 

48

50

55

64

72

74

74

78

80

85

88

92

93

96

99

zi

80

 

79

69

 

78

65

64

56

48

44

43

43

43

37

29

27

30

30

19

ri

 

1

 

2

3

 

4

5

6

7

8

9

9

11

12

13

14

15

16

17

18

si

18

 

17

15

 

16

14

13

12

11

10

7

7

7

6

3

2

4

4

1

Число

17

 

16

14

 

14

13

12

11

10

9

6

6

6

5

2

1

1

1

0

инверсий

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Сумма всех инверсий: K = 17 + 16 + + 1 + 0 = 144. Теперь по (11.19)

τ y / z =1

 

 

4 144

 

= −0,882 .

 

 

 

 

 

 

 

 

 

 

 

 

18(18 1)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Поскольку имеются связные ранги, то определим из (11.21) поправочные коэффициенты:

Vr = 12 (22 2) =1, Vs = 12 [(32 3) + (22 2)]= 4 .

Получим из (11.20):

 

 

0,882

2(1+ 4)

 

 

 

 

 

 

 

 

/ z =

 

 

 

 

18 17

 

 

= −0,930.

τ y

 

2 1

 

 

 

2

4

 

 

 

 

 

 

 

1

 

 

1

 

 

 

 

 

 

18 17

18

17

 

 

 

 

 

 

Оценим значимость τx / y . Расчетное значение статистики согласно (11.22)

uрасч = −0,93

9 18(18 1)

= −5,39 , u

α = u0,975 =1,96 .

 

2(2 18 + 5)

1−

2

180