Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Учебное пособие по ТВ и МС

.pdf
Скачиваний:
59
Добавлен:
08.03.2016
Размер:
3.21 Mб
Скачать

Задача научного исследования состоит в отыскании причинных зависимостей. Только знание истинных причин явлений позволяет правильно истолковывать наблюдаемые закономерности.

Однако корреляция как формальное статистическое понятие сама по себе не вскрывает причинного характера связи. Поэтому, при логических переходах от корреляционной связи между переменными к их причинной взаимообусловленности необходимо глубокое проникновение в сущность анализируемых явлений.

11.3. Анализ парных статистических связей между количественными переменными

Рассмотрим зависимость случайной величины Y от одной случайной (или неслучайной) величины X.

11.3.1. Диаграмма рассеяния. Эмпирическая линия регрессии

Двумерная статистическая зависимость может быть наглядно представлена диаграммой рассеяния (рис. 11.3).

Рис. 11.3. Диаграмма рассеяния для сгруппированных данных

Наблюдениями являются парные данные (xi, yi), образующие выборку. Множества значений xi и yi разбиваются на интервалы группировки, границы которых определяют координатную cетку. Каждая пара признаков (xi, yi) изображается в виде точки в соответствующей ячейке. Если в каждом

интервале изменения X вычислить средние значения yi , i = 1,5 и соединить

соответствующие точки (xi , yi ) , где xi середины интервалов, то получим

ломаную линию эмпирическую линию регрессии, которая в первом приближении характеризует форму связи. По ней можно судить, как в среднем меняется y в зависимости от изменения x. На рисунке связь между X и Y положительная. Расположение точек относительно линии регрессии характеризует тесноту статистической связи.

161

Рассмотрим две диаграммы рассеяния 1 и 2, изображенные на рис. 11.4.

Рис. 11.4. Диаграммы рассеяния, отличающиеся теснотой связи между X и Y

Линии регрессии y по x расположены одинаково, однако точки на диаграмме 2 расположены гораздо ближе к линии регрессии, чем точки на диаграмме 1. Если бы y полностью определялся переменной x, то все точки лежали бы на линии регрессии. При этом каждому возможному значению x было бы поставлено в соответствие определенное значение y, характеризуемое функциональной зависимостью y=f(x). Чем сильнее влияние прочих факторов, тем дальше точки отстоят от линии регрессии. В случае 2 влияние прочих факторов меньше и зависимость между y и x является более тесной.

Если y(x) = const = ay , т.е. линия регрессии – горизонтальная прямая (см.

рис. 11.5), проходящая через центр распределения, то переменная Y не коррелирована с X.

Рис. 11.5. Некоррелированные, независимые случайные величины

Как было показано в § 4.4, некоррелированность не следует смешивать с независимостью; y функционально не зависит от x, если y=const при изменении x (всякое изменение y есть проявление зависимости от x). Случайные величины X и Y независимы, если P( X < x,Y < y) = P( X < x)P(Y < y) .

Независимые случайные величины всегда не коррелированны. Обратное, в общем случае, неверно: переменная Y может зависеть от X, но так, что центры условных распределений не меняются, а изменяются условные дисперсии (на рис. 11.5, диаграмма слева).

162

Еще один пример зависимости Y от X, представленный на рисунке, – так называемый «сезонный тренд» (на рис. 11.6, диаграмма справа).

Рис. 11.6. Некоррелированные, зависимые случайные величины

Известно, что дисперсия суммы двух независимых величин равна сумме дисперсий этих величин. Поэтому если для двух случайных величин X и Y окажется, что D[X +Y ] D[X ] + D[Y ] , то это служит верным признаком наличия зависимости между X и Y.

11.3.2. Измерение тесноты парной связи. Коэффициент корреляции

Измерение тесноты связи между переменными позволяет убедиться в ее наличии. Если связь несущественна, то дальнейшие усилия по поиску вида модели зависимости и ее параметров неоправданны.

Рассмотрим важный для практики случай, когда связь между X и Y линейна: y(x) = b0 + b1 x . Мерой силы линейной связи признаков X и Y является

коэффициент корреляции Пирсона ρ(X,Y), определенный по формуле (2.7).

Как следует из предложения 2.9 и упражнения 2.6, ковариация Cov(X,Y), а, следовательно, и коэффициент корреляции ρ(X,Y) для независимых случайных величин равны нулю. Однако равенство Cov(X,Y)=0 не означает в общем случае независимости X и Y, т.е. является необходимым, но не достаточным условием для независимости признаков.

Величина ковариации зависит от единиц измерения. Поэтому на практике чаще используют коэффициент корреляции, являющийся безразмерной величиной.

Предложение 11.1. (Свойства коэффициента корреляции). Для коэффициента корреляции ρ(X,Y) двух случайных величин X и Y справедливо:

1) Модуль ρxy не меняется от прибавления к X и Y постоянных слагаемых и от

умножения X и Y на положительные числа, т.е. не зависит от выбора начала отсчета и единиц измерения.

2) Если одну из случайных величин умножить на 1, то коэффициент корреляции поменяет знак.

163

3)−1 ≤ ρ(X,Y) ≤ 1.

4)При ρ(X,Y) = ±1 имеет место линейная функциональная зависимость.

5)Для двумерной нормально распределенной случайной величины из равенства

ρ(X,Y) = 0 следует стохастическая независимость X и Y. #

Замечание 11.1. Величина ρ(X,Y), близкая к ±1, указывает, что зависимость случайных величин почти линейная. Значения ρ(X,Y), близкие к 0, означают, что связь между случайными величинами либо слаба, либо не носит линейного характера, например, является параболической (рис. 11.7). Таким образом, коэффициент корреляции характеризует степень приближения зависимости между случайными величинами к линейной функциональной зависимости.

Рис. 11.7. Параболическая связь

При вычислении выборочного (эмпирического) коэффициента корреляции теоретические величины заменяются их оценками:

 

n

 

 

 

 

 

rxy =

(xi x)( yi y)

 

 

i=1

 

 

 

.

(11.2)

n

 

 

n

 

 

(xi

x)2

 

( yi y)2

 

i=1

 

i=1

 

 

Если распределение величин X и Y близко к нормальному, то корреляция между ними является линейной и выборочный коэффициент корреляции rxy является надежной оценкой генерального (теоретического) коэффициента ρ(X,Y). При rxy>0 связь между переменными положительная (прямая), величины X и Y с точностью до случайных погрешностей одновременно возрастают или убывают. Если rxy<0, то связь отрицательная (обратная), с возрастанием одной величины другая имеет тенденцию к убыванию.

Замечание 11.2. Оценка наличия корреляции (11.2) между рядами измеренных наблюдений является параметрической, поскольку подразумевает наличие бинормальной генеральной совокупности с параметром ρ, оцениваемым с помощью r.

164

Пример 11.1. Найти коэффициент корреляции между производительностью труда Y (тыс. руб.) и энерговооруженностью труда X (кВт) (в расчете на одного рабочего) для 14 предприятий региона по следующей таблице:

Таблица 11.1

xi

2,8

2,2

3,0

3,5

3,2

3,7

4,0

4,8

6,0

5,4

5,2

5,4

6,0

9,0

yi

6,7

6,9

7,2

7,3

8,4

8,8

9,1

9,8

10,6

10,7

11,1

11,8

12,1

12,4

Решение. Определим вначале средние значения:

 

 

=

 

1

 

(2,8 + 2,2 +K+ 6,0 + 9,0) = 4,586 ;

 

 

 

 

 

 

x

 

 

 

 

 

 

14

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

1

 

(6,7 + 6,9 +K+12,1 +12,4) = 9,493.

 

 

 

 

 

 

y

 

 

 

 

 

 

14

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Вычислим далее необходимые суммы:

 

 

 

 

 

14

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(xi

 

 

 

 

)( yi

 

) = (2,8 4,586) (6,7 9,493) + (2,2 4,586) (6,9 9,493) +K

 

x

y

 

i=1

 

K+ (6,0 4,586) (12,1 9,493) + (9,0 4,586) (12,4 9,493) = 41,549 ;

 

 

 

 

 

14

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(xi

 

 

)2

= (2,8 4,586)2 + (2,2 4,586)2 +K+ (6,0 4,586)2 +

 

 

x

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

+ (9,0 4,586)2 = 40,857 ;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

14

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

( yi

 

)2

= (6,7 9,493)2 + (6,9 9,493)2 +K+ (12,1 9,493)2 +

 

 

y

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

+ (12,4 9,493)2 = 52,349 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Далее, по

формуле (11.2) получим:

rxy =

41,549

= 0,898

, что

40,857

52,349

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

свидетельствует о тесной связи между переменными.

 

Пример 11.2. В табл. 11.2 приведены выборочные данные: стоимость

квартир

zi , i =

 

 

 

(тыс. руб.), общая площадь

ui , i =

 

 

2)

и удаленность

1,n

 

1, n

квартир от областного центра yi , i =

 

 

(км).

 

 

 

 

 

 

 

 

 

 

 

 

1, n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

78

 

 

 

 

 

 

 

 

Таблица 11.2

yi

74

 

47

92

 

48

 

93

72

42

50

 

64

39

 

96

 

74

 

88

 

55

80

99

85

ui

56

 

70

29

 

69

 

25

60

71

68

 

65

49

62

 

16

 

58

 

32

 

64

49

10

36

zi

44

 

69

27

 

78

 

30

48

79

65

 

56

43

80

 

30

 

43

 

29

 

64

43

19

37

Необходимо исследовать вид связи между стоимостью квартиры, ее общей площадью и удаленностью от областного центра.

Решение. Построим диаграммы рассеяния для пар компонентов (U,Z), (Y,Z):

165

Z

Z

90

60

а)

30

0

0 20 40 60 80

U

90

 

60

б)

30

 

0

 

0

30

60

90

120

 

 

Y

 

 

Рис. 11.8. Диаграммы рассеяния для пар компонентов:

а) (U,Z); б) (Y,Z)

Судя по диаграммам рассеяния можно предположить наличие между признаками U и Z сильной положительной связи (возможно нелинейной), а между Y и Z сильной отрицательной связи. Результаты расчета по формуле (11.2) коэффициентов ruz и ryz подтверждают это: ruz = 0,888, ryz = 0,988.

11.3.3. Проверка наличия корреляции. Интервальная оценка rxy

При оценивании достоверности линейной связи между переменными X и Y величина коэффициента корреляции проверяется на статистически значимое отличие от нуля. Иными словами, на уровне значимости α проверяется нулевая гипотеза H0: ρ = 0 при альтернативе H1: ρ 0.

Для больших выборок (n>25) критическая статистика критерия имеет вид

u =

r n

и в условиях справедливости гипотезы H0 подчиняется стандартному

1 r2

нормальному закону распределения N(0,1). Если для вычисленного по выборке значения r выполняется неравенство uрасч > u1α , то гипотеза H0 отклоняется и

коэффициент корреляции можно считать существенным, а связь между случайными величинами X и Y достоверной. В противном случае гипотеза

166

принимается и коэффициент корреляции можно считать незначимо отличным от нуля.

Для малых выборок критическая статистика критерия имеет вид

t =

r

n 2

и в условиях гипотезы H0 подчиняется распределению Стьюдента

1 r2

 

с n2

степенями свободы. Критическая область tрасч > tα (n 2) , т.е. при

выполнении данного неравенства гипотеза H0 отклоняется, и коэффициент корреляции можно считать существенно отличным от нуля.

Замечание 11.3. Следует отметить, что для пары признаков (X,Y), имеющих совместное нормальное распределение, условие ρ = 0 (некоррелированность признаков) влечет за собой статистическую независимость X и Y. Поэтому проверка гипотезы о независимости признаков, совместное распределение которых является нормальным, сводится к проверке гипотезы H0: ρ = 0.

Пример 11.3. Для данных примера 11.2 проверить достоверность линейной статистической связи между стоимостью квартиры (Z) и ее удаленностью от областного центра (Y) при уровне значимости α = 0,05.

Решение. Имеем две гипотезы: H0: ρ(Y,Z) = 0, H1: ρ(Y,Z) 0. Поскольку n<25, то критическая статистика имеет вид

t = ryz n 2 .

1 ryz2

Находим из таблицы критическую границу tα (n 2) = t0,05 (16) = 2,12 . Расчетное значение критической статистики равно:

tрасч =

ryz

 

n

2

=

0,988

16

= 28,07 .

1

r2

 

1 0,9882

 

 

 

 

Поскольку

tрасч > tα (n 2)

, то гипотеза H0 отклоняется и коэффициент

корреляции можно считать существенно отличным от нуля.

Р. Фишер, используя статистику

z =

1

ln

1+r

(zпреобразование Фишера),

2

1r

 

 

 

 

имеющую достаточно близкое к нормальному закону распределение даже при малых n, построил доверительный интервал для истинного значения коэффициента корреляции в виде

thzн < ρ < thzв ,

(11.3)

167

 

 

1 ln 1 + r

 

u

α

 

r

 

 

ez ez

 

где

zн,в =

m

1

2

,

thz =

гиперболический тангенс

 

2(n 3)

ez + ez

 

 

2 1 r

 

n

3

 

 

 

от аргумента z.

Пример 11.4. Для данных примера 11.2 получить интервальную оценку для истинного значения коэффициента корреляции ρ(Y,Z) при уровне значимости α

= 0,05.

Решение. Из (11.3), вычисленной оценки ryz = 0,988 и того, что

u

0,05 = arg Φ(0,475) =1,96 и n=18, получим:

1

 

 

 

 

 

 

 

 

2

 

1 ln

1 0,988 m

1,96

 

0,988

 

 

 

 

 

 

zн,в =

+

,

 

 

 

2

1 + 0,988

15

 

2 15

 

откуда zн = 3,028, zв = 2,016.

Воспользовавшись статистической таблицей zпреобразования Фишера, или непосредственно вычислив thzн и thzв, получим: thzн = 0,995, thzв = 0,965.

Следовательно, 0,995 < ρ(Y,Z) < 0,965.

11.3.4. Оценка тесноты нелинейной связи

Введенный выше коэффициент корреляции, как уже отмечено, является полноценным показателем тесноты связи лишь в случае линейной зависимости между переменными. Однако, часто возникает необходимость в достоверном измерении степени тесноты связи для любой формы зависимости (линейной или нелинейной) и для признаков, не имеющих совместного нормального распределения.

Формально соответствующие показатели определяются с помощью соотношения для общей (полной) дисперсии σ y2 признака Y относительно его

математического ожидания ay :

σ y2

= σϕ2

+σε2 , где σϕ2 дисперсия

функции

регрессии ϕ(x) относительно

ay,

σε2

остаточная дисперсия

ошибки

наблюдения, которая характеризует разницу между эмпирическими значениями yi и расчетными значениями ϕ (xi).

Определение 11.3. Показатель Ryx, определяемый по формуле

Ryx =

σ

ϕ2

= 1

σ

2

,

(11.4)

σ

2

σ

ε2

 

y

 

y

 

 

 

 

 

 

 

 

называется теоретическим корреляционным отношением или индексом корреляции Y по X.

168

Вместо Ryx часто используют коэффициент детерминации

R2 =1 σε2 .

yx σ 2 y

Его величина показывает, какая доля общей дисперсии признака Y объясняется дисперсией функции регрессии. Этот коэффициент подробно будет рассмотрен в § 12.2.

Подобно Ryx вводится индекс корреляции X по Y

 

σψ2

 

 

 

 

 

 

 

Rxy =

=

1

σ

2

,

(11.5)

σ

2

σ

υ2

 

x

 

 

 

x

 

 

 

 

 

 

 

 

 

 

где σ x2 полная

 

дисперсия признака X относительно его математического

ожидания

ax

: σ x2 = σψ2

+συ2 , σψ2

дисперсия функции регрессии ψ(x)

относительно

 

ax,

συ2

остаточная

дисперсия ошибки наблюдения, которая

характеризует разницу между значениями xi и расчетными значениями ψ (yi).

Замечание 11.4. Оценивание тесноты связи между переменными по (11.4), (11.5) затруднено следующим обстоятельством. Мы должны заранее знать вид нелинейной (в данном случае) модели (11.1). Иными словами, априорно должна быть известна с точностью до постоянных коэффициентов форма функции регрессии ϕ (x) или, соответственно, ψ(y).

Если форма функции регрессии нам неизвестна, то вместо Ryx определяют

эмпирическое корреляционное отношение ηyx. При этом характер выборочных данных (количество, плотность расположения на диаграмме рассеяния) должен допускать:

-их группирование относительно объясняющей переменной;

-возможность подсчета средних значений объясняемой переменной внутри каждого интервала группирования.

Рассмотрим далее методику вычисления ηyx. Пусть имеет место выборка (xi, yi), i = 1, , n. Сгруппируем данные по объясняющей переменной на L интервалов.

Определим далее общую s2y , остаточную (среднюю групповых дисперсий) sост2 и межгрупповую δ y2 дисперсии переменной y по формулам:

s2y

=

1

L (y j

 

)2 n j ,

y

 

 

n

j=1

169

 

 

L

 

n j

 

sост2 = 1

s2jy n j , где s2jy =

1

(y ji

 

j

)2 ,

y

n j

 

n

j=1

i=1

 

δ y2 =

1 L (

 

j

 

)2 n j .

 

 

 

 

 

y

y

 

 

 

 

(11.6)

 

n

j=1

 

 

 

 

 

Межгрупповая дисперсия выражает ту часть вариации Y, которая обусловлена изменчивостью X. Остаточная дисперсия характеризует ту часть вариации Y, которая возникает из-за изменчивости неучтенных факторов, не зависящих от X.

Используя правило (10.3) сложения дисперсий, имеющее в данном случае

вид s2y

= sост2

+δ y2 ,

найдем

эмпирическое корреляционное отношение по

формуле

 

 

 

 

ηyx

=

δ y2

= 1

s2

(11.7)

2

ост2 .

 

 

sy

 

sy

 

Эмпирическое корреляционное отношение является показателем разброса точек диаграммы рассеяния относительно эмпирической линии регрессии.

Замечание 11.5. Поскольку при нахождении η не делалось никаких допущений о форме корреляционной связи, то η служит мерой тесноты связи любой, в том числе и линейной формы.

Величину ηyx2 называют эмпирическим коэффициентом детерминации.

Она показывает, какая часть общей вариации Y обусловлена вариацией X.

Укажем основные свойства теоретического и эмпирического корреляционных отношений:

1.0 ηyx 1.

2.Если ηyx = 0, то корреляционная связь между Y и X отсутствует.

3.Если ηyx = 1, то между переменными существует функциональная зависимость.

4.ηyx ηxy, т.е. в отличие от коэффициента корреляции r (для которого ryx = rxy) при вычислении корреляционного отношения существенно, какую переменную считать объясняющей (независимой), а какую – объясняемой (зависимой).

Корреляционные отношения η и R связаны с коэффициентом корреляции r следующим образом:

0 r R ≤ η ≤ 1.

170