Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
12. Корреляция.doc
Скачиваний:
11
Добавлен:
13.11.2019
Размер:
700.93 Кб
Скачать

§ 12. Основы корреляционного анализа

Задачей корреляционного анализа является выявление и измерение линейной связи между случайными величинами. Решение задачи включает в себя также определение формы связи между ними, надежности и доверительных границ параметров уравнений регрессии.

12.1. Линейная корреляция

Если система состоит из двух случайных величин X и Y, связанных линейной зависимостью, ее характеристиками являются:

 начальные моменты = M(X), = M(Y),

 центральные моменты = D(X), =D(Y),

– центральный момент корреляционный момент,

коэффициент линейной корреляции  показатель силы линейной связи между X и Y.

В статистическом анализе используются их соответствующие выборочные оценки.

Если объем выборки невелик, выборочные моменты определяются по следующим формулам:

 выборочные средние

, ; (12.1)

 выборочные (исправленные) дисперсии

(12.2)

 выборочный корреляционный момент

; (12.3)

 выборочный коэффициент линейной корреляции

. (12.4)

1. Выборочный коэффициент корреляции не зависит от выбора начала отсчета и единицы измерения; иными словами, при любых a1, a2, b1 и b2

.

2. Выборочный коэффициент корреляции не превышает единицы, .

3. Если Y = aX + b , то т.е. rxy =  1.

Чем ближе к единице, тем сильнее связь, тем меньше представлены в ней случайные факторы. При случайные величины связаны линейной функциональной зависимостью.

При большом объеме выборки составляется корреляционная таблица (12.1).

Таблица 12.1

Х

Y

mx

y1

y2

. . .

yl

x1

m11

m12

. . .

m1l

x2

m21

m22

. . .

m2l

. . .

. . .

. . .

. . .

. . .

. . .

xk

mk1

mk2

. . .

mkl

my

. . .

n

В этом случае выборочные моменты вычисляются по формулам:

 выборочные средние

 выборочные дисперсии

 корреляционный момент

 выборочный коэффициент корреляции .

Как всякая выборочная оценка, выборочный коэффициент корреляции является величиной случайной, достоверность (значимость) которой следует проверить с помощью того или иного критерия.

Если система (X,Y ) распределена нормально, то вопрос о значимости коэффициента корреляции решается с помощью случайной величины , распределенной по закону Стьюдента с  = n 2 степенями свободы. Высказывается гипотеза Но: Если по абсолютной величине не превышает критического значения , полученного из таблицы t-распределения, то гипотеза Ho принимается. Если , гипотеза отвергается, корреляционная связь между признаками X и Y признается значимой.

При больших объемах выборки n выборочный коэффициент корреляции rxy распределен асимптотически нормально с параметрами

и .

При доверительной вероятности  интервальная оценка для имеет вид

, (12.5)

где .

12.1. Данные о зависимости между объемом выполненных работ X (тыс.руб.) и накладными расходами Y (тыс.руб.) сведены в таблицу (12.2).

Требуется:

а) найти выборочные средние и дисперсии признаков X и Y ;

б) вычислить выборочный коэффициент корреляции rxy;

в) проверить гипотезу о значимости коэффициента корреляции при уровне значимости = 0,05, считая распределение признаков X и Y нормальным;

г) найти интервальную оценку для коэффициента корреляции при доверительной вероятности  = 0,95.

Таблица 12.2

Y

X

1,5

2,5

3,5

4,5

5,5

6,5

7,5

8,5

15

4

5

9

25

1

3

1

5

35

2

3

6

5

3

1

20

45

5

6

19

8

7

2

1

48

55

1

2

7

16

9

4

2

41

65

1

5

6

4

2

2

20

75

1

6

7

7

17

16

36

33

21

9

11

150

 Вычислим точечные оценки параметров распределения:

7200 = 48,0 ; 735 = 5,0;

374750  (48,0)2 = 194,333, Sx = 13,94;

4233,5  (5,0)2 = 3,223, Sy = 1,795;

39087,5  48,05,0 = 20,58;

Рассмотрим нулевую гипотезу Но о значимости выборочного коэффициента корреляции. Сначала вычислим эмпирическое значение критерия:

Затем из таблицы распределения Стьюдента (табл. 5 Приложений) получим критическое значение критерия tкр = t для уровня значимости и числа степеней свободы

t0,05;148 = 1,99.

Как видно, tэмп > t , значит нулевая гипотеза о равенстве нулю коэффициента корреляции отвергается, т.е. связь между признаками следует считать существенной.

При доверительной вероятности из табл. 2 Приложений находим . Тогда согласно (12.5) получим интервальную оценку для генерального коэффициента корреляции

0,8221,96 < < 0,822+1,96 ,

или 0,770 < xy < 0,874 . 

В задачах 12.2 – 12.5 приведены результаты выборочного обследования системы двух случайных величин X и Y. Вычислить выборочный коэффициент линейной корреляции.

12.2.

X

0,30

0,91

1,50

2,00

2,20

2,62

3,00

3,30

Y

0,20

0,43

0,35

0,52

0,81

0,68

1,15

0,85

12.3.

X

4,1

4,9

10,8

11,2

11,9

10,7

9,9

11,6

Y

51,2

52,4

52,7

51,2

50,6

49,8

49,0

49,3

X

12,0

8,4

10,8

6,5

7,8

9,9

8,7

11,2

Y

50,7

51,4

52,9

49,6

49,4

52,6

51,9

52,4

12.4.

X

20,8

21,0

19,0

16,9

16,8

19,2

20,5

17,1

18,4

20,4

Y

52

73

84

90

75

77

64

58

82

89

12.5.

X

1,05

1,28

1,31

0,80

1,05

1,28

1,35

1,49

1,38

1,57

Y

53,0

53,4

55,4

55,6

56,0

54,5

53,7

52,7

52,0

52,6

X

1,60

1,54

1,27

1,43

1,52

1,59

1,47

1,55

1,60

0,84

Y

53,4

54,7

54,8

55,1

53,5

52,8

52,1

53,3

54,6

55,9

В задачах 12.6 – 12.13 даны эмпирические распределения двумерной случайной величины (X, Y). Требуется: а) найти выборочные средние и дисперсии составляющих системы; б) вычислить выборочный коэффициент линейной корреляции; в) проверить гипотезу о значимости коэффициента корреляции, считая распределение системы нормальным; г) найти интервальную оценку для истинного коэффициента линейной корреляции.

12.6.

Y

Х

15-25

25-35

35-45

45-55

55-65

65-75

75-85

200 – 300

19

5

300 – 400

23

86

11

400 – 500

1

41

98

9

500 – 600

4

32

65

7

600 – 700

1

4

21

36

3

700 – 800

1

2

11

13

1

800 – 900

1

3

2

12.7.

X

Y

0

1

2

3

4

5

6

25

2

1

35

2

5

7

1

45

1

4

8

1

55

2

13

3

65

1

5

2

75

2

1

85

1

12.8.

X

Y

15-20

20-25

25-30

30-35

35-40

40-45

210 – 220

1

2

1

220 – 230

1

2

16

2

1

230 – 240

1

5

10

5

1

240 – 250

1

2

8

14

2

250 – 260

1

3

8

2

260 – 270

2

6

3

12.9.

X

Y

0,02

0,06

0,10

0,14

0,18

0,22

0,26

10 – 20

1

3

2

20 – 30

1

3

4

2

30 – 40

1

3

4

2

1

40 – 50

2

6

4

2

50 – 60

3

5

3

1

60 – 70

4

2

1

70 – 80

4

12.10.

X

Y

3,0

3,1

3,2

3,3

3,4

3,5

3,6

12,5

2

5

17,5

2

4

3

22,5

2

3

7

1

27,5

3

11

15

8

2

32,5

1

2

9

4

1

37,5

2

3

5

2

42,5

2

1