Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

семестр 2 / ЛКЗ

.pdf
Скачиваний:
0
Добавлен:
13.05.2026
Размер:
479.5 Кб
Скачать

§4.1. Линейная корреляционная зависимость

Часто на практике требуется установить вид и оценить силу зависимости изучаемой случайной величины Y от одной или нескольких других величин (случайных или неслучайных). Рассмотрим сначала зависимость случайной величины Y от одной случайной X. Две величины могут быть связаны:

1) функциональной зависимостью (Y=f(X)), либо 2) статистической зависимостью.

Статистическая зависимость – зависимость, при которой изменение одной из величин влечет изменение распределения другой (вида распределения, либо числовых характеристик распределения).

Корреляционная зависимость – статистическая зависимость, при которой изменение одной из величин влечет изменение среднего значения другой. С математической точки зрения корреляционная зависимость – функциональная зависимость условного среднего yx от

x :

 

yx = f (x),

(1)

где yx - выборочное условное среднее ( среднее арифметическое

значений Y, соответствующих значению x величины X); уравнение (1) называют выборочным уравнением регрессии Y на X; f (x)-

выборочная функция регрессии Y на X; график функции f (x) называют линией регрессии Y на X. Аналогично, xy - условное среднее X на Y; xy =ϕ(y)- выборочное уравнение регрессии X на Y; ϕ(y)- функция регрессии X на Y; график функции ϕ(y) называют линией

регрессии X на Y. Задачи теории корреляции

Теория корреляции решает следующие задачи:

1) Установление формы корреляционной зависимости, т.е. вида функций f (x),ϕ(y)(если обе функции f (x),ϕ(y) являются линейными,

то корреляционная зависимость называется линейной; в противном случае – нелинейной корреляционной зависимостью); 2) Оценка силы (тесноты) корреляционной зависимости.

Пусть в результате независимых испытаний получено n пар значений

(xi , yi ). Предположим, что X и Y связаны линейной корреляционной

зависимостью, т.е.

 

.

(xi , yi ) точечные оценки

Найдем по выборочным значениям

параметров

так, чтобы

точки

(xi , yi ), построенные на

координатной плоскости, находились вблизи прямой

(1)

Метод наименьших квадратов

Выборочные параметры находят из условия обращения в минимум функции

Q(byx ,b )= n (f (xi )yi )2 = n (byx xi +b yi )2

i=1 i=1

Для отыскания минимума функции

приравняем нули соответствующие частные производные

(2)

Выполняя элементарные преобразования, получим систему двух линейных уравнений относительно

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(3)

 

 

1

n x

 

1

n y

,

 

=

1

 

n x2

 

 

где

x =

, y =

x2

, n

- число наблюдений одной и

 

 

 

 

 

 

n i=1 i

 

n i=1

i

 

 

 

n i=1

i

i j

 

той

же пары значений

 

(xi , yi ),

k-

 

число различных пар (xi , yi ). Из

системы уравнений (3) следует, что

При этом выборочное уравнение регрессии Y на X примет вид

yx y = r

S y

(x x ),

 

 

Sx

где - выборочный коэффициент корреляции. Аналогично уравнение регрессии X на Y имеет вид

xy x = r

Sx

(y y), где

.

 

 

S y

 

Пример. При большом числе наблюдений одно и то же значение х может встретиться nx раз, одно и то же значение y может

встретиться ny раз, одна и та же пара значений чисел (x,y) может

наблюдаться nxy раз. Поэтому данные наблюдений группируют, т.е.

подсчитывают nx ,

ny ,

nxy . Все сгруппированные данные записывают

в виде таблицы, которую называют корреляционной.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X

10

20

 

30

40

50

60

ny

 

 

Y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

15

5

7

 

 

 

 

 

12

 

 

 

 

 

 

 

 

 

 

 

 

 

25

 

20

 

23

 

 

 

43

 

 

 

 

 

 

 

 

 

 

 

 

 

35

 

 

 

30

47

2

 

79

 

 

 

 

 

 

 

 

 

 

 

 

 

45

 

 

 

10

11

20

6

47

 

 

 

 

 

 

 

 

 

 

 

 

 

55

 

 

 

 

9

7

3

19

 

 

 

 

 

 

 

 

 

 

 

 

 

nx

5

27

 

63

67

29

9

n = 200

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В первой строке таблицы указаны наблюдаемые значения величины X, а в первом столбце – наблюдаемые значения величины Y. На пересечении строк и столбцов вписаны частоты nxy наблюдаемых пар

значений этих величин. Например, частота 5 указывает, что пара чисел (10,15) наблюдалась 5 раз. В последнем столбце записаны суммы частот строк. В последней строке записаны суммы частот столбцов.

Вычислим выборочный коэффициент корреляции по данным корреляционной таблицы. Можно значительно упростить вычисления,

если перейти к условным вариантам ui =

xi c1

,

vi =

yi c2

, переход к

 

 

 

h1

 

h2

которым не меняет величины выборочного коэффициента корреляции

 

r =

nxy xy nx y

=

n uv nu v

 

 

 

nSxSy

uv

 

 

 

 

 

 

 

nSuSv

 

В данном примере

u

i

=

xi c1

=

xi 40

 

, где в качестве нуля

c взята

 

 

 

 

 

h1

10

 

 

 

1

 

 

 

 

 

 

 

 

варианта x = 40 , имеющая наибольшую частоту 47; шаг

h1 равен

разности между двумя соседними вариантами. Условные варианты

vi =

yi c2

=

yi 35

, где в качестве нуля c2 взята варианта y =35,

h2

 

 

10

 

имеющая наибольшую частоту 47; шаг h2 равен разности между двумя

u

-3

-2

-1

0

1

2

nv

v

 

 

 

 

 

 

 

 

 

 

 

 

 

-2

5

7

 

 

 

 

12

 

 

 

 

 

 

 

 

-1

 

20

23

 

 

 

43

 

 

 

 

 

 

 

 

0

 

 

30

47

2

 

79

 

 

 

 

 

 

 

 

1

 

 

10

11

20

6

47

 

 

 

 

 

 

 

 

2

 

 

 

9

7

3

19

 

 

 

 

 

 

 

 

nu

5

27

63

67

29

9

n = 200

 

 

 

 

 

 

соседними вариантами. Составим корреляционную таблицу в условных вариантах. Практически это делается так: в первом столбце вместо варианты 35, имеющей наибольшую частоту, пишут 0; над нулем пишут последовательно –1,-2…; под нулем пишут 1,2…. В первой строке вместо варианты 40, имеющей наибольшую частоту, пишут 0; слева от нуля последовательно пишут –1,-2….; справа от нуля пишут 1,2…. Все остальные данные переписывают из первоначальной корреляционной таблицы. В итоге получим корреляционную таблицу в условных вариантах.

Найдем u и v

u =

nuu

=

 

5 (3) + 27 (2) + 63 (1) + 29 1 + 9 2

= −0.425,

 

n

 

 

 

 

 

200

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

v =

nv v

=

 

12 (2)

+ 43 (1)+ 47 +19 2

=

0.090

 

 

n

 

 

 

 

 

200

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Вычислим вспомогательную величину

 

, а затем Su :

 

u 2

 

u

2

=

n u2

=

5 9 +27 4 +1 63 +1 29 +9 4

=1.405

 

 

 

 

 

u

 

200

 

 

 

 

 

 

n

 

 

 

 

Su =

 

u2 u 2 = 1.405 0.4252 =1.106

 

Аналогично получим Sv =1.209 .

Найдем nuvuv метод 4 полей, для чего составим расчетную таблицу

U

-3

-2

-1

0

1

2

V

 

 

 

 

 

 

-2

5

7

 

 

 

 

 

 

 

 

 

 

 

-1

 

20

23

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

20

6

 

 

 

 

 

 

 

2

 

 

 

 

7

3

 

 

 

 

 

 

 

I

30

68

23

II

 

 

 

 

 

 

 

 

 

III

 

 

-10

IV

34

24

 

 

 

 

 

 

 

Название метода связано с тем, что строка и столбец, пересекающиеся в клетке, содержащей наибольшую частоту, делят корреляционную таблицу на 4 части, которые называют полями. Поле нумеруется так, как указано в таблице.

Найдем произведения пар вариант u и v и поместим их в верхние правые углы клеток, содержащих соответствующие частоты. Заполнив подобным образом остальные клетки 1,2,3,4 полей, получим таблицу, приведенную выше. Сложив числа итоговых клеток, получим

nuvuv =12110

+58 =169 . Найдем искомый коэффициент корреляции

r

=

n

uv n u v

=

169 200(0.425) 0.09

= 0.603

uv

 

200 1.106 1.209

 

 

n SuSv

 

 

Теперь, когда известно как вычисляют r уместно привести пример на отыскание уравнения прямой линии регрессии. Поскольку при

нахождении

 

r

уже вычислены

u, v, Su , Sv , то

для

 

нахождения

 

x, y, Sx ,

S y

 

целесообразно

 

вывести

формулы,

 

связывающие

u, v, Su , Sv и

x, y, Sx , S y . Выведем эти формулы

 

 

 

 

 

 

 

1

n

 

 

 

1

n

 

xi c1

 

 

 

x

 

c1

 

 

 

 

 

 

 

 

 

 

 

 

u

=

u

=

 

 

=

 

,

так

 

что

x =

u

h +c .

 

Аналогично

 

 

 

 

 

 

 

 

 

 

 

 

 

n i=1

i

 

 

n i=1

 

 

h

 

 

 

h h

 

 

 

 

1

 

1

 

 

 

y = vh2 +c2 .

 

 

 

 

1

 

 

1

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Тогда

S

 

=

 

1`

n

 

 

c1

x

c1

 

2

1

1

n

(x

x )2 = Sx ,

u

 

1

xi

 

 

=

 

 

 

 

 

 

 

 

n

 

h

 

 

h

 

 

h n 1

 

i

h

 

 

 

 

 

 

 

 

 

 

 

 

i=1

1

 

 

 

1

 

 

1

 

 

i=1

 

1

так что Sx = h1Su . Аналогично S y

= h2Sv . Итак

 

 

 

 

 

 

x = uh1 +c1 , y = vh2 +c2 , Sx = h1Su , S y = h2Sx

Запишем искомое уравнение в общем виде

yx y = r S y (x x ) Sx

Коэффициент корреляции уже ранее вычислен и равен Остается найти x, y, Sx , S y :

(4)

r = 0.603.

x = uh1 +c1 = −0.425 10 +40 = 35.75

 

y = vh2 +c2

= 0.09 10 +35 = 35.9

(5)

Sx = Suh1 =

1.106 10 =11.06

 

S y = Svh2 =1.209 10 =12.09

 

Подставляя (5) в (4), получим искомое уравнение

 

yx 35.9 = 0.603

12.09

(x 35.75)

 

 

 

или окончательно

11.06

 

 

 

 

 

 

yx = 0.659 x +12.34

(6)

Сравним условные средние, вычисленные по уравнению (6) и по данным корреляционной таблицы. Например, при x=30: по уравнению

(6) получим

y30 = 0.659 30 +12.34 = 32.11,

а по таблице y30 = 23 25 +30 35 +10 45 = 32.94. 63

Как видим, согласование расчетного (согласно (6)) и наблюдаемого условных средних – удовлетворительное.

Доверительные оценки параметров прямой регрессии y на x .

При

нахождении доверительного

интервала для

оценки

параметров

теоретической

прямой линии регрессии

y на

x

используется сумма квадратов отклонений измеренных значений yi

от

рассчитанных по выборочному уравнению прямой линии регрессии:

 

 

n

 

 

 

 

2

 

 

 

 

 

Sy

 

 

= (n 1)(1r2 )S2 .

 

 

 

Q = y

r

(x x )

 

 

 

 

 

 

 

i

 

 

i

 

 

y

 

 

 

i=1

 

Sx

 

 

 

 

 

При этом предполагается, что все ошибки измерения независимы и одинаково распределены по нормальному закону с центром 0 и

дисперсией σ2 .

Границы доверительного интервала для параметра равны

а границами доверительного интервала для параметра служат

где коэффициент t берется из таблицы распределения Стьюдента при числе степеней свободы k = n 2 .

Доверительный интервал для оценки отклонения теоретической прямой линии регрессии от эмпирической

При фиксированном значении x = x0 границы доверительного

интервала для теоретической прямой регрессии определяются формулами

y

(x

)= y

e

(x

0

)± t

1+ n (x0 x )2 ,

t

0

 

 

n 2

(n 1)Sx2

 

 

 

 

 

 

здесь

 

 

, коэффициентt берется из таблицы

распределения Стьюдента при числе степеней свободыk = n 2 . Следует помнить, что эта оценка значительно ухудшается по мере удаления от среднего значения x .

Например, для вышеприведенного примера t(0.95,198)=1.96 и соответственно границы доверительного интервала дляx0 = 30 равны 32.11±1.30, так что наблюдаемое среднее y30 = 32.94 принадлежит доверительному интервалу.

Свойства выборочного коэффициента корреляции

Выведем формулы

S y2x

= S y2 (1r 2 )

(1)

Sx2y

= Sx2 (1r 2 )

(2)

Для этого предположим, что величины Y и X связаны линейной корреляционной зависимостью

yx =α + β x

Тогда получим

S y2

=

(yi yx )2

=

[yi α β xi ]2

=

[(yi y)β(xi x )+(y β x α)]2

 

 

 

 

 

 

 

 

 

 

 

 

x

 

n

 

 

 

 

 

n

 

 

 

 

 

n

 

 

 

=

(yi y)2

 

+β 2

(xi x )2

+(y β x α)2 2 β

(yi y) (xi x )

+

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

n

 

 

 

 

 

n

 

 

 

+2

(y β x α)

(yi y)

+2 (y

β x α)

(xi x )

= S y2 + β 2 Sx2 +(y β x

α

 

 

 

 

 

 

 

 

 

 

n

 

 

 

n

 

 

 

2β xy n x y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Итак, окончательно имеем

 

 

 

 

 

 

xy nx y

 

 

 

 

 

 

 

S y2

= S y2 + β

2 Sx2 +(y β x α)2 2 β

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

n

S 2

Параметры

α, β

найдем

из условия минимума

функции

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yx

Необходимые условия минимума этой функции имеют вид

=

)2

(3)

(α, β).

 

 

 

S y2x

= −2(y β x α)= 0

 

 

 

 

 

 

 

 

 

α

 

 

 

 

 

 

 

S y2

= 2 β Sx2 2x (y β x α)2

xy n x y

 

 

x

 

 

n

= 0

 

β

 

 

 

 

 

 

 

 

 

 

 

Из уравнения (5) находим

xy n x y

 

 

S y

 

 

 

 

 

β =

= r

 

 

 

 

nSx2

Sx

 

 

 

 

 

 

 

 

 

Из уравнения (4) следует

(4)

(5)

(6)

α = −y + β x = −y + r

S y

x

(7)

 

 

Sx

S y2x = S y2 (1r 2 ).

Подставляя (6) и (7) в (3), получим формулу (1)

Аналогично Sx2y = Sx2 (1r 2 ).

Свойство 1. Выборочный коэффициент корреляции по модулю не превосходит единицу 1 r 1.

Доказательство

Так как любая дисперсия неотрицательна, т.е.

S 2

формулы S y2x = S y2 (1r 2 ) следует, что r2 1

yx

или

требовалось показать.

 

Свойство 2. Если r = 0 , то наблюдаемые значения линейной корреляционной зависимостью.

0, S y2 0 , то из

1 r 1, что и

x, y не связаны

Доказательство

Доказательство проведем по методу от противного. Предположим, что наблюдаемые значения x, y связаны линейной корреляционной

зависимостью, т.е.

 

 

yx = y +byx (x x )

 

x y = x +bxy (y y)

 

Отсюда при r = 0следует

yx = y, xy = x ,

что противоречит

предположению.

x, y могут быть

 

Замечание. Если r = 0 , то

связаны нелинейной

корреляционной зависимостью или даже функциональной зависимостью.

Свойство

3.

Если

 

r

 

=1, то

наблюдаемые

значения x, y связаны

 

 

линейной функциональной зависимостью.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Доказательство

 

 

 

При

 

 

r

 

 

=1

из

 

формулы

S y2x = S y2 (1r 2 )

следует,

что

 

 

 

 

S y2

 

(yi yx )2

 

 

 

 

 

 

 

=

= 0 , т.е. yi = yx . Тогда из yx

= y +byx (x x) следует

 

 

 

x

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

yi = y +byx (xi x), что и требовалось доказать.

Замечание. Из свойства (3) следует, что только наблюдаемые значения, а не все возможные значения связаны линейной функциональной зависимостью.

Из доказанных свойств следует, что r характеризует силу линейной корреляционной зависимости между количественными признаками в выборке:

1)чем ближе r к единице, тем связь сильнее;

2)чем ближе r к нулю, тем связь слабее.

Замечание. Если выборка имеет достаточно большой объем, то заключение о силе линейной корреляционной зависимости между наблюдаемыми значениями признаков может быть распространена на всю совокупность значений признаков X и Y.

§4.2. Выборочное корреляционное отношение

Для оценки тесноты линейной корреляционной связи между физическими величинами в выборке служит выборочный коэффициент корреляции r. Для оценки тесноты любой корреляционной связи вводят другие характеристики.

Пусть данные наблюдений за количественными признаками X и Y сведены в корреляционную таблицу. Тем самым наблюдаемые

значения Y оказываются разбиты на группы; каждая группа содержит те значения Y, которые соответствуют определенному значению X. Так как все значения признака Y разбиты на группы, то можно представить

Dобщ = Dвнгр + Dмежгр

(1)

При этом оказывается справедливым следующее утверждение.

Утверждение12. 1)Если величина Y связана с величиной X функциональной зависимостью, то

 

 

Dмежгр

=1

 

 

Dобщ

 

 

 

2)если

величина Y связана с величиной X корреляционной

зависимостью, то

 

Dмежгр <1 Dобщ

Докажем это утверждение. Доказательство разобьем на две части. Сначала докажем первую часть утверждения.

1) Если случайная величина Y связана с случайной величиной X функционально, то по определению функциональной зависимости определенному значению x соответствует только одно значение y. Поэтому в каждой j группе ее элементы равны между собой, т.е.

 

 

 

 

 

 

 

 

 

 

 

 

y

 

= y

2 j

=...... = y

 

 

 

 

(2)

 

 

 

 

 

 

 

 

 

 

 

 

 

1 j

 

 

 

 

 

 

 

 

j

 

 

 

 

 

Из (2) следует, что групповое среднее

 

 

 

 

 

 

 

y j

 

 

 

y

 

=

 

1

 

mjn

 

y

 

 

=

 

 

1

 

mjn

 

y =

mjn

= y

(3)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j

 

 

 

 

N j i=1 i j

 

i j

 

N j i=1

i j

 

 

j

N j i=1 i j

j

 

Следовательно, групповая дисперсия равна

 

 

 

 

(y y

)2 = 0

 

D

 

 

=

 

 

1

mjn

(y

 

 

y

 

 

)2 =

 

1

 

 

mjn

 

(4)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j

 

 

 

 

N j i=1

i j

 

 

i j

 

 

 

j

 

 

N j i=1

i j

 

j

j

 

В свою очередь, из (4) вытекает, что

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

D

 

 

=

 

 

 

 

N

 

D

 

= 0

 

 

 

(5)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Подставляя (5) в (1), получим

внгр

 

 

n j=1

j

 

 

j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Dобщ = Dмежгр

 

 

 

 

 

 

 

 

 

 

Отсюда находим

 

 

Dмежгр

 

=1,

 

что

 

и

 

требовалось

показать в

первой

 

 

D

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

общ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

части.

2) Если случайная величина Y связана с случайной величиной X корреляционной зависимостью, то определенному значению x

Соседние файлы в папке семестр 2