Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

4сем / Лекции _4_сем pdf / 13_14_Корр_и_регр_анализ

.pdf
Скачиваний:
35
Добавлен:
23.02.2015
Размер:
303.9 Кб
Скачать

144

Лекции 13–14

14. Основы регрессионного анализа

После обнаружения стохастических связей между изучаемыми переменными величинами исследователь приступает к математическому описанию интересующих его зависимостей. Для достижения этих целей необходимо решить следующие задачи:

1)подобрать класс функций, в котором целесообразно искать наилучшую (в определенном смысле) аппроксимацию искомой зависимости;

2)найти оценки для неизвестных значений параметров, входящих в уравнение искомой зависимости;

3)установить адекватность полученного уравнения искомой зависимости;

4)выявить наиболее информативные входные переменные (факторы). Совокупность перечисленных задач и составляет предмет регрессионно-

го анализа.

14.1. Условные средние. Выборочные уравнения регрессии

При рассмотрении многомерных случайных величин (лекция 6) рассматривались условные законы распределения и их числовые характеристики: математическое ожидание, дисперсия и различные моменты. Оценками этих величин служат их выборочные аналоги. Наиболее важными являются условные математические ожидания, вычисленные по выборке – условные средние.

ОУсловное среднее yx – среднее арифметическое значений случайной величины Y , наблюдавшихся при фиксированном значении с.в. X = x . Аналогично определяется условное среднее x y .

ОУсловное среднее x y – среднее арифметическое значений случайной величины X , наблюдавшихся при фиксированном значении с.в. Y = y .

Напомним определение уравнения регрессии:

M (Y x)= f (x),

условное математическое ожидание M (Y x) является функцией x . Эта функция f (x) называется функцией регрессии Y на X , а ее график –

линией регрессии.

Выборочный аналог этого уравнения, yx = f * (x), называется выбороч-

ным уравнением регрессии Y на X , функция f * (x) выборочной

функцией регрессии Y на X , ее график – выборочной линией регрессии Y на X .

Аналогично определяются выборочные характеристики и для регрессии X на Y .

Статистическое исследование зависимостей. Корреляционный и регрессионный анализ

145

14.2. Корреляционная таблица. Выборочные линии регрессии

Пусть в результате эксперимента для системы (X ,Y ) получена выборка значений (xi , yi ), =1,2,...,n .

Если значения xi и yi повторяются, то их группируют:

(xi , y j ,nij ), i =1,2,...,l; j =1,2,...,k; nij = n .

i , j

Здесь xi и y j – наблюдаемые значения X и Y , а nij – частота появления пары

значений (xi , y j ).

Чаще всего в этом случае данные организуют в виде корреляционной таблицы:

 

X

x1

x2

xl

 

my

 

 

Y

 

 

 

 

 

 

 

 

y1

n11

n21

nl1

m1 = ni1

 

 

 

 

 

 

 

 

i

 

 

y2

n12

n22

nl 2

m2 = ni 2

 

 

 

 

 

 

 

 

i

 

 

 

 

 

yk

n1k

n2k

nlk

mk = nik

 

 

 

 

 

 

 

 

i

 

 

nx

n1 = n1 j

n2 = n2 j

nl = nlj

n = ni = mj

 

 

 

j

j

 

j

i

j

 

Группируя данные по значениям xi или y j :

 

 

 

 

k

 

l

 

 

l

k

nij = ni ; i =1,2,...,l; (nx ); nij = mj ; j =1,2,...,k; (my ); ni = mj = n ,

j=1

 

i=1

 

 

i=1

j=1

по данным корреляционной таблицы можно составить законы распределения составляющих (последняя строка и последний столбец таблицы) и их средние

по выборке X B и Y B :

X

 

 

x1

x2

 

xl

nx

 

 

n1

n2

 

nl

 

 

B =

1 ni xi ,

 

X

 

 

 

 

n

i

Y

y1

y2

yk

my

m1

m2

mk

Y B = 1 mj y j . n j

Для наглядности данные таблицы изображают графически. Каждую пару (xi , y j ) изображают точкой в системе координат (ХОY). Частоту nij , с которой данная пара встречается в таблице, изображают соответствующим числом

146

Лекции 13–14

близко расположенных точек либо пишут число nij возле одной точки. Постро-

енное таким образом в системе координат изображение корреляционной таблицы называют полем корреляции. Также возможно изображать данные таблицы

кругами, центр которых находится в точке (xi , y j ), а диаметр (или площадь)

пропорционален nij . Точка в системе координат (ХОY) с координатами (X B ,YB )

называется центром рассеивания.

Можно также составить условные законы распределения, например, Y при X = x j или Х при Y = yi .

Y

x=x j

y1

y2

yl

 

 

 

 

 

 

 

 

 

 

m

m1 j

m2 j

mlj

Зная условные законы распределения, можно найти условные средние:

 

Y

 

x=x

,

Y

 

x=x

,...,

Y

 

x=x

и т.п. Построим в системе

координат (ХОY) точки

 

 

1

 

 

 

 

2

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x j ,Y

 

 

 

и соединим их отрезками прямых. Полученную ломаную называют

 

 

 

 

 

x =x j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

выборочной линией регрессии Y на X . Аналогично можно построить выбо-

рочную линию регрессии X на Y .

 

 

 

 

 

 

 

Если распределения случайных величин X

и (или) Y заданы интер-

вальным вариационным рядом, то удобно перейти к вспомогательным переменным, значения которых совпадают с серединами интервалов.

Кроме того, если варианты (значения вариационного ряда) являются равноотстоящими, т.е., образуют арифметическую прогрессию с разностью h , бывает удобно перейти к условным вариантам:

ui = xi hC ,

где C ложный нуль (новое начало отсчета), а h шаг, т.е. разность между двумя соседними первоначальными вариантами (новая единица масштаба). Если в качестве ложного нуля взята какая-то из вариант xm , то условные вариан-

ты – целые числа, что упрощает вычисления. Действительно,

ui = x1 +(i 1)h hx1 +(m 1)h = i m .

Статистическое исследование зависимостей. Корреляционный и регрессионный анализ

147

Пример:

Дана корреляционная таблица. Построить поле корреляции, найти центр рассеивания, построить выборочные линии регрессии.

Себестоимость

Месячная производительность труда,

Итого

единицы продук-

 

 

тыс. шт. (х)

 

 

 

 

 

 

 

ции, руб. (у)

10-12

12-14

 

14-16

 

16-18

18-20

 

6-8

 

 

 

1

 

1

2

4

8-10

 

 

 

3

 

4

1

8

10-12

 

3

 

7

 

4

 

14

12-14

2

4

 

5

 

 

 

11

14-16

2

1

 

 

 

 

 

3

Итого:

4

8

 

16

 

9

3

40

От интервальных рядов для переменных перейдем к обычным, а затем к условным вариантам, приняв за ложные нули Cx =15 , Cy =11 , шаги hx = hy = 2 .

Про-

10-12

12-14

14-16

16-18

18-20

 

Се-

6-8

8-10

10-12

12-1414-16

изв.

 

бест.

X

11

13

15

17

19

 

Y

7

9

11

13

15

X

-2

-1

0

1

2

 

Y

-2

-1

0

1

2

Новые и старые переменные связаны зависимостями:

X ′ =

X C

x

=

X 15

Y ′ =

Y Cy

=

Y 11

,

h

 

2

 

h

y

2

 

x

 

 

 

 

 

 

 

 

 

X = Cx + X hx =15 + X 2 ,

Y =Cy +Y hy =11+Y 2 .

 

Для новых переменных корреляционная таблица принимает вид:

X

 

 

 

 

 

 

Y

-2

-1

0

1

2

Итого

-2

 

 

1

1

2

4

-1

 

 

3

4

1

8

0

 

3

7

4

 

14

1

2

4

5

 

 

11

2

2

1

 

 

 

3

Итого:

4

8

16

9

3

40

Законы распределения составляющих:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X

-2

-1

0

1

2

 

Y

-2

-1

0

1

2

 

nx

4

8

16

9

3

 

my

4

8

14

11

3

148

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Лекции 13–14

Координаты центра рассеяния:

 

 

 

 

 

 

 

 

 

 

 

 

1

ni xi′ =

1

(2 4 1 8 +0 16 +1 9 +2 3)= −

1

 

 

 

X

 

 

B =

n

 

 

 

 

 

,

 

40

40

 

 

 

 

 

i

 

 

 

 

 

 

 

 

B =

1 mj y j =

 

1

 

(2

4

1 8 +0 14 +1 11+2 3)=

1

.

 

Y

 

 

 

40

40

 

 

 

 

 

n

j

 

 

 

 

 

Как видно, координаты центра рассеяния незначительно отличаются от начала координат (в переменных X , Y ).

На рисунке справа показано корреляционное поле. Площади кругов пропорциональны соответствующим частотам nij появления пары значений

(xi , y j ). Визуальное впечатление говорит, что величины взаимозависимы.

Построим выборочные линии регрессии, для чего вычислим условные средние. Для этого модифицируем корреляционную таблицу, дополнив ее условными средними:

 

 

 

 

 

 

 

 

 

 

 

= M (Y

 

X = xi )= y j p (y j

 

 

xi )=

y j nij

,

 

 

 

 

 

 

 

 

Y

 

 

 

 

 

 

j

 

 

 

 

 

 

 

 

x=xi

 

 

nij

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= M (X

 

Y = y j )= xi

p (xi

 

y j )=

 

xi nij

 

.

 

 

 

 

 

 

 

X

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

y=y j

 

 

 

nij

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x=xi

 

 

 

 

 

 

 

 

 

Y

-2

-1

0

1

 

 

2

 

 

 

Y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

-2

 

 

1

1

 

 

2

 

 

5/4

 

 

 

 

 

 

 

 

 

 

 

-1

 

 

3

4

 

 

1

 

 

5/8

 

 

 

 

 

 

 

 

 

 

 

0

 

3

7

4

 

 

 

 

 

 

1/14

 

 

 

 

 

 

 

 

 

1

2

4

5

 

 

 

 

 

 

 

 

 

-8/11

 

 

 

 

 

 

 

 

 

2

2

1

 

 

 

 

 

 

 

 

 

 

-5/3

 

 

 

 

 

 

 

 

 

 

 

y=y j

3/2

3/4

0

-5/9

-5/3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

На рисунке показаны выборочные линии

 

 

 

 

регрессии, сплошная –

 

 

 

 

 

 

, штриховая

 

 

 

 

 

Y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x=x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

X y =y j . Как видно, обе зависимости близки к

линейным, что позволяет ограничиться линейными уравнениями регрессии.

Статистическое исследование зависимостей. Корреляционный и регрессионный анализ

149

14.3. Линейная регрессия.

Выборочный коэффициент корреляции

Линейная регрессия заслуживает внимания по нескольким причинам:

1.Для двумерной случайной величины (Х,Y), распределенной по нормальному закону, регрессии составляющих линейны.

2.Нелинейную регрессию при определенных условиях можно аппроксимировать кусочно - линейной.

3.Нелинейную зависимость путем замены переменной можно свести к линейной.

Так как объем выборки конечен, то о линии регрессии можно судить лишь

по форме опытной линии регрессии. Задача о нахождении теоретической линии регрессии сводится к выравниванию статистических распределений, например, методом наименьших квадратов.

Как было показано ранее (лекция 6), прямые среднеквадратической линейной регрессии задаются уравнениями:

y= my + r σy (x mx )

σx

прямая среднеквадратической регрессии Y на X ,

x= mx + r σx (y my )

σy

прямая среднеквадратической регрессии X на Y .

Здесь mx , my – средние значения, σx , σy – среднеквадратические отклоне-

ния, r – коэффициент корреляции. Поскольку мы имеем только данные выборки, эти величины должны быть вычислены по выборке.

Для данных предыдущего примера:

выборочные средние:

mx = X B = − 401 , my =Y B = 401 ;

150

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Лекции 13–14

выборочные среднеквадратические отклонения:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

ni (xi)

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ni xi′ −

 

 

B

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

σx =

 

 

 

 

 

 

 

 

 

 

 

=

 

 

 

 

 

 

 

X B

 

=

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

4 (2)2 +8(1)2 +16 (0)2 + 9 (1)2 + 3(2)2

 

 

 

 

 

 

1

 

 

 

1,060 ,

 

 

 

 

 

 

 

40

 

 

 

 

 

 

 

 

 

 

 

 

 

1600

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

mj (yj )

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

mj yj Y

 

 

B

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

j

 

 

 

 

 

 

 

 

 

 

 

 

j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

σy =

 

 

 

 

 

 

 

 

 

 

 

 

=

 

 

 

 

 

 

 

 

 

Y B

=

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

 

4 (2)2 +8(1)2 +14 (0)2 +11(1)2 +3(2)2

 

 

 

 

1

 

 

 

1,084 ;

 

 

 

 

 

 

 

40

 

 

 

 

 

 

 

 

 

 

 

 

1600

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

выборочная ковариация:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

KXY = M ((X mx )(Y my ))= M (XY )my mx = n1 i , j

nij xiyj

 

B

 

B =

X

Y

=

1

(2 8 4 2 4 4 8 2)+

 

1

 

= −

34

+

 

 

 

 

 

1

 

 

 

≈ −0,8494 ,

 

1600

40

1600

 

40

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

выборочный коэффициент корреляции:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

r

=

KXY

 

 

 

 

0,8494

 

≈ −0,7392 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1,060 1,084

 

 

 

 

 

 

 

 

 

 

 

 

 

 

XY

σ σ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Окончательно уравнения теоретических прямых среднеквадратической линейной регрессии принимают вид:

y = −0,756x + 0,006 – регрессия Y на X , x = −0,723y 0,007 –регрессия X на Y .

На рисунке показаны выборочные линии регрессии и теоретические прямые среднеквадратичной регрессии (сплошные – регрессии Y на X , штриховые – регрессии X на Y ).