4сем / Лекции _4_сем pdf / 13_14_Корр_и_регр_анализ
.pdf144 |
Лекции 13–14 |
14. Основы регрессионного анализа
После обнаружения стохастических связей между изучаемыми переменными величинами исследователь приступает к математическому описанию интересующих его зависимостей. Для достижения этих целей необходимо решить следующие задачи:
1)подобрать класс функций, в котором целесообразно искать наилучшую (в определенном смысле) аппроксимацию искомой зависимости;
2)найти оценки для неизвестных значений параметров, входящих в уравнение искомой зависимости;
3)установить адекватность полученного уравнения искомой зависимости;
4)выявить наиболее информативные входные переменные (факторы). Совокупность перечисленных задач и составляет предмет регрессионно-
го анализа.
14.1. Условные средние. Выборочные уравнения регрессии
При рассмотрении многомерных случайных величин (лекция 6) рассматривались условные законы распределения и их числовые характеристики: математическое ожидание, дисперсия и различные моменты. Оценками этих величин служат их выборочные аналоги. Наиболее важными являются условные математические ожидания, вычисленные по выборке – условные средние.
ОУсловное среднее yx – среднее арифметическое значений случайной величины Y , наблюдавшихся при фиксированном значении с.в. X = x . Аналогично определяется условное среднее x y .
ОУсловное среднее x y – среднее арифметическое значений случайной величины X , наблюдавшихся при фиксированном значении с.в. Y = y .
Напомним определение уравнения регрессии:
M (Y x)= f (x),
условное математическое ожидание M (Y x) является функцией x . Эта функция f (x) называется функцией регрессии Y на X , а ее график –
линией регрессии.
Выборочный аналог этого уравнения, yx = f * (x), называется выбороч-
ным уравнением регрессии Y на X , функция f * (x) – выборочной
функцией регрессии Y на X , ее график – выборочной линией регрессии Y на X .
Аналогично определяются выборочные характеристики и для регрессии X на Y .
Статистическое исследование зависимостей. Корреляционный и регрессионный анализ |
145 |
14.2. Корреляционная таблица. Выборочные линии регрессии
Пусть в результате эксперимента для системы (X ,Y ) получена выборка значений (xi , yi ), =1,2,...,n .
Если значения xi и yi повторяются, то их группируют:
(xi , y j ,nij ), i =1,2,...,l; j =1,2,...,k; ∑nij = n .
i , j
Здесь xi и y j – наблюдаемые значения X и Y , а nij – частота появления пары
значений (xi , y j ).
Чаще всего в этом случае данные организуют в виде корреляционной таблицы:
|
X |
x1 |
x2 |
… |
xl |
|
my |
|
|
Y |
|
|
|
|
|
|
|
|
y1 |
n11 |
n21 |
… |
nl1 |
m1 = ∑ni1 |
|
|
|
|
|
|
|
|
|
i |
|
|
y2 |
n12 |
n22 |
… |
nl 2 |
m2 = ∑ni 2 |
|
|
|
|
|
|
|
|
|
i |
|
|
… |
… |
… |
… |
… |
|
… |
|
|
yk |
n1k |
n2k |
… |
nlk |
mk = ∑nik |
|
|
|
|
|
|
|
|
|
i |
|
|
nx |
n1 = ∑n1 j |
n2 = ∑n2 j |
… |
nl = ∑nlj |
n = ∑ni = ∑mj |
|
|
|
|
j |
j |
|
j |
i |
j |
|
Группируя данные по значениям xi или y j : |
|
|
|
|
||||
k |
|
l |
|
|
l |
k |
||
∑nij = ni ; i =1,2,...,l; (nx ); ∑nij = mj ; j =1,2,...,k; (my ); ∑ni = ∑mj = n , |
||||||||
j=1 |
|
i=1 |
|
|
i=1 |
j=1 |
по данным корреляционной таблицы можно составить законы распределения составляющих (последняя строка и последний столбец таблицы) и их средние
по выборке X B и Y B :
X |
|
|
x1 |
x2 |
|
… |
xl |
nx |
|
|
n1 |
n2 |
|
… |
nl |
|
|
B = |
1 ∑ni xi , |
||||
|
X |
||||||
|
|
|
|
n |
i |
Y |
y1 |
y2 |
… |
yk |
my |
m1 |
m2 |
… |
mk |
Y B = 1 ∑mj y j . n j
Для наглядности данные таблицы изображают графически. Каждую пару (xi , y j ) изображают точкой в системе координат (ХОY). Частоту nij , с которой данная пара встречается в таблице, изображают соответствующим числом
146 |
Лекции 13–14 |
близко расположенных точек либо пишут число nij возле одной точки. Постро-
енное таким образом в системе координат изображение корреляционной таблицы называют полем корреляции. Также возможно изображать данные таблицы
кругами, центр которых находится в точке (xi , y j ), а диаметр (или площадь)
пропорционален nij . Точка в системе координат (ХОY) с координатами (X B ,YB )
называется центром рассеивания.
Можно также составить условные законы распределения, например, Y при X = x j или Х при Y = yi .
Y |
x=x j |
y1 |
y2 |
… |
yl |
|
|
|
|
|
|
|
|
|
|
|
|
m |
m1 j |
m2 j |
… |
mlj |
Зная условные законы распределения, можно найти условные средние:
|
Y |
|
x=x |
, |
Y |
|
x=x |
,..., |
Y |
|
x=x |
и т.п. Построим в системе |
координат (ХОY) точки |
||
|
|
1 |
|
|
|
|
2 |
|
|
|
k |
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
||||
x j ,Y |
|
|
|
и соединим их отрезками прямых. Полученную ломаную называют |
|||||||||||
|
|
|
|
|
x =x j |
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
||||||
выборочной линией регрессии Y на X . Аналогично можно построить выбо- |
|||||||||||||||
рочную линию регрессии X на Y . |
|
||||||||||||||
|
|
|
|
|
|
Если распределения случайных величин X |
и (или) Y заданы интер- |
вальным вариационным рядом, то удобно перейти к вспомогательным переменным, значения которых совпадают с серединами интервалов.
Кроме того, если варианты (значения вариационного ряда) являются равноотстоящими, т.е., образуют арифметическую прогрессию с разностью h , бывает удобно перейти к условным вариантам:
ui = xi h−C ,
где C ложный нуль (новое начало отсчета), а h – шаг, т.е. разность между двумя соседними первоначальными вариантами (новая единица масштаба). Если в качестве ложного нуля взята какая-то из вариант xm , то условные вариан-
ты – целые числа, что упрощает вычисления. Действительно,
ui = x1 +(i −1)h −hx1 +(m −1)h = i −m .
Статистическое исследование зависимостей. Корреляционный и регрессионный анализ |
147 |
Пример:
Дана корреляционная таблица. Построить поле корреляции, найти центр рассеивания, построить выборочные линии регрессии.
Себестоимость |
Месячная производительность труда, |
Итого |
||||||
единицы продук- |
|
|
тыс. шт. (х) |
|
|
|||
|
|
|
|
|
||||
ции, руб. (у) |
10-12 |
12-14 |
|
14-16 |
|
16-18 |
18-20 |
|
6-8 |
|
|
|
1 |
|
1 |
2 |
4 |
8-10 |
|
|
|
3 |
|
4 |
1 |
8 |
10-12 |
|
3 |
|
7 |
|
4 |
|
14 |
12-14 |
2 |
4 |
|
5 |
|
|
|
11 |
14-16 |
2 |
1 |
|
|
|
|
|
3 |
Итого: |
4 |
8 |
|
16 |
|
9 |
3 |
40 |
От интервальных рядов для переменных перейдем к обычным, а затем к условным вариантам, приняв за ложные нули Cx =15 , Cy =11 , шаги hx = hy = 2 .
Про- |
10-12 |
12-14 |
14-16 |
16-18 |
18-20 |
|
Се- |
6-8 |
8-10 |
10-12 |
12-1414-16 |
|
изв. |
|
бест. |
||||||||||
X |
11 |
13 |
15 |
17 |
19 |
|
Y |
7 |
9 |
11 |
13 |
15 |
X ′ |
-2 |
-1 |
0 |
1 |
2 |
|
Y ′ |
-2 |
-1 |
0 |
1 |
2 |
Новые и старые переменные связаны зависимостями:
X ′ = |
X −C |
x |
= |
X −15 |
Y ′ = |
Y −Cy |
= |
Y −11 |
, |
||
h |
|
2 |
|
h |
y |
2 |
|||||
|
x |
|
|
|
|
|
|
|
|
|
|
X = Cx + X ′ hx =15 + X ′ 2 , |
Y =Cy +Y ′ hy =11+Y ′ 2 . |
|
Для новых переменных корреляционная таблица принимает вид:
X ′ |
|
|
|
|
|
|
Y ′ |
-2 |
-1 |
0 |
1 |
2 |
Итого |
-2 |
|
|
1 |
1 |
2 |
4 |
-1 |
|
|
3 |
4 |
1 |
8 |
0 |
|
3 |
7 |
4 |
|
14 |
1 |
2 |
4 |
5 |
|
|
11 |
2 |
2 |
1 |
|
|
|
3 |
Итого: |
4 |
8 |
16 |
9 |
3 |
40 |
Законы распределения составляющих: |
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
X ′ |
-2 |
-1 |
0 |
1 |
2 |
|
Y ′ |
-2 |
-1 |
0 |
1 |
2 |
|
nx |
4 |
8 |
16 |
9 |
3 |
|
my |
4 |
8 |
14 |
11 |
3 |
148 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Лекции 13–14 |
Координаты центра рассеяния: |
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
′ |
1 |
∑ni xi′ = |
1 |
(−2 4 −1 8 +0 16 +1 9 +2 3)= − |
1 |
|
|
|||||
|
X |
|
||||||||||||||
|
B = |
n |
|
|
|
|
|
, |
||||||||
|
40 |
40 |
||||||||||||||
|
|
|
|
|
i |
|
|
|
|
|
||||||
|
|
|
B = |
1 ∑mj y j = |
|
1 |
|
(−2 |
4 |
−1 8 +0 14 +1 11+2 3)= |
1 |
. |
||||
|
Y |
|
||||||||||||||
|
|
40 |
40 |
|||||||||||||
|
|
|
|
|
n |
j |
|
|
|
|
|
Как видно, координаты центра рассеяния незначительно отличаются от начала координат (в переменных X ′ , Y ′).
На рисунке справа показано корреляционное поле. Площади кругов пропорциональны соответствующим частотам nij появления пары значений
(xi , y j ). Визуальное впечатление говорит, что величины взаимозависимы.
Построим выборочные линии регрессии, для чего вычислим условные средние. Для этого модифицируем корреляционную таблицу, дополнив ее условными средними:
|
|
|
|
|
|
|
|
|
|
|
= M (Y |
|
X = xi )= ∑y j p (y j |
|
|
xi )= |
∑y j nij |
, |
||||||||||||
|
|
|
|
|
|
|
|
Y |
|
|
|
|
|
|
j |
|||||||||||||||
|
|
|
|
|
|
|
|
x=xi |
|
|
∑nij |
|||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
j |
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
j |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
= M (X |
|
Y = y j )= ∑xi |
p (xi |
|
y j )= |
|
∑xi nij |
|
. |
|||||||||
|
|
|
|
|
|
|
X |
|
|
|
|
|
|
i |
|
|||||||||||||||
|
|
|
|
|
|
|
y=y j |
|
|
|
∑nij |
|
||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
X ′ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
x=xi |
|
|
|
|
|
|
|
|
|
||||
Y ′ |
-2 |
-1 |
0 |
1 |
|
|
2 |
|
|
|
Y |
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||
-2 |
|
|
1 |
1 |
|
|
2 |
|
|
5/4 |
|
|
|
|
|
|
|
|
|
|
|
|||||||||
-1 |
|
|
3 |
4 |
|
|
1 |
|
|
5/8 |
|
|
|
|
|
|
|
|
|
|
|
|||||||||
0 |
|
3 |
7 |
4 |
|
|
|
|
|
|
1/14 |
|
|
|
|
|
|
|
|
|
||||||||||
1 |
2 |
4 |
5 |
|
|
|
|
|
|
|
|
|
-8/11 |
|
|
|
|
|
|
|
|
|
||||||||
2 |
2 |
1 |
|
|
|
|
|
|
|
|
|
|
-5/3 |
|
|
|
|
|
|
|
|
|
||||||||
|
|
y=y j |
3/2 |
3/4 |
0 |
-5/9 |
-5/3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
X |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||
На рисунке показаны выборочные линии |
|
|
|
|
||||||||||||||||||||||||||
регрессии, сплошная – |
|
|
|
|
|
|
, штриховая |
– |
|
|
|
|
||||||||||||||||||
|
Y |
|
|
|
|
|
|
|
|
|||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
x=x |
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
X y =y j . Как видно, обе зависимости близки к
линейным, что позволяет ограничиться линейными уравнениями регрессии.
Статистическое исследование зависимостей. Корреляционный и регрессионный анализ |
149 |
14.3. Линейная регрессия.
Выборочный коэффициент корреляции
Линейная регрессия заслуживает внимания по нескольким причинам:
1.Для двумерной случайной величины (Х,Y), распределенной по нормальному закону, регрессии составляющих линейны.
2.Нелинейную регрессию при определенных условиях можно аппроксимировать кусочно - линейной.
3.Нелинейную зависимость путем замены переменной можно свести к линейной.
Так как объем выборки конечен, то о линии регрессии можно судить лишь
по форме опытной линии регрессии. Задача о нахождении теоретической линии регрессии сводится к выравниванию статистических распределений, например, методом наименьших квадратов.
Как было показано ранее (лекция 6), прямые среднеквадратической линейной регрессии задаются уравнениями:
y= my + r σy (x −mx )
σx
–прямая среднеквадратической регрессии Y на X ,
x= mx + r σx (y −my )
σy
–прямая среднеквадратической регрессии X на Y .
Здесь mx , my – средние значения, σx , σy – среднеквадратические отклоне-
ния, r – коэффициент корреляции. Поскольку мы имеем только данные выборки, эти величины должны быть вычислены по выборке.
Для данных предыдущего примера:
выборочные средние:
mx = X ′B = − 401 , my =Y ′B = 401 ;
150 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Лекции 13–14 |
|
выборочные среднеквадратические отклонения: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
′ |
2 |
|
|
|
∑ni (xi′) |
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
X |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
∑ni xi′ − |
|
|
B |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|||||||||||||||
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
′ |
|
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||
|
|
|
|
σx = |
|
|
|
|
|
|
|
|
|
|
|
= |
|
|
|
|
|
|
|
− X B |
|
= |
|
|
|
|
|||||||||||||
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
|
||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
= |
|
4 (−2)2 +8(−1)2 +16 (0)2 + 9 (1)2 + 3(2)2 |
|
− |
|
|
|
|
|
1 |
|
|
|
≈1,060 , |
|||||||||||||||||||||||||||||
|
|
|
|
|
|
|
40 |
|
|
|
|
|
|
|
|
|
|
|
|
|
1600 |
|
|
||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
′ |
2 |
|
|
|
∑mj (y′j ) |
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
∑mj y′j −Y |
|
|
B |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|||||||||||
|
|
|
|
|
|
j |
|
|
|
|
|
|
|
|
|
|
|
|
j |
|
|
|
|
|
|
|
|
|
|
′ |
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||
|
|
|
|
σy = |
|
|
|
|
|
|
|
|
|
|
|
|
= |
|
|
|
|
|
|
|
|
|
− |
Y B |
= |
|
|
|
|
||||||||||
|
|
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
|
|
|
||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
= |
|
|
4 (−2)2 +8(−1)2 +14 (0)2 +11(1)2 +3(2)2 |
− |
|
|
|
|
1 |
|
|
|
≈1,084 ; |
||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
40 |
|
|
|
|
|
|
|
|
|
|
|
|
1600 |
|
|
|
||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||
выборочная ковариация: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
KXY = M ((X −mx )(Y −my ))= M (XY )−my mx = n1 ∑i , j |
nij xi′y′j − |
|
′B |
|
′B = |
||||||||||||||||||||||||||||||||||||||
X |
Y |
||||||||||||||||||||||||||||||||||||||||||
= |
1 |
(−2 −8 −4 −2 −4 −4 −8 −2)+ |
|
1 |
|
= − |
34 |
+ |
|
|
|
|
|
1 |
|
|
|
≈ −0,8494 , |
|||||||||||||||||||||||||
|
1600 |
40 |
1600 |
|
|||||||||||||||||||||||||||||||||||||||
40 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||
выборочный коэффициент корреляции: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||
|
|
|
|
|
|
r |
= |
KXY |
|
|
≈ |
|
|
−0,8494 |
|
≈ −0,7392 . |
|
|
|
|
|
|
|
|
|||||||||||||||||||
|
|
|
|
|
|
|
|
|
1,060 1,084 |
|
|
|
|
|
|
|
|
||||||||||||||||||||||||||
|
|
|
|
|
|
XY |
σ σ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
x y |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Окончательно уравнения теоретических прямых среднеквадратической линейной регрессии принимают вид:
y = −0,756x + 0,006 – регрессия Y на X , x = −0,723y − 0,007 –регрессия X на Y .
На рисунке показаны выборочные линии регрессии и теоретические прямые среднеквадратичной регрессии (сплошные – регрессии Y на X , штриховые – регрессии X на Y ).