Konspekt_lekcii Зандер
.pdfгде mj — число групп связных рангов y признака xj,
nlj — число объектов (рангов), образующих l-ю группу связных рангов.
Если неразличимые ранги отсутствуют, то mi = n; nij = 1 для l = 1; n и, следовательно, Tj = 0.
31
Тема 2.3. Модели и методы регрессионного анализа
Лекция 2.3.1. Основные положения регрессионного анализа.
Парная и множественная регрессия
Впрактике экономических исследований очень часто имеющиеся данные нельзя считать выборкой из многомерной нормальной совокупности. Так, в частности, обстоит дело всякий раз, когда одна из рассматриваемых переменных не является случайной или когда линия регрессии явно не прямая и т. д. В этих случаях пытаются определить кривую (поверхность), которая дает наилучшее (в смысле метода наименьших квадратов) приближение к исходным данным. Соответствующие методы приближения получили название регрессионного анализа.
К задачам регрессионного анализа относятся:
1.установление формы зависимости между переменными;
2.оценка модельной функции (модельного уравнения) регрессии;
3.оценка неизвестных значений (прогноз значений) зависимой переменной.
Врегрессионном анализе рассматривается односторонняя зависимость переменной Y (ее еще называют функцией отклика, результативным признаком, предсказываемой переменной) от одной или нескольких независимых переменных X (называемых также объясняющими или
предсказывающими переменными, факторными признаками). Статистическая зависимость между двумя переменными Y и X
может быть выражена в виде усредненной по X зависимости, т. е. в виде модельного соотношения уравнения регрессии
Y = f (X):
Однако отдельные наблюдения Y будут в большей или меньшей мере отклоняться от функции f (X) в силу воздействия неучтенных факторов, а также случайных причин. В этом случае уравнение взаимосвязи двух переменных (парная регрессионная модель) может быть представлено в
32
виде
Y = f (X) + ";
где " — случайная переменная, характеризующая отклонение от модельной функции регрессии. Эту переменную будем называть возмущающей, или просто возмущением. Таким образом, в регрессионной модели зависимая переменная Y есть некоторая функция f (X) с точностью до случайного возмущения ", причем детерминированная составляющая f (X)
выражает влияние существенных факторов на результирующий показатель и описывает поведение условного среднего, а случайная составляющая отражает суммарное влияние всех несущественных факторов.
Мы будем рассматривать линейный регрессионный анализ, в котором функция f (X) линейна относительно оцениваемых параметров. Предположим, что для оценки параметров модельной функции регрессии f (X) из двумерной совокупности (X; Y ) взята выборка объема n, где (xi; yi) — результат i-го наблюдения (i = 1; n). В этом случае регрессионная модель имеет вид
yi = f (xi) + "i:
Отметим основные предпосылки регрессионного анализа:
1.Зависимая переменная yi (или возмущение "i) есть величина случайная, а объясняющая переменная xi есть величина неслучайная.
2.Математическое ожидание возмущения "i равно нулю:
M"i = 0:
3.Дисперсия зависимой переменной yi (или возмущения "i) постоянна для любого i:
D"i = "2;
4. Переменные yi и yj (или возмущения "i и "j) не коррелированы:
M("i "j) = 0:
33
5.Зависимая переменная yi (или возмущение "i) есть нормально распределенная случайная величина (это требование равносильно независимости переменных и необходимо для проверки значимости уравнения регрессии и его параметров, а также для их интервального оценивания).
Рассмотрим простейшую модель регрессионного анализа, когда функция f (x) линейна как по параметрам, так и по переменным xi
(i = 1; n):
yi = 0 + 1xi + "i:
Данная модель описывает случай парной регрессионной зависимости, когда на зависимую переменную Y воздействует одна независимая переменная X.
С помощью параметров 0 и 1 учитывается влияние на зависимую переменную Y объясняющей переменной X. Воздействие неучтенных факторов и случайных ошибок наблюдений определяется с помощью остаточной дисперсии "2.
Оценкой линейной модели по выборке является уравнение регрессии yx = b0 + b1x. Параметры b0 и b1 определяются на основе метода наименьших квадратов. Содержательно параметры модели интерпретируются таким образом: параметр b0 является величиной, выравнивающей размерность переменных y и x, а параметр b1 показывает, на сколько изменится результирующий показатель y при изменении фактора x на единицу (рис. 2.1).
Рассмотрим технологию оценивания параметров двумерной регрессионной модели с помощью линейного метода наименьших квадратов (МНК).
Положим
n
X
Q = (yi ybi)2 ! min :
i=1
Известно, что
ybi = b0 + b1xi:
Тогда
n
X
Q = (yi b0 b1xi)2 ! min
i=1
34
3; 73
y
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
|
|
|
|
|
|
7 |
|
|
|
5 |
|
x |
|
|
|
|
|
|
53 |
|
|
|
|
|
; |
|
|
|
|
|
0 |
|
8 |
|
|
|
|
+ |
|
6 |
|
|
|
|
;73 |
|
|
|
|
|
|
3 |
|
|
|
|
|
|
= |
|
|
|
|
|
3 |
y |
|
|
|
|
|
|
|
|
|
|
|
|
|
4 |
|
|
|
1 |
2 |
|
|
|
|
|
|
= 27 550 |
|
b1 = tg = 0; 53 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
x |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 11 12 13 |
Рис. 2.1. Графическая интерпретация параметров b0 и b1
Найдем экстремум данной функции относительно неизвестных b0
и b1, для чего определим частные производные Q0b0 и Q0b1 и приравняем их нулю:
n
X
Q0b0 = 2 (yi b0 b1xi) = 0:
i=1 n
X
Q0b1 = 2 ((yi b0 b1xi)xi) = 0:
i=1
Таким образом получим систему из двух линейных алгебраических урав-
нений относительно двух переменных b0 и b1, для решения которой удобно воспользоваться правилом Крамера:
8 n |
n |
PP
> |
yi = nb0 + b1 xi; |
> |
|
< |
|
i=1
n
P
>
> xiyi = b0
:
i=1
i=1
n n
xi + b1 |
xi2 |
: |
P |
iP |
|
i=1 |
=1 |
|
= |
n |
i=1 xi |
|
; = |
i=1 y |
i=1 x |
|
; = |
n |
i=1 y |
: |
||||||
|
n |
n |
|
2 |
|
1 |
|
n |
n |
|
2 |
|
2 |
|
n |
n |
|
n |
|
n |
n |
|
n |
||||||||||||
|
|
P |
|
|
|
|
P |
P |
|
|
|
|
|
P |
|
||
xi |
|
x |
|
|
xy |
|
x |
|
|
x |
xy |
||||||
|
i=1 |
i=1 |
i |
|
|
|
i=1 |
i=1 |
|
|
|
|
i=1 |
i=1 |
|
||
|
|
|
|
|
|
|
|
|
|
||||||||
P P |
|
|
|
P P |
|
|
|
P P |
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
35
В результате применения правила Крамера получим выражения для искомых неизвестных b0 и b1:
|
1 |
|
n n |
|
|
|
n |
|
n |
|
|
||
|
|
i=1 y i=1 x2 |
i=1 x i=1 xy |
||||||||||
|
|
|
|
P P |
|
|
|
Pn |
P |
||||
b0 |
= |
|
= |
n i=1 x2 |
i=1 x |
2 |
; |
||||||
|
|
|
|
n |
|
|
|
Pn |
|
|
|
|
|
|
|
|
|
n P |
|
|
n |
|
|
|
|
|
|
|
|
|
|
P |
|
|
P P |
|
|
|
|
|
|
|
2 |
|
n i=1 xy i=1 x i=1 y |
|
|
||||||||
b1 |
= |
|
= |
|
|
|
|
|
|
|
: |
|
|
|
n i=1 x2 |
|
|
i=1 x |
2 |
|
|||||||
|
|
|
|
n |
|
|
|
n |
|
|
|
|
|
|
|
|
|
P |
|
|
|
P |
|
|
|
|
|
Множественная регрессия
Экономические явления, как правило, определяются большим числом одновременно и совокупно действующих факторов. В связи с этим часто возникает задача исследования зависимости одной переменной Y
от нескольких объясняющих переменных X1; X2; : : : ; Xp. Эта задача решается с помощью множественного регрессионного анализа.
Модель множественной регрессии, включающая p объясняющих переменных x1; : : : ; xp, имеет вид:
yi = 0 + 1xi1 + 2xi2 + : : : + pxip + "i;
где "i удовлетворяет приведенным ранее предпосылкам.
Здесь i = 1; n — индекс наблюдения, j = 1; p — индекс фактора. Уравнение регрессии с оценками параметров можно записать как
ybi = b0 + b1xi1 + b2xi2 + : : : + bpxip:
Для изложения некоторых моментов в множественном регрессионном анализе удобней использовать матричную форму записи.
36
0 y1 |
1 |
|
B y2 |
C |
|
B |
:y:n: |
C |
Пусть Y = B |
C— вектор значений зависимой переменной Y , |
|
B |
|
C |
@ |
|
A |
0 1 |
x21 |
x22 |
: : : x2p |
|
|
1 |
x11 |
x12 |
: : : x1p |
X = B ... ... ... |
: : : ... |
|||
B |
|
|
|
|
B |
1 xn1 xn2 |
: : : xnp |
||
B |
|
|
|
|
@
1
C
C
C —
C
A
матрица значений объясняющих переменных размерности n (p+1). Единичный столбец в матрице X соответствует столбцу свободных членов 0 в линейной модели, причем условно полагается, что 0 умножается на фиктивную переменную xi0, принимающую значение 1 для
всех i:
xi0 = 1 (i = 1; n);
= ( 0; 1; : : : ; p)T — вектор параметров,
"= ("0; "1; : : : ; "n)T — вектор возмущений.
Оценки параметров уравнения множественной регрессии
b1; b2; : : : ; bp так же, как в случае парной регрессии, проводится с использованием метода наименьших квадратов (далее — МНК), согласно которому в качестве оценки принимают вектор b, который минимизирует сумму квадратов отклонений наблюдаемых значений yi
от модельных значений ybi, |
т. е. квадратичную форму |
|
|||
T |
n |
2 |
|
||
|
Q = (Y XB) (Y XB) = |
Xi |
|
! min |
|
или |
n |
|
b |
|
|
|
|
|
=1 |
|
|
X
Q = (yi (b0 + b1xi1 + : : : + bpxip))2 ! min :
i=1
Для определения минимума ищем решение системы
8
> Q0b0 = 0;
>
>
<
> Q0 = 0;
b1
> : : : ;
>
>
:
> Q0 = 0
bp
37
относительно
b = (XT X) 1XT Y:
Здесь Q0w — частная производная Q по оценке t.
Оценки, полученные на основе применения этого метода, обладают рядом важных для дальнейшего анализа свойств:
—несмещенность (не содержат систематических ошибок при оценивании):
M j = bj; j = 0; p;
—состоятельность (при n ! 1 с вероятностью, как угодно близкой к 1, сходятся к оцениваемым параметрам);
—эффективность (обладают наименьшими дисперсиями среди всех возможных несмещенных оценок параметров).
Построение модели множественной регрессии с четырьмя и более факторами возможно только с использованием компьютера. На практике часто бывает необходимо сравнение влияния на зависимую переменную различных объясняющих переменных, когда последние выражаются разными единицами измерения. В этом случае используют стандартизованные коэффициенты регрессии b0j и коэффициенты эластичности
Эj (j = 1; p):
Sxj ; Эj = bj xj : Sy y
Стандартизованный коэффициент регрессии b0j показывает, на сколько величин Sy изменится в среднем зависимая переменная Y при увеличении только j-ой объясняющей переменной на Sxj , а коэффициент эластичности Эj — на сколько процентов (от средней) изменится в среднем Y при увеличении только Xj на 1 %.
Нелинейная регрессия
Соотношения, существующие между социально-экономическими процессами, не всегда можно выразить линейными функциями, т. к. при этом могут возникать неоправданно большие ошибки. В некоторых
38
случаях нелинейность связей является следствием качественной неоднородности совокупности, к которой применяют регрессионный анализ. Например, если в одной совокупности объединены предприятия, отличающиеся по специализации, условиям функционирования и т. д.
В случае нелинейной зависимости параметры уравнения регрессии оцениваются также при помощи метода наименьших квадратов. Однако статистические свойства МНК-оценок сохраняются только для случая линейной зависимости. С позиции использования МНК различают следующие виды зависимостей:
1. функции, нелинейные по факторам, например:
y = a0 + a1x2 или y = a0 + a1 log x;
2. функции, нелинейные по параметрам, например:
y = ea0+a1x или y = aK L1 ;
3.функции, не приводимые к линейному виду.
Впервом и втором случае МНК для оценки параметров модели используется после проведения линеаризующих преобразований, приводящих функцию к линейному виду. Для нахождения оценок параметров функций первого типа достаточно провести замену объясняющих переменных, например, если y = a0 + a1x2 , то достаточно ввести новую переменную x0 = x2 и, осуществив замену переменных, получить функцию линейного вида y = a0 + a1x0, после чего можно использовать метод наименьших квадратов.
К уравнениям второго вида вначале требуется применить линеаризующее преобразование, а затем уже заменить переменные. Например, если y = ea0+a1x, то линеаризующее преобразование состоит в логарифмировании ln y = a0 + a1x, после чего, заменив переменную ln y = y0, получим уравнение линейного вида yb = a0 + a1x. К преобразованному уравнению применяют МНК. При этом оценки параметров минимизируют фактически не функцию вида
n
X
f = (yi ybi)2;
i=1
39
а функцию
n
X
f0 = (yi0 ybi0)2:
i=1
Здесь и далее, если индексы суммирования опущены, предполагается, что суммирование идет от i = 1 до n.
Основные типы зависимостей и линеаризующие преобразования приводятся в учебном пособии (стр. 22—23).
Для множественной регрессии представляется соблазнительным представляется увеличение порядка выравнивающей кривой, ибо известно, что всякую функцию на любом интервале можно сколь угодно точно представить полиномом
yb = b0 + b1x + b2x2 + b3x3 + : : : + bpxp:
Так, можно подобрать такой показатель p, что соответствующий полином пройдет через все вершины эмпирической линии регрессии. Однако повышение порядка гипотетичной параболической кривой может привести к неоправданному усложнению вида искомой функции регрессии, когда случайные отклонения осредненных точек неправильно истолковываются как определенные закономерности в поведении кривой регрессии. Кроме того, за счет увеличения числа параметров снижается точность кривой регрессии (особенно в случае малой выборки) и увеличивается объем вычислений. В связи с этим в практике регрессионного анализа редко используются полиномы выше третьей степени.
Для множественной регрессии, кроме линейной модели, часто используют степенную (мультипликативную) модель:
a1 |
a2 |
ap |
: |
yb = a0x1 |
x2 |
: : : xp |
Подобная мультипликативная модель приводится к линейному виду логарифмированием:
ln y = ln a0 + a1 ln x1 + a2 ln x2 + : : : + ap ln xp:
После замены переменных и переобозначения параметров:
y0 = ln y; a00 = ln a0; x0j = ln xj;
40