Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Konspekt_lekcii Зандер

.pdf
Скачиваний:
18
Добавлен:
01.06.2015
Размер:
624.83 Кб
Скачать

где mj — число групп связных рангов y признака xj,

nlj — число объектов (рангов), образующих l-ю группу связных рангов.

Если неразличимые ранги отсутствуют, то mi = n; nij = 1 для l = 1; n и, следовательно, Tj = 0.

31

Тема 2.3. Модели и методы регрессионного анализа

Лекция 2.3.1. Основные положения регрессионного анализа.

Парная и множественная регрессия

Впрактике экономических исследований очень часто имеющиеся данные нельзя считать выборкой из многомерной нормальной совокупности. Так, в частности, обстоит дело всякий раз, когда одна из рассматриваемых переменных не является случайной или когда линия регрессии явно не прямая и т. д. В этих случаях пытаются определить кривую (поверхность), которая дает наилучшее (в смысле метода наименьших квадратов) приближение к исходным данным. Соответствующие методы приближения получили название регрессионного анализа.

К задачам регрессионного анализа относятся:

1.установление формы зависимости между переменными;

2.оценка модельной функции (модельного уравнения) регрессии;

3.оценка неизвестных значений (прогноз значений) зависимой переменной.

Врегрессионном анализе рассматривается односторонняя зависимость переменной Y (ее еще называют функцией отклика, результативным признаком, предсказываемой переменной) от одной или нескольких независимых переменных X (называемых также объясняющими или

предсказывающими переменными, факторными признаками). Статистическая зависимость между двумя переменными Y и X

может быть выражена в виде усредненной по X зависимости, т. е. в виде модельного соотношения уравнения регрессии

Y = f (X):

Однако отдельные наблюдения Y будут в большей или меньшей мере отклоняться от функции f (X) в силу воздействия неучтенных факторов, а также случайных причин. В этом случае уравнение взаимосвязи двух переменных (парная регрессионная модель) может быть представлено в

32

виде

Y = f (X) + ";

где " — случайная переменная, характеризующая отклонение от модельной функции регрессии. Эту переменную будем называть возмущающей, или просто возмущением. Таким образом, в регрессионной модели зависимая переменная Y есть некоторая функция f (X) с точностью до случайного возмущения ", причем детерминированная составляющая f (X)

выражает влияние существенных факторов на результирующий показатель и описывает поведение условного среднего, а случайная составляющая отражает суммарное влияние всех несущественных факторов.

Мы будем рассматривать линейный регрессионный анализ, в котором функция f (X) линейна относительно оцениваемых параметров. Предположим, что для оценки параметров модельной функции регрессии f (X) из двумерной совокупности (X; Y ) взята выборка объема n, где (xi; yi) — результат i-го наблюдения (i = 1; n). В этом случае регрессионная модель имеет вид

yi = f (xi) + "i:

Отметим основные предпосылки регрессионного анализа:

1.Зависимая переменная yi (или возмущение "i) есть величина случайная, а объясняющая переменная xi есть величина неслучайная.

2.Математическое ожидание возмущения "i равно нулю:

M"i = 0:

3.Дисперсия зависимой переменной yi (или возмущения "i) постоянна для любого i:

D"i = "2;

4. Переменные yi и yj (или возмущения "i и "j) не коррелированы:

M("i "j) = 0:

33

5.Зависимая переменная yi (или возмущение "i) есть нормально распределенная случайная величина (это требование равносильно независимости переменных и необходимо для проверки значимости уравнения регрессии и его параметров, а также для их интервального оценивания).

Рассмотрим простейшую модель регрессионного анализа, когда функция f (x) линейна как по параметрам, так и по переменным xi

(i = 1; n):

yi = 0 + 1xi + "i:

Данная модель описывает случай парной регрессионной зависимости, когда на зависимую переменную Y воздействует одна независимая переменная X.

С помощью параметров 0 и 1 учитывается влияние на зависимую переменную Y объясняющей переменной X. Воздействие неучтенных факторов и случайных ошибок наблюдений определяется с помощью остаточной дисперсии "2.

Оценкой линейной модели по выборке является уравнение регрессии yx = b0 + b1x. Параметры b0 и b1 определяются на основе метода наименьших квадратов. Содержательно параметры модели интерпретируются таким образом: параметр b0 является величиной, выравнивающей размерность переменных y и x, а параметр b1 показывает, на сколько изменится результирующий показатель y при изменении фактора x на единицу (рис. 2.1).

Рассмотрим технологию оценивания параметров двумерной регрессионной модели с помощью линейного метода наименьших квадратов (МНК).

Положим

n

X

Q = (yi ybi)2 ! min :

i=1

Известно, что

ybi = b0 + b1xi:

Тогда

n

X

Q = (yi b0 b1xi)2 ! min

i=1

34

3; 73

y

14

13

12

11

10

9

8

7

6

5

4

3

2

1

0

 

 

 

 

 

 

7

 

 

 

5

 

x

 

 

 

 

 

 

53

 

 

 

 

 

;

 

 

 

 

0

 

8

 

 

 

+

 

6

 

 

 

;73

 

 

 

 

 

3

 

 

 

 

 

 

=

 

 

 

 

 

3

y

 

 

 

 

 

 

 

 

 

 

 

 

4

 

 

 

1

2

 

 

 

 

 

 

= 27 550

 

b1 = tg = 0; 53

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

1

2

3

4

5

6

7

8

9

10 11 12 13

Рис. 2.1. Графическая интерпретация параметров b0 и b1

Найдем экстремум данной функции относительно неизвестных b0

и b1, для чего определим частные производные Q0b0 и Q0b1 и приравняем их нулю:

n

X

Q0b0 = 2 (yi b0 b1xi) = 0:

i=1 n

X

Q0b1 = 2 ((yi b0 b1xi)xi) = 0:

i=1

Таким образом получим систему из двух линейных алгебраических урав-

нений относительно двух переменных b0 и b1, для решения которой удобно воспользоваться правилом Крамера:

8 n

n

PP

>

yi = nb0 + b1 xi;

>

 

<

 

i=1

n

P

>

> xiyi = b0

:

i=1

i=1

n n

xi + b1

xi2

:

P

iP

 

i=1

=1

 

=

n

i=1 xi

 

; =

i=1 y

i=1 x

 

; =

n

i=1 y

:

 

n

n

 

2

 

1

 

n

n

 

2

 

2

 

n

n

 

n

 

n

n

 

n

 

 

P

 

 

 

 

P

P

 

 

 

 

 

P

 

xi

 

x

 

 

xy

 

x

 

 

x

xy

 

i=1

i=1

i

 

 

 

i=1

i=1

 

 

 

 

i=1

i=1

 

 

 

 

 

 

 

 

 

 

 

P P

 

 

 

P P

 

 

 

P P

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

35

В результате применения правила Крамера получим выражения для искомых неизвестных b0 и b1:

 

1

 

n n

 

 

 

n

 

n

 

 

 

 

i=1 y i=1 x2

i=1 x i=1 xy

 

 

 

 

P P

 

 

 

Pn

P

b0

=

 

=

n i=1 x2

i=1 x

2

;

 

 

 

 

n

 

 

 

Pn

 

 

 

 

 

 

 

 

 

n P

 

 

n

 

 

 

 

 

 

 

 

 

P

 

 

P P

 

 

 

 

 

 

2

 

n i=1 xy i=1 x i=1 y

 

 

b1

=

 

=

 

 

 

 

 

 

 

:

 

 

n i=1 x2

 

 

i=1 x

2

 

 

 

 

 

n

 

 

 

n

 

 

 

 

 

 

 

 

 

P

 

 

 

P

 

 

 

 

 

Множественная регрессия

Экономические явления, как правило, определяются большим числом одновременно и совокупно действующих факторов. В связи с этим часто возникает задача исследования зависимости одной переменной Y

от нескольких объясняющих переменных X1; X2; : : : ; Xp. Эта задача решается с помощью множественного регрессионного анализа.

Модель множественной регрессии, включающая p объясняющих переменных x1; : : : ; xp, имеет вид:

yi = 0 + 1xi1 + 2xi2 + : : : + pxip + "i;

где "i удовлетворяет приведенным ранее предпосылкам.

Здесь i = 1; n — индекс наблюдения, j = 1; p — индекс фактора. Уравнение регрессии с оценками параметров можно записать как

ybi = b0 + b1xi1 + b2xi2 + : : : + bpxip:

Для изложения некоторых моментов в множественном регрессионном анализе удобней использовать матричную форму записи.

36

0 y1

1

B y2

C

B

:y:n:

C

Пусть Y = B

C— вектор значений зависимой переменной Y ,

B

 

C

@

 

A

0 1

x21

x22

: : : x2p

 

1

x11

x12

: : : x1p

X = B ... ... ...

: : : ...

B

 

 

 

 

B

1 xn1 xn2

: : : xnp

B

 

 

 

 

@

1

C

C

C

C

A

матрица значений объясняющих переменных размерности n (p+1). Единичный столбец в матрице X соответствует столбцу свободных членов 0 в линейной модели, причем условно полагается, что 0 умножается на фиктивную переменную xi0, принимающую значение 1 для

всех i:

xi0 = 1 (i = 1; n);

= ( 0; 1; : : : ; p)T — вектор параметров,

"= ("0; "1; : : : ; "n)T — вектор возмущений.

Оценки параметров уравнения множественной регрессии

b1; b2; : : : ; bp так же, как в случае парной регрессии, проводится с использованием метода наименьших квадратов (далее — МНК), согласно которому в качестве оценки принимают вектор b, который минимизирует сумму квадратов отклонений наблюдаемых значений yi

от модельных значений ybi,

т. е. квадратичную форму

 

T

n

2

 

 

Q = (Y XB) (Y XB) =

Xi

 

! min

или

n

 

b

 

 

 

 

 

=1

 

 

X

Q = (yi (b0 + b1xi1 + : : : + bpxip))2 ! min :

i=1

Для определения минимума ищем решение системы

8

> Q0b0 = 0;

>

>

<

> Q0 = 0;

b1

> : : : ;

>

>

:

> Q0 = 0

bp

37

b0j =

относительно

b = (XT X) 1XT Y:

Здесь Q0w — частная производная Q по оценке t.

Оценки, полученные на основе применения этого метода, обладают рядом важных для дальнейшего анализа свойств:

несмещенность (не содержат систематических ошибок при оценивании):

M j = bj; j = 0; p;

состоятельность (при n ! 1 с вероятностью, как угодно близкой к 1, сходятся к оцениваемым параметрам);

эффективность (обладают наименьшими дисперсиями среди всех возможных несмещенных оценок параметров).

Построение модели множественной регрессии с четырьмя и более факторами возможно только с использованием компьютера. На практике часто бывает необходимо сравнение влияния на зависимую переменную различных объясняющих переменных, когда последние выражаются разными единицами измерения. В этом случае используют стандартизованные коэффициенты регрессии b0j и коэффициенты эластичности

Эj (j = 1; p):

Sxj ; Эj = bj xj : Sy y

Стандартизованный коэффициент регрессии b0j показывает, на сколько величин Sy изменится в среднем зависимая переменная Y при увеличении только j-ой объясняющей переменной на Sxj , а коэффициент эластичности Эj — на сколько процентов (от средней) изменится в среднем Y при увеличении только Xj на 1 %.

Нелинейная регрессия

Соотношения, существующие между социально-экономическими процессами, не всегда можно выразить линейными функциями, т. к. при этом могут возникать неоправданно большие ошибки. В некоторых

38

случаях нелинейность связей является следствием качественной неоднородности совокупности, к которой применяют регрессионный анализ. Например, если в одной совокупности объединены предприятия, отличающиеся по специализации, условиям функционирования и т. д.

В случае нелинейной зависимости параметры уравнения регрессии оцениваются также при помощи метода наименьших квадратов. Однако статистические свойства МНК-оценок сохраняются только для случая линейной зависимости. С позиции использования МНК различают следующие виды зависимостей:

1. функции, нелинейные по факторам, например:

y = a0 + a1x2 или y = a0 + a1 log x;

2. функции, нелинейные по параметрам, например:

y = ea0+a1x или y = aK L1 ;

3.функции, не приводимые к линейному виду.

Впервом и втором случае МНК для оценки параметров модели используется после проведения линеаризующих преобразований, приводящих функцию к линейному виду. Для нахождения оценок параметров функций первого типа достаточно провести замену объясняющих переменных, например, если y = a0 + a1x2 , то достаточно ввести новую переменную x0 = x2 и, осуществив замену переменных, получить функцию линейного вида y = a0 + a1x0, после чего можно использовать метод наименьших квадратов.

К уравнениям второго вида вначале требуется применить линеаризующее преобразование, а затем уже заменить переменные. Например, если y = ea0+a1x, то линеаризующее преобразование состоит в логарифмировании ln y = a0 + a1x, после чего, заменив переменную ln y = y0, получим уравнение линейного вида yb = a0 + a1x. К преобразованному уравнению применяют МНК. При этом оценки параметров минимизируют фактически не функцию вида

n

X

f = (yi ybi)2;

i=1

39

а функцию

n

X

f0 = (yi0 ybi0)2:

i=1

Здесь и далее, если индексы суммирования опущены, предполагается, что суммирование идет от i = 1 до n.

Основные типы зависимостей и линеаризующие преобразования приводятся в учебном пособии (стр. 22—23).

Для множественной регрессии представляется соблазнительным представляется увеличение порядка выравнивающей кривой, ибо известно, что всякую функцию на любом интервале можно сколь угодно точно представить полиномом

yb = b0 + b1x + b2x2 + b3x3 + : : : + bpxp:

Так, можно подобрать такой показатель p, что соответствующий полином пройдет через все вершины эмпирической линии регрессии. Однако повышение порядка гипотетичной параболической кривой может привести к неоправданному усложнению вида искомой функции регрессии, когда случайные отклонения осредненных точек неправильно истолковываются как определенные закономерности в поведении кривой регрессии. Кроме того, за счет увеличения числа параметров снижается точность кривой регрессии (особенно в случае малой выборки) и увеличивается объем вычислений. В связи с этим в практике регрессионного анализа редко используются полиномы выше третьей степени.

Для множественной регрессии, кроме линейной модели, часто используют степенную (мультипликативную) модель:

a1

a2

ap

:

yb = a0x1

x2

: : : xp

Подобная мультипликативная модель приводится к линейному виду логарифмированием:

ln y = ln a0 + a1 ln x1 + a2 ln x2 + : : : + ap ln xp:

После замены переменных и переобозначения параметров:

y0 = ln y; a00 = ln a0; x0j = ln xj;

40