Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
эконометрика-раздача / УМК-эконометрика-магистры.doc
Скачиваний:
59
Добавлен:
09.05.2015
Размер:
5.46 Mб
Скачать

3. Линейная модель множественной регрессии

3.1. Обоснование и отбор факторов при построении множественной регрессии.

Значения экономических переменных определяются обычно влиянием не одного, а нескольких объясняющих факторов. Задача оценки статистической взаимосвязи переменных у и х=(х1,х2,…,хm) формулируется аналогично случаю парной регрессии. Ищется функция у=f(,х)+, где – вектор параметров, – случайная ошибка.

Построение функции проводится в два этапа.

На первом этапе необходимо произвести отбор факторов. Сначала вычисляются коэффициенты корреляции rik по формуле (3) между выборочными значениями факторов Хi={xji} и Хk={xjk}. Если rik>0.8 (наблюдается сильная линейная связь между факторами Хi и Хk), то один из них отбрасывается (в принципе, любой, но рекомендуется отбрасывать тот, информацию по которому труднее собрать или она менее достоверна). Затем вычисляются коэффициенты корреляции riу по формуле (3) между выборочными значениями фактора Хi={xji} и Y={yj}. Если riy<0.2 (практически отсутствует линейная связь между фактором Хi и анализируемым показателем Y), то и этот фактор отбрасывается.

3.2. Линейная регрессионная модель со многими переменными.

В простейшем случае анализируется линейная зависимость у от х. Уравнение множественной линейной регрессии имеет вид

у=0+1х1 +2х2 +…+mхm+. (12)

Если имеется n наблюдений факторов х и переменной у, то отклонение зависимой переменной у в j-м наблюдении от линии регрессии

j= уj – 0 – 1хj1 – 2хj2 – … – mхjm (j=1,2,…, n).

На втором этапе для оставшихся факторов применяется метод наименьших квадратов. Метод наименьших квадратов предполагает поиск коэффициентов i таких, что Q=j2min. Для отыскания минимума берутся частные производные Q по искомым параметрам (мы использовали этот метод в случае однофакторной регрессии для нахождения 0 и 1) и приравниваются к нулю. После выполнения элементарных преобразований получают так называемую систему нормальных уравнений, из которой и находятся искомые параметры.

Система нормальных уравнений для многофакторной регрессии имеет вид:

0 + 11 + 22 + … + mm =,

01 + 1+ 2 + … + m=, (13)

……………………………………………..

0 + 1+ 2 + … + m=.

Для решения системы (13) можно использовать любой метод решения системы линейных уравнений (Гаусса, Крамера и пр.). Оцененное уравнение описывает как общий тренд (тенденцию) изменения зависимой переменной у, так и отклонения от этого тренда. Проблема здесь состоит не только в том, чтобы объяснить возможно большую долю колебаний переменной у, но и отделить влияние каждого из факторов.

3.3. Оценка и интерпретация параметров.

Для анализа статистической значимости полученных коэффициентов множественной линейной регрессии оценивают дисперсию D(i) и стандартные отклонения S(i)=D(i) коэффициентов i. Аналогично (10) величина t=i/S(i), называемая t–статистикой, имеет распределение Стьюдента с (n-m-1) степенями свободы. Если число степеней свободы достаточно велико (не менее 10), то при 5%-ном уровне значимости можно приближенно считать оценку незначимой, если t–статистика по модулю меньше 1, и весьма надежной, если модуль t–статистики больше 3.

Коэффициенты множественной линейной регрессии iимеют большой экономический смысл. Они показывают, на сколько изменится анализируемый показательYпри изменении фактора Хiна единицу.

Пример 3. Рассмотрим аналитические модели спроса, используя ниже приведенные в табл.3 конкретные статистические данные обследования семей, сведенные в девять групп (с примерно одинаковым объемом потребления).

Таблица 3.

№ группы

Расход на питание (у)

Душевой доход (х1)

Размер семей (х2)

ŷ

j

j2

1

2

3

4

5

6

7

1

433

628

1,5

333,6

99,4

9880,36

2

616

1577

2,1

626,5

–10,5

110,25

3

900

2659

2,7

928,5

–28,5

812,25

4

1113

3701

3,2

1189,8

–76,8

5898,24

5

1305

4796

3,4

1340,5

–34,5

1190,25

6

1488

5926

3,6

1493,6

–5,6

31,36

7

1645

7281

3,7

1624

21

441

8

1914

9350

4,0

1879,1

34,9

1218

9

2411

18807

3,7

2409,5

1,5

2,25

Средние

=1313,9

1 =6080,5

2 =3,1

2198,2

Рассмотрим сначала однофакторную линейную модель зависимости расходов на питание (у) от величины душевого дохода (х1)

ŷ=а0+а1х1,

параметры которой а0иа1 находятся по формулам (6), используя данные табл.3 и =(∑х12)/9=63989644,1, =(∑х1у)/9)=10894351. Решение:а0=660,06;а1 = 0,1075. Получаем уравнение регрессииŷ=660,06 + 0,1075х1.

Затем вычисляются средняя квадратическая ошибка выборки (корень квадратный из дисперсииу)

Sу=√(∑(у у)2)/n,

средняя квадратическая ошибка уравнения (4) Sŷ=√(∑(уŷ)2)/nи коэффициент детерминацииRŷх1=√1 – Sŷ2/ Sу2.

Внашем примере Sу2=454070, Sŷ2=63846, следовательно

Rŷх1=√1 – 63846/454070 =0,927.

Полученное значение свидетельствует, что связь между расходами на питание и душевым доходом очень тесная.

Величина R2ŷх1 показывает долю изменения результативного признака под воздействием факторного признака. В нашем примереR2ŷх1=0,859; это означает, что фактором душевого дохода можно объяснить почти 86% изменения расходов на питание.

Рассмотрим теперь двухфакторную линейную модель зависимости расходов на питание (у) от величины душевого дохода (х1) и размера семьи (х2)

ŷ=а0 + а1х1 + а2х2 .

Параметры модели а0 , а1 и а2 находятся посредством решения следующей системы нормальных уравнений:

а0+х1а1 + х2а2 =у

х1а0+ а1 + х1х2 а2 =ух1

х2а0+х1х2 а1 + а2 =ух2,

которая также формируется с применением метода наименьших квадратов (средние величины х1х2 , иух2 вычисляются аналогично однофакторной модели). Получаем систему

а0+ 6080,5а1 + 3,1а2 = 1313,9

6080,5а0+ 63989644,1а1 + 21649,1 а2 = 10894351

3,1а0+ 21649,1а1 + 10,2а2 = 4488,

которую решаем, например, методом Гаусса.

Делим второе и третье уравнения на коэффициент при а0.

а0+ 6080,5а1 + 3,1а2 = 1313,9

а0+ 10523,75а1 + 3,56 а2 = 1791,69

а0+ 6983,58а1 + 3,29а2 = 1447,74.

От второго и третьего уравнения отнимаем первое

а0+ 6080,5а1 + 3,1а2 = 1313,9

4443,25а1 + 0,46 а2 = 477,79

903,08а1 + 0,19а2 = 133,84.

Делим второе и третье уравнения на коэффициент при а1.

а0+ 6080,5а1 + 3,1а2 = 1313,9

а1 + 0,0001035 а2 = 0,1075316

а1 + 0,0002104а2 = 0,1482039.

От третьего уравнения отнимаем второе

а0+ 6080,5а1 + 3,1а2 = 1313,9

а1 + 0,0001035 а2 = 0,1075316

0,0001069а2 = 0,0406723.

Из третьего уравнения находим а2=380.47; подставляя его во второе уравнение получаема1 = 0,06815; подставляя найденныеа1 иа2 в первое уравнение, получаема0= –279.94; следовательно

ŷ= –279.94 + 0.06815х1 + 380.47х2 .

Для определения тесноты связи предварительно вычисляются теоретические значения ŷ, затем уклоненияj и их квадраты (колонки 5,6,7 табл.3). Получим Sŷ2=(∑(уŷ)2)/n=2198,2. Используя ранее вычисленное Sу2=454070, получимR2=1 – Sŷ2/ Sу2 =0,995.R2показывает долю вариации результативного признака под воздействием изучаемых факторных признаков. У насR2=0,995; это означает, что совместное влияние душевого дохода и размера семей объясняет почти 99,5% изменения расходов на питание.

Соседние файлы в папке эконометрика-раздача