Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
лр1_2 по эконометрике.doc
Скачиваний:
31
Добавлен:
05.11.2018
Размер:
916.48 Кб
Скачать

Регрессия по методу наименьших квадратов с одной независимой переменой.

Рассмотрим случай, когда имеется n наблюдений двух переменных x и y. Предположим, что y зависит от x, и надо подобрать уравнение

=a+bx (8)

расчетное значение зависимой переменной и остаток ei для наблюдения i заданы уравнениями (4) и (7). Требуется выбрать a и b,чтобы минимизировать величину S:

S=ei2=e12+…+en2 (9)

Заметим, что величина S минимальна, когда

(10)

и (11)

Варианты выражения для b

Так как

(12)

и (13)

можно получить следующие значения для b:

(14)

. (15)

Далее будет использоваться первоначальное определение

.

Вывод выражений для a и b

Осуществим вывод выражений для a и b в соответствии с той же процедурой, которая использовалась ранее, и сравним общий вариант с примерами на каждом этапе. Выразим квадрат i-го остатка через a и b и наблюдения значений через x и y:

ei2=(yi-)2=(yi-a-bxi)2=yi2+a2+b2xi2-2ayi+2abxi-2bxiyi. (16)

Суммируя по всем n наблюдениям, запишем S в виде:

S=yi2+na2+b2xi2-2ayi+2abxi-2bxiyi. (17)

Заметим, что данное выражение для S является квадратичной формой по a и b, и ее коэффициенты определяются выборочными значениями x и y. Можно влиять на величину S, только задавая значения a и b. Значения x и y, которые определяют положение точек на диаграмме расстояния, уже не могут быть изменены после того, как взята определенная выборка.

Условия первого порядка для минимума, то есть и , принимают вид:

. (18)

. (19)

Эти уравнения известны как нормальные уравнения для коэффициентов регрессии. Уравнение (18) позволяет выразить a через и пока неизвестное b. Подставим вместо xi, получим:

. (20)

Следовательно,

. (21)

Подставив выражение для a в уравнение (2.33) и помня, что xi равно , имеем:

(22)

После деления на 2n и перегруппировки получим:

(23)

С учетом формул (12) и (13) это выражение можно переписать в следующем виде:

(24)

и, таким, мы получим уравнение (10). Найдя из этого выражения b, выразим затем a из уравнения (11).

Качество оценки: коэффициент r2

Цель регрессионного анализа состоит в объяснении поведения зависимой переменной y. В любой данной выборке y оказывается сравнительно низким в одних наблюдениях и сравнительно высоким в других. Разброс значений y в любой выборке можно суммарно описать с помощью выборочной дисперсии Var(y).

После построения уравнения регрессии можно разбить значение yi в каждом наблюдении на две составляющих ‑ и ei:

(25)

Величина ‑ расчетное значение y в наблюдении i. Остаток ei есть расхождение между фактическим и спрогнозированным значениями величины y.

Используя (25), разложим дисперсию y:

(26)

Так как должна быть равна нулю, получим:

(27)

Согласно (27), коэффициент детерминации

, (28)

что равносильно

. (29)

Максимальное значение коэффициента R2 равно единице. Это происходит в том случае, когда линия регрессии точно соответствует всем наблюдениям, так что для всех i и все остатки равны нулю. Тогда , Var(e)=0 и R2=1.

Если в выборке отсутствует видимая связь между y и x, то коэффициент R2 будет близок к нулю.

При прочих равных условиях желательно, чтобы коэффициент R2 был как можно больше.

Альтернативное представление коэффициента R2

Очевидно, что чем больше соответствие, обеспечиваемое уравнением регрессии, тем больше должен быть коэффициент корреляции для фактических и прогнозных значений y, и наоборот. Покажем, что R2 фактически равен квадрату такого коэффициента корреляции между y и , который обозначается :

(30)

  1. Экспериментальная часть

    В качестве примера рассмотрим данные из лабораторной работы № 1. Рассчитаем коэффициенты регрессии с одной независимой переменной по методу наименьших квадратов. Результаты расчета приведены в таблице1.

Таблица 1.

x

y

e

e2

479,7

440,4

a+479,7b

440,4-a-479,7b

193952,16+a2+b2230112,09-2a440,4+2ab479,7-2b211259,88

489,7

452

a+489,7b

452-a-489,7b

204304+a2+b2239806,09-2a452+2ab489,7-2b221344,4

503,8

461,4

a+503,8b

461,4-a-503,8b

212889,96+a2+b2253814,44-2a461,4+2ab503,8-2b232453,32

524,9

482

a+524,9b

482-a-524,9b

232324+a2+b2275520,01-2a482+2ab524,9-2b253001,8

542,3

500,5

a+542,3b

500,5-a-542,3b

250500,25+a2+b2294089,29-2a500,5+2ab542,3-2b271421,15

580,8

528

a+580,8b

528-a-580,8b

278784+a2+b2337328,64-2a528+2ab580,8-2b306662,4

616,3

557,5

a+616,3b

557,5-a-616,3b

310806,25+a2+b2379825,69-2a557,5+2ab616,3-2b343587,25

646,8

585,7

a+646,8b

585,7-a-646,8b

343044,49+a2+b2418350,24-2a585,7+2ab646,8-2b378830,76

673,5

602,7

a+673,5b

602,7-a-673,5b

363247,29+a2+b2453602,25-2a602,7+2ab673,5-2b405918,45

701,3

634,4

a+701,3b

634,4-a-701,3b

402463,36+a2+b2491821,69-2a634,4+2ab701,3-2b444904,72

722,5

657,9

a+722,5b

657,9-a-722,5b

432832,41+a2+b2522006,25-2a657,9+2ab722,5-2b475332,75

751,6

672,1

a+751,6b

672,1-a-751,6b

451718,41+a2+b2564902,56-2a672,1+2ab751,6-2b505150,36

779,2

696,8

a+779,2b

696,8-a-779,2b

485530,24+a2+b2607152,64-2a696,8+2ab779,2-2b542946,56

810,3

737,1

a+810,3b

737,1-a-810,3b

543316,41+a2+b2656586,09-2a737,1+2ab810,3-2b597272,13

865,3

768,5

a+865,3b

768,5-a-865,3b

590592,25+a2+b2748744,09-2a768,5+2ab865,3-2b664983,05

858,4

763,6

a+858,4b

763,6-a-858,4b

583084,96+a2+b2736850,56-2a763,6+2ab858,4-2b655474,24

875,8

780,2

a+875,8b

780,2-a-875,8b

608712,04+a2+b2767025,64-2a780,2+2ab875,8-2b683299,16

906,8

823,1

a+906,8b

823,1-a-906,8b

677493,61+a2+b2822286,24-2a823,1+2ab906,8-2b746387,08

942,9

864,3

a+942,9b

864,3-a-942,9b

747014,49+a2+b2889060,41-2a864,3+2ab942,9-2b814948,47

988,8

903,2

a+988,8b

903,2-a-988,8b

815770,24+a2+b2977725,44-2a903,2+2ab988,8-2b893084,16

1015,5

927,6

a+1015,5b

927,6-a-1015,5b

860441,76+a2+b21031240,25-2a927,6+2ab1015,5-2b941977,8

1021,6

931,8

a+1021,6b

931,8-a-1021,6b

868251,24+a2+b21043666,56-2a931,8+2ab1021,6-2b951926,88

1049,3

950,9

a+1049,3b

950,9-a-1049,3b

904210,81+a2+b21101030,49-2a950,9+2ab1049,3-2b997779,37

1058,3

963,3

a+1058,3b

963,3-a-1058,3b

927946,89+a2+b21119998,89-2a963,3+2ab1058,3-2b1019460,39

1095,4

1009,2

a+1095,4b

1009,2-a-1095,4b

1018484,64+a2+b21199901,16-2a1009,2+2ab1095,4-2b1105477,68

Суммируя по всем n наблюдениям, запишем S в виде:

S = 13307716,16 + 25a2 + b2 380281200,64  2a17694,2 +2ab19500,8  2b14664884,21

Условия первого порядка для минимума принимают вид:

= 50a  35388,4 + 39001,6b = 0;

= 760562401,28b+39001,6a-29329768,42 = 0

Решив полученную систему нормальных уравнений для коэффициентов регрессии, найдем:

а = 0,19378;

b = 0,907109.

Оценим коэффициенты регрессии с использованием формул для расчета ковариации двух случайных величин и выборочной дисперсии.

Результаты расчета приведены в таблице 2.

Таблица 2

№ п/п

x

y

1

479,7

440,4

-300,332

-267,368

80299,16618

90199,31022

2

489,7

452

-290,332

-255,768

74257,63498

84292,67022

3

503,8

461,4

-276,232

-246,368

68054,72538

76304,11782

4

524,9

482

-255,132

-225,768

57600,64138

65092,33742

5

542,3

500,5

-237,732

-207,268

49274,23618

56516,50382

6

580,8

528

-199,232

-179,768

35815,53818

39693,38982

7

616,3

557,5

-163,732

-150,268

24603,68018

26808,16782

8

646,8

585,7

-133,232

-122,068

16263,36378

17750,76582

9

673,5

602,7

-106,532

-105,068

11193,10418

11349,06702

10

701,3

634,4

-78,732

-73,368

5776,409376

6198,727824

11

722,5

657,9

-57,532

-49,868

2869,005776

3309,931024

12

751,6

672,1

-28,432

-35,668

1014,112576

808,378624

13

779,2

696,8

-0,832

-10,968

9,125376

0,692224

14

810,3

737,1

30,268

29,332

887,820976

916,151824

15

865,3

768,5

85,268

60,732

5178,496176

7270,631824

16

858,4

763,6

78,368

55,832

4375,442176

6141,543424

17

875,8

780,2

95,768

72,432

6936,667776

9171,509824

18

906,8

823,1

126,768

115,332

14620,40698

16070,12582

19

942,9

864,3

162,868

156,532

25494,05378

26525,98542

20

988,8

903,2

208,768

195,432

40799,94778

43584,07782

21

1015,5

927,6

235,468

219,832

51763,40138

55445,17902

22

1021,6

931,8

241,568

224,032

54118,96218

58355,09862

23

1049,3

950,9

269,268

243,132

65467,66738

72505,25582

24

1058,3

963,3

278,268

255,532

71106,37858

77433,07982

25

1095,4

1009,2

315,368

301,432

95062,00698

99456,97542

Сумма

19500,8

17694,2

862841,9956

951199,6744

Среднее

780,032

707,768

34513,67982

38047,98698

Так как Cov (х, y) = 34513,68 и Var(x) = 38047,99, то

П редставим графическую модель полученной регрессионной зависимости = 0,19378+0,907109x:

Расмотрим интерпретацию уравнения регрессии. Истинная модель описывается выражением y =+x+u.

Оценена регрессия = 0,19378+0,907109x.

Полученный результат можно истолковать следующим образом. Коэффициент при x показывает, что если x увеличивается на 1 единицу, то y возрастает на 0,907109 единиц. Предположив, что x и y измеряются в тысячах долларов, коэффициент наклона показывает, что если личный располагаемый доход увеличивается на 1 тыс. долл., то совокупные личные расходы возрастают на 0,907109 тыс. долл.

Постоянная в уравнении показывает прогнозируемый уровень y, когда x=0. Т.о. в случае, когда личный располагаемый доход равен нулю, совокупные личные расходы равны 0,19378 тыс. долл. Однако подобная буквальная интерпретация может привести к неверным результатам, т.к. x=0 находится достаточно далеко от выборочных значений x. Экстраполяция влево может нарушить точность линии регрессии.

Для полученной регрессионной зависимости проверим качество оценки с использованием коэффициента детерминации R2. Результаты расчетов приведены в табл.3.

№ п/п

x

y

e

1

479,7

440,4

435,3340735

5,065926542

25,66361173

71485,64742

74220,24433

2

489,7

452

444,4051657

7,594834333

57,68150854

65417,26982

69359,98251

3

503,8

461,4

457,1954057

4,204594318

10,2827952

60697,19142

62786,62502

4

524,9

482

476,3354102

5,664589756

21,76813157

50971,18982

53561,0436

5

542,3

500,5

492,1191107

8,380889312

70,23930565

42960,02382

46504,44346

6

580,8

528

527,0428157

0,957184306

0,916201795

32316,53382

32661,59224

7

616,3

557,5

559,245193

-1,745193038

3,045698739

22580,47182

22059,02419

8

646,8

585,7

586,9120243

-1,212024276

1,469002846

14900,59662

14606,16687

9

673,5

602,7

611,1318405

-8,431840475

71,0959338

11039,28462

9338,547328

10

701,3

634,4

636,3494768

-1,949476817

3,800459861

5382,863424

5100,605454

11

722,5

657,9

655,5801923

2,319807699

5,38150776

2486,817424

2723,567272

12

751,6

672,1

681,9770706

-9,87707063

97,55652424

1272,206224

665,1720378

13

779,2

696,8

707,0132851

-10,21328513

104,3111931

120,297024

0,569594538

14

810,3

737,1

735,2243819

1,875618101

3,51794326

860,366224

753,852907

15

865,3

768,5

785,1153891

-16,61538905

276,0711533

3688,375824

5982,618593

16

858,4

763,6

778,8563354

-15,25633543

232,7557706

3117,212224

5053,551434

17

875,8

780,2

794,6400359

-14,44003587

208,5146359

5246,394624

7546,750616

18

906,8

823,1

822,7604217

0,33957828

0,115313408

13301,47022

13223,25705

19

942,9

864,3

855,5070646

8,792935405

77,31571303

24502,26702

21826,83121

20

988,8

903,2

897,1433778

6,056622164

36,68267203

38193,66662

35863,03373

21

1015,5

927,6

921,363194

6,236805965

38,89774864

48326,10822

45622,90692

22

1021,6

931,8

926,8965603

4,903439717

24,04372106

50190,33702

48017,32593

23

1049,3

950,9

952,0234857

-1,123485703

1,262220125

59113,16942

59660,7423

24

1058,3

963,3

960,1874687

3,112531308

9,687851146

65296,60302

63715,58817

25

1095,4

1009,2

993,8412208

15,35877921

235,8920989

90861,25062

81837,88765

Сумма

19500,8

17694,2

17694,2

-2,21689E-12

1617,968716

784327,6144

782691,9304

Среднее

780,032

707,768

707,768

-8,86757E-14

31373,10458

31307,67722

Следовательно = = 0,99791454

= 0,998956726

Прокомментируем полученный результат. Цель регрессионного анализа состоит в объяснении поведения зависимой переменной y. Для определения качества такой оценки служит коэффициент детерминации R2. Максимальное значение коэффициента R2 равно единице. Мы заинтересованы в таком выборе коэффициентов a и b, чтобы максимизировать R2. В нашем случае R2= 0,99791454, что близко максимальному значению, следовательно можно говорить о том, что в выборке присутствует видимая связь между y и x. Коэффициент корреляции ry,y=0,998956726, что также говорит о достаточно хорошем качестве выбранной модели.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]