- •Выборочная ковариация между х и y определяется как
- •Выборочная дисперсия
- •2. Экспериментальная часть
- •3. Задание на лабораторную работу
- •4. Содержание отчета
- •5. Контрольные вопросы
- •Краткая теоретическая часть.
- •Модель парной линейной регрессии
- •Регрессия по методу наименьших квадратов.
- •Детальное рассмотрение остатков.
- •На рис. 4 линия регрессии
- •Регрессия по методу наименьших квадратов с одной независимой переменой.
- •Качество оценки: коэффициент r2
- •3. Задание на лабораторную работу
- •4. Содержание отчета
- •5. Контрольные вопросы
Регрессия по методу наименьших квадратов с одной независимой переменой.
Рассмотрим случай, когда имеется n наблюдений двух переменных x и y. Предположим, что y зависит от x, и надо подобрать уравнение
=a+bx (8)
расчетное значение зависимой переменной и остаток ei для наблюдения i заданы уравнениями (4) и (7). Требуется выбрать a и b,чтобы минимизировать величину S:
S=ei2=e12+…+en2 (9)
Заметим, что величина S минимальна, когда
(10)
и (11)
Варианты выражения для b
Так как
(12)
и (13)
можно получить следующие значения для b:
(14)
. (15)
Далее будет использоваться первоначальное определение
.
Вывод выражений для a и b
Осуществим вывод выражений для a и b в соответствии с той же процедурой, которая использовалась ранее, и сравним общий вариант с примерами на каждом этапе. Выразим квадрат i-го остатка через a и b и наблюдения значений через x и y:
ei2=(yi-)2=(yi-a-bxi)2=yi2+a2+b2xi2-2ayi+2abxi-2bxiyi. (16)
Суммируя по всем n наблюдениям, запишем S в виде:
S=yi2+na2+b2xi2-2ayi+2abxi-2bxiyi. (17)
Заметим, что данное выражение для S является квадратичной формой по a и b, и ее коэффициенты определяются выборочными значениями x и y. Можно влиять на величину S, только задавая значения a и b. Значения x и y, которые определяют положение точек на диаграмме расстояния, уже не могут быть изменены после того, как взята определенная выборка.
Условия первого порядка для минимума, то есть и , принимают вид:
. (18)
. (19)
Эти уравнения известны как нормальные уравнения для коэффициентов регрессии. Уравнение (18) позволяет выразить a через и пока неизвестное b. Подставим вместо xi, получим:
. (20)
Следовательно,
. (21)
Подставив выражение для a в уравнение (2.33) и помня, что xi равно , имеем:
(22)
После деления на 2n и перегруппировки получим:
(23)
С учетом формул (12) и (13) это выражение можно переписать в следующем виде:
(24)
и, таким, мы получим уравнение (10). Найдя из этого выражения b, выразим затем a из уравнения (11).
Качество оценки: коэффициент r2
Цель регрессионного анализа состоит в объяснении поведения зависимой переменной y. В любой данной выборке y оказывается сравнительно низким в одних наблюдениях и сравнительно высоким в других. Разброс значений y в любой выборке можно суммарно описать с помощью выборочной дисперсии Var(y).
После построения уравнения регрессии можно разбить значение yi в каждом наблюдении на две составляющих ‑ и ei:
(25)
Величина ‑ расчетное значение y в наблюдении i. Остаток ei есть расхождение между фактическим и спрогнозированным значениями величины y.
Используя (25), разложим дисперсию y:
(26)
Так как должна быть равна нулю, получим:
(27)
Согласно (27), коэффициент детерминации
, (28)
что равносильно
. (29)
Максимальное значение коэффициента R2 равно единице. Это происходит в том случае, когда линия регрессии точно соответствует всем наблюдениям, так что для всех i и все остатки равны нулю. Тогда , Var(e)=0 и R2=1.
Если в выборке отсутствует видимая связь между y и x, то коэффициент R2 будет близок к нулю.
При прочих равных условиях желательно, чтобы коэффициент R2 был как можно больше.
Альтернативное представление коэффициента R2
Очевидно, что чем больше соответствие, обеспечиваемое уравнением регрессии, тем больше должен быть коэффициент корреляции для фактических и прогнозных значений y, и наоборот. Покажем, что R2 фактически равен квадрату такого коэффициента корреляции между y и , который обозначается :
(30)
-
Экспериментальная часть
В качестве примера рассмотрим данные из лабораторной работы № 1. Рассчитаем коэффициенты регрессии с одной независимой переменной по методу наименьших квадратов. Результаты расчета приведены в таблице1.
Таблица 1.
x |
y |
e |
e2 |
|
479,7 |
440,4 |
a+479,7b |
440,4-a-479,7b |
193952,16+a2+b2230112,09-2a440,4+2ab479,7-2b211259,88 |
489,7 |
452 |
a+489,7b |
452-a-489,7b |
204304+a2+b2239806,09-2a452+2ab489,7-2b221344,4 |
503,8 |
461,4 |
a+503,8b |
461,4-a-503,8b |
212889,96+a2+b2253814,44-2a461,4+2ab503,8-2b232453,32 |
524,9 |
482 |
a+524,9b |
482-a-524,9b |
232324+a2+b2275520,01-2a482+2ab524,9-2b253001,8 |
542,3 |
500,5 |
a+542,3b |
500,5-a-542,3b |
250500,25+a2+b2294089,29-2a500,5+2ab542,3-2b271421,15 |
580,8 |
528 |
a+580,8b |
528-a-580,8b |
278784+a2+b2337328,64-2a528+2ab580,8-2b306662,4 |
616,3 |
557,5 |
a+616,3b |
557,5-a-616,3b |
310806,25+a2+b2379825,69-2a557,5+2ab616,3-2b343587,25 |
646,8 |
585,7 |
a+646,8b |
585,7-a-646,8b |
343044,49+a2+b2418350,24-2a585,7+2ab646,8-2b378830,76 |
673,5 |
602,7 |
a+673,5b |
602,7-a-673,5b |
363247,29+a2+b2453602,25-2a602,7+2ab673,5-2b405918,45 |
701,3 |
634,4 |
a+701,3b |
634,4-a-701,3b |
402463,36+a2+b2491821,69-2a634,4+2ab701,3-2b444904,72 |
722,5 |
657,9 |
a+722,5b |
657,9-a-722,5b |
432832,41+a2+b2522006,25-2a657,9+2ab722,5-2b475332,75 |
751,6 |
672,1 |
a+751,6b |
672,1-a-751,6b |
451718,41+a2+b2564902,56-2a672,1+2ab751,6-2b505150,36 |
779,2 |
696,8 |
a+779,2b |
696,8-a-779,2b |
485530,24+a2+b2607152,64-2a696,8+2ab779,2-2b542946,56 |
810,3 |
737,1 |
a+810,3b |
737,1-a-810,3b |
543316,41+a2+b2656586,09-2a737,1+2ab810,3-2b597272,13 |
865,3 |
768,5 |
a+865,3b |
768,5-a-865,3b |
590592,25+a2+b2748744,09-2a768,5+2ab865,3-2b664983,05 |
858,4 |
763,6 |
a+858,4b |
763,6-a-858,4b |
583084,96+a2+b2736850,56-2a763,6+2ab858,4-2b655474,24 |
875,8 |
780,2 |
a+875,8b |
780,2-a-875,8b |
608712,04+a2+b2767025,64-2a780,2+2ab875,8-2b683299,16 |
906,8 |
823,1 |
a+906,8b |
823,1-a-906,8b |
677493,61+a2+b2822286,24-2a823,1+2ab906,8-2b746387,08 |
942,9 |
864,3 |
a+942,9b |
864,3-a-942,9b |
747014,49+a2+b2889060,41-2a864,3+2ab942,9-2b814948,47 |
988,8 |
903,2 |
a+988,8b |
903,2-a-988,8b |
815770,24+a2+b2977725,44-2a903,2+2ab988,8-2b893084,16 |
1015,5 |
927,6 |
a+1015,5b |
927,6-a-1015,5b |
860441,76+a2+b21031240,25-2a927,6+2ab1015,5-2b941977,8 |
1021,6 |
931,8 |
a+1021,6b |
931,8-a-1021,6b |
868251,24+a2+b21043666,56-2a931,8+2ab1021,6-2b951926,88 |
1049,3 |
950,9 |
a+1049,3b |
950,9-a-1049,3b |
904210,81+a2+b21101030,49-2a950,9+2ab1049,3-2b997779,37 |
1058,3 |
963,3 |
a+1058,3b |
963,3-a-1058,3b |
927946,89+a2+b21119998,89-2a963,3+2ab1058,3-2b1019460,39 |
1095,4 |
1009,2 |
a+1095,4b |
1009,2-a-1095,4b |
1018484,64+a2+b21199901,16-2a1009,2+2ab1095,4-2b1105477,68 |
Суммируя по всем n наблюдениям, запишем S в виде:
S = 13307716,16 + 25a2 + b2 380281200,64 2a17694,2 +2ab19500,8 2b14664884,21
Условия первого порядка для минимума принимают вид:
= 50a 35388,4 + 39001,6b = 0;
= 760562401,28b+39001,6a-29329768,42 = 0
Решив полученную систему нормальных уравнений для коэффициентов регрессии, найдем:
а = 0,19378;
b = 0,907109.
Оценим коэффициенты регрессии с использованием формул для расчета ковариации двух случайных величин и выборочной дисперсии.
Результаты расчета приведены в таблице 2.
Таблица 2
№ п/п |
x |
y |
||||
1 |
479,7 |
440,4 |
-300,332 |
-267,368 |
80299,16618 |
90199,31022 |
2 |
489,7 |
452 |
-290,332 |
-255,768 |
74257,63498 |
84292,67022 |
3 |
503,8 |
461,4 |
-276,232 |
-246,368 |
68054,72538 |
76304,11782 |
4 |
524,9 |
482 |
-255,132 |
-225,768 |
57600,64138 |
65092,33742 |
5 |
542,3 |
500,5 |
-237,732 |
-207,268 |
49274,23618 |
56516,50382 |
6 |
580,8 |
528 |
-199,232 |
-179,768 |
35815,53818 |
39693,38982 |
7 |
616,3 |
557,5 |
-163,732 |
-150,268 |
24603,68018 |
26808,16782 |
8 |
646,8 |
585,7 |
-133,232 |
-122,068 |
16263,36378 |
17750,76582 |
9 |
673,5 |
602,7 |
-106,532 |
-105,068 |
11193,10418 |
11349,06702 |
10 |
701,3 |
634,4 |
-78,732 |
-73,368 |
5776,409376 |
6198,727824 |
11 |
722,5 |
657,9 |
-57,532 |
-49,868 |
2869,005776 |
3309,931024 |
12 |
751,6 |
672,1 |
-28,432 |
-35,668 |
1014,112576 |
808,378624 |
13 |
779,2 |
696,8 |
-0,832 |
-10,968 |
9,125376 |
0,692224 |
14 |
810,3 |
737,1 |
30,268 |
29,332 |
887,820976 |
916,151824 |
15 |
865,3 |
768,5 |
85,268 |
60,732 |
5178,496176 |
7270,631824 |
16 |
858,4 |
763,6 |
78,368 |
55,832 |
4375,442176 |
6141,543424 |
17 |
875,8 |
780,2 |
95,768 |
72,432 |
6936,667776 |
9171,509824 |
18 |
906,8 |
823,1 |
126,768 |
115,332 |
14620,40698 |
16070,12582 |
19 |
942,9 |
864,3 |
162,868 |
156,532 |
25494,05378 |
26525,98542 |
20 |
988,8 |
903,2 |
208,768 |
195,432 |
40799,94778 |
43584,07782 |
21 |
1015,5 |
927,6 |
235,468 |
219,832 |
51763,40138 |
55445,17902 |
22 |
1021,6 |
931,8 |
241,568 |
224,032 |
54118,96218 |
58355,09862 |
23 |
1049,3 |
950,9 |
269,268 |
243,132 |
65467,66738 |
72505,25582 |
24 |
1058,3 |
963,3 |
278,268 |
255,532 |
71106,37858 |
77433,07982 |
25 |
1095,4 |
1009,2 |
315,368 |
301,432 |
95062,00698 |
99456,97542 |
Сумма |
19500,8 |
17694,2 |
|
|
862841,9956 |
951199,6744 |
Среднее |
780,032 |
707,768 |
|
|
34513,67982 |
38047,98698 |
Так как Cov (х, y) = 34513,68 и Var(x) = 38047,99, то
П редставим графическую модель полученной регрессионной зависимости = 0,19378+0,907109x:
Расмотрим интерпретацию уравнения регрессии. Истинная модель описывается выражением y =+x+u.
Оценена регрессия = 0,19378+0,907109x.
Полученный результат можно истолковать следующим образом. Коэффициент при x показывает, что если x увеличивается на 1 единицу, то y возрастает на 0,907109 единиц. Предположив, что x и y измеряются в тысячах долларов, коэффициент наклона показывает, что если личный располагаемый доход увеличивается на 1 тыс. долл., то совокупные личные расходы возрастают на 0,907109 тыс. долл.
Постоянная в уравнении показывает прогнозируемый уровень y, когда x=0. Т.о. в случае, когда личный располагаемый доход равен нулю, совокупные личные расходы равны 0,19378 тыс. долл. Однако подобная буквальная интерпретация может привести к неверным результатам, т.к. x=0 находится достаточно далеко от выборочных значений x. Экстраполяция влево может нарушить точность линии регрессии.
Для полученной регрессионной зависимости проверим качество оценки с использованием коэффициента детерминации R2. Результаты расчетов приведены в табл.3.
№ п/п |
x |
y |
e |
||||
1 |
479,7 |
440,4 |
435,3340735 |
5,065926542 |
25,66361173 |
71485,64742 |
74220,24433 |
2 |
489,7 |
452 |
444,4051657 |
7,594834333 |
57,68150854 |
65417,26982 |
69359,98251 |
3 |
503,8 |
461,4 |
457,1954057 |
4,204594318 |
10,2827952 |
60697,19142 |
62786,62502 |
4 |
524,9 |
482 |
476,3354102 |
5,664589756 |
21,76813157 |
50971,18982 |
53561,0436 |
5 |
542,3 |
500,5 |
492,1191107 |
8,380889312 |
70,23930565 |
42960,02382 |
46504,44346 |
6 |
580,8 |
528 |
527,0428157 |
0,957184306 |
0,916201795 |
32316,53382 |
32661,59224 |
7 |
616,3 |
557,5 |
559,245193 |
-1,745193038 |
3,045698739 |
22580,47182 |
22059,02419 |
8 |
646,8 |
585,7 |
586,9120243 |
-1,212024276 |
1,469002846 |
14900,59662 |
14606,16687 |
9 |
673,5 |
602,7 |
611,1318405 |
-8,431840475 |
71,0959338 |
11039,28462 |
9338,547328 |
10 |
701,3 |
634,4 |
636,3494768 |
-1,949476817 |
3,800459861 |
5382,863424 |
5100,605454 |
11 |
722,5 |
657,9 |
655,5801923 |
2,319807699 |
5,38150776 |
2486,817424 |
2723,567272 |
12 |
751,6 |
672,1 |
681,9770706 |
-9,87707063 |
97,55652424 |
1272,206224 |
665,1720378 |
13 |
779,2 |
696,8 |
707,0132851 |
-10,21328513 |
104,3111931 |
120,297024 |
0,569594538 |
14 |
810,3 |
737,1 |
735,2243819 |
1,875618101 |
3,51794326 |
860,366224 |
753,852907 |
15 |
865,3 |
768,5 |
785,1153891 |
-16,61538905 |
276,0711533 |
3688,375824 |
5982,618593 |
16 |
858,4 |
763,6 |
778,8563354 |
-15,25633543 |
232,7557706 |
3117,212224 |
5053,551434 |
17 |
875,8 |
780,2 |
794,6400359 |
-14,44003587 |
208,5146359 |
5246,394624 |
7546,750616 |
18 |
906,8 |
823,1 |
822,7604217 |
0,33957828 |
0,115313408 |
13301,47022 |
13223,25705 |
19 |
942,9 |
864,3 |
855,5070646 |
8,792935405 |
77,31571303 |
24502,26702 |
21826,83121 |
20 |
988,8 |
903,2 |
897,1433778 |
6,056622164 |
36,68267203 |
38193,66662 |
35863,03373 |
21 |
1015,5 |
927,6 |
921,363194 |
6,236805965 |
38,89774864 |
48326,10822 |
45622,90692 |
22 |
1021,6 |
931,8 |
926,8965603 |
4,903439717 |
24,04372106 |
50190,33702 |
48017,32593 |
23 |
1049,3 |
950,9 |
952,0234857 |
-1,123485703 |
1,262220125 |
59113,16942 |
59660,7423 |
24 |
1058,3 |
963,3 |
960,1874687 |
3,112531308 |
9,687851146 |
65296,60302 |
63715,58817 |
25 |
1095,4 |
1009,2 |
993,8412208 |
15,35877921 |
235,8920989 |
90861,25062 |
81837,88765 |
Сумма |
19500,8 |
17694,2 |
17694,2 |
-2,21689E-12 |
1617,968716 |
784327,6144 |
782691,9304 |
Среднее |
780,032 |
707,768 |
707,768 |
-8,86757E-14 |
|
31373,10458 |
31307,67722 |
Следовательно = = 0,99791454
= 0,998956726
Прокомментируем полученный результат. Цель регрессионного анализа состоит в объяснении поведения зависимой переменной y. Для определения качества такой оценки служит коэффициент детерминации R2. Максимальное значение коэффициента R2 равно единице. Мы заинтересованы в таком выборе коэффициентов a и b, чтобы максимизировать R2. В нашем случае R2= 0,99791454, что близко максимальному значению, следовательно можно говорить о том, что в выборке присутствует видимая связь между y и x. Коэффициент корреляции ry,y=0,998956726, что также говорит о достаточно хорошем качестве выбранной модели.