МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ ЭЛЕКТРОНИКИ И МАТЕМАТИКИ
(ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ)
Контрольная работа №1 по дисциплине «Эконометрика»
Построение наилучшей модели регрессии.
(Вариант №5)
Выполнили:
МОСКВА 2010
Исходный набор данных представляет собой реализацию случайных величин. Мы предполагаем, что каждый элемент выборки получен случайным образом.
Для анализа взяты данные по двухкомнатным квартирам в кирпичных домах на крайних этажах. Данные взяты с сайта www.statsoft.ru (FLAT.STA). К анализу представлены 340 наблюдений над следующими переменными:
PRICE - Цена квартиры в тысячах долларов
TOTSP - Общая площадь в м2
LIVSP - Жилая площадь в м2
KITSP - Площадь кухни в м2
DIST - Расстояние до центра в км
WALK - Способ добраться до метро, 1-пешком, 0- транспорт
МЕTRDIST - Расстояние от метро в минутах
TEL - 1- есть телефон, 0-нет телефона
BAL - 1 - есть балкон, 0 - нет балкона
Целью разведочного анализа является установление зависимостей между переменной PRICE и остальными переменными
Описательная статистика
-
PRICE
Среднее
24,84647059
Стандартная ошибка
0,472718185
Медиана
22
Мода
20,1
Стандартное отклонение
8,716492652
Дисперсия выборки
75,97724414
Эксцесс
3,262080989
Асимметричность
1,799675984
Интервал
42,9
Минимум
15,4
Максимум
58,3
Сумма
8447,8
Счет
340
Мат.ожидание ;E=24,84647059
По выборке объема Т математическое ожидание показывает среднее значение показателя
Стандартное отклонение;= 8,716492652
Дисперсия выборки;= 75,97724414 - Дисперсия характеризует среднее отклонение от среднего значения по выборке. Чем больше дисперсия и, соответственно, среднеквадратичное отклонение, тем больше рассеивание значений признака вокруг математического ожидания. То есть тем больше вариация, изменчивость признака.
Доверительный интервал – это интервал, который накрывает истинное значение параметра с заданной доверительной вероятностью.
(E-;E+)
( 16,129977; 33,562963)
Мода =20,1- это среднее значение цены
Построим графики зависимости цены от каждого параметра.
На этом графике совершенно четко видна зависимость цены от общей площади, т.е чем больше площадь, тем дороже квартира.
На этом графике также просматривается зависимость возрастания цены от возрастания параметра жилой площади, однако, можно заметить скопление точек в центре графика, возможно, такая площадь жилого пространства является оптимальной и по цене и по размеру для среднестатистической семьи.
На этом графике можно, в целом, выявить зависимость возрастания цены от повышения площади кухни, но также видно скопление точек на определенном уровне, что, вероятно, указывает на наиболее выгодную цену и размер кухни для большинства клиентов. Также существуют выбросы нескольких точек, которые могут свидетельствовать о наличии больших площадей в более дорогих и элитных квартирах, соответственно за высокую цену.
На этом графике показана зависимость стоимости квартиры от расстояния до цента города. Хорошо заметно, что чем ближе находится квартира от центра тем она дороже, но хорошо заметен предел этого расстояния, который максимально удачно будет удовлетворять большинство клиентов по цене.
Этот график показывает зависимость цены от расстояния до метро в минутах, видно, что чем меньше времени клиент затратит, чтобы добраться до метро, он заплатит за квартиру дороже, но все же есть точки, которые это опровергают, что возможно связано с престижем жилья, например за городом, или на цену повлияли другие, более существенные факторы.
Графики зависимости цены от наличия балкона, телефона и ближайшего транспорта не выявляют достаточно сильной зависимости цены, которую можно было бы описать, поэтому, построив графики, мы видим, что цена на квартиру зависит от общей площади, жилой площади и площади кухни и расстояния до цента в большей степени.
Теперь построим матрицу корреляции.
|
TOTSP |
KITSP |
DIST |
WALK |
TEL |
BAL |
LIVSP |
МЕTRDIST |
PRICE |
TOTSP |
1 |
|
|
|
|
|
|
|
|
KITSP |
0,738638 |
1 |
|
|
|
|
|
|
|
DIST |
-0,11984 |
-0,12702 |
1 |
|
|
|
|
|
|
WALK |
0,102 |
0,049512 |
-0,08766 |
1 |
|
|
|
|
|
TEL |
0,018506 |
0,007851 |
-0,05177 |
-0,02985 |
1 |
|
|
|
|
BAL |
0,177013 |
0,207155 |
0,051557 |
-0,06158 |
0,238664 |
1 |
|
|
|
LIVSP |
0,557775 |
0,184634 |
-0,07537 |
0,079989 |
0,025784 |
0,057686 |
1 |
|
|
МЕTRDIST |
-0,07431 |
0,008285 |
0,053802 |
-0,0182 |
0,044522 |
0,045851 |
-0,07074 |
1 |
|
PRICE |
0,63606 |
0,555322 |
-0,45979 |
0,167323 |
0,13297 |
0,18566 |
0,289391 |
-0,11208 |
1 |
Проанализируем коэффициенты корреляции. Известно, что при значениях коэффициента корреляции от 0,7 до 1 связь между параметрами очень сильная, от 0,5 до 0,7- сильная, от 0,3 до 0,5 – слабая, от 0 до 0,3 – связи нет.
На основе этого делаем вывод, что на цену довольно сильно влияет общая площадь и площадь кухни, эта связь положительная и близка к 1. Площадь жилого пространства имеет среднее положительное влияние на цену. Параметры BAL TEL WALK имеют очень слабое влияние на цену.
Также существует обратная отрицательная связь, которая говорит о том, что если увеличится расстояние до цента (DIST) или увеличится расстояние до метро (МЕTRDIST), то цена уменьшится, но эта связь очень слабая.
Построим модель линейной регрессии.
Цена будет являться зависимой переменной
ВЫВОД ИТОГОВ |
|
|
|
|
|
|
|
|
|
|
|
Регрессионная статистика |
|
|
|
|
|
Множественный R |
0,748600857 |
|
|
|
|
R-квадрат |
0,560403244 |
|
|
|
|
Нормированный R-квадрат |
0,549413325 |
|
|
|
|
Стандартная ошибка |
4,598747104 |
|
|
|
|
Наблюдения |
329 |
|
|
|
|
|
|
|
|
|
|
Дисперсионный анализ |
|
|
|
|
|
|
df |
SS |
MS |
F |
Значимость F |
Регрессия |
8 |
8627,305836 |
1078,41323 |
50,99248213 |
9,79397E-53 |
Остаток |
320 |
6767,511975 |
21,14847492 |
|
|
Итого |
328 |
15394,81781 |
|
|
|
|
|
|
|
|
|
|
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Y-пересечение |
7,888981468 |
2,871192818 |
2,747632071 |
0,006343021 |
2,24018263 |
TOTSP |
0,48427469 |
0,103848196 |
4,663294218 |
4,57706E-06 |
0,27996324 |
LIVSP |
-0,192472816 |
0,164882979 |
-1,167329803 |
0,243946293 |
-0,516864398 |
KITSP |
0,803356286 |
0,226638137 |
3,544665064 |
0,000451729 |
0,357467303 |
DIST |
-0,760303109 |
0,068369061 |
-11,12057257 |
1,65135E-24 |
-0,894812736 |
WALK |
1,36842125 |
0,512794217 |
2,668558271 |
0,008005932 |
0,35954739 |
МЕTRDIST |
-0,106243545 |
0,066707739 |
-1,592671953 |
0,112221075 |
-0,237484677 |
TEL |
2,486935827 |
1,127188778 |
2,206317057 |
0,028071868 |
0,269299095 |
BAL |
2,500303851 |
0,596154329 |
4,194054677 |
3,55176E-05 |
1,327426899 |
R-квадрат = 0,56, следовательно, 56% дисперсии результативного признака объяснило влияние независимых переменных.
P-значение у LIVSP и МЕTRDIST больше 0,05, то эти параметры нужно убрать, так как они почти не влияют на цену.
Наблюдения = 340 – число наблюдений.
Y-пересечение – это константа из регрессионного уравнения
Общая дисперсия регрессии(TSS): 15394,81781, дисперсия, объясненная регрессионным уравнением (RSS): 8627,305836, дисперсия, не объясненная регрессией (ESS): 6767,511975
Стандартная ошибка=4,598747104– общая дисперсия уравнения
y = 7,89+0,48* TOTSP-0,19* LIVSP+0,80* KITSP-0,76*DIST+1,37* WALK
(0,10) (0,16) (0,22) (0,06) (0,51)
-0,11* МЕTRDIST+2,49* TEL+2,5* BAL
(0,06) (1,12) (0,59)
Если посмотреть на матрицу корелляции, то выходит, что между ценой и МЕTRDIST – связь обратная. А LIVSP – не сильно влияет на цену. Исходя из данной модели получается, что больше всего на изменение цены влияет общая площадь, и площадь кухни, а общая жилая площадь – не влияет.
Уберем два параметра LIVSP и МЕTRDIST и построим новую регрессию.
Построим модель линейной регрессии без LIVSP и МЕTRDIST
ВЫВОД ИТОГОВ |
|
|
|
|
|
|
|
|
|
|
|
Регрессионная статистика |
|
|
|
|
|
Множественный R |
0,744990064 |
|
|
|
|
R-квадрат |
0,555010195 |
|
|
|
|
Нормированный R-квадрат |
0,546718459 |
|
|
|
|
Стандартная ошибка |
4,612478678 |
|
|
|
|
Наблюдения |
329 |
|
|
|
|
|
|
|
|
|
|
Дисперсионный анализ |
|
|
|
|
|
|
df |
SS |
MS |
F |
Значимость F |
Регрессия |
6 |
8544,280835 |
1424,046806 |
66,93534727 |
9,95252E-54 |
Остаток |
322 |
6850,536976 |
21,27495955 |
|
|
Итого |
328 |
15394,81781 |
|
|
|
|
|
|
|
|
|
|
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Y-пересечение |
5,143092861 |
2,317173155 |
2,219554827 |
0,027145363 |
0,584382516 |
TOTSP |
0,419410624 |
0,08160849 |
5,139301343 |
4,79182E-07 |
0,258857465 |
KITSP |
0,890995001 |
0,203575398 |
4,376732197 |
1,63015E-05 |
0,490489207 |
DIST |
-0,76280945 |
0,068445137 |
-11,14483044 |
1,29229E-24 |
-0,897465574 |
WALK |
1,375644971 |
0,514292497 |
2,674829945 |
0,00785856 |
0,363847247 |
TEL |
2,393966643 |
1,12937937 |
2,119718765 |
0,034794493 |
0,172072519 |
BAL |
2,461556636 |
0,597609225 |
4,119007093 |
4,84247E-05 |
1,285845037 |
R-квадрат = 0,55, следовательно, 55% дисперсии результативного признака объяснило влияние независимой переменной.
Общая дисперсия регрессии(TSS):15394,81781, дисперсия, объясненная регрессионным уравнением (RSS): 8544,280835, дисперсия, не объясненная регрессией (ESS): 6850,536976.
По данной модели видно, что только параметр DIST (расстояние до центра) уменьшает цену (чем он больше, тем меньше цена).
y = 5,14 + 42* TOTSP + 0,89* KITSP - 0,76 *DIST + 1,38* WALK +
(0,08) (0,20) (0,07) (0,51)
2,39* TEL + 2,46* BAL
(1,13) (0,60)
Продолжим искать наилучшую модель. Для этого построим логарифмическую модель
Построим логарифмическую модель регрессии
ВЫВОД ИТОГОВ |
|
|
|
|
|
|
|
|
|
|
|
Регрессионная статистика |
|
|
|
|
|
Множественный R |
0,770365967 |
|
|
|
|
R-квадрат |
0,593463724 |
|
|
|
|
Нормированный R-квадрат |
0,583300317 |
|
|
|
|
Стандартная ошибка |
0,166370153 |
|
|
|
|
Наблюдения |
329 |
|
|
|
|
|
|
|
|
|
|
Дисперсионный анализ |
|
|
|
|
|
|
df |
SS |
MS |
F |
Значимость F |
Регрессия |
8 |
12,92992 |
1,616239428 |
58,39220341 |
4,29E-58 |
Остаток |
320 |
8,857289 |
0,027679028 |
|
|
Итого |
328 |
21,7872 |
|
|
|
|
|
|
|
|
|
|
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Y-пересечение |
2,461513151 |
0,103872 |
23,6975753 |
2,13154E-72 |
2,257155 |
TOTSP |
0,018136674 |
0,003757 |
4,827505835 |
2,14526E-06 |
0,010745 |
KITSP |
0,03057416 |
0,008199 |
3,728942209 |
0,000227369 |
0,014443 |
DIST |
-0,029087299 |
0,002473 |
-11,7600155 |
8,84001E-27 |
-0,03395 |
WALK |
0,060843379 |
0,018551 |
3,279701482 |
0,001153652 |
0,024345 |
TEL |
0,11961702 |
0,040779 |
2,933326675 |
0,003595599 |
0,039389 |
BAL |
0,102731726 |
0,021567 |
4,763322589 |
2,89195E-06 |
0,0603 |
LIVSP |
-0,005352434 |
0,005965 |
-0,897304086 |
0,370231257 |
-0,01709 |
МЕTRDIST |
-0,002981818 |
0,002413 |
-1,235574785 |
0,217522963 |
-0,00773 |
Так как P-значение у LIVSP и МЕTRDIST больше 0,05, то эти параметры нужно убрать, так как они не влияют на цену.
R-квадрат =0,593463724, следовательно, 59% дисперсии результативного признака объяснило влияние независимых переменных.
Общая дисперсия регрессии(TSS): 21,7872, дисперсия, объясненная регрессионным уравнением (RSS): 12,92992, дисперсия, не объясненная регрессией (ESS): 8,857289
Стандартная ошибка=0,166370153– общая дисперсия уравнения
Ln y = 2,4615 + 0,0181* TOTSP + 0,0305* KITSP - 0,0290*DIST + 0,0608* WALK +
(0,0037) (0,0081) (0,0026) (0,0185)
0,1196* TEL + 0,1027* BAL- 0,0053* LIVSP - 0,0029 * МЕTRDIST
(0,0407) (0,0215) (0,0059) (0,0024)
Теперь уберем невлияющие параметры LIVSP и МЕTRDIST.
Построим логарифмическую модель регрессии без МЕTRDIST и LIVSP
ВЫВОД ИТОГОВ |
|
|
|
|
|
|
|
|
|
|
|
Регрессионная статистика |
|
|
|
|
|
Множественный R |
0,768427764 |
|
|
|
|
R-квадрат |
0,590481229 |
|
|
|
|
Нормированный R-квадрат |
0,582850444 |
|
|
|
|
Стандартная ошибка |
0,166459936 |
|
|
|
|
Наблюдения |
329 |
|
|
|
|
|
|
|
|
|
|
Дисперсионный анализ |
|
|
|
|
|
|
df |
SS |
MS |
F |
Значимость F |
Регрессия |
6 |
12,8649352 |
2,144156 |
77,38145721 |
1,75E-59 |
Остаток |
322 |
8,922269156 |
0,027709 |
|
|
Итого |
328 |
21,78720435 |
|
|
|
|
|
|
|
|
|
|
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Y-пересечение |
2,384934326 |
0,083624559 |
28,51954 |
4,05123E-90 |
2,220415 |
TOTSP |
0,016335467 |
0,002945172 |
5,546524 |
6,08401E-08 |
0,010541 |
KITSP |
0,033004059 |
0,007346841 |
4,492279 |
9,83497E-06 |
0,01855 |
DIST |
-0,029158376 |
0,002470119 |
-11,8044 |
5,7712E-27 |
-0,03402 |
WALK |
0,06104438 |
0,018560323 |
3,288972 |
0,001116811 |
0,02453 |
TEL |
0,117011085 |
0,040758219 |
2,870859 |
0,004364654 |
0,036825 |
BAL |
0,101648227 |
0,021567144 |
4,713106 |
3,63644E-06 |
0,059218 |
R-квадрат =0,590481229 следовательно, 59% дисперсии результативного признака объяснило влияние независимых переменных.
Общая дисперсия регрессии(TSS): 21,78720435, дисперсия, объясненная регрессионным уравнением (RSS): 12,8649352, дисперсия, не объясненная регрессией (ESS): 8,922269156.
Так как P-значения всех параметров меньше 0,05 и логарифмической модели регрессии равен 0,590481229,а линейной модели регрессии равен 0,555010195,то наилучшей моделью считается логарифмическая модель регрессии().И в дальнейшем именно ее мы будем использовать для прогнозирования
Lny = 2,3849+ 0,0163* TOTSP + 0,0330* KITSP - 0,0291*DIST +0,0610 * WALK +
(0,0029) (0,0073) (0,0024) (0,0185)
0,117* TEL + 0, 1016* BAL
(0,0407) (0,0215)
Вывод: т.к. коэффициент детерминации наиболее максимально приближен к 1 и нет невлияющих на цену параметров, можно считать логарифмическую модель наилучшей.
Расчет оценок вручную