Добавил:

ICK Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский государственный институт электроники и математики (технический университет)

Предмет:

Эконометрика

Файл:

Контрольная работа №1 вариант 5 Построение наилучшей модели регрессии..doc

Скачиваний:

Добавлен:

20.05.2014

Размер:

490 Кб

Скачать

☆

1 / 31 2 3 > Следующая >>>

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ ЭЛЕКТРОНИКИ И МАТЕМАТИКИ

(ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ)

Контрольная работа №1 по дисциплине «Эконометрика»

Построение наилучшей модели регрессии.

(Вариант №5)

Выполнили:

МОСКВА 2010

Исходный набор данных представляет собой реализацию случайных величин. Мы предполагаем, что каждый элемент выборки получен случайным образом.

Для анализа взяты данные по двухкомнатным квартирам в кирпичных домах на крайних этажах. Данные взяты с сайта www.statsoft.ru (FLAT.STA). К анализу представлены 340 наблюдений над следующими переменными:

PRICE - Цена квартиры в тысячах долларов

TOTSP - Общая площадь в м²

LIVSP - Жилая площадь в м²

KITSP - Площадь кухни в м²

DIST - Расстояние до центра в км

WALK - Способ добраться до метро, 1-пешком, 0- транспорт

МЕTRDIST - Расстояние от метро в минутах

TEL - 1- есть телефон, 0-нет телефона

BAL - 1 - есть балкон, 0 - нет балкона

Целью разведочного анализа является установление зависимостей между переменной PRICE и остальными переменными

Описательная статистика

PRICE

Среднее	24,84647059
Стандартная ошибка	0,472718185
Медиана	22
Мода	20,1
Стандартное отклонение	8,716492652
Дисперсия выборки	75,97724414
Эксцесс	3,262080989
Асимметричность	1,799675984
Интервал	42,9
Минимум	15,4
Максимум	58,3
Сумма	8447,8
Счет	340

Мат.ожидание ;E=24,84647059

По выборке объема Т математическое ожидание показывает среднее значение показателя

Стандартное отклонение;= 8,716492652

Дисперсия выборки;= 75,97724414 - Дисперсия характеризует среднее отклонение от среднего значения по выборке. Чем больше дисперсия и, соответственно, среднеквадратичное отклонение, тем больше рассеивание значений признака вокруг математического ожидания. То есть тем больше вариация, изменчивость признака.

Доверительный интервал – это интервал, который накрывает истинное значение параметра с заданной доверительной вероятностью.

(E-;E+)

( 16,129977; 33,562963)

Мода =20,1- это среднее значение цены

Построим графики зависимости цены от каждого параметра.

На этом графике совершенно четко видна зависимость цены от общей площади, т.е чем больше площадь, тем дороже квартира.

На этом графике также просматривается зависимость возрастания цены от возрастания параметра жилой площади, однако, можно заметить скопление точек в центре графика, возможно, такая площадь жилого пространства является оптимальной и по цене и по размеру для среднестатистической семьи.

На этом графике можно, в целом, выявить зависимость возрастания цены от повышения площади кухни, но также видно скопление точек на определенном уровне, что, вероятно, указывает на наиболее выгодную цену и размер кухни для большинства клиентов. Также существуют выбросы нескольких точек, которые могут свидетельствовать о наличии больших площадей в более дорогих и элитных квартирах, соответственно за высокую цену.

На этом графике показана зависимость стоимости квартиры от расстояния до цента города. Хорошо заметно, что чем ближе находится квартира от центра тем она дороже, но хорошо заметен предел этого расстояния, который максимально удачно будет удовлетворять большинство клиентов по цене.

Этот график показывает зависимость цены от расстояния до метро в минутах, видно, что чем меньше времени клиент затратит, чтобы добраться до метро, он заплатит за квартиру дороже, но все же есть точки, которые это опровергают, что возможно связано с престижем жилья, например за городом, или на цену повлияли другие, более существенные факторы.

Графики зависимости цены от наличия балкона, телефона и ближайшего транспорта не выявляют достаточно сильной зависимости цены, которую можно было бы описать, поэтому, построив графики, мы видим, что цена на квартиру зависит от общей площади, жилой площади и площади кухни и расстояния до цента в большей степени.

Теперь построим матрицу корреляции.

	TOTSP	KITSP	DIST	WALK	TEL	BAL	LIVSP	МЕTRDIST	PRICE
TOTSP	1
KITSP	0,738638	1
DIST	-0,11984	-0,12702	1
WALK	0,102	0,049512	-0,08766	1
TEL	0,018506	0,007851	-0,05177	-0,02985	1
BAL	0,177013	0,207155	0,051557	-0,06158	0,238664	1
LIVSP	0,557775	0,184634	-0,07537	0,079989	0,025784	0,057686	1
МЕTRDIST	-0,07431	0,008285	0,053802	-0,0182	0,044522	0,045851	-0,07074	1
PRICE	0,63606	0,555322	-0,45979	0,167323	0,13297	0,18566	0,289391	-0,11208	1

Проанализируем коэффициенты корреляции. Известно, что при значениях коэффициента корреляции от 0,7 до 1 связь между параметрами очень сильная, от 0,5 до 0,7- сильная, от 0,3 до 0,5 – слабая, от 0 до 0,3 – связи нет.

На основе этого делаем вывод, что на цену довольно сильно влияет общая площадь и площадь кухни, эта связь положительная и близка к 1. Площадь жилого пространства имеет среднее положительное влияние на цену. Параметры BAL TEL WALK имеют очень слабое влияние на цену.

Также существует обратная отрицательная связь, которая говорит о том, что если увеличится расстояние до цента (DIST) или увеличится расстояние до метро (МЕTRDIST), то цена уменьшится, но эта связь очень слабая.

Построим модель линейной регрессии.

Цена будет являться зависимой переменной

ВЫВОД ИТОГОВ

Регрессионная статистика
Множественный R	0,748600857
R-квадрат	0,560403244
Нормированный R-квадрат	0,549413325
Стандартная ошибка	4,598747104
Наблюдения	329

Дисперсионный анализ
	df	SS	MS	F	Значимость F
Регрессия	8	8627,305836	1078,41323	50,99248213	9,79397E-53
Остаток	320	6767,511975	21,14847492
Итого	328	15394,81781

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%
Y-пересечение	7,888981468	2,871192818	2,747632071	0,006343021	2,24018263
TOTSP	0,48427469	0,103848196	4,663294218	4,57706E-06	0,27996324
LIVSP	-0,192472816	0,164882979	-1,167329803	0,243946293	-0,516864398
KITSP	0,803356286	0,226638137	3,544665064	0,000451729	0,357467303
DIST	-0,760303109	0,068369061	-11,12057257	1,65135E-24	-0,894812736
WALK	1,36842125	0,512794217	2,668558271	0,008005932	0,35954739
МЕTRDIST	-0,106243545	0,066707739	-1,592671953	0,112221075	-0,237484677
TEL	2,486935827	1,127188778	2,206317057	0,028071868	0,269299095
BAL	2,500303851	0,596154329	4,194054677	3,55176E-05	1,327426899

R-квадрат = 0,56, следовательно, 56% дисперсии результативного признака объяснило влияние независимых переменных.

P-значение у LIVSP и МЕTRDIST больше 0,05, то эти параметры нужно убрать, так как они почти не влияют на цену.

Наблюдения = 340 – число наблюдений.

Y-пересечение – это константа из регрессионного уравнения

Общая дисперсия регрессии(TSS): 15394,81781, дисперсия, объясненная регрессионным уравнением (RSS): 8627,305836, дисперсия, не объясненная регрессией (ESS): 6767,511975

Стандартная ошибка=4,598747104– общая дисперсия уравнения

y = 7,89+0,48* TOTSP-0,19* LIVSP+0,80* KITSP-0,76*DIST+1,37* WALK

^{(0,10)
(0,16)
(0,22) (0,06) (0,51)}

-0,11* МЕTRDIST+2,49* TEL+2,5* BAL

^{(0,06)
(1,12) (0,59)}

Если посмотреть на матрицу корелляции, то выходит, что между ценой и МЕTRDIST – связь обратная. А LIVSP – не сильно влияет на цену. Исходя из данной модели получается, что больше всего на изменение цены влияет общая площадь, и площадь кухни, а общая жилая площадь – не влияет.

Уберем два параметра LIVSP и МЕTRDIST и построим новую регрессию.

Построим модель линейной регрессии без LIVSP и МЕTRDIST

ВЫВОД ИТОГОВ

Регрессионная статистика
Множественный R	0,744990064
R-квадрат	0,555010195
Нормированный R-квадрат	0,546718459
Стандартная ошибка	4,612478678
Наблюдения	329

Дисперсионный анализ
	df	SS	MS	F	Значимость F
Регрессия	6	8544,280835	1424,046806	66,93534727	9,95252E-54
Остаток	322	6850,536976	21,27495955
Итого	328	15394,81781

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%
Y-пересечение	5,143092861	2,317173155	2,219554827	0,027145363	0,584382516
TOTSP	0,419410624	0,08160849	5,139301343	4,79182E-07	0,258857465
KITSP	0,890995001	0,203575398	4,376732197	1,63015E-05	0,490489207
DIST	-0,76280945	0,068445137	-11,14483044	1,29229E-24	-0,897465574
WALK	1,375644971	0,514292497	2,674829945	0,00785856	0,363847247
TEL	2,393966643	1,12937937	2,119718765	0,034794493	0,172072519
BAL	2,461556636	0,597609225	4,119007093	4,84247E-05	1,285845037

R-квадрат = 0,55, следовательно, 55% дисперсии результативного признака объяснило влияние независимой переменной.

Общая дисперсия регрессии(TSS):15394,81781, дисперсия, объясненная регрессионным уравнением (RSS): 8544,280835, дисперсия, не объясненная регрессией (ESS): 6850,536976.

По данной модели видно, что только параметр DIST (расстояние до центра) уменьшает цену (чем он больше, тем меньше цена).

y = 5,14 + 42* TOTSP + 0,89* KITSP - 0,76 *DIST + 1,38* WALK +

^{(0,08)
(0,20) (0,07)
(0,51)}

2,39* TEL + 2,46* BAL

^{(1,13)
(0,60)}

^{Продолжим искать
наилучшую модель. Для этого построим
логарифмическую модель}

Построим логарифмическую модель регрессии

ВЫВОД ИТОГОВ

Регрессионная статистика
Множественный R	0,770365967
R-квадрат	0,593463724
Нормированный R-квадрат	0,583300317
Стандартная ошибка	0,166370153
Наблюдения	329

Дисперсионный анализ
	df	SS	MS	F	Значимость F
Регрессия	8	12,92992	1,616239428	58,39220341	4,29E-58
Остаток	320	8,857289	0,027679028
Итого	328	21,7872

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%
Y-пересечение	2,461513151	0,103872	23,6975753	2,13154E-72	2,257155
TOTSP	0,018136674	0,003757	4,827505835	2,14526E-06	0,010745
KITSP	0,03057416	0,008199	3,728942209	0,000227369	0,014443
DIST	-0,029087299	0,002473	-11,7600155	8,84001E-27	-0,03395
WALK	0,060843379	0,018551	3,279701482	0,001153652	0,024345
TEL	0,11961702	0,040779	2,933326675	0,003595599	0,039389
BAL	0,102731726	0,021567	4,763322589	2,89195E-06	0,0603
LIVSP	-0,005352434	0,005965	-0,897304086	0,370231257	-0,01709
МЕTRDIST	-0,002981818	0,002413	-1,235574785	0,217522963	-0,00773

Так как P-значение у LIVSP и МЕTRDIST больше 0,05, то эти параметры нужно убрать, так как они не влияют на цену.

R-квадрат =0,593463724, следовательно, 59% дисперсии результативного признака объяснило влияние независимых переменных.

Общая дисперсия регрессии(TSS): 21,7872, дисперсия, объясненная регрессионным уравнением (RSS): 12,92992, дисперсия, не объясненная регрессией (ESS): 8,857289

Стандартная ошибка=0,166370153– общая дисперсия уравнения

Ln y = 2,4615 + 0,0181* TOTSP + 0,0305* KITSP - 0,0290*DIST + 0,0608* WALK +

^{(0,0037)
(0,0081)
(0,0026) (0,0185)}

0,1196* TEL + 0,1027* BAL- 0,0053* LIVSP - 0,0029 * МЕTRDIST

^{(0,0407) (0,0215)
(0,0059) (0,0024)}

Теперь уберем невлияющие параметры LIVSP и МЕTRDIST.

Построим логарифмическую модель регрессии без МЕTRDIST и LIVSP

ВЫВОД ИТОГОВ

Регрессионная статистика
Множественный R	0,768427764
R-квадрат	0,590481229
Нормированный R-квадрат	0,582850444
Стандартная ошибка	0,166459936
Наблюдения	329

Дисперсионный анализ
	df	SS	MS	F	Значимость F
Регрессия	6	12,8649352	2,144156	77,38145721	1,75E-59
Остаток	322	8,922269156	0,027709
Итого	328	21,78720435

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%
Y-пересечение	2,384934326	0,083624559	28,51954	4,05123E-90	2,220415
TOTSP	0,016335467	0,002945172	5,546524	6,08401E-08	0,010541
KITSP	0,033004059	0,007346841	4,492279	9,83497E-06	0,01855
DIST	-0,029158376	0,002470119	-11,8044	5,7712E-27	-0,03402
WALK	0,06104438	0,018560323	3,288972	0,001116811	0,02453
TEL	0,117011085	0,040758219	2,870859	0,004364654	0,036825
BAL	0,101648227	0,021567144	4,713106	3,63644E-06	0,059218

R-квадрат =0,590481229 следовательно, 59% дисперсии результативного признака объяснило влияние независимых переменных.

Общая дисперсия регрессии(TSS): 21,78720435, дисперсия, объясненная регрессионным уравнением (RSS): 12,8649352, дисперсия, не объясненная регрессией (ESS): 8,922269156.

Так как P-значения всех параметров меньше 0,05 и логарифмической модели регрессии равен 0,590481229,а линейной модели регрессии равен 0,555010195,то наилучшей моделью считается логарифмическая модель регрессии().И в дальнейшем именно ее мы будем использовать для прогнозирования

Lny = 2,3849+ 0,0163* TOTSP + 0,0330* KITSP - 0,0291*DIST +0,0610 * WALK +

^{(0,0029)
(0,0073)
(0,0024) (0,0185)}

0,117* TEL + 0, 1016* BAL

^{(0,0407) (0,0215)}

Вывод: т.к. коэффициент детерминации наиболее максимально приближен к 1 и нет невлияющих на цену параметров, можно считать логарифмическую модель наилучшей.

Расчет оценок вручную

1 / 31 2 3 > Следующая >>>

Соседние файлы в предмете Эконометрика

#
20.05.201430 Кб9NEW!!! Вопросник по эконометрике NEW!!! (отредактированный).doc
#
20.05.2014350 Кб9Задание к курсовой. часть 1..pdf
#
20.05.2014490 Кб27Контрольная работа №1 вариант 5 Построение наилучшей модели регрессии..doc
#
20.05.201499 Кб26Контрольная работа №2 по эконометрике вариант 5.doc
#
20.05.20143 Мб69Методичка Построение линейной регрессионной модели .pdf
#
20.05.2014298 Кб12Система оценок.pdf