Добавил:
Надеюсь, кому-то пригодятся мои мучения за 3-4 курс Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Статистика практическая работа 3

.docx
Скачиваний:
11
Добавлен:
09.04.2021
Размер:
45.88 Кб
Скачать

Министерство сельского хозяйства Российской Федерации

Федеральное государственное бюджетное

образовательное учреждение высшего образования

«Государственный университет по землеустройству»

Кафедра землепользования и кадастров

Практическая работа по статистике №3:

«Парный линейный корреляционно-регрессионный анализ»

Выполнил:

Проверил:

Москва 2019

Задача 3.1. Парная линейная регрессия и статистическая оценка ее достоверности с использованием инструмента «Регрессия» MS EXCEL.

Условие: имеются данные выборочного наблюдения за рынком участков близ Санкт-Петербурга (приложение 1.1).

Требуется: изучить взаимосвязь между размером участка и стоимостью участка. Используя встроенный инструмент «Регрессия» MS EXCEL 2010, построить парную линейную модель регрессии, оценить достоверность полученных результатов.

Решение. Прежде чем моделировать взаимосвязь переменных в виде уравнения регрессии, необходимо убедиться, что они действительно взаимосвязаны. Одним из приемов обнаружения корреляционной связи между двумя переменными является графический способ – построение точечного графика, где координатами точек являются соответствующие значения х и у в конкретных наблюдениях. В нашем примере х- это факторная переменная «размер участка, соток», у – результативная переменная «стоимость участка, тыс. руб.» (табл. 3.1.)

Табл. 3.1

п/п

Населенный пункт

Размер участка, соток

Стоимость участка, тыс. руб.

1

2

5

6

1

п. Симагино

10

400

2

Ландышевка

7

400

3

р.п. Поляны

10

500

4

Горьковское

6

750

5

Первомайское

6

790

6

Семиозерье

6

800

7

п. Симагино

10

390

8

Пионерское

10

850

9

Смирново

10

900

10

р.п. Поляны

10

1000

11

Уткино

10

1200

12

Кирилловское

10

1300

13

Заходское

10

1360

14

Уткино

10

1500

15

Невский

6

2300

16

Ильичево

7

2500

17

п. Симагино

30

2500

18

п. Симагино

11

2600

19

Зеленая роща

19,5

2900

20

д. Ровное

14

2850

21

п. Симагино

50

3500

22

п. Вязы

10

4400

23

п. Симагино

59

7000

24

Лейпясуо

7,3

630

25

Кирилловское

9

100

26

Кирилловское

6

500

27

Каннельярви

13,5

550

28

д. Лужайка

7,5

220

29

Лейпясуо

10

900

30

п. Вязы

10

4400


Табл.3.2.

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0,693216

R-квадрат

0,480548

Нормированный R-квадрат

0,461996

Стандартная ошибка

1154,785

Наблюдения

30

Дисперсионный анализ

 

df

SS

MS

F

Значимость F

Регрессия

1

34542327

34542327

25,90297

2,17E-05

Остаток

28

37338770

1333528

Итого

29

71881097

 

 

 

 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Нижние 95,0%

Верхние 95,0%

Y-пересечение

491,3988

312,6417

1,571763

0,127239

-149,019

1131,816

-149,019

1131,816

Переменная X 1

89,28074

17,54216

5,089496

2,17E-05

53,34726

125,2142

53,34726

125,2142

ВЫВОД ОСТАТКА

Наблюдение

Предсказанное Y

Остатки

1

1384,206

-984,206

2

1116,364

-716,364

3

1384,206

-884,206

4

1027,083

-277,083

5

1027,083

-237,083

6

1027,083

-227,083

7

1384,206

-994,206

8

1384,206

-534,206

9

1384,206

-484,206

10

1384,206

-384,206

11

1384,206

-184,206

12

1384,206

-84,2062

13

1384,206

-24,2062

14

1384,206

115,7938

15

1027,083

1272,917

16

1116,364

1383,636

17

3169,821

-669,821

18

1473,487

1126,513

19

2232,373

667,6268

20

1741,329

1108,671

21

4955,436

-1455,44

22

1384,206

3015,794

23

5758,963

1241,037

24

1143,148

-513,148

25

1294,925

-1194,93

26

1027,083

-527,083

27

1696,689

-1146,69

28

1161,004

-941,004

29

1384,206

-484,206

30

1384,206

3015,794

Раскроем содержание вывода итогов и условных обозначений.

Таблица «Регрессионная статистика»:

· Множественный R – коэффициент корреляции, в нашем примере – парный коэффициент корреляции (Rмнож.=0,693216), коэффициент корреляции говорит о тесноте связи, по шкале в нашем случае связь умеренная (средняя);

Шкала меры тесноты связи:

До 0,3 - связь практически отсутствует;

0,3 – 0,5 - связь слабая;

0,5 – 0,7 - связь умеренная (средняя);

0,7 – 0,9 - связь тесная (сильная);

0,9-0,99 – связь очень тесная (близка к функциональной).

· R-квадрат – коэффициент детерминации;

· Нормированный R2 - это тот же коэффициент детерминации, но скорректированный на величину выборки. Нормированный R2=1-(1-R2)*((n-1)/(n-k)), где n - число наблюдений; k - число параметров в уравнении регрессии. Нормированный R2 предпочтительнее использовать в случае добавления новых регрессоров (факторов), т.к. при их увеличении будет также увеличиваться значение R2, однако это не будет свидетельствовать об улучшении модели. Коэффициент детерминации говорит о том, что чем ближе коэффициент детерминации к единице, тем сильнее факторный признак влияет на результативный, и тем теснее связь между ними (R2=0,480548);

· Стандартная ошибка показывает, на какую величину в среднем по всем наблюдениям фактические значения результативного признака

будут отклоняться от их значений, определенных по уравнению регрессии. Стандартная ошибка =1154,785

· Наблюдения - указывается число наблюдений.

Таблица «Дисперсионный анализ»:

· В первой графе таблицы представлены источники вариации зависимой переменной – регрессионная вариация (обусловленная влиянием изу-чаемого фактора), остаточная (влияние прочих факторов) и общая ва-риация (влияние всех причин);

В первой графе таблицы представлены источники вариации зависимой пере-менной – регрессионная вариация (обусловленная влиянием изучаемого фак-тора), остаточная (влияние прочих факторов) и общая вариация (влияние всех причин);

· В столбце d.f. (degree of freedom) приводится число степеней свободы для каждого из источников вариации: d.f.общ. = n-1=30-1=29; d.f.регр.=m-1=2-1=1, где m –число параметров в уравнении регрессии; d.f.ост.= 29-1=28 (n-1)-( m-1);

· В столбце SS (sum of squares) представлены суммы квадратов отклоне-ний или объемы вариации зависимой переменной по источникам ее возникновения, SSост.+SSрег.=SSобщ.-Закон разложения вариации, SSрег=-34542327 влияние фактора размер участка, SSост.= 37338770-влияние остальных факторов, SSобщ.= 71881097-влияние всех факторов, ;

· MS (mid square) – средний квадрат отклонений или дисперсия зависи-мой переменной по источникам вариации; MS=SS/ d.f.

MSрег.= 34542327

MSост.= 1333528

Если MSрег,> MSост.( 34542327>1333528), то мы должны проверить фактическое значение Фишера

· F - это фактическое значение критерия Фишера, определенное как от-ношение регрессионной дисперсии к остаточной (если первая больше

второй). Сравним фактическое значение критерия Фишера и его табличное значение, чтобы убедиться, что модель достоверна.

Fфакт.= 25,90297

Fтабл.=4,60

Fфакт.> Fтабл. (25,90>4,60), значит можно утверждать, что данная модель достоверна.

· Значимость критерия Фишера: уровень значимости - это допустимая вероятность отвергнуть в результате проверки верную нулевую гипотезу. В рассматриваемом случае это означает вероятность признания по выборке наличие связи между переменными в генеральной совокупности, когда на самом деле ее там нет. Обычно уровень значимости принимается равным 0,05;

· В столбце «Коэффициенты» представлены параметры уравнения регрессии у=а+вх: «у-пересечение» - это свободный член уравнения регрессии а, коэффициент при переменной х есть коэффициент регрессии в, в нашем случае уравнение регрессии примет вид: у=491,3988+89,28074х;

· Стандартные ошибки параметров показывают, на какую величину в среднем по всем выборкам равного объема выборочные параметры связи (оценки) будут отличаться от истинных, генеральных параметров регрессии;

· t-статистика – это фактическое (выборочное) значение критерия t, которое равно отношению выборочного параметра к его стандартной ошибке;

· P-значение – это уровень значимости отдельных параметров уравнения регрессии; это вероятность того, что критическое значение используемого критерия (t-Стьюдента или t-нормального распределения) превысит значение, вычисленное по выборке. В данном случае сравниваем p-значения с выбранным уровнем значимости (0,05), в нашем случае

Р-значение меньше уровня значимости, значит фактор (балл почв) является подходящим по этому критерию;

· Нижнее 95% и Верхнее 95% - это границы доверительного интервала данного параметра, определенные для 95% уровня вероятности суждения.