Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Пример 1(парная линейная регрессия)

.pdf
Скачиваний:
16
Добавлен:
08.01.2020
Размер:
637.69 Кб
Скачать

Пример парного регрессионного анализа По регионам страны изучается зависимость ВРП на душу населения (тыс.руб.) от инвестиций в

основной капитал (тыс.руб.).

 

 

 

 

 

 

 

 

 

 

yi yˆi

 

 

 

 

 

 

 

 

 

 

 

 

Регионы

Уi

Хi

yi хi

у2

х2

yˆi

yi yˆi

 

 

yi

 

 

 

1

36

9

324

1296

81

41,9

-5,9

 

 

0,164

 

2

23

3

69

529

9

23,3

-0,3

 

 

0,013

 

3

28

4

112

784

16

26,4

1,6

 

 

0,057

 

4

26

4

104

676

16

26,4

-0,4

 

 

0,015

 

5

18

2

36

324

4

20,2

-2,2

 

 

0,122

 

6

32

6

192

1024

36

32,6

-0,6

 

 

0,019

 

7

31

6

186

961

36

32,6

-1,6

 

 

0,052

 

8

30

5

150

900

25

29,5

0,5

 

 

0,017

 

9

42

7

294

1764

49

35,7

6,3

 

 

0,150

 

10

41

8

328

1681

64

38,8

2,2

 

 

0,054

 

Итого

307

54

1795

9939

336

307,4

0

 

 

0,663

 

Среднее

30,7

5,4

179,5

993,9

33,6

 

 

 

 

 

 

Дисперсия

51,4

4,4

 

 

 

 

 

 

 

 

 

СКО

7,2

2,1

 

 

 

 

 

 

 

 

 

Требуется:

1)Выбрать признак Х и признак У

2)Проверить исходные данные на однородность.

3)Построить поле корреляции и сформулировать гипотезу о форме связи.

4)Рассчитать параметры парного уравнения регрессии.

5)Оценить тесноту связи с помощью показателей корреляции и детерминации.

6)Оценить качество уравнения регрессии с помощью средней ошибки аппроксимации.

7)Оценить статистическую надежность (практическую значимость) регрессионного моделирования.

8)Выполнить точечный и интервальный прогноз значения y, если х увеличится на 10% от его среднего уровня

Решение

1)Так как ВРП (валовой региональный продукт) зависит от предварительно сделанных инвестиций, то признаком результатом (У) будет являться ВРП на душу населения, а признаком – фактором (Х)- инвестиции в основной капитал.

2)Построим поле корреляции Для этого необходимо поместить наблюдения в систему координат. Совокупность полученных точек

составляет корреляционное облако. Если оно вытянуто из левого нижнего угла в правый верхний – связь прямая, если из правого верхнего в левый нижний – обратная. Если точки беспорядочно разбросаны по полю, это говорит о том, что связи между двумя признаками нет.

Корреляционное облако имеет вытянутую форму. Можно использовать линейную функцию.

3)Проверим исходные данные на однородность. Для этого рассчитаем коэффициент вариации для обеих переменных:

Для расчета коэффициента вариации нам потребуется среднее значение и СКО по каждой переменной:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(хi x)2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

2

 

 

2

 

 

 

 

 

(x

) (x)

 

33,6 5.4

2.1

х

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

V

 

x

 

*100

2,1

*100 =38,9%

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

x

 

 

 

5,4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

( yi y)2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

2

 

 

2

 

 

 

 

 

 

 

 

( y

) ( y)

 

993.9 30.7

7.2

y

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Vy

 

y

 

*100

7.2

*100 =23,5%

 

 

 

 

 

 

 

 

 

 

30.7

 

 

 

 

 

 

y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Вариация в пределах нормы. Данные однородны.

4) рассчитать параметры парного уравнения регрессии

 

 

 

 

 

 

 

 

 

 

 

b

 

xy x * y

 

179.5 30.7 *5.4

=3,1

 

4.4

 

 

 

2

 

 

 

 

 

 

x

 

 

 

a y bx 30.7 3.1*5.4 14

yˆx 14+3,1х

Коэффициент регрессии показывает, что с ростом инвестиций в основной капитал на 1 тыс.руб, ВРП на душу населения возрастает в среднем на 3,1 тыс.руб.

5) Оценим тесноту связи с помощью показателей корреляции и детерминации

 

 

 

 

 

 

 

 

 

 

 

 

 

r

 

xy x * y

 

179,5 30,7 *5,4

 

13,7

=0,907 (связь тесная)

 

 

 

yx

x

* y

2,1* 7,2

15,1

 

 

 

 

ryx2 0,9072 0,823

82,3% вариации ВРП на душу населения обусловлено колеблемостью инвестиций в основной капитал.

6) Оценим качество уравнения с помощью ошибки аппроксимации

А

1

 

yi

yˆi

*100

 

1

* 0,663*100 =6,63%

n

 

y

10

 

 

 

 

 

 

 

 

 

i

 

 

 

 

Качество уравнения высокое.(А<10%)

7) Оценим статистическую надежность (значимость) результатов регрессионного моделирования:

Проверим статистическую значимость уравнения в целом.

Сформулируем нулевую гипотезу. Н0: уравнение статистически не значимо. Для проверки гипотезы построим таблицу дисперсионного анализа.

Источники

Сумма

Число степеней

Дисперсия на

Fфакт

Fтабл

вариации

квадратов

свободы

одну степень

 

 

 

отклонений

 

свободы

 

 

Общая

514,1

9

-

-

 

Объясненная

422,4

1

422,4

37

5,32

Остаточная

91,7

8

11,5

-

 

( y y)2 y2 n y2 9939 10*30,72 9939 9424,9 514,1

( yˆ х y)2 b2 (х х)2 b2 n(х2 (х)2 ) =3,12*10*(33,6-5,42)=9,6*44=422,4

( y yˆx ) 514,1 422,4 91,7

F

ryx2

*

n m 1

 

0,823

*

10 1 1

37,1

Fтабл=5,32

1 r2

m

 

1 0,823

 

1

 

факт

 

 

 

 

 

 

 

yx

 

 

 

 

 

 

 

 

 

 

 

Fфакт. 37.1 Fтабл. 5,32 , уравнение статистически значимо.

Проверим надежность отдельных параметров уравнения с помощью t-критерия Стъюдента.

ta a ; ma

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

( y yˆx )2

 

x2

 

 

 

x2

 

 

 

 

 

 

 

m

 

 

 

 

 

S 2

 

 

11,5*

336

 

2,96

 

 

 

 

 

 

 

 

a

 

 

 

 

n 2

 

 

n (x х)2

 

 

 

n2 х

2

 

 

 

100 * 4,4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ta

 

a

 

14

 

4,73 ;

 

 

 

 

 

 

 

 

 

 

 

 

ma

2,96

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

tтабл=2,3 для df=n-m-1=10-1-1=8, α=0,05 (см. таблицы критических значений t-критерия Стъюдента)

ta>tтабл

Параметр а статистически значим

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

( y yˆx )2 /(n 2)

 

 

 

 

 

 

 

 

 

 

 

 

m

 

 

S 2

 

 

Sост

 

 

 

3,4

0,5

 

 

(x x)2

 

(x x)2

 

 

 

 

 

b

 

 

 

 

 

 

 

 

 

х

n

2,1*3,2

 

tb

b

 

 

3,1

6,2

 

 

 

 

 

 

 

 

 

 

 

 

mb

 

0,5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

tтабл=2,3 для df=n-m-1=10-1-1=8, α=0,05. (см. таблицы критических значений t-критерия Стъюдента)

tb>tтабл

Параметр b статистически значим

8) Выполним точечный и интервальный прогноз y, если х увеличится на 10% от его среднего уровня.

Точечный прогноз получаем путем подстановки в уравнение прогнозного значения признака-фактора: yˆ p 14 3.1(5.4*1.1) 32.4

Интервальный прогноз получаем предварительно рассчитав ошибку прогноза

y p y p y p y p y p ,

где y p my p tтабл , а my p – средняя ошибка прогнозируемого индивидуального значения:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m

 

Sост

 

 

1

1

 

xp

x 2

 

 

 

 

 

 

 

 

 

 

 

 

n

n

x

 

 

y p

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

(5.94

5.4)

2

 

 

 

myˆ

11,5

1

 

 

 

 

=3,57

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4.4

 

 

p

 

 

 

 

10 10

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

32.43.57 yˆ p 32.4 3.57

28.83yˆ p 35.97

Решение типовой задачи в MS Excel

1. C помощью инструмента анализа данных Регрессия можно получить результаты регрессионной статистики, дисперсионного анализа, доверительных интервалов, остатки и графики подбора линии регрессии.

2.Если в меню Данные еще нет команды Анализ данных, то необходимо сделать следующее. В главном меню последовательно выбираем ФАЙЛ Параметры -Надстройки и устанавливаем Пакет анализа.

3. Построим поле корреляции.

Скопировать данные своего варианта на лист Excel.

Выбрать Вставка Точечная диаграмма

Корреляционное облако имеет вытянутую форму. Можно использовать линейную функцию.

Для расчета показателей корреляции и регрессии выбираем Данные Анализ данных Регрессия

Заполняем диалоговое окно ввода данных и параметров вывода

Здесь:

Входной интервал Y - диапазон, содержащий данные результативного признака; Входной интервал X - диапазон, содержащий данные признакафактора;

Метки - «флажок», который указывает, содержит ли первая строка названия столбцов; Константа - ноль - «флажок», указывающий на наличие или отсутствие свободного члена в уравнении;

Выходной интервал - достаточно указать левую верхнюю ячейку будущего диапазона;

Новый рабочий лист - можно указать произвольное имя нового листа (или не указывать, тогда результаты выводятся на вновь созданный лист).

Получаем следующие результаты для рассмотренного выше примера

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0,90811076

R-квадрат

0,82466516

Нормированный R-квадрат

0,80274830

Стандартная ошибка

3,35670298

Наблюдения

10

Дисперсионный анализ

 

В таблице «Регрессионная статистика» представлены следующие показатели: Множественный R- коэффициент корреляции между результатом и факторами.

R-квадрат – коэффициент детерминации

Нормированный R-квадрат – коэффициент детерминации, скорректированный на число степеней свободы.

Стандартная ошибка (регрессии)– корень из остаточной дисперсии на 1 степень свободы. Наблюдения – число единиц совокупности, участвующих в расчете.

Коэффициент корреляции: 0,908 (связь очень тесная)

Коэффициент детерминации: 0,825 (82,5% вариации валового регионального продукта объясняется вариацией инвестиций в основной капитал)

df

 

SS

MS

F

Значимость F

Регрессия

1

423,9603604

423,9603

37,6269

0,000278

Остаток

8

90,13963964

11,26745

 

 

Итого

9

514,1

 

 

 

В таблице «Дисперсионный анализ» представлены результаты проверки значимости коэффициента детерминации – практической значимости полученного уравнения в целом.

df – число степеней свободы: для строки «Регрессия» число степеней свободы определяется количеством факторных признаков в уравнении =m. для строки «Остаток» число степеней свободы = n-m-1

Столбец SS – сумма квадратов отклонений

Для строки «Регрессия» - сумма квадратов отклонений теоретических данных от среднего: ( yˆi y)2

для строки «Остаток» - сумма квадратов отклонений эмпирических (исходных) данных от теоретических: ( yi yˆ)2

для строки «Итого» ( yi y)2 ( yˆi y)2 ( yi yˆi )2

Столбец MS - дисперсии на 1 степень свободы, рассчитываемые как MS= SS/df Столбец F = MS(Регрессия)/MS(Остатки).

Фактическое значение F -критерия Фишера:F = 37,6 (Можно сравнить с табличным значением, воспользовавшись функцией =FРАСП (Fp; df (регрессия); df(остаток), а можно воспользоваться столбцом «Значимость F». Если расчетное α (уровень значимости) меньше, чем 0,05, уравнение регрессии статистически значимым и может быть использовано для прогноза.

 

 

Стандартная

 

 

 

Верхние

 

Коэффициенты

ошибка

t-статистика

P-Значение

Нижние 95%

95%

Y-пересечение (а)

14,0135135

2,920055251

4,799058

0,00135

7,279854

20,7471

x (b)

3,09009009

0,50375739

6,1340889

0,00027

1,928423

4,25175

В последней таблице представлены коэффициенты регрессии и их статистические оценки. Уравнение регрессии: у x = 14,01 + 3,09x

С ростом инвестиций в основной капитал на 1 тыс.руб, ВРП на душу населения возрастает в среднем на 3,1 тыс.руб.

Далее проверим значимость коэффициентов регрессии: a и b. Сравнивая попарно значения столбцов Коэффициенты и Стандартная ошибка в таблице, видим, что абсолютные значения коэффициентов больше, чем их стандартные ошибки. К тому же эти коэффициенты являются значимыми, о чем можно судить по значениям показателя Р-значение, которые меньше заданного уровня значимости α=0,05.

Стандартные ошибки для параметров регрессии: та = 2,92, mb = 0,504 Фактические значения t -критерия Стьюдента: ta = 4,799, tb = 6,134.

Фактические значения t -критерия Стьюдента сравниваются с табличным значением

ВЫВОД ОСТАТКА

Наблюдение

Предсказанное y

Остатки

1

41,82432432

-5,824324324

2

23,28378378

-0,283783784

3

26,37387387

1,626126126

4

26,37387387

-0,373873874

5

20,19369369

-2,193693694

6

32,55405405

-0,554054054

7

32,55405405

-1,554054054

8

29,46396396

0,536036036

9

35,64414414

6,355855856

10

38,73423423

2,265765766

6) Для расчета средней ошибки аппроксимации необходимо воспользоваться таблицей «Вывод остатков», где приведены «Предсказанное у» (это уˆ ) и остатки (это yi yˆi ). Рассчитав дополнительный столбец со значениями, можно определить среднюю ошибку аппроксимации.

Результат:

ВЫВОД ОСТАТКА

 

 

 

 

Ошибка

Наблюдение

Предсказанное y

Остатки

y (исходные данные)

аппроксимации

 

 

 

 

 

1

41,82432432

-5,824324324

36

0,161786787

 

 

 

 

 

2

23,28378378

-0,283783784

23

0,012338425

 

 

 

 

 

3

26,37387387

1,626126126

28

0,058075933

 

 

 

 

 

4

26,37387387

-0,373873874

26

0,014379764

 

 

 

 

 

5

20,19369369

-2,193693694

18

0,121871872

 

 

 

 

 

6

32,55405405

-0,554054054

32

0,017314189

 

 

 

 

 

7

32,55405405

-1,554054054

31

0,050130776

 

 

 

 

 

8

29,46396396

0,536036036

30

0,017867868

 

 

 

 

 

9

35,64414414

6,355855856

42

0,151329901

 

 

 

 

 

10

38,73423423

2,265765766

41

0,05526258

 

 

 

 

 

 

 

 

Сумма

0,660358095

 

 

 

 

 

 

 

 

Средняя ошибка аппроксимации

6,603580955

 

 

 

 

 

Качество уравнения высокое. (А<10%)

Соседние файлы в предмете Эконометрика