Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
КЛ_Эконометрика (продвинутый уровень).doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
2.76 Mб
Скачать

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ

УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

«ТУЛЬСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»

Институт Права и управления

Кафедра Мировой экономики

Утверждаю:

Зав. кафедрой Мировой экономики

_______________В.И. Белоцерковский

«___»____________ 2014 г.

Регистрационный номер:

________________________

Конспект лекций по учебной дисциплине (модулю) «Эконометрика (продвинутый уровень)»

Уровень профессионального образования: магистратура

Направление подготовки: 38.04.01 Экономика

Профиль подготовки: Анализ внешнеэкономической деятельности предприятий

Квалификация (степень) выпускника: магистр

Форма обучения: очная

Тула 2014

Конспект лекций по учебной дисциплине (модулю) «Эконометрика (продвинутый уровень)» разработан доц., канд. физ.-мат. наук Ю.М. Филатовой и обсужден на заседании кафедры Мировой экономики института Права и управления (протокол заседания кафедры №8 от «_19_» _сентября_ 2014 г.)

Содержание

1. Парная регрессия. Свойства остатков 4

2. Множественная линейная регрессия в скалярной и векторной формах 16

3. Метод наименьших квадратов и предпосылки его применения для множественной линейной регрессии 17

4. Теорема Гаусса-Маркова 27

5. Коэффициенты множественной корреляции и детерминации 31

6. Проверка значимости модели множественной регрессии и ее параметров 32

7. Множественная линейная регрессия с ограничениями на параметры 39

8. Нелинейные модели множественной регрессии 44

9. Выбор наилучшей функции регрессии 46

10. Метод максимального правдоподобия 52

11. Точечный и интервальный прогнозы 57

12. Мультиколлинеарность и методы борьбы с нею. Ридж – регрессии и метод главных компонент 59

13. Гетероскедастичность и методы ее выявления. Оценивание регрессии в условиях гетероскедастичности ошибок 69

14. Обобщенный метод наименьших квадратов 76

15. Системы эконометрических уравнений 77

Структурная и приведённая форма. Идентифицируемость 77

Примеры 79

Рекурсивные системы уравнений 79

Список литературы 80

Основная литература 80

Дополнительная литература 80

Периодические издания 81

Интернет-ресурсы 81

1. Парная регрессия. Свойства остатков

Парной регрессией называется условное математическое ожи­дание переменной как функции от переменной . Модель парной линейной регрессии имеет вид

где - зависимая переменная; - неизвестные параметры регрессии; - независимая переменная; - случайная составляющая; - число наблюдений.

Для нахождения оценок параметров и часто использу­ется метод наименьших квадратов (МНК), сводящийся к ми­нимизации по и суммы квадратов отклонений:

Оценки МНК параметров имеют вид

Функция выборочной линейной регрессии будет иметь

Регрессионными остатками называются разности фак­тических и оцененных значений зависимой переменной:

Если случайные величины при всех , являются некоррелированными и , а - детерминированный вектор, то случайная величина

имеет распределение Стьюдента с степенями свободы.

Гипотеза о конкретном значении коэффициента при двусторонней альтернативной гипотезе проверяется с помощью тестовой статистики:

.

Если , где - выбранный уровень значимо­сти, то основная гипотеза отвергается.

Если же альтернативная гипотеза односторонняя

то основная гипотеза отвергается при .

Аналогично формулируется и проверяется гипотеза о кон­кретном значении свободного члена .

Проверка гипотезы о равенстве параметра нулю (обычно при двусторонней альтернативной гипотезе) называется про­веркой гипотезы о значимости параметра. Если гипотеза о ра­венстве параметра нулю не отвергается, то этот параметр на­зывается незначимым.

При оценке параметров регрессии статистическими пакета­ми Excel, Eviews, STATA, SPSS и др. автоматически проводится проверка гипотез о значимости коэффициентов. Для тестовой t-статистики вычисляется p-value (р - значение) — минималь­ный уровень значимости, при котором основная гипоте­за отвергается. Если p-value превышает выбранный уровень значимости, то основная гипотеза (о равенстве коэффициен­та нулю) не отвергается.

Если коэффициент является незначимым, то между пе­ременными и не существует статистически значимой ли­нейной связи. Если коэффициент является значимым, то его оценка интерпретируется следующим образом: при увеличе­нии на одну единицу изменяется на единиц (в сторону увеличения при положительном и в сторону уменьшения при отрицательном ).

Пример 1

Имеются статистические данные о значениях двух показателей в разрезе 48 субъектов РФ, которые приведены в табл. 1.

1. Поступление налогов, сборов и иных обязательных пла­тежей в консолидированный бюджет РФ (без поступлений ЕСН) в 2009 г., млн. руб.

2. Количество занятых в Российской Федерации в 2009 г., тыс. человек.

Зависимая переменная — поступление налогов, сборов и иных обязательных платежей в консолидированный бюд­жет РФ («поступление налогов»). Независимая переменная — «количество занятых» .

Таблица 1. Некоторые экономические показатели деятельности субъектов РФ в 2009 г.

Субъект РФ

Поступление на­логов,

млн. руб.

Количество занятых, тыс. человек

Республика Ингушетия

1422,20

107,20

Еврейская автономная область

2529,70

82,30

Республика Тыва

2629,10

101,60

Республика Алтай

2764,30

87,60

Карачаево-Черкесская Республика

3347,50

188,30

Республика Калмыкия

3914,20

121,90

Республика Адыгея

4400,80

187,10

Республика Северная Осетия-Алания

5904,00

326,50

Магаданская область

6956,70

97,10

Кабардино-Балкарская Республика

7595,10

352,50

Республика Хакасия

9257,80

254,70

Чукотский автономный округ

9317,10

30,50

Республика Марий Эл

9978,80

323,70

Псковская область

10 144,80

323,30

Чеченская Республика

10 215,40

357,00

Республика Карелия

11 349,50

337,80

Курганская область

12 046,90

393,00

Республика Мордовия

12 061,40

439,00

Костромская область

12 104,20

340,90

Камчатский край

13 042,40

190,00

Орловская область

13 104,30

375,00

Ивановская область

13 396,40

491,20

Республика Дагестан

14 170,30

1104,10

Тамбовская область

14 227,00

499,50

Новгородская область

16 868,50

322,50

Республика Бурятия

18 019,40

392,30

Смоленская область

18 950,30

505,40

Курская область

19 995,50

536,50

Забайкальский край

20 445,60

482,00

Липецкая область

21 220,80

575,50

Ульяновская область

21 360,00

619,10

Пензенская область

21 418,80

634,30

Кировская область

21 477,10

684,00

Чувашская Республика

21 816,30

608,40

Астраханская область

22 824,90

475,80

Брянская область

23 579,30

569,80

Амурская область

23 702,60

417,30

Калужская область

24 007,20

530,50

Тульская область

27 581,20

746,60

Вологодская область

28 057,50

617,80

Алтайский край

29 815,50

1125,50

Тверская область

32 236,50

687,40

Белгородская область

32 657,40

754,90

Владимирская область

32 672,70

688,40

Мурманская область

34 351,10

482,20

Воронежская область

36 050,40

1042,40

Рязанская область

36 544,30

522,00

Калининградская область

37 136,90

459,50

Источник: данные Росстата.

По исходным данным (см. табл. 1) с помощью MS Excel были произведены расчеты и получены значения параметров урав­нения парной линейной регрессии (табл. 2).

Таблица 2. Результаты оценки параметров МНК

Пара­метры

Коэффици­енты уравне­ния парной

Стандартная ошибка

- статистика

p-value

Нижние интерваль­ные оценки 95%

Верхние интерваль­ные оцен­ки 95%

- пересечение

3855,796

2084,617931

1,849641742

0,070796

-340,321851

8051,915

29,80708

4,045027426

7,368820075

2,56Е-09

21,66486153

37,9493

Таблица 1.2 включает оценки параметров, их среднеквадратические ошибки, вероятности ошибочного решения (р-value), нижние и верхние интервальные оценки параметров с вероятностью 95%. Согласно полученным значениям урав­нение парной регрессии запишется в виде

.

Для того чтобы определить, на сколько процентов изменит­ся значение при изменении на 1%, рассчитывается коэф­фициент эластичности

где - коэффициент регрессии, показывающий, что с уве­личением количества занятых на 1 тыс. человек, поступление нало­гов возрастает в среднем на 29,81 млн. руб.

Полученное уравнение регрессии статистически значимо. Об этом свидетельствуют результаты дисперсионного ана­лиза (табл. 3).

Таблица 3. Дисперсионный анализ

Источники вариации

df

SS

MS

F-критерии

Регрессия

1

2 696 977 935

2 696 977 935

2,55649Е-09

Остаток

46

2 284 753 335

49 668 550,77

Итого

47

4 981 731 270

В первой графе табл. 1.3 показаны источники вариации за­висимой переменной; во второй - число степеней свободы; в третьей - суммы квадратов отклонений; в четвертой - суммы квадратов отклонений, приходящиеся на одну степень свободы; в пятой - значение F-критерия. Для парной линейной регрессии число степеней свободы рав­но числу параметров р минус единица:

Число степеней свободы для остаточной вариации равно

где - число независимых переменных.

Сумма квадратов отклонений для регрессии называется объ­ясненной (или факторной) и определяется по формуле

Остаточная сумма квадратов отклонений имеет вид

В соответствии с правилом сложения дисперсий сумма квад­ратов отклонений объясненной и остаточной вариации есть не что иное, как общая вариация зависимой переменной:

Тогда

где - сумма квадратов отклонений в расчете на одну степень свободы.

Отсюда имеем формулу

В нашем примере F = 54,3. Полученное значение F-критерия необходимо сравнить с табличным значением, соответствую­щим гипотезе . Распределение F-статистики зависит от числа степеней свободы числителя и зна­менателя , а также от уровня значимости, т.е. вероят­ности ошибочного отклонения . На 5%-ном уровне значи­мости . Поскольку , гипотеза не принимается.

В табл. 4 приведены значения зависимой переменной, рас­считанные по уравнению регрессии , а также значения остатков .

Таблица 4. Вывод остатка

Наблюдение

Расчетное значение поступ­ления налогов, млн. руб.

Остаток, млн. руб.

1

7051,11

-5628,913243

2

6308,919

-3779,218968

3

6884,196

-4255,095599

4

6466,896

-3702,596489

5

9468,469

-6120,969374

6

7489,279

-3575,07309

7

9432,701

-5031,90 879

8

13 587,81

-7683,807734

9

6750,064

206,636258

10

14 362,79

-6767,691796

11

11 447,66

-2189,85944

12

4764,912

4552,18774

13

13 504,35

-3525,547912

14

13 492,43

-3347,62508

15

14 496,92

-4281,523653

16

13 924,63

-2575,12773

17

15 569,98

-3523,078508

18

16 941,1

-4879,704156

19

14 017,03

-1912,829676

20

9519,141

3523,258591

21

15 033,45

-1929,15108

22

18 497,03

-5100,633695

23

36 765,79

-22 595,4926

24

18 744,43

-4517,432453

25

13 468,58

3399,920583

26

15 549,11

2470,286448

27

18 920,29

30,00 77866

28

19 847,29

148,2056123

29

18 222,81

2222,791434

30

21 009,77

211,0295195

31

22 309,36

-949,3591381

32.

22 762,43

-1343,626743

33

24 243,84

-2766,738585

34

21 990,42

-174,1233895

35

18 038

4786,895326

36

20 839,87

2739,429872

37

16 294,29

7408,309465

38

19 668,45

4338,748088

39

26 109,76

1471,438251

40

22 270,61

5786,890065

41

37 403,66

-7588,164097

42

24 345,18

7891,317346

43

26 357,16

6300,239493

44

24 374,99

8297,710266

45

18 228,77

16 122,33002

46

34 926,7

1123,704193

47

19 415,09

17 129,20826

48

17 552,15

19 584,75072

Свойства остатков

Первое свойство остатков следует из уравнения , которое показывает, что

т.е. остатки и объясняющая переменная не коррелированы.

Второе свойство остатков, которым обладают оценки, полученные МНК, представляется в виде

или

т.е. остатки и предсказанные значения не коррелированы.

Третье свойство остатков имеет вид

математическое ожидание остатков равно нулю. В выборке .

Четвертое свойство остатков: остатки имеют постоян­ную дисперсию, т.е. для всех . Дисперсия остатков равна

(в выборке ).

Пятое свойство остатков: остатки не коррелированны между собой

для .

Зная остаток для -гo наблюдения, мы ничего не можем ска­зать об остатке для -го наблюдения . Заметим, что это свойство остатков исчезает при построении регрессии по вре­менным рядам, в которых наблюдение каждого последующе­го года (месяца, квартала) зависит от наблюдения предыду­щего года (месяца, квартала).

Четвертое и пятое свойства остатков можно проиллюстри­ровать графически (рис. 1).

Рисунок 1. Распределение остатков при фиксированных значениях независимой переменной

Постоянство дисперсии остатков называют гомоскедастичностью остатков. Если же дисперсия остатков не постоянна, то имеет место гетероскедастичность остатков.

Дисперсия остатков регрессии неизвестна и должна быть оценена. При этом нужно принять во внимание, что диспер­сии оцененных параметров и зависят от дисперсии остат­ков . МНК - оценка дисперсии остатков имеет вид

или

.

Если распределение остатков не нормально, то наилуч­шим методом их оценки будет не МНК, а метод максимально­го правдоподобия.

Измерение ошибки аппроксимации определяется величиной коэффициента детерминации :

Эта величина принимает значения от нуля до единицы. Коэффициент может быть представлен также в виде сле­дующей формулы:

,

где — остаток (величина отклонения от линии регрессии, кото­рая минимизируется МНК).

Если велика, то регрессия не объясняет вариацию .

В этом случае коэффициент детерминации будет невелик (близок к нулю). Если многие точки фактических наблюдений лежат на линии регрессии или располагаются вблизи от нее, мала и, соответственно, коэффициент детерминации будет близок к единице. Если все наблюдения располагаются на линии регрессии, то , а значит, и , тогда . Если же точки, соответствующие наблюдениям, не ле­жат на линии регрессии, то , а значит, регрессия не объясняет вариацию . В случае если .

Тогда наилучшей аппроксимацией данных будет линия для всех , т.е. это горизонтальная линия, параллельная оси абсцисс и проходящая через точку , что соответствует случаю полной независимости переменных и .

Степень аппроксимации данных выборки, полученной рег­рессией , оценивается с помощью средней ошибки аппроксимации

.

Большей информативностью обладает средняя относитель­ная ошибка аппроксимации

.

Значения средней относительной ошибки аппроксимации, не превышающие 10%, свидетельствуют о хорошем соответ­ствии линии регрессии исходным данным.

Коэффициент детерминации имеет две трактовки:

1) это квадрат коэффициента парной корреляции между фактическими и расчетными значениями зависимой пе­ременной, т.е. ;

2) это квадрат коэффициента парной корреляции между и , т.е. :

.

Коэффициент парной корреляции — это мера тесноты ли­нейной связи:

.

Можно представить коэффициент парной корреляции через коэффициент регрессии , определяющий наклон ре­грессии к оси абсцисс:

.

По данным рассматриваемого примера 1, коэффициент парной корреляции равен , а коэффициент детер­минации , т.е. на 54% вариация объема собираемых налогов зависит от количества занятых, а на 46% - от дру­гих факторов.

Подчеркнем, что коэффициент парной корреляции представ­ляет собой меру линейной связи между и . Если, например, существует полная квадратическая связь между и , которая описывается уравнением регрессии , то , а зна­чит и , может иметь значения, далекие от единицы. В этом случае нужно провести преобразование переменных с тем, чтобы линеаризировать уравнение регрессии. Примем , тогда параболическое уравнение регрессии будет иметь вид , т.е. это уравнение адекватно линейному урав­нению множественной регрессии.

Сформулированные свойства остатков проверяются после нахождения параметров уравнения регрессии. По уравнению регрессии находятся расчетные (предсказанные) значения за­висимой переменной ( ). После этого производится расчет остатков . Затем строится график остатков (residual plot). В случае гомоскедастичности остатков положительные и отрицательные значения остатков чередуются и находятся в области, параллельной оси абсцисс (рис. 2).

Рисунок 2. График остатков (случай гомоскедастичности)

График остатков по данным нашего примера о зависимо­сти выпуска продукции от стоимости основных фондов пред­ставлен на рис. 3. Расположение «облака» остатков позволя­ет предположить наличие гетероскедастичности.

Рисунок 3. График остатков по данным примера

Кроме визуального анализа остатков существует ряд специ­альных тестов, позволяющих выявить гетероскедастичность остатков: тесты Гольдфельда - Квандта, Парка, Глейзера, Уайта, ранговой корреляции Спирмена и др. Названные тесты будут рас­смотрены ниже.

Наличие гетероскедастичности сказывается на точности пред­сказания значения зависимой переменной на основе регрессии. Ошибка предсказания может быть представлена формулой

,

где - фактическое значение; - предсказанное значение для объекта 0; - отклонение фактического значения от «истинного» в генеральной совокупности; - откло­нение «истинного» значения от предсказанного по регрессии.

Тогда дисперсия ошибки предсказания имеет вид

.Таким образом, можно утверждать, что ошибка предсказа­ния значения на основе уравнения регрессии зависит от оста­точной дисперсии (дисперсии остатков), от объема выборки , от того, насколько значение (для объекта предсказания) отличается от среднего значения по наблюдаемым данным. Чем меньше остаточная дисперсия, чем больше объем выбор­ки и чем меньше вариация , т.е. , а также чем бли­же к , тем меньше ошибка предсказания.

Как уже отмечалось, на основе уравнения регрессии могут быть получены точечные прогнозные значения, , и интервальные оценки. Например, 95%-ный доверительный интервал значения при имеет вид

,

где — выборочная оценка остаточной дисперсии (заменяет );

— критические 2,5%-ное значение, полученное по таблице распределения с степенями свободы.

Как показано на рис. 4, границы доверительного интервала представляют собой гиперболу. Самое «узкое» значение интервала — в точке и ее окрестностях; чем больше удалено значение от , тем шире становится доверительный интервал. Устранение из выборки регионов, для которых значение остат­ка большим (в нашем примере это Калининградская, Рязанская, Воронежская области), позволило бы существенно улучшить свойства регрессии и повысить точность предсказания объема выпуска.

Рисунок 4. 95%-ный доверительный интервал

В заключение отметим, что парная регрессия довольно редко вступает в качестве эконометрической модели, поскольку исследуемые экономические явления формируются под влиянием не одного, а нескольких факторов. Этим обстоятельством определяется гораздо большая распространенность множест­венной регрессии в экономическом моделировании.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]