- •Конспект лекций по учебной дисциплине (модулю) «Эконометрика (продвинутый уровень)»
- •Содержание
- •1. Парная регрессия. Свойства остатков
- •2. Множественная линейная регрессия в скалярной и векторной формах
- •3. Метод наименьших квадратов и предпосылки его применения для множественной линейной регрессии
- •4. Теорема Гаусса-Маркова
- •5. Коэффициенты множественной корреляции и детерминации
- •6. Проверка значимости модели множественной регрессии и ее параметров
- •7. Множественная линейная регрессия с ограничениями на параметры
- •8. Нелинейные модели множественной регрессии
- •9. Выбор наилучшей функции регрессии
- •10. Метод максимального правдоподобия
- •11. Точечный и интервальный прогнозы
- •12. Мультиколлинеарность и методы борьбы с нею. Ридж – регрессии и метод главных компонент
- •13. Гетероскедастичность и методы ее выявления. Оценивание регрессии в условиях гетероскедастичности ошибок
- •14. Обобщенный метод наименьших квадратов
- •15. Системы эконометрических уравнений
- •Структурная и приведённая форма. Идентифицируемость
- •Примеры
- •Рекурсивные системы уравнений
- •Список литературы Основная литература
- •Дополнительная литература
- •Периодические издания
- •Интернет-ресурсы
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ
УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
«ТУЛЬСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»
Институт Права и управления
Кафедра Мировой экономики
-
Утверждаю:
Зав. кафедрой Мировой экономики
_______________В.И. Белоцерковский
«___»____________ 2014 г.
Регистрационный номер:
________________________
Конспект лекций по учебной дисциплине (модулю) «Эконометрика (продвинутый уровень)»
Уровень профессионального образования: магистратура
Направление подготовки: 38.04.01 Экономика
Профиль подготовки: Анализ внешнеэкономической деятельности предприятий |
Квалификация (степень) выпускника: магистр
Форма обучения: очная
Тула 2014
Конспект лекций по учебной дисциплине (модулю) «Эконометрика (продвинутый уровень)» разработан доц., канд. физ.-мат. наук Ю.М. Филатовой и обсужден на заседании кафедры Мировой экономики института Права и управления (протокол заседания кафедры №8 от «_19_» _сентября_ 2014 г.)
Содержание
1. Парная регрессия. Свойства остатков 4
2. Множественная линейная регрессия в скалярной и векторной формах 16
3. Метод наименьших квадратов и предпосылки его применения для множественной линейной регрессии 17
4. Теорема Гаусса-Маркова 27
5. Коэффициенты множественной корреляции и детерминации 31
6. Проверка значимости модели множественной регрессии и ее параметров 32
7. Множественная линейная регрессия с ограничениями на параметры 39
8. Нелинейные модели множественной регрессии 44
9. Выбор наилучшей функции регрессии 46
10. Метод максимального правдоподобия 52
11. Точечный и интервальный прогнозы 57
12. Мультиколлинеарность и методы борьбы с нею. Ридж – регрессии и метод главных компонент 59
13. Гетероскедастичность и методы ее выявления. Оценивание регрессии в условиях гетероскедастичности ошибок 69
14. Обобщенный метод наименьших квадратов 76
15. Системы эконометрических уравнений 77
Структурная и приведённая форма. Идентифицируемость 77
Примеры 79
Рекурсивные системы уравнений 79
Список литературы 80
Основная литература 80
Дополнительная литература 80
Периодические издания 81
Интернет-ресурсы 81
1. Парная регрессия. Свойства остатков
Парной
регрессией называется условное
математическое ожидание переменной
как
функции от переменной
.
Модель
парной линейной регрессии имеет вид
где
- зависимая переменная;
-
неизвестные параметры регрессии;
-
независимая переменная;
-
случайная составляющая;
-
число наблюдений.
Для
нахождения оценок параметров
и
часто
используется метод наименьших
квадратов (МНК), сводящийся к минимизации
по
и
суммы
квадратов отклонений:
Оценки МНК параметров имеют вид
Функция выборочной линейной регрессии будет иметь
Регрессионными остатками называются разности фактических и оцененных значений зависимой переменной:
Если
случайные величины
при
всех
,
являются
некоррелированными и
,
а
-
детерминированный вектор, то случайная
величина
имеет
распределение Стьюдента с
степенями
свободы.
Гипотеза
о
конкретном значении коэффициента
при двусторонней альтернативной гипотезе
проверяется с помощью тестовой статистики:
.
Если
,
где
-
выбранный уровень значимости, то
основная гипотеза отвергается.
Если же альтернативная гипотеза односторонняя
то
основная гипотеза отвергается при
.
Аналогично формулируется и проверяется гипотеза о конкретном значении свободного члена .
Проверка гипотезы о равенстве параметра нулю (обычно при двусторонней альтернативной гипотезе) называется проверкой гипотезы о значимости параметра. Если гипотеза о равенстве параметра нулю не отвергается, то этот параметр называется незначимым.
При оценке параметров регрессии статистическими пакетами Excel, Eviews, STATA, SPSS и др. автоматически проводится проверка гипотез о значимости коэффициентов. Для тестовой t-статистики вычисляется p-value (р - значение) — минимальный уровень значимости, при котором основная гипотеза отвергается. Если p-value превышает выбранный уровень значимости, то основная гипотеза (о равенстве коэффициента нулю) не отвергается.
Если
коэффициент
является
незначимым, то между переменными
и
не существует статистически значимой
линейной связи. Если коэффициент
является значимым, то его оценка
интерпретируется следующим образом:
при увеличении
на
одну единицу
изменяется на
единиц (в сторону увеличения при
положительном
и
в сторону уменьшения при отрицательном
).
Пример 1
Имеются статистические данные о значениях двух показателей в разрезе 48 субъектов РФ, которые приведены в табл. 1.
1. Поступление налогов, сборов и иных обязательных платежей в консолидированный бюджет РФ (без поступлений ЕСН) в 2009 г., млн. руб.
2. Количество занятых в Российской Федерации в 2009 г., тыс. человек.
Зависимая
переменная
—
поступление налогов, сборов и иных
обязательных платежей в консолидированный
бюджет РФ («поступление налогов»).
Независимая переменная — «количество
занятых»
.
Таблица 1. Некоторые экономические показатели деятельности субъектов РФ в 2009 г.
Субъект РФ |
Поступление налогов, млн. руб. |
Количество занятых, тыс. человек |
Республика Ингушетия |
1422,20 |
107,20 |
Еврейская автономная область |
2529,70 |
82,30 |
Республика Тыва |
2629,10 |
101,60 |
Республика Алтай |
2764,30 |
87,60 |
Карачаево-Черкесская Республика |
3347,50 |
188,30 |
Республика Калмыкия |
3914,20 |
121,90 |
Республика Адыгея |
4400,80 |
187,10 |
Республика Северная Осетия-Алания |
5904,00 |
326,50 |
Магаданская область |
6956,70 |
97,10 |
Кабардино-Балкарская Республика |
7595,10 |
352,50 |
Республика Хакасия |
9257,80 |
254,70 |
Чукотский автономный округ |
9317,10 |
30,50 |
Республика Марий Эл |
9978,80 |
323,70 |
Псковская область |
10 144,80 |
323,30 |
Чеченская Республика |
10 215,40 |
357,00 |
Республика Карелия |
11 349,50 |
337,80 |
Курганская область |
12 046,90 |
393,00 |
Республика Мордовия |
12 061,40 |
439,00 |
Костромская область |
12 104,20 |
340,90 |
Камчатский край |
13 042,40 |
190,00 |
Орловская область |
13 104,30 |
375,00 |
Ивановская область |
13 396,40 |
491,20 |
Республика Дагестан |
14 170,30 |
1104,10 |
Тамбовская область |
14 227,00 |
499,50 |
Новгородская область |
16 868,50 |
322,50 |
Республика Бурятия |
18 019,40 |
392,30 |
Смоленская область |
18 950,30 |
505,40 |
Курская область |
19 995,50 |
536,50 |
Забайкальский край |
20 445,60 |
482,00 |
Липецкая область |
21 220,80 |
575,50 |
Ульяновская область |
21 360,00 |
619,10 |
Пензенская область |
21 418,80 |
634,30 |
Кировская область |
21 477,10 |
684,00 |
Чувашская Республика |
21 816,30 |
608,40 |
Астраханская область |
22 824,90 |
475,80 |
Брянская область |
23 579,30 |
569,80 |
Амурская область |
23 702,60 |
417,30 |
Калужская область |
24 007,20 |
530,50 |
Тульская область |
27 581,20 |
746,60 |
Вологодская область |
28 057,50 |
617,80 |
Алтайский край |
29 815,50 |
1125,50 |
Тверская область |
32 236,50 |
687,40 |
Белгородская область |
32 657,40 |
754,90 |
Владимирская область |
32 672,70 |
688,40 |
Мурманская область |
34 351,10 |
482,20 |
Воронежская область |
36 050,40 |
1042,40 |
Рязанская область |
36 544,30 |
522,00 |
Калининградская область |
37 136,90 |
459,50 |
Источник: данные Росстата.
По исходным данным (см. табл. 1) с помощью MS Excel были произведены расчеты и получены значения параметров уравнения парной линейной регрессии (табл. 2).
Таблица 2. Результаты оценки параметров МНК
Параметры |
Коэффициенты уравнения парной |
Стандартная ошибка |
|
p-value |
Нижние интервальные оценки 95% |
Верхние интервальные оценки 95% |
- пересечение |
3855,796 |
2084,617931 |
1,849641742 |
0,070796 |
-340,321851 |
8051,915 |
|
29,80708 |
4,045027426 |
7,368820075 |
2,56Е-09 |
21,66486153 |
37,9493 |
Таблица 1.2 включает оценки параметров, их среднеквадратические ошибки, вероятности ошибочного решения (р-value), нижние и верхние интервальные оценки параметров с вероятностью 95%. Согласно полученным значениям уравнение парной регрессии запишется в виде
.
Для того чтобы определить, на сколько процентов изменится значение при изменении на 1%, рассчитывается коэффициент эластичности
где
- коэффициент регрессии, показывающий,
что с увеличением количества занятых
на 1 тыс. человек, поступление налогов
возрастает в среднем на 29,81 млн. руб.
Полученное уравнение регрессии статистически значимо. Об этом свидетельствуют результаты дисперсионного анализа (табл. 3).
Таблица 3. Дисперсионный анализ
Источники вариации |
df |
SS |
MS |
F-критерии |
Регрессия |
1 |
2 696 977 935 |
2 696 977 935 |
2,55649Е-09 |
Остаток |
46 |
2 284 753 335 |
49 668 550,77 |
|
Итого |
47 |
4 981 731 270 |
|
|
В первой графе табл. 1.3 показаны источники вариации зависимой переменной; во второй - число степеней свободы; в третьей - суммы квадратов отклонений; в четвертой - суммы квадратов отклонений, приходящиеся на одну степень свободы; в пятой - значение F-критерия. Для парной линейной регрессии число степеней свободы равно числу параметров р минус единица:
Число степеней свободы для остаточной вариации равно
где
-
число независимых переменных.
Сумма квадратов отклонений для регрессии называется объясненной (или факторной) и определяется по формуле
Остаточная сумма квадратов отклонений имеет вид
В соответствии с правилом сложения дисперсий сумма квадратов отклонений объясненной и остаточной вариации есть не что иное, как общая вариация зависимой переменной:
Тогда
где
- сумма квадратов отклонений в расчете
на одну степень свободы.
Отсюда имеем формулу
В
нашем примере F
= 54,3.
Полученное значение F-критерия
необходимо сравнить с табличным
значением, соответствующим гипотезе
.
Распределение F-статистики
зависит от числа степеней свободы
числителя
и
знаменателя
,
а также от уровня значимости, т.е.
вероятности ошибочного отклонения
.
На
5%-ном уровне значимости
.
Поскольку
,
гипотеза
не
принимается.
В
табл. 4 приведены значения зависимой
переменной, рассчитанные по уравнению
регрессии
,
а также значения остатков
.
Таблица 4. Вывод остатка
Наблюдение |
Расчетное значение поступления налогов, млн. руб. |
Остаток, млн. руб. |
1 |
7051,11 |
-5628,913243 |
2 |
6308,919 |
-3779,218968 |
3 |
6884,196 |
-4255,095599 |
4 |
6466,896 |
-3702,596489 |
5 |
9468,469 |
-6120,969374 |
6 |
7489,279 |
-3575,07309 |
7 |
9432,701 |
-5031,90 879 |
8 |
13 587,81 |
-7683,807734 |
9 |
6750,064 |
206,636258 |
10 |
14 362,79 |
-6767,691796 |
11 |
11 447,66 |
-2189,85944 |
12 |
4764,912 |
4552,18774 |
13 |
13 504,35 |
-3525,547912 |
14 |
13 492,43 |
-3347,62508 |
15 |
14 496,92 |
-4281,523653 |
16 |
13 924,63 |
-2575,12773 |
17 |
15 569,98 |
-3523,078508 |
18 |
16 941,1 |
-4879,704156 |
19 |
14 017,03 |
-1912,829676 |
20 |
9519,141 |
3523,258591 |
21 |
15 033,45 |
-1929,15108 |
22 |
18 497,03 |
-5100,633695 |
23 |
36 765,79 |
-22 595,4926 |
24 |
18 744,43 |
-4517,432453 |
25 |
13 468,58 |
3399,920583 |
26 |
15 549,11 |
2470,286448 |
27 |
18 920,29 |
30,00 77866 |
28 |
19 847,29 |
148,2056123 |
29 |
18 222,81 |
2222,791434 |
30 |
21 009,77 |
211,0295195 |
31 |
22 309,36 |
-949,3591381 |
32. |
22 762,43 |
-1343,626743 |
33 |
24 243,84 |
-2766,738585 |
34 |
21 990,42 |
-174,1233895 |
35 |
18 038 |
4786,895326 |
36 |
20 839,87 |
2739,429872 |
37 |
16 294,29 |
7408,309465 |
38 |
19 668,45 |
4338,748088 |
39 |
26 109,76 |
1471,438251 |
40 |
22 270,61 |
5786,890065 |
41 |
37 403,66 |
-7588,164097 |
42 |
24 345,18 |
7891,317346 |
43 |
26 357,16 |
6300,239493 |
44 |
24 374,99 |
8297,710266 |
45 |
18 228,77 |
16 122,33002 |
46 |
34 926,7 |
1123,704193 |
47 |
19 415,09 |
17 129,20826 |
48 |
17 552,15 |
19 584,75072 |
Свойства остатков
Первое свойство остатков следует из уравнения , которое показывает, что
т.е. остатки и объясняющая переменная не коррелированы.
Второе свойство остатков, которым обладают оценки, полученные МНК, представляется в виде
или
т.е.
остатки и предсказанные значения
не
коррелированы.
Третье
свойство остатков
имеет вид
математическое
ожидание остатков равно нулю. В выборке
.
Четвертое
свойство остатков: остатки
имеют постоянную дисперсию, т.е.
для
всех
.
Дисперсия
остатков равна
(в
выборке
).
Пятое свойство остатков: остатки не коррелированны между собой
для
.
Зная
остаток для
-гo
наблюдения, мы ничего не можем сказать
об остатке для
-го
наблюдения
.
Заметим,
что это свойство остатков исчезает при
построении регрессии по временным
рядам, в которых наблюдение каждого
последующего года (месяца, квартала)
зависит от наблюдения предыдущего
года (месяца, квартала).
Четвертое и пятое свойства остатков можно проиллюстрировать графически (рис. 1).
Рисунок
1.
Распределение остатков при фиксированных
значениях независимой переменной
Постоянство дисперсии остатков называют гомоскедастичностью остатков. Если же дисперсия остатков не постоянна, то имеет место гетероскедастичность остатков.
Дисперсия
остатков регрессии
неизвестна и должна быть оценена. При
этом нужно принять во внимание, что
дисперсии оцененных параметров
и
зависят
от дисперсии остатков
.
МНК - оценка дисперсии остатков имеет
вид
или
.
Если распределение остатков не нормально, то наилучшим методом их оценки будет не МНК, а метод максимального правдоподобия.
Измерение
ошибки аппроксимации определяется
величиной коэффициента детерминации
:
Эта величина принимает значения от нуля до единицы. Коэффициент может быть представлен также в виде следующей формулы:
,
где
—
остаток (величина отклонения от линии
регрессии, которая минимизируется
МНК).
Если
велика,
то регрессия не объясняет вариацию
.
В
этом случае коэффициент детерминации
будет
невелик (близок к нулю). Если многие
точки фактических наблюдений лежат на
линии регрессии или располагаются
вблизи от нее,
мала
и, соответственно, коэффициент детерминации
будет
близок к единице. Если все наблюдения
располагаются на линии регрессии, то
,
а значит, и
,
тогда
.
Если же точки, соответствующие наблюдениям,
не лежат на линии регрессии, то
,
а значит, регрессия не объясняет вариацию
.
В
случае если
.
Тогда
наилучшей аппроксимацией данных будет
линия
для
всех
,
т.е.
это горизонтальная линия, параллельная
оси абсцисс и проходящая через точку
,
что соответствует случаю полной
независимости переменных
и
.
Степень
аппроксимации данных выборки, полученной
регрессией
,
оценивается
с помощью средней ошибки аппроксимации
.
Большей информативностью обладает средняя относительная ошибка аппроксимации
.
Значения средней относительной ошибки аппроксимации, не превышающие 10%, свидетельствуют о хорошем соответствии линии регрессии исходным данным.
Коэффициент детерминации имеет две трактовки:
1)
это квадрат коэффициента парной
корреляции между фактическими и
расчетными значениями зависимой
переменной, т.е.
;
2)
это квадрат коэффициента парной
корреляции между
и
,
т.е.
:
.
Коэффициент парной корреляции — это мера тесноты линейной связи:
.
Можно
представить коэффициент парной корреляции
через
коэффициент регрессии
,
определяющий
наклон регрессии к оси абсцисс:
.
По
данным рассматриваемого примера 1,
коэффициент парной корреляции равен
,
а коэффициент детерминации
,
т.е. на 54% вариация объема собираемых
налогов зависит от количества занятых,
а на 46% - от других факторов.
Подчеркнем,
что коэффициент парной корреляции
представляет собой меру линейной
связи
между
и
.
Если,
например, существует полная квадратическая
связь между
и
,
которая описывается уравнением регрессии
,
то
,
а значит и
,
может иметь значения, далекие от единицы.
В этом случае нужно провести преобразование
переменных с тем, чтобы линеаризировать
уравнение регрессии. Примем
,
тогда
параболическое уравнение регрессии
будет иметь вид
,
т.е.
это уравнение адекватно линейному
уравнению множественной регрессии.
Сформулированные
свойства остатков проверяются после
нахождения параметров уравнения
регрессии. По уравнению регрессии
находятся расчетные (предсказанные)
значения зависимой переменной (
).
После этого производится расчет остатков
.
Затем
строится график остатков (residual
plot).
В
случае гомоскедастичности остатков
положительные и отрицательные значения
остатков чередуются и находятся в
области, параллельной оси абсцисс (рис.
2).
Рисунок
2. График остатков (случай гомоскедастичности)
График остатков по данным нашего примера о зависимости выпуска продукции от стоимости основных фондов представлен на рис. 3. Расположение «облака» остатков позволяет предположить наличие гетероскедастичности.
Рисунок 3. График остатков по данным примера
Кроме визуального анализа остатков существует ряд специальных тестов, позволяющих выявить гетероскедастичность остатков: тесты Гольдфельда - Квандта, Парка, Глейзера, Уайта, ранговой корреляции Спирмена и др. Названные тесты будут рассмотрены ниже.
Наличие гетероскедастичности сказывается на точности предсказания значения зависимой переменной на основе регрессии. Ошибка предсказания может быть представлена формулой
,
где
- фактическое значение;
- предсказанное значение для объекта
0;
-
отклонение фактического значения от
«истинного» в генеральной совокупности;
-
отклонение «истинного» значения от
предсказанного по регрессии.
Тогда дисперсия ошибки предсказания имеет вид
.Таким
образом, можно утверждать, что ошибка
предсказания значения
на основе уравнения регрессии зависит
от остаточной дисперсии
(дисперсии
остатков), от объема выборки
,
от
того, насколько значение
(для
объекта предсказания) отличается от
среднего значения по наблюдаемым данным.
Чем меньше остаточная дисперсия, чем
больше объем выборки
и чем меньше вариация
,
т.е.
,
а также чем ближе
к
,
тем меньше ошибка предсказания.
Как
уже отмечалось, на основе уравнения
регрессии могут быть получены точечные
прогнозные значения,
,
и интервальные оценки. Например, 95%-ный
доверительный интервал
значения
при
имеет вид
,
где
—
выборочная оценка остаточной дисперсии
(заменяет
);
—
критические
2,5%-ное значение, полученное по таблице
распределения с
степенями
свободы.
Как
показано на рис. 4, границы доверительного
интервала представляют собой гиперболу.
Самое «узкое» значение интервала — в
точке
и
ее окрестностях; чем больше удалено
значение
от
,
тем
шире становится доверительный интервал.
Устранение
из выборки регионов, для которых значение
остатка большим (в нашем примере это
Калининградская, Рязанская, Воронежская
области), позволило бы существенно
улучшить свойства регрессии и повысить
точность предсказания объема выпуска.
Рисунок 4. 95%-ный доверительный интервал
В заключение отметим, что парная регрессия довольно редко вступает в качестве эконометрической модели, поскольку исследуемые экономические явления формируются под влиянием не одного, а нескольких факторов. Этим обстоятельством определяется гораздо большая распространенность множественной регрессии в экономическом моделировании.
