- •Предисловие
- •Определение эконометрики
- •Лекция 10 причинное моделирование. Путевой анализ sepath
- •Лекция 11 временные ряды
- •Лекция 13 модели бокса - дженкинса
- •Лекция 14 прогнозирование в моделях бокса - дженкинса
- •Российская экономика в глобальном контексте: кризисный сценарий
- •Содержание
- •214000, Г. Смоленск, проспект им. Ю. Гагарина, 2.
Определение эконометрики
В современное экономическое образование традиционно включают три основных раздела: микро-, макроэкономику и эконометрику. Во времена СССР, когда экономика была предельно централизованной и плановой, эконометрические мероприятия сводились к межотраслевому балансу и методам оптимизации. В рыночных условиях в экономике резко возросла роль случая, неопределенности и риска. Это потребовало привлечения и освоения совершенно нового инструментария, который ранее получил значительное развитие прежде всего на Западе. Данный инструментарий именуется эконометрикой, в которой роль случая вьщвигается на передний план анализа и прогноза экономической реальности.
Если современную рыночную экономику представить в виде «клубка» причин и следствий, то экономическая теория обосновывает наличие тех или иных причинно-следственных связей, а эконометрика изучает связи вообще и, прежде всего, статистические связи. Это толкование эконометрики выступает, по-существу, в качестве ее определения. Однако таких определений можно дать множество. В связи с этим приведем ряд высказываний признанных авторитетов в области экономики и эконометрики1:
Эконометрика позволяет проводить количественный анализ реальных экономических явлений, основываясь на современном развитии теории и наблюдениях, связанных с методами получения выводов (Самуэльсон).
Основная задача эконометрики — наполнить эмпирическим содержанием априорные экономические рассуждения (Клейн).
Цель эконометрики — эмпирический вывод экономических законов. Эконометрика дополняет теорию, используя реальные данные для проверки и уточнения постулируемых отношений (Маленво).
Экономисты используют количественные данные для наблюдения за ходом развития экономики, ее анализа и прогноза. Набор статистических методов, используемых для этих целей, называется в совокупности эконометрикой (Грилихес).
Цит. по: Магнус Я.Р., Катышев П.К., Пересецшй А.А. Эконометрика. Начальный курс: Учебник. М.: Дело, 2005. СП.
10
Рекомендуемую по эконометрике литературу перечислим в порядке роста объема и охвата тематики: 1 Гладилин А.В., Герасимов А.Н., Громов Е.И. Эконометрика: Учеб. ' пособие. - М.: КНОРУС, 2006. - 232 с.
Мхитарян B.C., Архипова М.Ю., Балаш В.А. Эконометрика: Учебник для вузов. — М.: Проспект, 2008. — 384 с.
Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс: Учебник. — М.: Дело, 2005. — 504 с.
Елисеева И.И., Курышева СВ., Костеева Г.В. и др. Эконометрика: Учебник / Под ред. И.И. Елисеевой. — М.: Финансы и статистика, 2007. — 576 с.
Наиболее полное и обстоятельное введение в теоретические основы эконометрики приведено в классическом учебнике Я.Р. Магнуса, П.К. Катышева и. А.А. Пересецкого «Эконометрика. Начальный курс». В дальнейшем^ будем придерживаться обозначений, принятых в этом учебнике. В ряде случаев, чтобы не загромождать изложение теоретического материала чрезмерными математическими выкладками, будем ссылаться на эту работу Я.Р. Магнуса, П.К. Катышева и А.А. Пересецкого.
Приведем список литературы и набор сайтов для ознакомления с пакетом STATISTICA:
Боровиков В.П., Боровиков И.П. STATISTICA. Статистический анализ и обработка данных в среде Windows. — М.: Филинъ, 1998. - 608 с.
Боровиков В.П. Популярное введение в программу STATISTICA. - М.: КомпьютерПресс, 1998. - 267 с.
Боровиков В.П., Ивченко Г.И. Прогнозирование в системе STATISTICA в среде Windows. Основы теории и интенсивная практика на компьютере: Учеб. пособие. — М.: Финансы и статистика, 1999. — 384 с.
Халафян А.А. STATISTICA 6. Статистический анализ данных: Учебник. — М.: ООО «Бином-Пресс», 2007. — 512 с.
http://www.exponenta.ru/soft/Statist/Statist.asp
10. http://www.statsoft. ru/home/portal/default.asp
Примером учебного пособия по эконометрике с использованием некоторых возможностей пакета STATISTICA является следующее издание:
11. Яновский Л.П., Буховец А.Г. Введение в эконометрику: Учеб. пособие. - М.: КНОРУС, 2007. - 256 с.
11
Данные, с которыми имеет дело эконометрика, принято делить на пространственные и временные ряды. Пространственные ряды — данные о каком-либо экономическом показателе (или группе показателей), отнесенные к одному и тому же моменту времени. Временные ряды — данные о каком-либо экономическом показателе (или группе показателей), отнесенные к различным моментам времени.
Основные разделы эконометрики
Эконометрические модели, эконометрическое моделирование составляют основу эконометрической методологии анализа и прогноза. Принято различать следующие три группы моделей эконометрики:
регрессионная модель — это уравнение, в котором объясняемая переменная выступает в виде функции от объясняющих переменных;
системы одновременных уравнений состоят из набора регрессионных уравнений и некоторых тождеств;
модели временных рядов включают процедуры анализа (декомпозиции), синтеза, а также прогноза. Эконометрическое оценивание моделей включает два основных
этапа:
теоретический. Предпосылкой теоретического этапа выступает следующее представление. Считается, что определено все множество реализаций экономических показателей, или, на языке выборочного метода статистики, определена генеральная совокупность. Зная или полагая те или иные статистические свойства генеральной совокупности, можно теоретически определить параметры модели;
эмпирический. На эмпирическом этапе исследователь располагает лишь выборочными значениями экономических показателей. На этом этапе можно оценить, но нельзя точно определить значения параметров модели, поскольку они являются случайными величинами. Оценка проводится, чтобы получить как можно более точные и статистически достоверные значения неизвестных параметров модели, которые характеризуют генеральную совокупность всех возможных реализаций экономических показателей.
12
Характеристики генеральной совокупности, как правило, неизвестны, поэтому их оценивают по выборочным данным. Согласно выборочному методу статистики характеристики генеральной совокупности принято называть параметрами, а характеристики выборочной совокупности — оценками. Выборочная оценка дает удовлетворительное приближение для оцениваемого параметра, если она отвечает ряду требований. Эти требования характеризуются такими терминами, как «несмещенность», «эффективность» и «состоятельность».
Оценка называется несмещенной,-если ее математическое ожидание равно оцениваемому параметру при любом объеме выборки. В противном случае оценка называется смещенной.
Несмещенная оценка называется эффективной, если она имеет минимальную дисперсию по сравнению с другими выборочными оценками. *
Оценка называется состоятельной, если при увеличении объема выборки она стремится к оцениваемому параметру. ►
Метод наименьших квадратов (МНК) и его различные модификации — один из важнейших эконометрических методов. Регрессионный анализ, основанный на методе наименьших квадратов, дает наилучшие результаты из всех возможных, когда выполняются условия теоремы Гаусса — Маркова (см. лекцию 2). При выполнении этих условий регрессионная модель называется классической нормальной линейной регрессионной моделью. Отклонения от нормальной линейной регрессионной модели характеризуются терминами «гетероскедастичность» и «автокорреляция» (их смысл будет обсуждаться далее).
Модель потребления является классическим примером использования математических моделей в эконометрике. Пусть С — потребление некоторого пищевого продукта на душу населения в некотором году, Y— реальный доход на душу населения, Р — цена на этот продукт с учетом инфляции, а Р0, JJ,, Р2 — константы. Выберем следующее уравнение для связи всех перечисленных переменных:
(1)
Уравнение (1) выступает в качестве ключевого элемента математической модели описания поведения потребителя по отношению к покупке данного пищевого продукта в зависимости от душевого дохода и уровня цен. Модель потребления будет оконча-
13
В изучение проблемы цикличности в эконометрике значительный вклад внесли такие ученые, как К. Жюгляр, С. Китчин, С. Кузнец, Н. Кондратьев, К. Маркс и др. Ими выявлены цикличность инвестиций в активную часть основных фондов (с периодом 7—11 лет), в обновление оборотных средств (3—5 лет), циклы в строительстве (15—20 лет) и циклы обновления инфраструктуры (40-60 лет).
Заметным этапом развития эконометрики стало появление экономических предсказателей, или, как их еще называют, барометров. Ярким примером выступает гарвардский барометр. Идея барометров заключалась в предсказании динамики одних показателей экономики с помощью других, изменения которых опережают первые во времени. В течение 1903—1914 гг. удавалось за несколько месяцев прогнозировать поворотные пункты в усредненных кривых фондового, товарного и денежного рынков. Со второй четверти XX в. гарвардский параметр утратил прогнозирующие свойства.
В конце 1930 г. в США было создано первое международное эконометрическое общество. С 1933 г. начал издаваться журнал «Econometrica». В 1941 г. появился первый учебник по эконометрике, написанный Я. Тинбергеном.
До 70-х годов XX в. эконометрика выступала инструментом подтверждения с помощью наблюдений тех количественных соотношений, которые вырабатывала экономическая теория. Такое положение дел объясняется тем, что большинство экономических моделей того периода были кейнсианскими. В дальнейшем, когда началась дискуссия между кейнсианцами, монетаристами и представителями прочих экономических теорий, для выбора той или иной математической модели стали использовать формальные эконометрические модели.
На рис. 3 приведены блок-схемы1, иллюстрирующие взаимное позиционирование экономической теории и эконометрического анализа до и после 70-х годов. Роль формальных эконометрических методов особенно возросла после 70-х годов в связи с огромным «предложением» различного рода конкурирующих друг с другом
Яновский Л.П., Буховеи А.Г. Введение в эконометрику: Учеб. пособие. М.: КНОРУС, 2007. 256 с.
16
После 70-х годов в связи с бурным развитием вычислительной техники Дж. Бокс и Г. Дженкинс создали теорию интегрируемых моделей авторегрессии и скользящего среднего (ARIMA) для анализа и прогноза временных рядов.
В начале 80-х годов развиваются методы решения систем одновременных уравнений и путевой анализ. Для решения систем одновременных уравнений используются косвенный, двухшаговый и трехшаговый методы наименьших квадратов.
«.
Лекция 2 МОДЕЛЬ ПАРНОЙ РЕГРЕССИИ
Исследуется простейшая модель парной регрессии, или одномерная регрессионная модель. Обсуждается метод наименьших квадратов (МНК). Дается геометрическая интерпретация процедуры метода наименьших квадратов. Определяются гипотезы, лежащие в основе линейной регрессионной модели. Формулируется и' доказывается теорема Гаусса — Маркова.
Пусть имеется набор значений двух переменных Xt, Yt, t= 1,..., п. Можно построить так называемую диаграмму рассеяния — график, состоящий из декартовых осей координат X, Yh точек с координатами (X,, Y,), г= 1,..., и. Пример диаграммы рассеяния представлен нарис. 1.
В нашу задачу входит подобрать такую функцию Y = f(X) из параметрического семейства f(X, (3,, ..., р ), которая наилучшим способом описывает зависимость У от Л". Это означает, что на диаграмме рассеяния искомая линия должна проходить по местам наибольшего скопления наблюдаемых точек. Подобрать соответ-
Рис. 1. Диаграмма рассеяния и прямая линия, наилучшим образом описывающая зависимость YmX
19
20
Численные значения коэффициентов а и Ь, входящих в (8), допускают естественную интерпретацию. Число 118 — это количество туристов, которые воспользуются услугами туристической фирмы, если та вообще не тратится на рекламу. Второе число означает, что количество туристов-клиентов возрастет в среднем приблизительно на 84 человека, если туристическая фирма увеличит затраты на рекламу на 1000 у.е. в отчетный период. Другими словами, в каждого туриста, который обращается к услугам туристической фирмы, в среднем через рекламу вложено 1000/83,84 = = 12 у.е.
24
Свойство
гетероскедастичности на
диаграмме рассеяния
X
Рис. 4. Пример ярко выраженного свойства гетероскедастичности
рассматриваются временные ряды. Если указанное условие не выполняется, говорят об автокорреляции ошибок.
На рис. 5, а приведена диаграмма рассеяния временного ряда с ярко выраженными сезонными колебаниями, а на рис. 5,6 — соответствующая автокоррелограмма, характеризующая корреляцию между соседними измерениями, вплоть до значения лага, равного 15, т.е. \t-s\= 15.
Пусть в нашем распоряжении находятся данные наблюдений (Xt, Yt), t= 1, ..., п и модель (9), (10). Оценим параметры а, А и с2 наилучшим способом. Теоретическая проблема состоит в следующем: какой смысл вкладывать в слово «наилучшая»?
Теорема Гаусса — Маркова. При выборе модели (9), (10) оценки а, Ь, полученные в (4) методом наименьших квадратов (МНК), являются несмещенными и имеют наименьшую дисперсию в классе всех линейных несмещенных оценок.
Доказательство.
1. Проверим, что МНК-оценки a, b являются несмещенными оценками истинных значений а, Ь.
Согласно определению несмещенности, представленному в лекции 1, необходимо доказать, что Ей = а и ЕЬ = Ь.
26
уровень значимости в нашей задаче 0,05, приходим к выводу: поскольку ccmin = 0,000015 < 0,05, можно отказаться от нулевой гипотезы на уровне значимости 0,05 и считать, что в построенной выще регрессионной модели коэффициент регрессии статистически значим.
Пример 4. Исследуем вопрос о связи числа самоубийств в Российской Федерации и объема потребляемой в стране алкогольной продукции с точки зрения регрессионного моделирования. Обратимся к официальным данным, опубликованным в Российском статистическом ежегоднике (М., 2006).
Данные приведены в табл. 1, где столбец Year обозначает год наблюдения; столбец Alcohol — количество потребляемого алкоголя в абсолютном выражении, млн дал (1 дал = 10 л); столбец Suicide — число умерших в результате самоубийства, тыс. чел.
Таблица 1 Данные о потреблении алкоголя и числе самоубийств
в Российской Федерации
|
Year |
Alcohol |
Suicide |
1 |
1970 |
101,0 |
38,9 |
2 |
1975 |
122,0 |
44,8 |
3 |
1980 |
137,0 |
47,9 |
4 |
1985 |
109,0 |
44,6 |
5 |
1990 |
78,8 |
39,2 |
6 |
1995 |
60,8 |
61,0 |
7 |
1996 |
39,3 |
57,8 |
8 |
1997 |
46,0 |
55,0 |
9 |
1998 |
50,0 |
51,8 |
10 |
1999 |
73,4 |
57,3 |
11 |
2000 |
74,4 |
56,9 |
12 |
2001 |
83,5 |
57,3 |
13 |
2002 |
90,4 |
55,3 |
14 |
2003 |
91,5 |
51,7 |
15 |
2004 |
95,9 |
49,4 |
Вначале посмотрим на соответствующие графики зависимости потребления алкоголя и числа самоубийств от времени (рис. 2).
Отметим две особенности: минимум потребления алкоголя за указанный период приходится на 1996 г.; максимум самоубийств — на 1995 г. Это дает основание предположить, что между потребле-
42
Вывод. Из всей изменчивости статистики самоубийств в Российской Федерации третью их часть можно связать с общим потреблением алкоголя в стране, причем связь эта отрицательная, т.е. чем больше потребление алкоголя, тем меньше самоубийств, и наоборот, чем меньше потребление алкоголя, тем больше самоубийств. Вместе с тем, чтобы получить объективные выводы, необходимо учитывать другие возможные причины самоубийств (наркомания, неразделенная любовь, безысходность, усталость и пр.), которые могут оказаться не менее, а даже более важными, чем алкоголь.
V
(млн чел.)
Год |
Железная дорога |
Автобус |
Метро |
1970 |
2500 |
15053 |
2047 |
1980 |
2971 |
23 356 |
3036 |
1990 |
3143 |
28626 |
3695 |
1995 |
1833 |
22817 |
4150 |
2000 |
1419 |
22033 |
4186 |
2001 |
1306 |
20883 |
4205 |
2002 |
1271 |
19620 |
4200 |
2003 |
1704 |
17898 |
4205 |
2004 |
1335 |
16552 |
4211 |
2005 |
1339 |
11297 |
3574 |
74
Пример 1. Рассмотрим свойство мультиколлинеарности на примере данных о связи валового внутреннего продукта Российской Федерации (переменная ВВП на рис. 1) с численностью экономически активного населения (переменная Э_нас-ие) и инвестициями в основной капитал (переменная Инвест.). Эти данные уже изучались в предыдущей лекции (см. пример 1). Там же была построена множественная высокозначимая регрессия (ВВП по Э_нас-ие и Инвест.), все коэффициенты которой также высокозначимы:
ВВП --43 968,518489 + 0,619745Э_нас-ие +0,005517Инвест. (1)
(-4,53) (4,51) (36,04)
В регрессии (1) в скобках указаны значения /-статистики Стью-дента для каждого коэффициента регрессии. Для регрессии (1) коэффициент детерминации R2- 0,99971, а соответствующее значение /'-статистики равно F(2, 4) = 6826,6.
На рис. 1 приведена таблица с данными примера 1. Помимо ВВП, Э_нас-ие и Инвест, в ней содержатся также другие переменные, смысл которых будет уточнен далее.
|
1 Time | |
2 ВВП |
3 Э нас-не |
4 Инвест. |
5 ВВП и |
S Э_нас-ив_м | |
7 Инвест_м |
1 |
1995 |
1428,5 |
70740 |
266974 |
2212,22 |
300,39: |
358825 |
2 |
2000 і |
7305,6 |
72332 |
1165234 |
-1405,75 |
242,09 |
-283748 |
3 |
2001 і |
8493,6 |
71411 |
1604712 1762407 |
-2116,77 |
-1008,98 |
-252436 |
4 5 |
2002: 2003! |
10830,5 |
72629 |
-1678,88 |
-121,03! |
-302907 |
|
13243,2 |
73198 |
2186365 2804834 |
-1165,19 |
117,91! |
-187116 |
||
6 |
2004 |
17048,1 |
73359 |
740,69 |
-51,16! |
123187 |
|
7 |
2005 |
21620,1 |
74261 |
3534009 |
3413,68 |
520,78 |
544195 |
Рис. 1. Данные примера 1 в пакете STATISTICA
Найдем коэффициент корреляции между переменными Э_нас-ие и Инвест. Он равен г(Э_нас-ие, Инвест.) = 0,9386. Столь
78
высокое значение коэффициента корреляции между парой регрес-соров свидетельствует о наличии мультиколлинеарности в регрессионной модели (1).
Чтобы понять природу данной мультиколлинеарности, рассмотрим графики зависимости наших переменных от времени (переменная Time на рис. 1). Данные графики приведены на рис. 2. Из анализа этих графиков следует, что имеется общая тенденция роста. Чтобы убедиться в том, что именно общая тенденция является причиной мультиколлинеарности, исключим из каждой переменной ее основную тенденцию, а для полученных остатков построим другую множественную регрессию.
Выберем для простоты в качестве основной тенденции линейную регрессию, тогда с помощью пакета STATISTICA получим следующие три трендадля каждой из переменных ВВП, Э_нас-ие и Инвест.:
ВВП, = -3 789115,604348 + 18§9,013478 Time,
(-6,52) (6,54)
Э_нас-ие, = -588031,826087 + 330,060870Time, (2)
(-4,39) (4,94)
Инвест., = -614883448,956522+308166,465217Time.
(-6,60) (6,62)
Все коэффициенты в регрессионных моделях (2) высокозначимы (в скобках приведены значения /-статистики Стьюдента). Вычтем теперь из переменных ВВП, Э_нас-ие и Инвест, соответствующие значения тенденций, вычисленные согласно формулам (2), тогда получим остатки, обозначенные на рис. 1 как переменные ВВП_м, Э_нас-ие_м и Инвест_м.
Прежде чем строить регрессию ВВП_м по переменным Э_нас-ие_м и Инвест_м, найдем корреляцию между регрессорами Э_нас-ие_м и Инвест_м. Данная корреляция легко вычисляется в пакете STATISTICA, она равна 0,5728. Полученное значение коэффициента корреляции является умеренным, что свидетельствует об отсутствии мультиколлинеарности.
Результаты построения множественной регрессии ВВП_м по переменным Э_нас-ие_м и Инвест_м представлены на рис. 3.
Кроме свободного члена (Intercept) два других коэффициента Регрессии высокозначимы. Без существенной потери точности свободный член может быть отброшен (его значение, представленное в столбце В, равно -0,000206).
79
80
Динамика ВВП РФ
24
000
22
000
20
000
18
000
16
000
14
000
И
12 000
«
10 000
8000
6000
4000
2000
0
2002 2004 2006
1994 1996 1998
2000 Time
б) Динамика численности экономически активного населения РФ 74 500
74 000
73 500 g 73 000 к 72 500 д1 72 000
71500
71000
2002 2004 2006
1994 1996 1998
2000 Time
70 500
Динамика инвестиций в основной капитал РФ
е)
4Е6 3,5Е6
I
ЗЕ6 2.5Е6
2Е6 1,5Е6
1Е6
5Е5 0
2000 Time
2002 2004 2006
1994 1996 1998
Рис. 2. Динамика ВВП (а), численности экономически
активного населения (б) и инвестиций
в основной капитал (в) Российской Федерации
Рис. 6. Итоговая таблица построения регрессионной модели (8)
Соответствующие значения /-статистик, приведенные в скобках, показывают, что все коэффициенты регрессионной модели (8') высокозначимы (на уровне 0,05 и даже 0,001). По сравнению с регрессионной моделью (У) модель (8') имеет больший коэффициент детерминации R2 ~ 0,7418 (против 0,6833 для модели (!')).
Смысл коэффициентов модели (8') следующий. Первый коэффициент можно истолковать как среднюю цену нового автомобиля (Age = 0) среди двух моделей VAZ2107, VAZ2109. Второй коэффициент показывает, что в течение каждого года машина теряет приблизительно 4574,342920 = 4570 руб. Третий коэффициент -26692,282129 = -26700 руб. указывает, насколько уменьшится в среднем цена новой машины после добавления модели VAZ2105 к двум моделям VAZ2107, VAZ2109. Аналогично четвертый коэффициент регрессии -23 807,954366 ~ -23 800 руб. указывает, насколько уменьшится в среднем цена новой машины после добавления модели VAZ2106 к двум моделям VAZ2107, VAZ2109. С учетом всех четырех моделей VAZ2105 (VAZ2105 = 1), VAZ2106 (VAZ2106 = 1), VAZ2107 и VAZ2109 средняя цена новой машины составит 139991,887299 - 26692,282129 - 23 807,954366 т 89500 руб., что сравнимо со средней ценой автомобиля = 84360 руб., полученной согласно статистике, представленной на рис. 4.
Наконец, если ввести в набор регрессоров все четыре модели автомобилей, т.е. VAZ2105, VAZ2106, VAZ2107, VAZ2109, и попытаться провести регрессионное моделирование, то в рамках пакета STATISTICA будет получен отказ. В этом случае определить МНК-оценки невозможно, так как регрессоры VAZ2105, VAZ2106, \AZ2107, "VAZ2109 линейно зависимы, что демонстрирует переменная SUM на рис. 4, в которой представлена сумма VAZ2105, + + VAZ2106, + VAZ2107, + VAZ2109, = 1, t = 1,..., 95. Это и есть ситуация «dummy trap», когда сумма фиктивных переменных тождественно равна константе.
86
Variable |
Variables currently in the Equation; DV: ВВП |
|||
Beta in 1 Partial I Cor. |
Semipart Tolerancej R-»quare Cor. |
«4> |
p-level |
|
Т"нас-ие Инвест. |
0,111889; 0,914134 0^94086] 0,998463 |
0,038589 0,118947: 0,881053 |
4,50966; 0,010743 |
|
0,308358; 0,118947 0,881053 |
36,03595 |
0,000004 |
||
Рис. 7. Окно пакета STATISTICA с численными значениями частных коэффициентов корреляции
В ряде случаев исследователь заранее знает характер зависимости исследуемых величин, опираясь на экономическую теорию, предыдущие результаты, априорные знания и т.п. Тогда ему остается лишь оценить неизвестные параметры. Классическим примером является процедура оценивания параметров производственной функции Кобба — Дугласа
Y=AKaL^, і где У— совокупный выпуск продукции; К— капитальные вложения; L — трудовые затраты. Логарифмируя функцию Кобба — Дугласа, получим линейное относительно параметров 1гь4, а, Р уравнение. Далее можно действовать обычным образом, используя МНК-оценки неизвестных параметров, проверять гипотезы и пр.
На практике часто приходится сталкиваться с ситуацией, когда имеется большое число наблюдений различных независимых переменных, но нет модели изучаемого явления. Возникает общая проблема определения необходимого и достаточного набора ре-грессоров.
В компьютерные пакеты (в том числе и в пакет STATISTICA) включены различные эвристические процедуры пошагового отбора регрессоров, основными из них являются: ' процедура последовательного удаления;
процедура последовательного присоединения;
процедура присоединения-удаления.
В процедуре последовательного удаления анализ начинается с включения в регрессионную модель всех переменных. Затем для каждой переменной вычисляют частную /"-статистику, и ту переменную, для которой /"-статистика минимальна, исключают Из Рассмотрения. Далее строят новую модель по оставшимся переменным, и после вычисления частных /"-статистик вновь удаляют °Дну из переменных. И так до тех пор, пока не будет достигнуто бранеє заданное число переменных в модели или все /"-статистики е станут больше заданного порога.
89
В процедуре последовательного присоединения начинают с построения модели, включающей лишь одну переменную, имеющую наибольший по абсолютной величине парный коэффициент корреляции с зависимой переменной. Затем вычисляют частные /"-статистики для всех оставшихся переменных и включают в модель переменную с наибольшей /-статистикой. Это эквивалентно включению переменной, имеющей наибольший частный коэффициент корреляции с зависимой переменной. Процесс повторяется до тех пор, пока в модели не наберется определенное число переменных или /-статистики не станут меньше заданного порога.
В процедуре присоединения-удаления выбирают фиксированные пороговые уровни /вкл и /искл и на каждом шаге рассматривают возможности добавить переменную, исключить переменную, заменить одну переменную другой или остановить процесс. На каждом шаге вычисляются /"-статистика переменных, коэффициент детерминации R2 и степень допустимой коррелированности переменных, вошедших в регрессионное уравнение.
Пример 4. Вернемся к данным, рассмотренным в предыдущей лекции (см. рис. 1 в лекции 5). Найдем с помощью процедуры удаления (присоединения) в пакете STATISTICA оптимальный набор регрессоров для объяснения переменной валового внутреннего продукта (ВВП).
На рис. 8 приведен итог процедуры пошагового удаления переменных из потенциального набора регрессоров. На первом шаге была удалена переменная Доход, так как она имела минимальную частную /"-статистику (0,002). На втором шаге была удалена переменная Сальдо, имеющая минимальную /-статистику (0,576). Наконец, на третьем шаге процедура пошагового удаления завершилась, так как все оставшиеся /-статистики для переменных Э_нас-ие и Инвест, превышают пороговое значение 1. По окончании процедуры пошагового удаления переменных осталось два регрессора: Э_нас-ие и Инвест.
На рис. 9 приведен итог процедуры пошагового присоединения переменных из потенциального набора регрессоров. На первом шаге была включена переменная Инвест., так как она имела максимальную частную /-статистику (2800,843). На втором шаге была добавлена переменная Э_нас-ие, имеющая максимальную /-статистику (20,337). Наконец, на третьем шаге процедура поша-
90
91
|
|
1 Год |
2 і 3 І Урожайность Остаток |
4 Grp1 |
5 D1 |
6 Grp2 |
7 D2 |
1 |
1945 |
5,6 1,40642 |
5,6 |
0,07036 |
|
|
|
— |
г |
1946 |
4,6 2,63044 |
4,6 |
2,39109 |
|
|
3 |
1947 |
7,3 0,15445 |
7,3 |
0,76149 |
|
|
|
4 |
1948 |
6,7 0,97847 |
6,7 |
0,00007 |
|
|
|
|
S |
1949 |
6,9 1,00249 |
6,9 |
0,00801 |
|
|
|
6 |
1950 |
7,9 0,22650 |
7,9 7,4 |
0,39624 0,02298 |
|
|
|
7 |
1951 |
7,4 0,96052 |
|
|
||
|
8 |
1952 |
8,6 0,02547 |
8,6 7,8 |
0,58885 |
|
|
|
9 |
1953 |
7,8 0,99855 |
0,09840 |
|
|
|
10 |
1954 |
7,7 1,32257 |
7,7 |
0,48266 |
|
|
|
|
11 |
1955 |
8,4 0,84658 |
8.4 |
0,07606 |
|
|
|
12 |
1956 |
9,9 0,42940 |
9,9 |
0,88955 |
|
|
|
13 |
1957 |
8,4 1,29462 |
8,4' |
0,70207 |
|
|
|
14 |
1958 |
11,1 1,18137 |
11,1 |
5,49973 |
|
|
|
15 |
1959 |
10,4 0,25735 |
10,4 |
0,36000 |
|
|
|
16 |
1960 |
10,9 0,53334 |
10,9 |
0,67067 0,11417 |
|
|
|
17 |
1961 |
10,7 0,10932 |
10,7 |
|
|
|
|
18 |
1962 |
10,9 0,08531 |
10,9 |
0,06597 |
|
|
|
19 |
1963 |
8,3 2,73871 |
8,3 |
6,88648 |
|
|
|
20 |
1964 |
11,4 0,1372! |
|
|
|
|
|
21 |
1965 |
9,5 1,98674 |
|
|
|
|
|
22 |
1966 |
13,7 1,98924 |
t |
|
|
|
|
23 |
1967 12,1 0,16523 |
|
|
|
|
|
|
24 |
1968 |
14,0 1,84121 |
|
|
|
|
|
25 |
1969 |
13,2 0,81719 |
|
|
|
|
|
26 |
1970 |
15,6 2,99318 |
|
|
|
|
|
27 |
1971 |
15,4 2,56916 |
|
|
|
|
|
23 |
1972 |
14,0 0,94515 |
|
|
|
|
|
29 |
1973 |
17,6 4,32113 |
|
|
|
|
|
ЗО |
1974 |
15,4 1,89712 |
|
|
|
|
|
31 |
1975 |
10,9 2,82690 |
|
|
|
|
|
32 |
1976 |
17,5; 3,54908 |
\ |
|
|
|
|
33 |
1977 |
15,0 0,82507 |
|
|
|
|
|
34 |
1978 |
18,6 4,10105 |
|
|
18,5 |
10,46772 |
|
35 |
1979 |
14,2і 0,42296 |
|
|
14,2 |
1,42174 |
|
36 |
1980 |
14,9 0,05302 |
|
|
14,9 |
0,38455 |
|
37 |
1981 |
12,6 2,47100 |
|
|
12,6 |
9,28954 |
Рис. З. Фрагмент данных о динамике урожайности зерновых культур в России в контексте проверки наличия свойства гетероскедастичности
По тесту Гольдфельда — Квандта в таблице на рис. 3 определены Две группы данных (Grpl, Grp2), для них построены соответствующие рефессионные модели и найдены квадраты остатков (D1, "2). Суммирование квадратов остатков дало: Dx = 17,08; D2 - 48,95.
Находим D и соответствующее критическое значение а вероятности /"-критерия Фишера с 17 степенями свободы: D = 2,87 и « = 0,018.
Вывод. Согласно тесту Гольдфельда — Квандта, поскольку р 0,018 < 0,05, на уровне значимости 0,05 можно считать, что Регрессионная модель (1) динамики урожайности зерновых куль-УР в России обладает свойством гетероскедастичности.
7 ~2043
97
ности:
преобразование исходных данных;
применение обобщенного метода наименьших квадратов (ОМНК).
Преобразование данных для уменьшения гетероскедастичности
Первый подход к решению проблемы" гетероскедастичности заключается в следующем: исходные данные преобразуются таким образом, что для новых данных соответствующая регрессионная модель уже не будет обладать свойством гетероскедастичности. Чаще всего используют два вида преобразований:
логарифмирование данных;
переход к безразмерным величинам путем деления на некоторые известные величины той же размерности, что и исходные данные.
Пример 3. Применим тест Гольдфельда — Квандта на наличие гетероскедастичности к прологарифмированным данным о динамике урожайности зерновых культур в России (см. пример 1).
На рис. 6 приведена таблица из пакета STATISTICA с преобразованными данными и результатами расчетов с помощью теста Гольдфельда — Квандта. В частности, по преобразованным данным была построена линейная регрессионная модель
Logy = -34,938593 + 0,018990 X. (6)
(-12,42) (13,31)
Согласно (6) все коэффициенты регрессионной модели высокозначимы, кроме того, R1 = 0,779; F= 177,18.
По тесту Гольдфельда — Квандта в таблице на рис. 6 определены две группы данных (Grpl, Grp2), для них построены соответствующие регрессионные модели и найдены квадраты остатков (D1, ™), Суммирование квадратов остатков дало: Dx = 0,287; D2 = 0,187. Находим D и соответствующее критическое значение а вероятности .F-критерия Фишера с 17 степенями свободы: D^DJDj = 1,53 и« = 0,195.
Вывод. Согласно тесту Гольдфельда — Квандта, поскольку
= 0,195 > 0,05, то на уровне значимости 0,05 нельзя сделать вывод
0 Наличии у регрессионной модели (6) свойства гетероскедастич-
101
|
1 Цена |
2 Площадь |
Остаток |
4 Цеиа_Пл |
5 1_ПЯ |
6 Остатокг |
1 |
5876 |
503 |
545,334 |
11,682 22,434 |
0,002 |
3,543 |
г |
5743 |
256 |
2454,619 |
0,004 |
7,938 |
|
3 |
5355 |
263 |
1977,831 |
20,361 |
0,004 |
5,826 |
4 5 |
5202 6099 |
484 |
978,338 3231,229 |
10,748 |
0,002 |
4,447 22.069 |
144 |
35,410 |
0,007 |
||||
7 Э |
1774 |
120 |
210,645 |
14,783 |
0,008 |
1,970 |
1770 |
188 |
655,868 |
9,415 |
0,005 |
4,544 |
|
9 to |
1747 |
93 |
526,114 |
18,785 |
0,011 |
6,891 |
1737 |
246 |
1424,541 |
7,061 |
0,004 |
7,374 |
|
11 |
842 |
110 |
594,515 |
7,655 |
0,009 |
4,871 |
12 |
840 |
63 |
0,366 |
13,333 |
0,016 |
3,386 |
13 |
840 |
117 |
685,303 |
7,179 |
0,009 |
5,552 |
и |
836 |
75 |
156,574 |
11,147 |
0,013 |
0,234 |
15 |
816 |
110 |
620,616 |
7,418 |
0,009 |
5,107 |
1« |
137 |
30 |
284,793 |
4,567 3,806 |
0,033 0,028 |
1,256 1,617 |
1? |
137 |
36 |
360,897 |
|||
18 |
137 |
30 |
284,793 |
4,567 |
0,033 |
1,256 |
1S |
136 |
35 |
349,213 |
3,886 |
0,029 |
1,235 |
20 |
136 |
60 |
666,313 |
2,267 |
0,017 |
7,379 |
Рис. 10. Данные о продаже 20 московских квартир
Согласно (14) коэффициент регрессии высокозначим, кроме того, R2 = 0,679; F= 38,08. Свободный член регрессионной модели (14) незначимо отличается от нуля. Модуль остатков ошибок регрессионной модели (14) приведен в столбце Остаток на рис. 10.
Попробуем визуально обнаружить наличие гетероскедастично-сти. На рис. 11, о построена диаграмма рассеяния в координатах Площадь — Остаток. Из графика видна довольно сильная зависимость остатка регрессионной модели от регрессора Площадь, т.е. в среднем с увеличением площади ошибка растет. Будем считать, что ошибка регрессии є пропорциональна регрессору Площадь, т.е. г = Площадью. Подставив последнее выражение в (14) и поделив обе части уравнения на Площадь, получим новую зависимую переменную, обозначенную на рис. 10 как Цена_Пл, и новую независимую переменную 1_Пл. Новые зависимая и независимая переменные определяются согласно следующим уравнениям: Цена_Пл = Цена / Площадь, 1_Пл = 1/Площадь.
В пакете STATISTICA строим соответствующую регрессионную модель в переменных 1_Пл — Цена_Пл:
Цена_Пл = 15,980541 - 380,087510(1_Пл) + и. (15)
(6,29) (-2,39)
Согласно (15) оба коэффициента регрессии высокозначимы на уровне значимости 0,05, кроме того, R2 = 0,241; F= 5,709. По срав-
110
|
|
1 Цена |
2 J Площадь |
3 Остаток |
•t Gr1 |
I 5 01 |
в Gr2 |
7 D2 |
|
1 |
110 |
19 |
-53,92 |
110 |
0,2168 |
|
|
|
2 |
107 |
32 |
-242.98 |
107 |
1,8258 |
|
|
|
3 |
107 |
40 |
-357,48 |
107 |
0,3883 |
|
|
|
4 |
107 |
40 |
-357.48 |
107 |
0,3883 |
|
|
|
5 |
110 |
41 |
-368,79 |
110 |
6,0905 |
|
|
|
6 |
108 |
44 |
-413,72 |
108 |
0,5490 |
|
|
|
7 |
106 |
46 |
-444,35 |
106 |
1,1600 |
|
|
|
В |
107 |
58 |
-615,09 |
|
|
|
|
|
9 |
107 |
64 |
-700,97 |
|
|
|
|
|
10 |
112 |
80 |
-924.96 |
|
|
|
|
|
11 |
2387 |
130 |
634,43 |
|
|
|
|
|
12 |
2550 |
134 |
740,19 |
|
|
|
|
|
13 |
3060 |
158 |
906,70 |
|
|
|
|
|
14 |
3264 |
158 |
1110,70 |
|
|
3264 |
1407,48 2153177,65 248373,45 864210,45 |
|
15 |
5049 |
200 |
2294,59 |
|
|
5049 |
|
|
1С ' 17 |
4080 2652 |
200 |
1325,59 |
|
|
4080 |
|
200 |
-102,41 -798.14 |
|
|
2652 |
||||
|
18 |
2815 |
260 |
|
|
2815 |
1361398,90 |
|
|
Ї9 |
4470 |
351 |
-445,54 |
|
|
4470 |
14089,97 |
|
Г20 |
5876 |
501 |
-1186,36 |
9 |
|
5876 |
82309,31" |
SUM case |
-20 |
|
|
|
|
10,618658 |
|
|
SUM case 1-21 |
|
ч^ |
|
0 |
|
|
4724967,23 |
|
Рис. 12. Исходные данные к примеру 6 и процедура оценки гетероскедастичности с помощью теста Гольдфельда — Квандта
Воспользуемся тестом Гольдфельда — Квандта и покажем наличие гетероскедастичности в регрессионной модели (16). Согласно тесту Гольдфельда — Квандта в таблице на рис. 12 определены две группы данных (Grl, Gr2), для них построены соответствующие регрессионные модели и найдены квадраты остатков (Dl, D2). Суммирование квадратов остатков дало: D, = 10,6; D2 = 4724967,2.
Находим D, которое удовлетворяет /^-критерию Фишера: D = D2/D{ = 445751. Поскольку значение D чрезвычайно велико, с высокой надежностью можно считать, что гетероскедастичность действительно имеет место в модели (16).
В рамках процедуры применения ОМНК будем исходить из того, что дисперсия ошибок описывается двумя значениями: для первых 10 значений цены за квартиру (обычное, дешевое жилье) и Для вторых 10 ее значений (элитное, дорогое жилье). На рис. 13 приведена итоговая таблица с исходными данными (столбцы Цена, Площадь) и модифицированными данными (столбцы ЦенаМ, шіощадьМ и ОстатокМ) с учетом наличия двух дисперсий: »і - 505, ш2 = 3505.
Итак, после применения процедуры ОМНК к исходным данным (столбцы Цена, Площадь) получились новые наборы данных Столбцы ЦенаМ, ПлощадьМ), по которым была построена регрес-
8 - 2043
113
Рис. 13. Исходные и модифицированные данные, а также применение теста Гольдфельда — Квандта к модифицированным данным
сионная модель и найдены остатки, представленные в столбце ОстатокМ. Согласно тесту Гольдфельда — Квандта в таблице на рис. 13 определены две группы данных (Grl, Gr2), для них построены соответствующие регрессионные модели и найдены квадраты остатков (Dl, D2). Суммирование квадратов остатков дало: D, = 0,2; D2 = 2,27. Находим D, которое удовлетворяет ^-критерию Фишера: D = B2/Dl = 11,35. Полученное значение все еще велико, но оно намного меньше предыдущего значения, равного 445 751. Вывод. Процедура учета двух значений дисперсии ошибок оказалась очень эффективной в борьбе с гетероскедастичностью. Таким образом, удалось снизить гетероскедастичность с 445751 до 11,35, т.е. более чем на четыре порядка.
Таблица 1 Проверка нулевой гипотезы с помощью статистики Дарбина — Уотсона
Значение статистики DW |
Вывод |
4-d, < DW < 4 |
Гипотеза Н0 отвергается, есть отрицательная корреляция |
A-du < DW < 4-d, |
Неопределенность |
du < DW < A-du |
Гипотеза Н0 не отвергается |
d, < DW < du |
Неопределенность |
0 < DW < d, |
Гипотеза Н0 отвергается, есть положительная корреляция |
Если наблюдаемое значение критерия Дарбина — Уотсона попадает в зону неопределенности, то на практике предполагают существование автокорреляции остатков и отклоняют нулевую гипотезу.
Пример 1. Используя пакет STATISTICA, применим тест Дарбина — Уотсона к данным о динамике золотовалютных резервов России за период с 26 декабря 2003 г. по 7 января 2005 г. Воспользуемся процедурой Кохрейна — Оркатта для оценки значения коэффициента авторегрессии, считая динамику авторегрессионньШ процессом первого порядка.
Этот пример подробно рассмотрен на семинаре 9. На рис. 1 приведена электронная таблица с данными и промежуточными расчетами; здесь в столбце X (регрессор) указано время (дни), оТ' считываемое от начального момента, т.е. от 26 декабря 2003 г., а в столбце Y — золотовалютные резервы (млрд долл.).
120
Рис. 2. Применение теста Дарбина — Уотсона к данным примера 1
Применение двух итераций процедуры Кохрейна — Оркатта (см. рис. 1) позволило получить следующие оценки для коэффициента авторегрессии р: 0,994033 и 0,994058, т.е. с хорошей точностью можно считать, что он равен 0,994.
Вывод. Тест Дарбина — Уотсона подтвердил наличие корреляции по времени в ряде динамики золотовалютных резервов России, процедура Кохрейна — Оркатта позволила оценить коэффициент авторегрессии, он оказался равным 0,994.
Прогнозирование в регрессионных моделях
Одна из важнейших целей моделирования в экономике заключается в прогнозировании исследуемых явлений. Обычно термин «прогнозирование» используют в ситуациях прогноза во времени. Для регрессионных моделей процедура прогнозирования имеет более широкое толкование. Данные могут не иметь временной структуры, однако может возникнуть следующая задача: оценить зависимую переменную при тех значениях регрессоров, которые отсутствуют в исходных данных, т.е. необходимо решить так называемую задачу интерполяции {экстраполяции). Именно в смысле построения оценки зависимой переменной следует понимать прогнозирование в эконометрике.
В рамках выборочного метода в статистике различают точечное и интервальное прогнозирование. При точечном прогнозировании находится конкретное число, при интервальном — интервал, в котором истинное значение переменной находится с заданной нз-
122
С позиций взаимосвязей между эндогенными переменными, не имеющими временного запаздывания, различают следующие модели одновременных уравнений: простые, рекуррентные и модели с взаимозависимыми переменными. Если матрица 2?диагональная или становится такой после перенумерации уравнений модели, то модель называется простой. Если матрица В треугольная или становится такой после перенумерации уравнений либо после изменения места переменных в уравнениях, то модель называется рекуррентной. Если в результате перенумерации уравнений либо изменения местоположения переменных не удается преобразовать матрицу В в диагональную или треугольную, то модель признается моделью с взаимозависимыми уравнениями.
Вернемся к проблеме идентифицируемости структурных коэффициентов. Говоря качественно, тот или иной структурный коэффициент идентифицируем, если он может быть однозначно вычислен на основе коэффициентов приведенной формы. Соответственно, какое-либо уравнение в структурной форме модели называется идентифицируемым, если все его коэффициенты идентифицируемы.
Приведенная форма (16) позволяет состоятельно оценить тк элементов матрицы Си т(т + 1)/2 элементов матрицы ковариаций вектора ошибок v,. В структурной форме неизвестными являются т2 - т элементов матрицы В с учетом условия нормировки, тк элементов матрицы G и т(т + 1)/2 элементов матрицы ковариаций вектора ошибок є,. Таким образом, число структурных коэффициентов превышает число коэффициентов приведенной формы на т1 - т и, следовательно, в общем случае система одновременных уравнений (14) неидентифицируема. Однако, как было показано в примере 1, некоторые структурные коэффициенты или структурные уравнения могут быть идентифицируемы. Это, в конечном счете, связано с тем, что на структурные коэффициенты могут быть наложены некоторые априорные ограничения.
Изучим проблему идентифицируемости одного уравнения в том случае, когда ограничения имеют наиболее простой вид: часть
136
