Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Плохотников Эконометрия _2015.doc
Скачиваний:
7
Добавлен:
01.07.2025
Размер:
14.82 Mб
Скачать

Определение эконометрики

В современное экономическое образование традиционно вклю­чают три основных раздела: микро-, макроэкономику и экономет­рику. Во времена СССР, когда экономика была предельно центра­лизованной и плановой, эконометрические мероприятия сводились к межотраслевому балансу и методам оптимизации. В рыночных условиях в экономике резко возросла роль случая, неопределенно­сти и риска. Это потребовало привлечения и освоения совершенно нового инструментария, который ранее получил значительное раз­витие прежде всего на Западе. Данный инструментарий именуется эконометрикой, в которой роль случая вьщвигается на передний план анализа и прогноза экономической реальности.

Если современную рыночную экономику представить в виде «клубка» причин и следствий, то экономическая теория обосновы­вает наличие тех или иных причинно-следственных связей, а эко­нометрика изучает связи вообще и, прежде всего, статистические связи. Это толкование эконометрики выступает, по-существу, в качестве ее определения. Однако таких определений можно дать множество. В связи с этим приведем ряд высказываний признан­ных авторитетов в области экономики и эконометрики1:

Эконометрика позволяет проводить количественный анализ ре­альных экономических явлений, основываясь на современном разви­тии теории и наблюдениях, связанных с методами получения выводов (Самуэльсон).

Основная задача эконометрики — наполнить эмпирическим со­держанием априорные экономические рассуждения (Клейн).

Цель эконометрики — эмпирический вывод экономических зако­нов. Эконометрика дополняет теорию, используя реальные данные для проверки и уточнения постулируемых отношений (Маленво).

Экономисты используют количественные данные для наблюдения за ходом развития экономики, ее анализа и прогноза. Набор стати­стических методов, используемых для этих целей, называется в со­вокупности эконометрикой (Грилихес).

Цит. по: Магнус Я.Р., Катышев П.К., Пересецшй А.А. Эконометрика. Начальный курс: Учебник. М.: Дело, 2005. СП.

10

Рекомендуемую по эконометрике литературу перечислим в по­рядке роста объема и охвата тематики: 1 Гладилин А.В., Герасимов А.Н., Громов Е.И. Эконометрика: Учеб. ' пособие. - М.: КНОРУС, 2006. - 232 с.

  1. Мхитарян B.C., Архипова М.Ю., Балаш В.А. Эконометрика: Учебник для вузов. — М.: Проспект, 2008. — 384 с.

  2. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс: Учебник. — М.: Дело, 2005. — 504 с.

  3. Елисеева И.И., Курышева СВ., Костеева Г.В. и др. Экономет­рика: Учебник / Под ред. И.И. Елисеевой. — М.: Финансы и статистика, 2007. — 576 с.

Наиболее полное и обстоятельное введение в теоретические основы эконометрики приведено в классическом учебнике Я.Р. Магнуса, П.К. Катышева и. А.А. Пересецкого «Эконометрика. Начальный курс». В дальнейшем^ будем придерживаться обозначе­ний, принятых в этом учебнике. В ряде случаев, чтобы не загро­мождать изложение теоретического материала чрезмерными ма­тематическими выкладками, будем ссылаться на эту работу Я.Р. Магнуса, П.К. Катышева и А.А. Пересецкого.

Приведем список литературы и набор сайтов для ознакомления с пакетом STATISTICA:

  1. Боровиков В.П., Боровиков И.П. STATISTICA. Статистический анализ и обработка данных в среде Windows. — М.: Филинъ, 1998. - 608 с.

  2. Боровиков В.П. Популярное введение в программу STATISTICA. - М.: КомпьютерПресс, 1998. - 267 с.

  3. Боровиков В.П., Ивченко Г.И. Прогнозирование в системе STATISTICA в среде Windows. Основы теории и интенсивная практика на компьютере: Учеб. пособие. — М.: Финансы и статистика, 1999. — 384 с.

  4. Халафян А.А. STATISTICA 6. Статистический анализ данных: Учебник. — М.: ООО «Бином-Пресс», 2007. — 512 с.

  5. http://www.exponenta.ru/soft/Statist/Statist.asp

10. http://www.statsoft. ru/home/portal/default.asp

Примером учебного пособия по эконометрике с использовани­ем некоторых возможностей пакета STATISTICA является следу­ющее издание:

11. Яновский Л.П., Буховец А.Г. Введение в эконометрику: Учеб. пособие. - М.: КНОРУС, 2007. - 256 с.

11

Данные, с которыми имеет дело эконометрика, принято делить на пространственные и временные ряды. Пространственные ряды — данные о каком-либо экономическом показателе (или группе показателей), отнесенные к одному и тому же моменту времени. Временные ряды — данные о каком-либо экономическом показателе (или группе показателей), отнесенные к различным моментам времени.

Основные разделы эконометрики

Эконометрические модели, эконометрическое моделирование составляют основу эконометрической методологии анализа и про­гноза. Принято различать следующие три группы моделей эконо­метрики:

  • регрессионная модель — это уравнение, в котором объясняемая переменная выступает в виде функции от объясняющих пере­менных;

  • системы одновременных уравнений состоят из набора регресси­онных уравнений и некоторых тождеств;

  • модели временных рядов включают процедуры анализа (деком­позиции), синтеза, а также прогноза. Эконометрическое оценивание моделей включает два основных

этапа:

  • теоретический. Предпосылкой теоретического этапа выступает следующее представление. Считается, что определено все мно­жество реализаций экономических показателей, или, на языке выборочного метода статистики, определена генеральная сово­купность. Зная или полагая те или иные статистические свой­ства генеральной совокупности, можно теоретически опреде­лить параметры модели;

  • эмпирический. На эмпирическом этапе исследователь распола­гает лишь выборочными значениями экономических показате­лей. На этом этапе можно оценить, но нельзя точно определить значения параметров модели, поскольку они являются случай­ными величинами. Оценка проводится, чтобы получить как можно более точные и статистически достоверные значения неизвестных параметров модели, которые характеризуют гене­ральную совокупность всех возможных реализаций экономиче­ских показателей.

12

Характеристики генеральной совокупности, как правило, неиз­вестны, поэтому их оценивают по выборочным данным. Согласно выборочному методу статистики характеристики генеральной совокупности принято называть параметрами, а характеристики выборочной совокупности — оценками. Выборочная оценка дает удовлетворительное приближение для оцениваемого парамет­ра, если она отвечает ряду требований. Эти требования характери­зуются такими терминами, как «несмещенность», «эффектив­ность» и «состоятельность».

Оценка называется несмещенной,-если ее математическое ожи­дание равно оцениваемому параметру при любом объеме выборки. В противном случае оценка называется смещенной.

Несмещенная оценка называется эффективной, если она имеет минимальную дисперсию по сравнению с другими выборочными оценками. *

Оценка называется состоятельной, если при увеличении объема выборки она стремится к оцениваемому параметру. ►

Метод наименьших квадратов (МНК) и его различные модифи­кации — один из важнейших эконометрических методов. Регрес­сионный анализ, основанный на методе наименьших квадратов, дает наилучшие результаты из всех возможных, когда выполняют­ся условия теоремы Гаусса — Маркова (см. лекцию 2). При выпол­нении этих условий регрессионная модель называется классичес­кой нормальной линейной регрессионной моделью. Отклонения от нормальной линейной регрессионной модели характеризуются терминами «гетероскедастичность» и «автокорреляция» (их смысл будет обсуждаться далее).

Модель потребления является классическим примером исполь­зования математических моделей в эконометрике. Пусть С — по­требление некоторого пищевого продукта на душу населения в некотором году, Yреальный доход на душу населения, Р — цена на этот продукт с учетом инфляции, а Р0, JJ,, Р2 — константы. Вы­берем следующее уравнение для связи всех перечисленных пере­менных:

(1)

Уравнение (1) выступает в качестве ключевого элемента мате­матической модели описания поведения потребителя по отноше­нию к покупке данного пищевого продукта в зависимости от ду­шевого дохода и уровня цен. Модель потребления будет оконча-

13

мике» (1911). Приблизительно в тоже время итальянский ученый Р. Бенини применил метод множественной регрессии для оценки функции спроса.

В изучение проблемы цикличности в эконометрике значитель­ный вклад внесли такие ученые, как К. Жюгляр, С. Китчин, С. Кузнец, Н. Кондратьев, К. Маркс и др. Ими выявлены циклич­ность инвестиций в активную часть основных фондов (с периодом 7—11 лет), в обновление оборотных средств (3—5 лет), циклы в строительстве (15—20 лет) и циклы обновления инфраструктуры (40-60 лет).

Заметным этапом развития эконометрики стало появление эко­номических предсказателей, или, как их еще называют, баромет­ров. Ярким примером выступает гарвардский барометр. Идея ба­рометров заключалась в предсказании динамики одних показате­лей экономики с помощью других, изменения которых опережают первые во времени. В течение 1903—1914 гг. удавалось за несколько месяцев прогнозировать поворотные пункты в усредненных кри­вых фондового, товарного и денежного рынков. Со второй четвер­ти XX в. гарвардский параметр утратил прогнозирующие свойства.

В конце 1930 г. в США было создано первое международное эконометрическое общество. С 1933 г. начал издаваться журнал «Econometrica». В 1941 г. появился первый учебник по экономет­рике, написанный Я. Тинбергеном.

До 70-х годов XX в. эконометрика выступала инструментом подтверждения с помощью наблюдений тех количественных соот­ношений, которые вырабатывала экономическая теория. Такое положение дел объясняется тем, что большинство экономических моделей того периода были кейнсианскими. В дальнейшем, когда началась дискуссия между кейнсианцами, монетаристами и пред­ставителями прочих экономических теорий, для выбора той или иной математической модели стали использовать формальные эконометрические модели.

На рис. 3 приведены блок-схемы1, иллюстрирующие взаимное позиционирование экономической теории и эконометрического анализа до и после 70-х годов. Роль формальных эконометрических методов особенно возросла после 70-х годов в связи с огромным «предложением» различного рода конкурирующих друг с другом

Яновский Л.П., Буховеи А.Г. Введение в эконометрику: Учеб. пособие. М.: КНОРУС, 2007. 256 с.

16

экономических теорий. В этой ситуации важнейшее значение при­обрела выработка критериев отбора наилучших теорий. Одним из них является критерий наиболее успешного прогноза.

После 70-х годов в связи с бурным развитием вычислительной техники Дж. Бокс и Г. Дженкинс создали теорию интегрируемых моделей авторегрессии и скользящего среднего (ARIMA) для ана­лиза и прогноза временных рядов.

В начале 80-х годов развиваются методы решения систем одно­временных уравнений и путевой анализ. Для решения систем од­новременных уравнений используются косвенный, двухшаговый и трехшаговый методы наименьших квадратов.

«.

Лекция 2 МОДЕЛЬ ПАРНОЙ РЕГРЕССИИ

Исследуется простейшая модель парной регрессии, или одномерная регрессионная модель. Обсуждается метод наи­меньших квадратов (МНК). Дается геометрическая интер­претация процедуры метода наименьших квадратов. Опре­деляются гипотезы, лежащие в основе линейной регресси­онной модели. Формулируется и' доказывается теорема Гаусса — Маркова.

Пусть имеется набор значений двух переменных Xt, Yt, t= 1,..., п. Можно построить так называемую диаграмму рассеяния — график, состоящий из декартовых осей координат X, Yh точек с координа­тами (X,, Y,), г= 1,..., и. Пример диаграммы рассеяния представлен нарис. 1.

В нашу задачу входит подобрать такую функцию Y = f(X) из параметрического семейства f(X, (3,, ..., р ), которая наилучшим способом описывает зависимость У от Л". Это означает, что на диа­грамме рассеяния искомая линия должна проходить по местам наибольшего скопления наблюдаемых точек. Подобрать соответ-

Рис. 1. Диаграмма рассеяния и прямая линия, наилучшим образом описывающая зависимость YmX

19

20

Для изучения данных, представленных в табл. 1, построим диа­грамму рассеяния (рис. 3). Прямая линия на рис. 3 является иско­мой линейной моделью зависимости количества туристов от затрат на рекламу. В пакете STATISTICA, изучением которого нам пред­стоит заниматься на семинарах, построение таких линий (регрес­сионных прямых), представляет собой одну из стандартных про­цедур. Обращаясь к этой процедуре, находим а = 118,3; b = 83,84. Подставляя эти коэффициенты в функциональную модель в обо­значениях (5), получаем

Численные значения коэффициентов а и Ь, входящих в (8), допускают естественную интерпретацию. Число 118 — это коли­чество туристов, которые воспользуются услугами туристической фирмы, если та вообще не тратится на рекламу. Второе число означает, что количество туристов-клиентов возрастет в среднем приблизительно на 84 человека, если туристическая фирма увели­чит затраты на рекламу на 1000 у.е. в отчетный период. Другими словами, в каждого туриста, который обращается к услугам турис­тической фирмы, в среднем через рекламу вложено 1000/83,84 = = 12 у.е.

24

Свойство гетероскедастичности на диаграмме рассеяния

-200 0 200 400 600 800 1000 1200

X

Рис. 4. Пример ярко выраженного свойства гетероскедастичности

рассматриваются временные ряды. Если указанное условие не вы­полняется, говорят об автокорреляции ошибок.

На рис. 5, а приведена диаграмма рассеяния временного ряда с ярко выраженными сезонными колебаниями, а на рис. 5,6 — со­ответствующая автокоррелограмма, характеризующая корреляцию между соседними измерениями, вплоть до значения лага, равно­го 15, т.е. \t-s\= 15.

Пусть в нашем распоряжении находятся данные наблюдений (Xt, Yt), t= 1, ..., п и модель (9), (10). Оценим параметры а, А и с2 наилучшим способом. Теоретическая проблема состоит в следу­ющем: какой смысл вкладывать в слово «наилучшая»?

Теорема Гаусса Маркова. При выборе модели (9), (10) оценки а, Ь, полученные в (4) методом наименьших квадратов (МНК), являются несмещенными и имеют наименьшую дисперсию в клас­се всех линейных несмещенных оценок.

Доказательство.

1. Проверим, что МНК-оценки a, b являются несмещенными оценками истинных значений а, Ь.

Согласно определению несмещенности, представленному в лекции 1, необходимо доказать, что Ей = а и ЕЬ = Ь.

26

1

уровень значимости в нашей задаче 0,05, приходим к выводу: по­скольку ccmin = 0,000015 < 0,05, можно отказаться от нулевой гипо­тезы на уровне значимости 0,05 и считать, что в построенной выще регрессионной модели коэффициент регрессии статистически зна­чим.

Пример 4. Исследуем вопрос о связи числа самоубийств в Рос­сийской Федерации и объема потребляемой в стране алкогольной продукции с точки зрения регрессионного моделирования. Обра­тимся к официальным данным, опубликованным в Российском статистическом ежегоднике (М., 2006).

Данные приведены в табл. 1, где столбец Year обозначает год наблюдения; столбец Alcohol — количество потребляемого алко­голя в абсолютном выражении, млн дал (1 дал = 10 л); столбец Suicide — число умерших в результате самоубийства, тыс. чел.

Таблица 1 Данные о потреблении алкоголя и числе самоубийств

в Российской Федерации

Year

Alcohol

Suicide

1

1970

101,0

38,9

2

1975

122,0

44,8

3

1980

137,0

47,9

4

1985

109,0

44,6

5

1990

78,8

39,2

6

1995

60,8

61,0

7

1996

39,3

57,8

8

1997

46,0

55,0

9

1998

50,0

51,8

10

1999

73,4

57,3

11

2000

74,4

56,9

12

2001

83,5

57,3

13

2002

90,4

55,3

14

2003

91,5

51,7

15

2004

95,9

49,4

Вначале посмотрим на соответствующие графики зависимости потребления алкоголя и числа самоубийств от времени (рис. 2).

Отметим две особенности: минимум потребления алкоголя за указанный период приходится на 1996 г.; максимум самоубийств — на 1995 г. Это дает основание предположить, что между потребле-

42

тельно, коэффициент детерминации, согласно таблице на рис. 4, вен о,3234, т.е. наша регрессионная модель из всей изменчивости статистики самоубийств описывает лишь 32,34%, что приблизи­тельно равняется третьей части.

Вывод. Из всей изменчивости статистики самоубийств в Рос­сийской Федерации третью их часть можно связать с общим по­треблением алкоголя в стране, причем связь эта отрицательная, т.е. чем больше потребление алкоголя, тем меньше самоубийств, и наоборот, чем меньше потребление алкоголя, тем больше само­убийств. Вместе с тем, чтобы получить объективные выводы, не­обходимо учитывать другие возможные причины самоубийств (наркомания, неразделенная любовь, безысходность, усталость и пр.), которые могут оказаться не менее, а даже более важными, чем алкоголь.

V

Таблица 2 Объем перевозок пассажиров транспортом общего пользования в Российской Федерации

(млн чел.)

Год

Железная дорога

Автобус

Метро

1970

2500

15053

2047

1980

2971

23 356

3036

1990

3143

28626

3695

1995

1833

22817

4150

2000

1419

22033

4186

2001

1306

20883

4205

2002

1271

19620

4200

2003

1704

17898

4205

2004

1335

16552

4211

2005

1339

11297

3574

74

3. Оценки коэффициентов имеют неверные с точки зрения экономической теории знаки или неоправданно большие значения. Что делать, если ряд признаков обладает мультиколлинеарно-стью? Однозначного ответа на этот вопрос нет. Например, если несколько независимых переменных имеют общий тренд, относи­тельно которого они совершают малые колебания, то, исключив этот тренд из каждой переменной, можно в ряде случаев устранить мультиколлинеарность.

Пример 1. Рассмотрим свойство мультиколлинеарности на при­мере данных о связи валового внутреннего продукта Российской Федерации (переменная ВВП на рис. 1) с численностью экономи­чески активного населения (переменная Э_нас-ие) и инвестиция­ми в основной капитал (переменная Инвест.). Эти данные уже изучались в предыдущей лекции (см. пример 1). Там же была по­строена множественная высокозначимая регрессия (ВВП по Э_нас-ие и Инвест.), все коэффициенты которой также высокозна­чимы:

ВВП --43 968,518489 + 0,619745Э_нас-ие +0,005517Инвест. (1)

(-4,53) (4,51) (36,04)

В регрессии (1) в скобках указаны значения /-статистики Стью-дента для каждого коэффициента регрессии. Для регрессии (1) коэффициент детерминации R2- 0,99971, а соответствующее зна­чение /'-статистики равно F(2, 4) = 6826,6.

На рис. 1 приведена таблица с данными примера 1. Помимо ВВП, Э_нас-ие и Инвест, в ней содержатся также другие перемен­ные, смысл которых будет уточнен далее.

1 Time |

2 ВВП

3

Э нас-не

4

Инвест.

5 ВВП и

S Э_нас-ив_м |

7 Инвест_м

1

1995

1428,5

70740

266974

2212,22

300,39:

358825

2

2000 і

7305,6

72332

1165234

-1405,75

242,09

-283748

3

2001 і

8493,6

71411

1604712 1762407

-2116,77

-1008,98

-252436

4 5

2002:

2003!

10830,5

72629

-1678,88

-121,03!

-302907

13243,2

73198

2186365 2804834

-1165,19

117,91!

-187116

6

2004

17048,1

73359

740,69

-51,16!

123187

7

2005

21620,1

74261

3534009

3413,68

520,78

544195

Рис. 1. Данные примера 1 в пакете STATISTICA

Найдем коэффициент корреляции между переменными Э_нас-ие и Инвест. Он равен г(Э_нас-ие, Инвест.) = 0,9386. Столь

78

высокое значение коэффициента корреляции между парой регрес-соров свидетельствует о наличии мультиколлинеарности в регрес­сионной модели (1).

Чтобы понять природу данной мультиколлинеарности, рассмот­рим графики зависимости наших переменных от времени (пере­менная Time на рис. 1). Данные графики приведены на рис. 2. Из анализа этих графиков следует, что имеется общая тенденция рос­та. Чтобы убедиться в том, что именно общая тенденция является причиной мультиколлинеарности, исключим из каждой перемен­ной ее основную тенденцию, а для полученных остатков построим другую множественную регрессию.

Выберем для простоты в качестве основной тенденции линей­ную регрессию, тогда с помощью пакета STATISTICA получим следующие три трендадля каждой из переменных ВВП, Э_нас-ие и Инвест.:

ВВП, = -3 789115,604348 + 18§9,013478 Time,

(-6,52) (6,54)

Э_нас-ие, = -588031,826087 + 330,060870Time, (2)

(-4,39) (4,94)

Инвест., = -614883448,956522+308166,465217Time.

(-6,60) (6,62)

Все коэффициенты в регрессионных моделях (2) высокозна­чимы (в скобках приведены значения /-статистики Стьюдента). Вычтем теперь из переменных ВВП, Э_нас-ие и Инвест, соответ­ствующие значения тенденций, вычисленные согласно форму­лам (2), тогда получим остатки, обозначенные на рис. 1 как пере­менные ВВП_м, Э_нас-ие_м и Инвест_м.

Прежде чем строить регрессию ВВП_м по переменным Э_нас-ие_м и Инвест_м, найдем корреляцию между регрессорами Э_нас-ие_м и Инвест_м. Данная корреляция легко вычисляется в пакете STATISTICA, она равна 0,5728. Полученное значение ко­эффициента корреляции является умеренным, что свидетельствует об отсутствии мультиколлинеарности.

Результаты построения множественной регрессии ВВП_м по переменным Э_нас-ие_м и Инвест_м представлены на рис. 3.

Кроме свободного члена (Intercept) два других коэффициента Регрессии высокозначимы. Без существенной потери точности свободный член может быть отброшен (его значение, представлен­ное в столбце В, равно -0,000206).

79

80

Динамика ВВП РФ

24 000

22 000

20 000

18 000

16 000

14 000

И 12 000

« 10 000

8000

6000

4000

2000

0

a)

2002 2004 2006

1994 1996 1998

2000 Time

б) Динамика численности экономически активного населения РФ 74 500

74 000

73 500 g 73 000 к 72 500 д1 72 000

71500

71000

2002 2004 2006

1994 1996 1998

2000 Time

70 500

Динамика инвестиций в основной капитал РФ

е)

4Е6 3,5Е6

I

ЗЕ6 2.5Е6

2Е6 1,5Е6

1Е6

5Е5 0

2000 Time

2002 2004 2006

1994 1996 1998

Рис. 2. Динамика ВВП (а), численности экономически

активного населения (б) и инвестиций

в основной капитал (в) Российской Федерации

Рис. 6. Итоговая таблица построения регрессионной модели (8)

Соответствующие значения /-статистик, приведенные в скоб­ках, показывают, что все коэффициенты регрессионной модели (8') высокозначимы (на уровне 0,05 и даже 0,001). По сравнению с регрессионной моделью (У) модель (8') имеет больший коэффи­циент детерминации R2 ~ 0,7418 (против 0,6833 для модели (!')).

Смысл коэффициентов модели (8') следующий. Первый коэф­фициент можно истолковать как среднюю цену нового автомоби­ля (Age = 0) среди двух моделей VAZ2107, VAZ2109. Второй коэф­фициент показывает, что в течение каждого года машина теряет приблизительно 4574,342920 = 4570 руб. Третий коэффициент -26692,282129 = -26700 руб. указывает, насколько уменьшится в среднем цена новой машины после добавления модели VAZ2105 к двум моделям VAZ2107, VAZ2109. Аналогично четвертый коэффи­циент регрессии -23 807,954366 ~ -23 800 руб. указывает, насколько уменьшится в среднем цена новой машины после добавления мо­дели VAZ2106 к двум моделям VAZ2107, VAZ2109. С учетом всех четырех моделей VAZ2105 (VAZ2105 = 1), VAZ2106 (VAZ2106 = 1), VAZ2107 и VAZ2109 средняя цена новой машины составит 139991,887299 - 26692,282129 - 23 807,954366 т 89500 руб., что сравнимо со средней ценой автомобиля = 84360 руб., полученной согласно статистике, представленной на рис. 4.

Наконец, если ввести в набор регрессоров все четыре модели автомобилей, т.е. VAZ2105, VAZ2106, VAZ2107, VAZ2109, и попы­таться провести регрессионное моделирование, то в рамках пакета STATISTICA будет получен отказ. В этом случае определить МНК-оценки невозможно, так как регрессоры VAZ2105, VAZ2106, \AZ2107, "VAZ2109 линейно зависимы, что демонстрирует перемен­ная SUM на рис. 4, в которой представлена сумма VAZ2105, + + VAZ2106, + VAZ2107, + VAZ2109, = 1, t = 1,..., 95. Это и есть ситуа­ция «dummy trap», когда сумма фиктивных переменных тожде­ственно равна константе.

86

Variable

Variables currently in the Equation; DV: ВВП

Beta in 1 Partial I Cor.

Semipart Tolerancej R-»quare Cor.

«4>

p-level

Т"нас-ие Инвест.

0,111889; 0,914134 0^94086] 0,998463

0,038589 0,118947: 0,881053

4,50966; 0,010743

0,308358; 0,118947 0,881053

36,03595

0,000004

Рис. 7. Окно пакета STATISTICA с численными значениями частных коэффициентов корреляции

В ряде случаев исследователь заранее знает характер зависимо­сти исследуемых величин, опираясь на экономическую теорию, предыдущие результаты, априорные знания и т.п. Тогда ему оста­ется лишь оценить неизвестные параметры. Классическим приме­ром является процедура оценивания параметров производственной функции Кобба — Дугласа

Y=AKaL^, і где У— совокупный выпуск продукции; К— капитальные вложе­ния; L — трудовые затраты. Логарифмируя функцию Кобба — Дуг­ласа, получим линейное относительно параметров 1гь4, а, Р урав­нение. Далее можно действовать обычным образом, используя МНК-оценки неизвестных параметров, проверять гипотезы и пр.

На практике часто приходится сталкиваться с ситуацией, когда имеется большое число наблюдений различных независимых пе­ременных, но нет модели изучаемого явления. Возникает общая проблема определения необходимого и достаточного набора ре-грессоров.

В компьютерные пакеты (в том числе и в пакет STATISTICA) включены различные эвристические процедуры пошагового отбора регрессоров, основными из них являются: ' процедура последовательного удаления;

процедура последовательного присоединения;

процедура присоединения-удаления.

В процедуре последовательного удаления анализ начинается с включения в регрессионную модель всех переменных. Затем для каждой переменной вычисляют частную /"-статистику, и ту пере­менную, для которой /"-статистика минимальна, исключают Из Рассмотрения. Далее строят новую модель по оставшимся пере­менным, и после вычисления частных /"-статистик вновь удаляют °Дну из переменных. И так до тех пор, пока не будет достигнуто бранеє заданное число переменных в модели или все /"-статистики е станут больше заданного порога.

89

В процедуре последовательного присоединения начинают с по­строения модели, включающей лишь одну переменную, имеющую наибольший по абсолютной величине парный коэффициент кор­реляции с зависимой переменной. Затем вычисляют частные /"-статистики для всех оставшихся переменных и включают в мо­дель переменную с наибольшей /-статистикой. Это эквива­лентно включению переменной, имеющей наибольший частный коэффициент корреляции с зависимой переменной. Процесс по­вторяется до тех пор, пока в модели не наберется определенное число переменных или /-статистики не станут меньше заданного порога.

В процедуре присоединения-удаления выбирают фиксиро­ванные пороговые уровни /вкл и /искл и на каждом шаге рассмат­ривают возможности добавить переменную, исключить перемен­ную, заменить одну переменную другой или остановить процесс. На каждом шаге вычисляются /"-статистика переменных, коэффи­циент детерминации R2 и степень допустимой коррелированности переменных, вошедших в регрессионное уравнение.

Пример 4. Вернемся к данным, рассмотренным в предыдущей лекции (см. рис. 1 в лекции 5). Найдем с помощью процедуры удаления (присоединения) в пакете STATISTICA оптимальный набор регрессоров для объяснения переменной валового внутрен­него продукта (ВВП).

На рис. 8 приведен итог процедуры пошагового удаления пере­менных из потенциального набора регрессоров. На первом шаге была удалена переменная Доход, так как она имела минимальную частную /"-статистику (0,002). На втором шаге была удалена пере­менная Сальдо, имеющая минимальную /-статистику (0,576). На­конец, на третьем шаге процедура пошагового удаления заверши­лась, так как все оставшиеся /-статистики для переменных Э_нас-ие и Инвест, превышают пороговое значение 1. По оконча­нии процедуры пошагового удаления переменных осталось два регрессора: Э_нас-ие и Инвест.

На рис. 9 приведен итог процедуры пошагового присоединения переменных из потенциального набора регрессоров. На первом шаге была включена переменная Инвест., так как она имела мак­симальную частную /-статистику (2800,843). На втором шаге была добавлена переменная Э_нас-ие, имеющая максимальную /-статистику (20,337). Наконец, на третьем шаге процедура поша-

90

91

1 Год

2 і 3 І Урожайность Остаток

4 Grp1

5 D1

6 Grp2

7 D2

1

1945

5,6 1,40642

5,6

0,07036

г

1946

4,6 2,63044

4,6

2,39109

3

1947

7,3 0,15445

7,3

0,76149

4

1948

6,7 0,97847

6,7

0,00007

S

1949

6,9 1,00249

6,9

0,00801

6

1950

7,9 0,22650

7,9 7,4

0,39624 0,02298

7

1951

7,4 0,96052

8

1952

8,6 0,02547

8,6 7,8

0,58885

9

1953

7,8 0,99855

0,09840

10

1954

7,7 1,32257

7,7

0,48266

11

1955

8,4 0,84658

8.4

0,07606

12

1956

9,9 0,42940

9,9

0,88955

13

1957

8,4 1,29462

8,4'

0,70207

14

1958

11,1 1,18137

11,1

5,49973

15

1959

10,4 0,25735

10,4

0,36000

16

1960

10,9 0,53334

10,9

0,67067 0,11417

17

1961

10,7 0,10932

10,7

18

1962

10,9 0,08531

10,9

0,06597

19

1963

8,3 2,73871

8,3

6,88648

20

1964

11,4 0,1372!

21

1965

9,5 1,98674

22

1966

13,7 1,98924

t

23

1967 12,1 0,16523

24

1968

14,0 1,84121

25

1969

13,2 0,81719

26

1970

15,6 2,99318

27

1971

15,4 2,56916

23

1972

14,0 0,94515

29

1973

17,6 4,32113

ЗО

1974

15,4 1,89712

31

1975

10,9 2,82690

32

1976

17,5; 3,54908

\

33

1977

15,0 0,82507

34

1978

18,6 4,10105

18,5

10,46772

35

1979

14,2і 0,42296

14,2

1,42174

36

1980

14,9 0,05302

14,9

0,38455

37

1981

12,6 2,47100

12,6

9,28954

Рис. З. Фрагмент данных о динамике урожайности зерновых культур в России в контексте проверки наличия свойства гетероскедастичности

По тесту Гольдфельда — Квандта в таблице на рис. 3 определены Две группы данных (Grpl, Grp2), для них построены соответству­ющие рефессионные модели и найдены квадраты остатков (D1, "2). Суммирование квадратов остатков дало: Dx = 17,08; D2 - 48,95.

Находим D и соответствующее критическое значение а вероят­ности /"-критерия Фишера с 17 степенями свободы: D = 2,87 и « = 0,018.

Вывод. Согласно тесту Гольдфельда — Квандта, поскольку р 0,018 < 0,05, на уровне значимости 0,05 можно считать, что Регрессионная модель (1) динамики урожайности зерновых куль-УР в России обладает свойством гетероскедастичности.

7 ~2043

97

Существует два подхода к решению проблемы гетероскедастич-

ности:

  1. преобразование исходных данных;

  2. применение обобщенного метода наименьших квадратов (ОМНК).

Преобразование данных для уменьшения гетероскедастичности

Первый подход к решению проблемы" гетероскедастичности заключается в следующем: исходные данные преобразуются таким образом, что для новых данных соответствующая регрессионная модель уже не будет обладать свойством гетероскедастичности. Чаще всего используют два вида преобразований:

  • логарифмирование данных;

  • переход к безразмерным величинам путем деления на некото­рые известные величины той же размерности, что и исходные данные.

Пример 3. Применим тест Гольдфельда — Квандта на наличие гетероскедастичности к прологарифмированным данным о дина­мике урожайности зерновых культур в России (см. пример 1).

На рис. 6 приведена таблица из пакета STATISTICA с преобра­зованными данными и результатами расчетов с помощью теста Гольдфельда — Квандта. В частности, по преобразованным данным была построена линейная регрессионная модель

Logy = -34,938593 + 0,018990 X. (6)

(-12,42) (13,31)

Согласно (6) все коэффициенты регрессионной модели высо­козначимы, кроме того, R1 = 0,779; F= 177,18.

По тесту Гольдфельда — Квандта в таблице на рис. 6 определены две группы данных (Grpl, Grp2), для них построены соответству­ющие регрессионные модели и найдены квадраты остатков (D1, ™), Суммирование квадратов остатков дало: Dx = 0,287; D2 = 0,187. Находим D и соответствующее критическое значение а вероятно­сти .F-критерия Фишера с 17 степенями свободы: D^DJDj = 1,53 и« = 0,195.

Вывод. Согласно тесту Гольдфельда — Квандта, поскольку

= 0,195 > 0,05, то на уровне значимости 0,05 нельзя сделать вывод

0 Наличии у регрессионной модели (6) свойства гетероскедастич-

101

1

Цена

2

Площадь

Остаток

4 Цеиа_Пл

5 1_ПЯ

6 Остатокг

1

5876

503

545,334

11,682 22,434

0,002

3,543

г

5743

256

2454,619

0,004

7,938

3

5355

263

1977,831

20,361

0,004

5,826

4

5

5202 6099

484

978,338

3231,229

10,748

0,002

4,447

22.069

144

35,410

0,007

7

Э

1774

120

210,645

14,783

0,008

1,970

1770

188

655,868

9,415

0,005

4,544

9

to

1747

93

526,114

18,785

0,011

6,891

1737

246

1424,541

7,061

0,004

7,374

11

842

110

594,515

7,655

0,009

4,871

12

840

63

0,366

13,333

0,016

3,386

13

840

117

685,303

7,179

0,009

5,552

и

836

75

156,574

11,147

0,013

0,234

15

816

110

620,616

7,418

0,009

5,107

137

30

284,793

4,567 3,806

0,033 0,028

1,256 1,617

1?

137

36

360,897

18

137

30

284,793

4,567

0,033

1,256

1S

136

35

349,213

3,886

0,029

1,235

20

136

60

666,313

2,267

0,017

7,379

Рис. 10. Данные о продаже 20 московских квартир

Согласно (14) коэффициент регрессии высокозначим, кроме того, R2 = 0,679; F= 38,08. Свободный член регрессионной моде­ли (14) незначимо отличается от нуля. Модуль остатков ошибок регрессионной модели (14) приведен в столбце Остаток на рис. 10.

Попробуем визуально обнаружить наличие гетероскедастично-сти. На рис. 11, о построена диаграмма рассеяния в координатах Площадь — Остаток. Из графика видна довольно сильная зависи­мость остатка регрессионной модели от регрессора Площадь, т.е. в среднем с увеличением площади ошибка растет. Будем считать, что ошибка регрессии є пропорциональна регрессору Площадь, т.е. г = Площадью. Подставив последнее выражение в (14) и поделив обе части уравнения на Площадь, получим новую зависимую пе­ременную, обозначенную на рис. 10 как Цена_Пл, и новую неза­висимую переменную 1_Пл. Новые зависимая и независимая переменные определяются согласно следующим уравнениям: Цена_Пл = Цена / Площадь, 1_Пл = 1/Площадь.

В пакете STATISTICA строим соответствующую регрессионную модель в переменных 1_Пл Цена_Пл:

Цена_Пл = 15,980541 - 380,087510(1_Пл) + и. (15)

(6,29) (-2,39)

Согласно (15) оба коэффициента регрессии высокозначимы на уровне значимости 0,05, кроме того, R2 = 0,241; F= 5,709. По срав-

110

1

Цена

2

J Площадь

3

Остаток

t Gr1

I 5 01

в Gr2

7 D2

1

110

19

-53,92

110

0,2168

2

107

32

-242.98

107

1,8258

3

107

40

-357,48

107

0,3883

4

107

40

-357.48

107

0,3883

5

110

41

-368,79

110

6,0905

6

108

44

-413,72

108

0,5490

7

106

46

-444,35

106

1,1600

В

107

58

-615,09

9

107

64

-700,97

10

112

80

-924.96

11

2387

130

634,43

12

2550

134

740,19

13

3060

158

906,70

14

3264

158

1110,70

3264

1407,48 2153177,65 248373,45 864210,45

15

5049

200

2294,59

5049

' 17

4080 2652

200

1325,59

4080

200

-102,41 -798.14

2652

18

2815

260

2815

1361398,90

Ї9

4470

351

-445,54

4470

14089,97

Г20

5876

501

-1186,36

9

5876

82309,31"

SUM case

-20

10,618658

SUM case 1-21

ч^

0

4724967,23

Рис. 12. Исходные данные к примеру 6 и процедура оценки гетероскедастичности с помощью теста Гольдфельда — Квандта

Воспользуемся тестом Гольдфельда — Квандта и покажем нали­чие гетероскедастичности в регрессионной модели (16). Согласно тесту Гольдфельда — Квандта в таблице на рис. 12 определены две группы данных (Grl, Gr2), для них построены соответствующие регрессионные модели и найдены квадраты остатков (Dl, D2). Суммирование квадратов остатков дало: D, = 10,6; D2 = 4724967,2.

Находим D, которое удовлетворяет /^-критерию Фишера: D = D2/D{ = 445751. Поскольку значение D чрезвычайно велико, с высокой надежностью можно считать, что гетероскедастичность действительно имеет место в модели (16).

В рамках процедуры применения ОМНК будем исходить из того, что дисперсия ошибок описывается двумя значениями: для первых 10 значений цены за квартиру (обычное, дешевое жилье) и Для вторых 10 ее значений (элитное, дорогое жилье). На рис. 13 приведена итоговая таблица с исходными данными (столбцы Цена, Площадь) и модифицированными данными (столбцы ЦенаМ, шіощадьМ и ОстатокМ) с учетом наличия двух дисперсий: »і - 505, ш2 = 3505.

Итак, после применения процедуры ОМНК к исходным дан­ным (столбцы Цена, Площадь) получились новые наборы данных Столбцы ЦенаМ, ПлощадьМ), по которым была построена регрес-

8 - 2043

113

Рис. 13. Исходные и модифицированные данные, а также применение теста Гольдфельда — Квандта к модифицированным данным

сионная модель и найдены остатки, представленные в столбце ОстатокМ. Согласно тесту Гольдфельда — Квандта в таблице на рис. 13 определены две группы данных (Grl, Gr2), для них постро­ены соответствующие регрессионные модели и найдены квадраты остатков (Dl, D2). Суммирование квадратов остатков дало: D, = 0,2; D2 = 2,27. Находим D, которое удовлетворяет ^-критерию Фишера: D = B2/Dl = 11,35. Полученное значение все еще велико, но оно намного меньше предыдущего значения, равного 445 751. Вывод. Процедура учета двух значений дисперсии ошибок ока­залась очень эффективной в борьбе с гетероскедастичностью. Та­ким образом, удалось снизить гетероскедастичность с 445751 до 11,35, т.е. более чем на четыре порядка.

Проблема состоит в том, что распределение DW зависит не только от числа наблюдений п и числа регрессоров к, но и от мат­рицы X. Составить же таблицу критических значений для всех матриц Л"невозможно. Однако Дарбин и Уотсон доказали, что су. ществует две границы, обычно обозначаемые du и dh du > ц (и - upper — верхняя, / = lowнижняя), которые зависят лишь от п, к, an могут быть затабулированы. В итоге промежуток [0; 4] разбивают на пять отрезков: [0; dj\, [df, du], [du; 4 - du], [4 - du; A~d\ [4 - df, 4]. Критерий принятия или отклонения нулевой гипотезы с надежностью 1 - а против соответствующей альтернативы пред­ставлен в табл. 1.

Таблица 1 Проверка нулевой гипотезы с помощью статистики Дарбина — Уотсона

Значение статистики DW

Вывод

4-d, < DW < 4

Гипотеза Н0 отвергается,

есть отрицательная корреляция

A-du < DW < 4-d,

Неопределенность

du < DW < A-du

Гипотеза Н0 не отвергается

d, < DW < du

Неопределенность

0 < DW < d,

Гипотеза Н0 отвергается,

есть положительная корреляция

Если наблюдаемое значение критерия Дарбина — Уотсона по­падает в зону неопределенности, то на практике предполагают существование автокорреляции остатков и отклоняют нулевую гипотезу.

Пример 1. Используя пакет STATISTICA, применим тест Дар­бина — Уотсона к данным о динамике золотовалютных резервов России за период с 26 декабря 2003 г. по 7 января 2005 г. Восполь­зуемся процедурой Кохрейна — Оркатта для оценки значения ко­эффициента авторегрессии, считая динамику авторегрессионньШ процессом первого порядка.

Этот пример подробно рассмотрен на семинаре 9. На рис. 1 приведена электронная таблица с данными и промежуточными расчетами; здесь в столбце X (регрессор) указано время (дни), оТ' считываемое от начального момента, т.е. от 26 декабря 2003 г., а в столбце Y — золотовалютные резервы (млрд долл.).

120

Итог применения теста Дарбина — Уотсона в пакете STATIS-TICA приведен на рис. 2. Данные таблицы на рис. 2 показывают малость статистики Дарбина — Уотсона (0,058253) и соответ­ственно большое положительное значение корреляции (0,993398) между et и et_v Таким образом, тест Дарбина — Уотсона, согласно таблице значений, говорит о наличии положительной корреляции по времени.

Рис. 2. Применение теста Дарбина — Уотсона к данным примера 1

Применение двух итераций процедуры Кохрейна — Оркатта (см. рис. 1) позволило получить следующие оценки для коэффи­циента авторегрессии р: 0,994033 и 0,994058, т.е. с хорошей точ­ностью можно считать, что он равен 0,994.

Вывод. Тест Дарбина — Уотсона подтвердил наличие корреля­ции по времени в ряде динамики золотовалютных резервов Рос­сии, процедура Кохрейна — Оркатта позволила оценить коэффи­циент авторегрессии, он оказался равным 0,994.

Прогнозирование в регрессионных моделях

Одна из важнейших целей моделирования в экономике заклю­чается в прогнозировании исследуемых явлений. Обычно термин «прогнозирование» используют в ситуациях прогноза во времени. Для регрессионных моделей процедура прогнозирования имеет более широкое толкование. Данные могут не иметь временной структуры, однако может возникнуть следующая задача: оценить зависимую переменную при тех значениях регрессоров, которые отсутствуют в исходных данных, т.е. необходимо решить так назы­ваемую задачу интерполяции {экстраполяции). Именно в смысле построения оценки зависимой переменной следует понимать про­гнозирование в эконометрике.

В рамках выборочного метода в статистике различают точечное и интервальное прогнозирование. При точечном прогнозировании находится конкретное число, при интервальном — интервал, в ко­тором истинное значение переменной находится с заданной нз-

122

метода наименьших квадратов даст смещенные и несо­стоятельные оценки структурных коэффициентов. В то же время коэффициенты приведенной формы могут быть оценены состоятельно, поскольку переменные xt не коррелированы со структурными ошибками є, и, следовательно, с ошибками приве­денной формы модели vr

С позиций взаимосвязей между эндогенными переменными, не имеющими временного запаздывания, различают следующие мо­дели одновременных уравнений: простые, рекуррентные и модели с взаимозависимыми переменными. Если матрица 2?диагональная или становится такой после перенумерации уравнений модели, то модель называется простой. Если матрица В треугольная или ста­новится такой после перенумерации уравнений либо после из­менения места переменных в уравнениях, то модель называется рекуррентной. Если в результате перенумерации уравнений либо изменения местоположения переменных не удается преобразовать матрицу В в диагональную или треугольную, то модель признается моделью с взаимозависимыми уравнениями.

Вернемся к проблеме идентифицируемости структурных коэф­фициентов. Говоря качественно, тот или иной структурный коэф­фициент идентифицируем, если он может быть однозначно вычис­лен на основе коэффициентов приведенной формы. Соответ­ственно, какое-либо уравнение в структурной форме модели называется идентифицируемым, если все его коэффициенты иден­тифицируемы.

Приведенная форма (16) позволяет состоятельно оценить тк элементов матрицы Си т(т + 1)/2 элементов матрицы ковариаций вектора ошибок v,. В структурной форме неизвестными являются т2 - т элементов матрицы В с учетом условия нормировки, тк элементов матрицы G и т(т + 1)/2 элементов матрицы ковариаций вектора ошибок є,. Таким образом, число структурных коэффици­ентов превышает число коэффициентов приведенной формы на т1 - т и, следовательно, в общем случае система одновременных уравнений (14) неидентифицируема. Однако, как было показано в примере 1, некоторые структурные коэффициенты или структур­ные уравнения могут быть идентифицируемы. Это, в конечном счете, связано с тем, что на структурные коэффициенты могут быть наложены некоторые априорные ограничения.

Изучим проблему идентифицируемости одного уравнения в том случае, когда ограничения имеют наиболее простой вид: часть

136