Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Симферопольский университет экономики и управления

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Плохотников Эконометрия _2015.doc

Скачиваний:

Добавлен:

01.07.2025

Размер:

14.82 Mб

Скачать

☆

<<< < Предыдущая 12 / 92 3 4 5 6 7 8 9 > Следующая >>>

Определение эконометрики

В современное экономическое образование традиционно включают три основных раздела: микро-, макроэкономику и эконометрику. Во времена СССР, когда экономика была предельно централизованной и плановой, эконометрические мероприятия сводились к межотраслевому балансу и методам оптимизации. В рыночных условиях в экономике резко возросла роль случая, неопределенности и риска. Это потребовало привлечения и освоения совершенно нового инструментария, который ранее получил значительное развитие прежде всего на Западе. Данный инструментарий именуется эконометрикой, в которой роль случая вьщвигается на передний план анализа и прогноза экономической реальности.

Если современную рыночную экономику представить в виде «клубка» причин и следствий, то экономическая теория обосновывает наличие тех или иных причинно-следственных связей, а эконометрика изучает связи вообще и, прежде всего, статистические связи. Это толкование эконометрики выступает, по-существу, в качестве ее определения. Однако таких определений можно дать множество. В связи с этим приведем ряд высказываний признанных авторитетов в области экономики и эконометрики¹:

Эконометрика позволяет проводить количественный анализ реальных экономических явлений, основываясь на современном развитии теории и наблюдениях, связанных с методами получения выводов (Самуэльсон).

Основная задача эконометрики — наполнить эмпирическим содержанием априорные экономические рассуждения (Клейн).

Цель эконометрики — эмпирический вывод экономических законов. Эконометрика дополняет теорию, используя реальные данные для проверки и уточнения постулируемых отношений (Маленво).

Экономисты используют количественные данные для наблюдения за ходом развития экономики, ее анализа и прогноза. Набор статистических методов, используемых для этих целей, называется в совокупности эконометрикой (Грилихес).

Цит. по: Магнус Я.Р., Катышев П.К., Пересецшй А.А. Эконометрика. Начальный курс: Учебник. М.: Дело, 2005. СП.

Рекомендуемую по эконометрике литературу перечислим в порядке роста объема и охвата тематики: 1 Гладилин А.В., Герасимов А.Н., Громов Е.И. Эконометрика: Учеб. ' пособие. - М.: КНОРУС, 2006. - 232 с.

Мхитарян B.C., Архипова М.Ю., Балаш В.А. Эконометрика: Учебник для вузов. — М.: Проспект, 2008. — 384 с.
Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс: Учебник. — М.: Дело, 2005. — 504 с.
Елисеева И.И., Курышева СВ., Костеева Г.В. и др. Эконометрика: Учебник / Под ред. И.И. Елисеевой. — М.: Финансы и статистика, 2007. — 576 с.

Наиболее полное и обстоятельное введение в теоретические основы эконометрики приведено в классическом учебнике Я.Р. Магнуса, П.К. Катышева и. А.А. Пересецкого «Эконометрика. Начальный курс». В дальнейшем^ будем придерживаться обозначений, принятых в этом учебнике. В ряде случаев, чтобы не загромождать изложение теоретического материала чрезмерными математическими выкладками, будем ссылаться на эту работу Я.Р. Магнуса, П.К. Катышева и А.А. Пересецкого.

Приведем список литературы и набор сайтов для ознакомления с пакетом STATISTICA:

Боровиков В.П., Боровиков И.П. STATISTICA. Статистический анализ и обработка данных в среде Windows. — М.: Филинъ, 1998. - 608 с.
Боровиков В.П. Популярное введение в программу STATISTICA. - М.: КомпьютерПресс, 1998. - 267 с.
Боровиков В.П., Ивченко Г.И. Прогнозирование в системе STATISTICA в среде Windows. Основы теории и интенсивная практика на компьютере: Учеб. пособие. — М.: Финансы и статистика, 1999. — 384 с.
Халафян А.А. STATISTICA 6. Статистический анализ данных: Учебник. — М.: ООО «Бином-Пресс», 2007. — 512 с.
http://www.exponenta.ru/soft/Statist/Statist.asp

10. http://www.statsoft. ru/home/portal/default.asp

Примером учебного пособия по эконометрике с использованием некоторых возможностей пакета STATISTICA является следующее издание:

11. Яновский Л.П., Буховец А.Г. Введение в эконометрику: Учеб. пособие. - М.: КНОРУС, 2007. - 256 с.

Данные, с которыми имеет дело эконометрика, принято делить на пространственные и временные ряды. Пространственные ряды — данные о каком-либо экономическом показателе (или группе показателей), отнесенные к одному и тому же моменту времени. Временные ряды — данные о каком-либо экономическом показателе (или группе показателей), отнесенные к различным моментам времени.

Основные разделы эконометрики

Эконометрические модели, эконометрическое моделирование составляют основу эконометрической методологии анализа и прогноза. Принято различать следующие три группы моделей эконометрики:

регрессионная модель — это уравнение, в котором объясняемая переменная выступает в виде функции от объясняющих переменных;
системы одновременных уравнений состоят из набора регрессионных уравнений и некоторых тождеств;
модели временных рядов включают процедуры анализа (декомпозиции), синтеза, а также прогноза. Эконометрическое оценивание моделей включает два основных

этапа:

теоретический. Предпосылкой теоретического этапа выступает следующее представление. Считается, что определено все множество реализаций экономических показателей, или, на языке выборочного метода статистики, определена генеральная совокупность. Зная или полагая те или иные статистические свойства генеральной совокупности, можно теоретически определить параметры модели;
эмпирический. На эмпирическом этапе исследователь располагает лишь выборочными значениями экономических показателей. На этом этапе можно оценить, но нельзя точно определить значения параметров модели, поскольку они являются случайными величинами. Оценка проводится, чтобы получить как можно более точные и статистически достоверные значения неизвестных параметров модели, которые характеризуют генеральную совокупность всех возможных реализаций экономических показателей.

Характеристики генеральной совокупности, как правило, неизвестны, поэтому их оценивают по выборочным данным. Согласно выборочному методу статистики характеристики генеральной совокупности принято называть параметрами, а характеристики выборочной совокупности — оценками. Выборочная оценка дает удовлетворительное приближение для оцениваемого параметра, если она отвечает ряду требований. Эти требования характеризуются такими терминами, как «несмещенность», «эффективность» и «состоятельность».

Оценка называется несмещенной,-если ее математическое ожидание равно оцениваемому параметру при любом объеме выборки. В противном случае оценка называется смещенной.

Несмещенная оценка называется эффективной, если она имеет минимальную дисперсию по сравнению с другими выборочными оценками. *

Оценка называется состоятельной, если при увеличении объема выборки она стремится к оцениваемому параметру. ►

Метод наименьших квадратов (МНК) и его различные модификации — один из важнейших эконометрических методов. Регрессионный анализ, основанный на методе наименьших квадратов, дает наилучшие результаты из всех возможных, когда выполняются условия теоремы Гаусса — Маркова (см. лекцию 2). При выполнении этих условий регрессионная модель называется классической нормальной линейной регрессионной моделью. Отклонения от нормальной линейной регрессионной модели характеризуются терминами «гетероскедастичность» и «автокорреляция» (их смысл будет обсуждаться далее).

Модель потребления является классическим примером использования математических моделей в эконометрике. Пусть С — потребление некоторого пищевого продукта на душу населения в некотором году, Y— реальный доход на душу населения, Р — цена на этот продукт с учетом инфляции, а Р₀, JJ,, Р₂ — константы. Выберем следующее уравнение для связи всех перечисленных переменных:

(1)

Уравнение (1) выступает в качестве ключевого элемента математической модели описания поведения потребителя по отношению к покупке данного пищевого продукта в зависимости от душевого дохода и уровня цен. Модель потребления будет оконча-

мике» (1911). Приблизительно в тоже время итальянский ученый Р. Бенини применил метод множественной регрессии для оценки функции спроса.

В изучение проблемы цикличности в эконометрике значительный вклад внесли такие ученые, как К. Жюгляр, С. Китчин, С. Кузнец, Н. Кондратьев, К. Маркс и др. Ими выявлены цикличность инвестиций в активную часть основных фондов (с периодом 7—11 лет), в обновление оборотных средств (3—5 лет), циклы в строительстве (15—20 лет) и циклы обновления инфраструктуры (40-60 лет).

Заметным этапом развития эконометрики стало появление экономических предсказателей, или, как их еще называют, барометров. Ярким примером выступает гарвардский барометр. Идея барометров заключалась в предсказании динамики одних показателей экономики с помощью других, изменения которых опережают первые во времени. В течение 1903—1914 гг. удавалось за несколько месяцев прогнозировать поворотные пункты в усредненных кривых фондового, товарного и денежного рынков. Со второй четверти XX в. гарвардский параметр утратил прогнозирующие свойства.

В конце 1930 г. в США было создано первое международное эконометрическое общество. С 1933 г. начал издаваться журнал «Econometrica». В 1941 г. появился первый учебник по эконометрике, написанный Я. Тинбергеном.

До 70-х годов XX в. эконометрика выступала инструментом подтверждения с помощью наблюдений тех количественных соотношений, которые вырабатывала экономическая теория. Такое положение дел объясняется тем, что большинство экономических моделей того периода были кейнсианскими. В дальнейшем, когда началась дискуссия между кейнсианцами, монетаристами и представителями прочих экономических теорий, для выбора той или иной математической модели стали использовать формальные эконометрические модели.

На рис. 3 приведены блок-схемы¹, иллюстрирующие взаимное позиционирование экономической теории и эконометрического анализа до и после 70-х годов. Роль формальных эконометрических методов особенно возросла после 70-х годов в связи с огромным «предложением» различного рода конкурирующих друг с другом

Яновский Л.П., Буховеи А.Г. Введение в эконометрику: Учеб. пособие. М.: КНОРУС, 2007. 256 с.

экономических теорий. В этой ситуации важнейшее значение приобрела выработка критериев отбора наилучших теорий. Одним из них является критерий наиболее успешного прогноза.

После 70-х годов в связи с бурным развитием вычислительной техники Дж. Бокс и Г. Дженкинс создали теорию интегрируемых моделей авторегрессии и скользящего среднего (ARIMA) для анализа и прогноза временных рядов.

В начале 80-х годов развиваются методы решения систем одновременных уравнений и путевой анализ. Для решения систем одновременных уравнений используются косвенный, двухшаговый и трехшаговый методы наименьших квадратов.

«.

Лекция 2 МОДЕЛЬ ПАРНОЙ РЕГРЕССИИ

Исследуется простейшая модель парной регрессии, или одномерная регрессионная модель. Обсуждается метод наименьших квадратов (МНК). Дается геометрическая интерпретация процедуры метода наименьших квадратов. Определяются гипотезы, лежащие в основе линейной регрессионной модели. Формулируется и' доказывается теорема Гаусса — Маркова.

Пусть имеется набор значений двух переменных X_t, Y_t, t= 1,..., п. Можно построить так называемую диаграмму рассеяния — график, состоящий из декартовых осей координат X, Yh точек с координатами (X,, Y,), г= 1,..., и. Пример диаграммы рассеяния представлен нарис. 1.

В нашу задачу входит подобрать такую функцию Y = f(X) из параметрического семейства f(X, (3,, ..., р ), которая наилучшим способом описывает зависимость У от Л". Это означает, что на диаграмме рассеяния искомая линия должна проходить по местам наибольшего скопления наблюдаемых точек. Подобрать соответ-

2»

Рис. 1. Диаграмма рассеяния и прямая линия, наилучшим образом описывающая зависимость YmX

Для изучения данных, представленных в табл. 1, построим диаграмму рассеяния (рис. 3). Прямая линия на рис. 3 является искомой линейной моделью зависимости количества туристов от затрат на рекламу. В пакете STATISTICA, изучением которого нам предстоит заниматься на семинарах, построение таких линий (регрессионных прямых), представляет собой одну из стандартных процедур. Обращаясь к этой процедуре, находим а = 118,3; b = 83,84. Подставляя эти коэффициенты в функциональную модель в обозначениях (5), получаем

Численные значения коэффициентов а и Ь, входящих в (8), допускают естественную интерпретацию. Число 118 — это количество туристов, которые воспользуются услугами туристической фирмы, если та вообще не тратится на рекламу. Второе число означает, что количество туристов-клиентов возрастет в среднем приблизительно на 84 человека, если туристическая фирма увеличит затраты на рекламу на 1000 у.е. в отчетный период. Другими словами, в каждого туриста, который обращается к услугам туристической фирмы, в среднем через рекламу вложено 1000/83,84 = = 12 у.е.

Свойство гетероскедастичности на диаграмме рассеяния

-200 0 200 400 600 800 1000 1200

Рис. 4. Пример ярко выраженного свойства гетероскедастичности

рассматриваются временные ряды. Если указанное условие не выполняется, говорят об автокорреляции ошибок.

На рис. 5, а приведена диаграмма рассеяния временного ряда с ярко выраженными сезонными колебаниями, а на рис. 5,6 — соответствующая автокоррелограмма, характеризующая корреляцию между соседними измерениями, вплоть до значения лага, равного 15, т.е. \t-s\= 15.

Пусть в нашем распоряжении находятся данные наблюдений (X_t, Y_t), t= 1, ..., п и модель (9), (10). Оценим параметры а, А и с²наилучшим способом. Теоретическая проблема состоит в следующем: какой смысл вкладывать в слово «наилучшая»?

Теорема Гаусса — Маркова. При выборе модели (9), (10) оценки а, Ь, полученные в (4) методом наименьших квадратов (МНК), являются несмещенными и имеют наименьшую дисперсию в классе всех линейных несмещенных оценок.

Доказательство.

1. Проверим, что МНК-оценки a, b являются несмещенными оценками истинных значений а, Ь.

Согласно определению несмещенности, представленному в лекции 1, необходимо доказать, что Ей = а и ЕЬ = Ь.

₁

уровень значимости в нашей задаче 0,05, приходим к выводу: поскольку cc_min = 0,000015 < 0,05, можно отказаться от нулевой гипотезы на уровне значимости 0,05 и считать, что в построенной выщ_ерегрессионной модели коэффициент регрессии статистически значим.

Пример 4. Исследуем вопрос о связи числа самоубийств в Российской Федерации и объема потребляемой в стране алкогольной продукции с точки зрения регрессионного моделирования. Обратимся к официальным данным, опубликованным в Российском статистическом ежегоднике (М., 2006).

Данные приведены в табл. 1, где столбец Year обозначает год наблюдения; столбец Alcohol — количество потребляемого алкоголя в абсолютном выражении, млн дал (1 дал = 10 л); столбец Suicide — число умерших в результате самоубийства, тыс. чел.

Таблица 1 Данные о потреблении алкоголя и числе самоубийств

в Российской Федерации

	Year	Alcohol	Suicide
1	1970	101,0	38,9
2	1975	122,0	44,8
3	1980	137,0	47,9
4	1985	109,0	44,6
5	1990	78,8	39,2
6	1995	60,8	61,0
7	1996	39,3	57,8
8	1997	46,0	55,0
9	1998	50,0	51,8
10	1999	73,4	57,3
11	2000	74,4	56,9
12	2001	83,5	57,3
13	2002	90,4	55,3
14	2003	91,5	51,7
15	2004	95,9	49,4

Вначале посмотрим на соответствующие графики зависимости потребления алкоголя и числа самоубийств от времени (рис. 2).

Отметим две особенности: минимум потребления алкоголя за указанный период приходится на 1996 г.; максимум самоубийств — на 1995 г. Это дает основание предположить, что между потребле-

тельно, коэффициент детерминации, согласно таблице на рис. 4, вен о,3234, т.е. наша регрессионная модель из всей изменчивости статистики самоубийств описывает лишь 32,34%, что приблизительно равняется третьей части.

Вывод. Из всей изменчивости статистики самоубийств в Российской Федерации третью их часть можно связать с общим потреблением алкоголя в стране, причем связь эта отрицательная, т.е. чем больше потребление алкоголя, тем меньше самоубийств, и наоборот, чем меньше потребление алкоголя, тем больше самоубийств. Вместе с тем, чтобы получить объективные выводы, необходимо учитывать другие возможные причины самоубийств (наркомания, неразделенная любовь, безысходность, усталость и пр.), которые могут оказаться не менее, а даже более важными, чем алкоголь.

Таблица 2 Объем перевозок пассажиров транспортом общего пользования в Российской Федерации

(млн чел.)

Год	Железная дорога	Автобус	Метро
1970	2500	15053	2047
1980	2971	23 356	3036
1990	3143	28626	3695
1995	1833	22817	4150
2000	1419	22033	4186
2001	1306	20883	4205
2002	1271	19620	4200
2003	1704	17898	4205
2004	1335	16552	4211
2005	1339	11297	3574

3. Оценки коэффициентов имеют неверные с точки зрения экономической теории знаки или неоправданно большие значения. Что делать, если ряд признаков обладает мультиколлинеарно-стью? Однозначного ответа на этот вопрос нет. Например, если несколько независимых переменных имеют общий тренд, относительно которого они совершают малые колебания, то, исключив этот тренд из каждой переменной, можно в ряде случаев устранить мультиколлинеарность.

Пример 1. Рассмотрим свойство мультиколлинеарности на примере данных о связи валового внутреннего продукта Российской Федерации (переменная ВВП на рис. 1) с численностью экономически активного населения (переменная Э_нас-ие) и инвестициями в основной капитал (переменная Инвест.). Эти данные уже изучались в предыдущей лекции (см. пример 1). Там же была построена множественная высокозначимая регрессия (ВВП по Э_нас-ие и Инвест.), все коэффициенты которой также высокозначимы:

ВВП --43 968,518489 + 0,619745Э_нас-ие +0,005517Инвест. (1)

(-4,53) (4,51) (36,04)

В регрессии (1) в скобках указаны значения /-статистики Стью-дента для каждого коэффициента регрессии. Для регрессии (1) коэффициент детерминации R²- 0,99971, а соответствующее значение /'-статистики равно F(2, 4) = 6826,6.

На рис. 1 приведена таблица с данными примера 1. Помимо ВВП, Э_нас-ие и Инвест, в ней содержатся также другие переменные, смысл которых будет уточнен далее.

	1 Time \|	2 ВВП	3 Э нас-не	4 Инвест.	5 ВВП и	S Э_нас-ив_м \|	7 Инвест_м
1	1995	1428,5	70740	266974	2212,22	300,39:	358825
2	2000 і	7305,6	72332	1165234	-1405,75	242,09	-283748
3	2001 і	8493,6	71411	1604712 1762407	-2116,77	-1008,98	-252436
4 5	2002: 2003!	10830,5	72629	1604712 1762407	-1678,88	-121,03!	-302907
4 5	2002: 2003!	13243,2	73198	2186365 2804834	-1165,19	117,91!	-187116
6	2004	17048,1	73359	2186365 2804834	740,69	-51,16!	123187
7	2005	21620,1	74261	3534009	3413,68	520,78	544195

Рис. 1. Данные примера 1 в пакете STATISTICA

Найдем коэффициент корреляции между переменными Э_нас-ие и Инвест. Он равен г(Э_нас-ие, Инвест.) = 0,9386. Столь

высокое значение коэффициента корреляции между парой регрес-соров свидетельствует о наличии мультиколлинеарности в регрессионной модели (1).

Чтобы понять природу данной мультиколлинеарности, рассмотрим графики зависимости наших переменных от времени (переменная Time на рис. 1). Данные графики приведены на рис. 2. Из анализа этих графиков следует, что имеется общая тенденция роста. Чтобы убедиться в том, что именно общая тенденция является причиной мультиколлинеарности, исключим из каждой переменной ее основную тенденцию, а для полученных остатков построим другую множественную регрессию.

Выберем для простоты в качестве основной тенденции линейную регрессию, тогда с помощью пакета STATISTICA получим следующие три трендадля каждой из переменных ВВП, Э_нас-ие и Инвест.:

ВВП, = -3 789115,604348 + 18§9,013478 Time,

(-6,52) (6,54)

Э_нас-ие, = -588031,826087 + 330,060870Time, (2)

(-4,39) (4,94)

Инвест., = -614883448,956522+308166,465217Time.

(-6,60) (6,62)

Все коэффициенты в регрессионных моделях (2) высокозначимы (в скобках приведены значения /-статистики Стьюдента). Вычтем теперь из переменных ВВП, Э_нас-ие и Инвест, соответствующие значения тенденций, вычисленные согласно формулам (2), тогда получим остатки, обозначенные на рис. 1 как переменные ВВП_м, Э_нас-ие_м и Инвест_м.

Прежде чем строить регрессию ВВП_м по переменным Э_нас-ие_м и Инвест_м, найдем корреляцию между регрессорами Э_нас-ие_м и Инвест_м. Данная корреляция легко вычисляется в пакете STATISTICA, она равна 0,5728. Полученное значение коэффициента корреляции является умеренным, что свидетельствует об отсутствии мультиколлинеарности.

Результаты построения множественной регрессии ВВП_м по переменным Э_нас-ие_м и Инвест_м представлены на рис. 3.

Кроме свободного члена (Intercept) два других коэффициента Регрессии высокозначимы. Без существенной потери точности свободный член может быть отброшен (его значение, представленное в столбце В, равно -0,000206).

Динамика ВВП РФ

24 000

22 000

20 000

18 000

16 000

14 000

И 12 000

« 10 000

8000

6000

4000

2000

2002 2004 2006

1994 1996 1998

2000 Time

б) Динамика численности экономически активного населения РФ 74 500

74 000

73 500 g 73 000 к 72 500 д¹ 72 000

71500

71000

2002 2004 2006

1994 1996 1998

2000 Time

70 500

Динамика инвестиций в основной капитал РФ

е)

4Е6 3,5Е6

ЗЕ6 2.5Е6

2Е6 1,5Е6

1Е6

5Е5 0

2000 Time

2002 2004 2006

1994 1996 1998

Рис. 2. Динамика ВВП (а), численности экономически

активного населения (б) и инвестиций

в основной капитал (в) Российской Федерации

Рис. 6. Итоговая таблица построения регрессионной модели (8)

Соответствующие значения /-статистик, приведенные в скобках, показывают, что все коэффициенты регрессионной модели (8') высокозначимы (на уровне 0,05 и даже 0,001). По сравнению с регрессионной моделью (У) модель (8') имеет больший коэффициент детерминации R² ~ 0,7418 (против 0,6833 для модели (!')).

Смысл коэффициентов модели (8') следующий. Первый коэффициент можно истолковать как среднюю цену нового автомобиля (Age = 0) среди двух моделей VAZ2107, VAZ2109. Второй коэффициент показывает, что в течение каждого года машина теряет приблизительно 4574,342920 = 4570 руб. Третий коэффициент -26692,282129 = -26700 руб. указывает, насколько уменьшится в среднем цена новой машины после добавления модели VAZ2105 к двум моделям VAZ2107, VAZ2109. Аналогично четвертый коэффициент регрессии -23 807,954366 ~ -23 800 руб. указывает, насколько уменьшится в среднем цена новой машины после добавления модели VAZ2106 к двум моделям VAZ2107, VAZ2109. С учетом всех четырех моделей VAZ2105 (VAZ2105 = 1), VAZ2106 (VAZ2106 = 1), VAZ2107 и VAZ2109 средняя цена новой машины составит 139991,887299 - 26692,282129 - 23 807,954366 т 89500 руб., что сравнимо со средней ценой автомобиля = 84360 руб., полученной согласно статистике, представленной на рис. 4.

Наконец, если ввести в набор регрессоров все четыре модели автомобилей, т.е. VAZ2105, VAZ2106, VAZ2107, VAZ2109, и попытаться провести регрессионное моделирование, то в рамках пакета STATISTICA будет получен отказ. В этом случае определить МНК-оценки невозможно, так как регрессоры VAZ2105, VAZ2106, \AZ2107, "VAZ2109 линейно зависимы, что демонстрирует переменная SUM на рис. 4, в которой представлена сумма VAZ2105, + + VAZ2106, + VAZ2107, + VAZ2109, = 1, t = 1,..., 95. Это и есть ситуация «dummy trap», когда сумма фиктивных переменных тождественно равна константе.

Variable	Variables currently in the Equation; DV: ВВП
	Beta in 1 Partial I Cor.	Semipart Tolerancej R-»quare Cor.	«4>	p-level
Т"нас-ие Инвест.	0,111889; 0,914134 0^94086] 0,998463	0,038589 0,118947: 0,881053	4,50966; 0,010743
		0,308358; 0,118947 0,881053	36,03595	0,000004

Рис. 7. Окно пакета STATISTICA с численными значениями частных коэффициентов корреляции

В ряде случаев исследователь заранее знает характер зависимости исследуемых величин, опираясь на экономическую теорию, предыдущие результаты, априорные знания и т.п. Тогда ему остается лишь оценить неизвестные параметры. Классическим примером является процедура оценивания параметров производственной функции Кобба — Дугласа

Y=AK^aL^, і где У— совокупный выпуск продукции; К— капитальные вложения; L — трудовые затраты. Логарифмируя функцию Кобба — Дугласа, получим линейное относительно параметров 1гь4, а, Р уравнение. Далее можно действовать обычным образом, используя МНК-оценки неизвестных параметров, проверять гипотезы и пр.

На практике часто приходится сталкиваться с ситуацией, когда имеется большое число наблюдений различных независимых переменных, но нет модели изучаемого явления. Возникает общая проблема определения необходимого и достаточного набора ре-грессоров.

В компьютерные пакеты (в том числе и в пакет STATISTICA) включены различные эвристические процедуры пошагового отбора регрессоров, основными из них являются: ' процедура последовательного удаления;

процедура последовательного присоединения;

процедура присоединения-удаления.

В процедуре последовательного удаления анализ начинается с включения в регрессионную модель всех переменных. Затем для каждой переменной вычисляют частную /"-статистику, и ту переменную, для которой /"-статистика минимальна, исключают ^Из Рассмотрения. Далее строят новую модель по оставшимся переменным, и после вычисления частных /"-статистик вновь удаляют °Дну из переменных. И так до тех пор, пока не будет достигнуто бранеє заданное число переменных в модели или все /"-статистики ^е станут больше заданного порога.

В процедуре последовательного присоединения начинают с построения модели, включающей лишь одну переменную, имеющую наибольший по абсолютной величине парный коэффициент корреляции с зависимой переменной. Затем вычисляют частные /"-статистики для всех оставшихся переменных и включают в модель переменную с наибольшей /-статистикой. Это эквивалентно включению переменной, имеющей наибольший частный коэффициент корреляции с зависимой переменной. Процесс повторяется до тех пор, пока в модели не наберется определенное число переменных или /-статистики не станут меньше заданного порога.

В процедуре присоединения-удаления выбирают фиксированные пороговые уровни /_вкл и /_искл и на каждом шаге рассматривают возможности добавить переменную, исключить переменную, заменить одну переменную другой или остановить процесс. На каждом шаге вычисляются /"-статистика переменных, коэффициент детерминации R² и степень допустимой коррелированности переменных, вошедших в регрессионное уравнение.

Пример 4. Вернемся к данным, рассмотренным в предыдущей лекции (см. рис. 1 в лекции 5). Найдем с помощью процедуры удаления (присоединения) в пакете STATISTICA оптимальный набор регрессоров для объяснения переменной валового внутреннего продукта (ВВП).

На рис. 8 приведен итог процедуры пошагового удаления переменных из потенциального набора регрессоров. На первом шаге была удалена переменная Доход, так как она имела минимальную частную /"-статистику (0,002). На втором шаге была удалена переменная Сальдо, имеющая минимальную /-статистику (0,576). Наконец, на третьем шаге процедура пошагового удаления завершилась, так как все оставшиеся /-статистики для переменных Э_нас-ие и Инвест, превышают пороговое значение 1. По окончании процедуры пошагового удаления переменных осталось два регрессора: Э_нас-ие и Инвест.

На рис. 9 приведен итог процедуры пошагового присоединения переменных из потенциального набора регрессоров. На первом шаге была включена переменная Инвест., так как она имела максимальную частную /-статистику (2800,843). На втором шаге была добавлена переменная Э_нас-ие, имеющая максимальную /-статистику (20,337). Наконец, на третьем шаге процедура поша-

		1 Год	2 і 3 І Урожайность Остаток	4 Grp1	5 D1	6 Grp2	7 D2
	1	1945	5,6 1,40642	5,6	0,07036
—	г	1946	4,6 2,63044	4,6	2,39109
	3	1947	7,3 0,15445	7,3	0,76149
	4	1948	6,7 0,97847	6,7	0,00007
	S	1949	6,9 1,00249	6,9	0,00801
	6	1950	7,9 0,22650	7,9 7,4	0,39624 0,02298
	7	1951	7,4 0,96052	7,9 7,4	0,39624 0,02298
	8	1952	8,6 0,02547	8,6 7,8	0,58885
	9	1953	7,8 0,99855	8,6 7,8	0,09840
	10	1954	7,7 1,32257	7,7	0,48266
	11	1955	8,4 0,84658	8.4	0,07606
	12	1956	9,9 0,42940	9,9	0,88955
	13	1957	8,4 1,29462	8,4'	0,70207
	14	1958	11,1 1,18137	11,1	5,49973
	15	1959	10,4 0,25735	10,4	0,36000
	16	1960	10,9 0,53334	10,9	0,67067 0,11417
	17	1961	10,7 0,10932	10,7	0,67067 0,11417
	18	1962	10,9 0,08531	10,9	0,06597
	19	1963	8,3 2,73871	8,3	6,88648
	20	1964	11,4 0,1372!
	21	1965	9,5 1,98674
	22	1966	13,7 1,98924	t
	23	1967 12,1 0,16523
	24	1968	14,0 1,84121
	25	1969	13,2 0,81719
	26	1970	15,6 2,99318
	27	1971	15,4 2,56916
	23	1972	14,0 0,94515
	29	1973	17,6 4,32113
	ЗО	1974	15,4 1,89712
	31	1975	10,9 2,82690
	32	1976	17,5; 3,54908	\
	33	1977	15,0 0,82507
	34	1978	18,6 4,10105			18,5	10,46772
	35	1979	14,2і 0,42296			14,2	1,42174
	36	1980	14,9 0,05302			14,9	0,38455
	37	1981	12,6 2,47100			12,6	9,28954

Рис. З. Фрагмент данных о динамике урожайности зерновых культур в России в контексте проверки наличия свойства гетероскедастичности

По тесту Гольдфельда — Квандта в таблице на рис. 3 определены Две группы данных (Grpl, Grp2), для них построены соответствующие рефессионные модели и найдены квадраты остатков (D1, "2). Суммирование квадратов остатков дало: D_x = 17,08; D₂ - 48,95.

Находим D и соответствующее критическое значение а вероятности /"-критерия Фишера с 17 степенями свободы: D = 2,87 и « = 0,018.

Вывод. Согласно тесту Гольдфельда — Квандта, поскольку р 0,018 < 0,05, на уровне значимости 0,05 можно считать, что Регрессионная модель (1) динамики урожайности зерновых куль-УР в России обладает свойством гетероскедастичности.

⁷ ~2043

Существует два подхода к решению проблемы гетероскедастич-

ности:

преобразование исходных данных;
применение обобщенного метода наименьших квадратов (ОМНК).

Преобразование данных для уменьшения гетероскедастичности

Первый подход к решению проблемы" гетероскедастичности заключается в следующем: исходные данные преобразуются таким образом, что для новых данных соответствующая регрессионная модель уже не будет обладать свойством гетероскедастичности. Чаще всего используют два вида преобразований:

логарифмирование данных;
переход к безразмерным величинам путем деления на некоторые известные величины той же размерности, что и исходные данные.

Пример 3. Применим тест Гольдфельда — Квандта на наличие гетероскедастичности к прологарифмированным данным о динамике урожайности зерновых культур в России (см. пример 1).

На рис. 6 приведена таблица из пакета STATISTICA с преобразованными данными и результатами расчетов с помощью теста Гольдфельда — Квандта. В частности, по преобразованным данным была построена линейная регрессионная модель

Logy = -34,938593 + 0,018990 X. (6)

(-12,42) (13,31)

Согласно (6) все коэффициенты регрессионной модели высокозначимы, кроме того, R¹ = 0,779; F= 177,18.

По тесту Гольдфельда — Квандта в таблице на рис. 6 определены две группы данных (Grpl, Grp2), для них построены соответствующие регрессионные модели и найдены квадраты остатков (D1, ™), Суммирование квадратов остатков дало: D_x = 0,287; D₂ = 0,187. Находим D и соответствующее критическое значение а вероятности .F-критерия Фишера с 17 степенями свободы: D^DJDj = 1,53 ^и« = 0,195.

Вывод. Согласно тесту Гольдфельда — Квандта, поскольку

⁼ 0,195 > 0,05, то на уровне значимости 0,05 нельзя сделать вывод

⁰ Наличии у регрессионной модели (6) свойства гетероскедастич-

101

	1 Цена	2 Площадь	Остаток	4 Цеиа_Пл	5 1_ПЯ	6 Остатокг
1	5876	503	545,334	11,682 22,434	0,002	3,543
г	5743	256	2454,619	11,682 22,434	0,004	7,938
3	5355	263	1977,831	20,361	0,004	5,826
4 5	5202 6099	484	978,338 3231,229	10,748	0,002	4,447 22.069
4 5	5202 6099	144	978,338 3231,229	35,410	0,007	4,447 22.069
7 Э	1774	120	210,645	14,783	0,008	1,970
7 Э	1770	188	655,868	9,415	0,005	4,544
9 to	1747	93	526,114	18,785	0,011	6,891
9 to	1737	246	1424,541	7,061	0,004	7,374
11	842	110	594,515	7,655	0,009	4,871
12	840	63	0,366	13,333	0,016	3,386
13	840	117	685,303	7,179	0,009	5,552
и	836	75	156,574	11,147	0,013	0,234
15	816	110	620,616	7,418	0,009	5,107
1«	137	30	284,793	4,567 3,806	0,033 0,028	1,256 1,617
1?	137	36	360,897	4,567 3,806	0,033 0,028	1,256 1,617
18	137	30	284,793	4,567	0,033	1,256
1S	136	35	349,213	3,886	0,029	1,235
20	136	60	666,313	2,267	0,017	7,379

Рис. 10. Данные о продаже 20 московских квартир

Согласно (14) коэффициент регрессии высокозначим, кроме того, R² = 0,679; F= 38,08. Свободный член регрессионной модели (14) незначимо отличается от нуля. Модуль остатков ошибок регрессионной модели (14) приведен в столбце Остаток на рис. 10.

Попробуем визуально обнаружить наличие гетероскедастично-сти. На рис. 11, о построена диаграмма рассеяния в координатах Площадь — Остаток. Из графика видна довольно сильная зависимость остатка регрессионной модели от регрессора Площадь, т.е. в среднем с увеличением площади ошибка растет. Будем считать, что ошибка регрессии є пропорциональна регрессору Площадь, т.е. г = Площадью. Подставив последнее выражение в (14) и поделив обе части уравнения на Площадь, получим новую зависимую переменную, обозначенную на рис. 10 как Цена_Пл, и новую независимую переменную 1_Пл. Новые зависимая и независимая переменные определяются согласно следующим уравнениям: Цена_Пл = Цена / Площадь, 1_Пл = 1/Площадь.

В пакете STATISTICA строим соответствующую регрессионную модель в переменных 1_Пл — Цена_Пл:

Цена_Пл = 15,980541 - 380,087510(1_Пл) + и. (15)

(6,29) (-2,39)

Согласно (15) оба коэффициента регрессии высокозначимы на уровне значимости 0,05, кроме того, R² = 0,241; F= 5,709. По срав-

110

		1 Цена	2 J Площадь	3 Остаток	•t Gr1	I 5 01	в Gr2	7 D2
	1	110	19	-53,92	110	0,2168
	2	107	32	-242.98	107	1,8258
	3	107	40	-357,48	107	0,3883
	4	107	40	-357.48	107	0,3883
	5	110	41	-368,79	110	6,0905
	6	108	44	-413,72	108	0,5490
	7	106	46	-444,35	106	1,1600
	В	107	58	-615,09
	9	107	64	-700,97
	10	112	80	-924.96
	11	2387	130	634,43
	12	2550	134	740,19
	13	3060	158	906,70
	14	3264	158	1110,70			3264	1407,48 2153177,65 248373,45 864210,45
	15	5049	200	2294,59			5049
	1С ' 17	4080 2652	200	1325,59			4080
	1С ' 17	4080 2652	200	-102,41 -798.14			2652
	18	2815	260	-102,41 -798.14			2815	1361398,90
	Ї9	4470	351	-445,54			4470	14089,97
	Г²⁰	5876	501	-1186,36	9		5876	82309,31"
SUM case	-20					10,618658
SUM case 1-21			ч^		0			4724967,23

Рис. 12. Исходные данные к примеру 6 и процедура оценки гетероскедастичности с помощью теста Гольдфельда — Квандта

Воспользуемся тестом Гольдфельда — Квандта и покажем наличие гетероскедастичности в регрессионной модели (16). Согласно тесту Гольдфельда — Квандта в таблице на рис. 12 определены две группы данных (Grl, Gr2), для них построены соответствующие регрессионные модели и найдены квадраты остатков (Dl, D2). Суммирование квадратов остатков дало: D, = 10,6; D₂ = 4724967,2.

Находим D, которое удовлетворяет /^-критерию Фишера: D = D₂/D_{ = 445751. Поскольку значение D чрезвычайно велико, с высокой надежностью можно считать, что гетероскедастичность действительно имеет место в модели (16).

В рамках процедуры применения ОМНК будем исходить из того, что дисперсия ошибок описывается двумя значениями: для первых 10 значений цены за квартиру (обычное, дешевое жилье) и Для вторых 10 ее значений (элитное, дорогое жилье). На рис. 13 приведена итоговая таблица с исходными данными (столбцы Цена, Площадь) и модифицированными данными (столбцы ЦенаМ, шіощадьМ и ОстатокМ) с учетом наличия двух дисперсий: »і - 505, ш₂ = 3505.

Итак, после применения процедуры ОМНК к исходным данным (столбцы Цена, Площадь) получились новые наборы данных Столбцы ЦенаМ, ПлощадьМ), по которым была построена регрес-

⁸ - 2043

113

Рис. 13. Исходные и модифицированные данные, а также применение теста Гольдфельда — Квандта к модифицированным данным

сионная модель и найдены остатки, представленные в столбце ОстатокМ. Согласно тесту Гольдфельда — Квандта в таблице на рис. 13 определены две группы данных (Grl, Gr2), для них построены соответствующие регрессионные модели и найдены квадраты остатков (Dl, D2). Суммирование квадратов остатков дало: D, = 0,2; D₂ = 2,27. Находим D, которое удовлетворяет ^-критерию Фишера: D = B₂/D_l = 11,35. Полученное значение все еще велико, но оно намного меньше предыдущего значения, равного 445 751. Вывод. Процедура учета двух значений дисперсии ошибок оказалась очень эффективной в борьбе с гетероскедастичностью. Таким образом, удалось снизить гетероскедастичность с 445751 до 11,35, т.е. более чем на четыре порядка.

Проблема состоит в том, что распределение DW зависит не только от числа наблюдений п и числа регрессоров к, но и от матрицы X. Составить же таблицу критических значений для всех матриц Л"невозможно. Однако Дарбин и Уотсон доказали, что су. ществует две границы, обычно обозначаемые d_u и d_h d_u > ц (и - upper — верхняя, / = low — нижняя), которые зависят лишь от п, к, an могут быть затабулированы. В итоге промежуток [0; 4] разбивают на пять отрезков: [0; dj\, [df, d_u], [d_u; 4 - d_u], [4 - d_u; A~d\ [4 - df, 4]. Критерий принятия или отклонения нулевой гипотезы с надежностью 1 - а против соответствующей альтернативы представлен в табл. 1.

Таблица 1 Проверка нулевой гипотезы с помощью статистики Дарбина — Уотсона

Значение статистики DW	Вывод
4-d, < DW < 4	Гипотеза Н₀ отвергается, есть отрицательная корреляция
A-d_u < DW < 4-d,	Неопределенность
d_u < DW < A-d_u	Гипотеза Н₀ не отвергается
d, < DW < d_u	Неопределенность
0 < DW < d,	Гипотеза Н₀ отвергается, есть положительная корреляция

Если наблюдаемое значение критерия Дарбина — Уотсона попадает в зону неопределенности, то на практике предполагают существование автокорреляции остатков и отклоняют нулевую гипотезу.

Пример 1. Используя пакет STATISTICA, применим тест Дарбина — Уотсона к данным о динамике золотовалютных резервов России за период с 26 декабря 2003 г. по 7 января 2005 г. Воспользуемся процедурой Кохрейна — Оркатта для оценки значения коэффициента авторегрессии, считая динамику авторегрессионньШ процессом первого порядка.

Этот пример подробно рассмотрен на семинаре 9. На рис. 1 приведена электронная таблица с данными и промежуточными расчетами; здесь в столбце X (регрессор) указано время (дни), ^оТ' считываемое от начального момента, т.е. от 26 декабря 2003 г., а в столбце Y — золотовалютные резервы (млрд долл.).

120

Итог применения теста Дарбина — Уотсона в пакете STATIS-TICA приведен на рис. 2. Данные таблицы на рис. 2 показывают малость статистики Дарбина — Уотсона (0,058253) и соответственно большое положительное значение корреляции (0,993398) между e_t и e_t__v Таким образом, тест Дарбина — Уотсона, согласно таблице значений, говорит о наличии положительной корреляции по времени.

Рис. 2. Применение теста Дарбина — Уотсона к данным примера 1

Применение двух итераций процедуры Кохрейна — Оркатта (см. рис. 1) позволило получить следующие оценки для коэффициента авторегрессии р: 0,994033 и 0,994058, т.е. с хорошей точностью можно считать, что он равен 0,994.

Вывод. Тест Дарбина — Уотсона подтвердил наличие корреляции по времени в ряде динамики золотовалютных резервов России, процедура Кохрейна — Оркатта позволила оценить коэффициент авторегрессии, он оказался равным 0,994.

Прогнозирование в регрессионных моделях

Одна из важнейших целей моделирования в экономике заключается в прогнозировании исследуемых явлений. Обычно термин «прогнозирование» используют в ситуациях прогноза во времени. Для регрессионных моделей процедура прогнозирования имеет более широкое толкование. Данные могут не иметь временной структуры, однако может возникнуть следующая задача: оценить зависимую переменную при тех значениях регрессоров, которые отсутствуют в исходных данных, т.е. необходимо решить так называемую задачу интерполяции {экстраполяции). Именно в смысле построения оценки зависимой переменной следует понимать прогнозирование в эконометрике.

В рамках выборочного метода в статистике различают точечное и интервальное прогнозирование. При точечном прогнозировании находится конкретное число, при интервальном — интервал, в котором истинное значение переменной находится с заданной нз-

122

метода наименьших квадратов даст смещенные и несостоятельные оценки структурных коэффициентов. В то же время коэффициенты приведенной формы могут быть оценены состоятельно, поскольку переменные x_t не коррелированы со структурными ошибками є, и, следовательно, с ошибками приведенной формы модели v_r

С позиций взаимосвязей между эндогенными переменными, не имеющими временного запаздывания, различают следующие модели одновременных уравнений: простые, рекуррентные и модели с взаимозависимыми переменными. Если матрица 2?диагональная или становится такой после перенумерации уравнений модели, то модель называется простой. Если матрица В треугольная или становится такой после перенумерации уравнений либо после изменения места переменных в уравнениях, то модель называется рекуррентной. Если в результате перенумерации уравнений либо изменения местоположения переменных не удается преобразовать матрицу В в диагональную или треугольную, то модель признается моделью с взаимозависимыми уравнениями.

Вернемся к проблеме идентифицируемости структурных коэффициентов. Говоря качественно, тот или иной структурный коэффициент идентифицируем, если он может быть однозначно вычислен на основе коэффициентов приведенной формы. Соответственно, какое-либо уравнение в структурной форме модели называется идентифицируемым, если все его коэффициенты идентифицируемы.

Приведенная форма (16) позволяет состоятельно оценить тк элементов матрицы Си т(т + 1)/2 элементов матрицы ковариаций вектора ошибок v,. В структурной форме неизвестными являются т² - т элементов матрицы В с учетом условия нормировки, тк элементов матрицы G и т(т + 1)/2 элементов матрицы ковариаций вектора ошибок є,. Таким образом, число структурных коэффициентов превышает число коэффициентов приведенной формы на т¹ - т и, следовательно, в общем случае система одновременных уравнений (14) неидентифицируема. Однако, как было показано в примере 1, некоторые структурные коэффициенты или структурные уравнения могут быть идентифицируемы. Это, в конечном счете, связано с тем, что на структурные коэффициенты могут быть наложены некоторые априорные ограничения.