Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
econometrika / econometrika / Модуль 4.doc
Скачиваний:
48
Добавлен:
27.03.2016
Размер:
218.11 Кб
Скачать

4.2. Линейная регрессия: статистический анализ модели

В пунктах 3.3, 4.1рассмотрена постановка задачи оценивания уравнения линейной регрессии, показан способ ее решения. Однако оценка параметров конкретного уравнения является лишь отдельным этапом длительного и сложного процесса построения эконометрической модели.Первое же оцененное уравнение очень редко является удовлетворительным во всех отношениях. Обычно приходится постепенно подбирать формулу связи и состав объясняющих переменных, анализируя на каждом этапе качество оцененной зависимости. Этот анализ качества включает статистическую и содержательную составляющую. Проверка статистического качества оцененного уравнения состоит из следующих элементов:

проверка статистической значимости каждого коэффициента уравнения регрессии;

проверка общего качества уравнения регрессии;

проверка свойств данных, выполнение которых предполагалось

при оценивании уравнения.

Под содержательной составляющей анализа качества понимается рассмотрение экономического смысла оцененного уравнения регрессии: действительно ли значимыми оказались объясняющие факторы, важные с точки зрения теории; положительны или отрицательны коэффициенты, показывающие направление воздействия этих факторов; попали ли оценки коэффициентов регрессии в предполагаемые из теоретических соображений интервалы.

Методика проверки статистической значимости каждого отдельного коэффициента уравнения линейной регрессии была рассмотрена в предыдущей главе. Перейдем теперь к другим этапам проверки качества уравнения.

4.2.1. Проверка общего качества уравнения регрессии. Коэффициент детерминации r2

Для анализа общего качества оцененной линейной регрессии используют обычно коэффициент детерминации R2. Для случая парной регрессии это квадрат коэффициента корреляции переменныххиy. Коэффициент детерминации рассчитывается по формуле

.

Коэффициент детерминации характеризует долю вариации (разброса) зависимой переменной, объясненной с помощью данного уравнения.В качестве меры разброса зависимой переменной обычно используется ее дисперсия, а остаточная вариация может быть измерена как дисперсия отклонений вокруг линии регрессии. Если числитель и знаменатель вычитаемой из единицы дроби разделить на число наблюденийп,то получим, соответственно, выборочные оценки остаточной дисперсии и дисперсии зависимой переменнойу.Отношение остаточной и общей дисперсий представляет собой долю необъясненной дисперсии. Если же эту долю вычесть из единицы, то получим долю дисперсии зависимой переменной, объясненной с помощью регрессии. Иногда при расчете коэффициента детерминации для получе­ния несмещенных оценок дисперсии в числителе и знаменателе вычитаемой из единицы дроби делается поправка на число степеней свободы; тогда

.

или, для парной регрессии, где число независимых переменных травно 1,

В числителе дроби, которая вычитается из единицы, стоит сумма квадратов отклонений наблюдений уiот линии регрессии, в знаменателе - от среднего значения переменнойу.Таким образом,дробь эта мала (а коэффициент R2, очевидно, близок к единице), если разброс точек вокруг линии регрессии значительно меньше, чем вокруг среднего значения. МНК позволяет найти прямую, для ко­торой суммаеi2минимальна, апредставляет собой одну из возможных линий, для которых выполняется условие.Поэтому величина в числителе вычитаемой из единицы дроби меньше, чем величина в ее знаменателе, - иначе выбиремой по МНК линией регрессии была бы прямая.Таким образом, коэффициент детерминацииR2является мерой, позволяющей определить, в какой степени найденная регрессионная прямая дает лучший результат для объяснения поведения зависимой переменнойу,чем просто горизонтальная прямая.

Смысл коэффициента детерминации может быть пояснен и немного иначе. Можно показать, что , гдеki=- отклонениеiй точки на линии регрессии от.В данной формуле величина в левой части может интерпретироваться как мера общего разброса (вариации) переменнойу,первое слагаемое в правой части- как мера разброса, объясненного с помощью регрессии, и второе слагаемое -как мера остаточного, необъясненного разброса (разброса точек вокруг линии регрессии). Если разделить эту формулу на ее левую часть и перегруппировать члены, то

, то есть коэффициент детерминацииR2есть доля объясненной части разброса зависимой переменной (или доля объясненной дисперсии, если разделить числитель и знаменатель наn илип-1). Часто коэффициент детерминации R2иллюстрируют рис. 4.2

Рис. 4.2.

Здесь TSS (Total Sum of Squares) -общий разброс переменнойу, ЕSS (Explained Sum of Squares) -разброс, объясненный с помощью регрессии, USS (Unexplained Sum of Squares)-разброс, необъясненный с помощью регрессии. Из рисунка видно, что с увеличением объясненной доли разброса коэффициентR2-приближается к единице. Кроме того, из рисунка видно, что с добавлением еще одной переменнойR2обычно увеличивается, однако если объясняющие переменныех1их2сильно коррелируют между собой, то они объясняют одну и ту же часть разброса переменнойу,и в этом случае трудно идентифицировать вклад каждой из переменных в объяснение поведенияу.

Если существует статистически значимая линейная связь величин хиу, то коэффициентR2близок к единице. Однако он может быть близким к единице просто в силу того, что обе эти величины имеют выраженный временной тренд, не связанный с их причинно-следственной взаимозависимостью. В экономике обычно объемные показатели (доход, потребление, инвестиции) имеют такой тренд, а темповые и относительные (производительности, темпы роста, доли, отношения) - не всегда. Поэтому при оценивании линейных регрессий по временным рядам объемных показателей (например, зависимости выпуска от затрат ресурсов или объема потребления от величины дохода) величинаR2обычно очень близка к единице. Это говорит о том, что зависимую переменную нельзя описать просто как равную своему среднему значению, но это и заранее очевидно, раз она имеет временной тренд.

Если имеются не временные ряды, а перекрестная выборка, то есть данные об однотипных объектах в один и тот же момент времени, то для оцененного по ним уравнения линейной регрессии величина R2не превышает обычно уровня 0,6-0,7. То же самое обычно имеет место и для регрессии по временным рядам, если они не имеют выраженного тренда. В макроэкономике примерами таких зависимостей являются связи относительных, удельных, темповых показателей: зависимость темпа инфляции от уровня безра­ботицы, нормы накопления от величины процентной ставки, темпа прироста выпуска от темпов прироста затрат ресурсов. Таким образом, при построении макроэкономических моделей, особенно - по временным рядам данных, нужно учитывать, являются входящие в них переменные объемными или относительными, имеют ли они временной тренд1.

Точную границу приемлемости показателя R2указать сразу для всех случаев невозможно. Нужно принимать во внимание и число степеней свободы уравнения, и наличие трендов переменных, и содержательную интерпретацию уравнения. ПоказательR2может оказаться даже отрицательным. Как правило, это случается в уравнении без свободного членау =. Оценивание такого уравнения производится, как и в общем случае, по методу наименьших квадратов. Однако множество выбора при этом существенно сужается: рассматриваются не все возможные прямые или гиперплоскости, а только проходящие через начало координат. ВеличинаR2получится отрицательной в том случае, если разброс значений зависимой переменной вокруг прямой (гиперплоскости)меньше, чем вокруг даже наилучшей прямой (гиперплоскости) из проходящих через начало координат. Отрицательная величинаR2 в уравнении говорит о целесообразности введения в него свободного члена. Эта ситуация проиллюстрирована на рис. 4.3.

Линия 1 на нем - график уравнения регрессии без свободного члена (он проходит через начало координат), линия 2 - со свободным членом (он равен а0), линия 3 -.Горизонтальная линия 3 дает гораздо меньшую сумму квадратов отклоненийеi, чем линия 1, и поэтому для последней коэффициент детерминацииR2будет отрицательным.

Рис. 4.3. Линии уравнений линейной регрессии у=f(х) без свободного члена (1) и со свободным членом (2)

Поправка на число степеней свободы всегда уменьшает значение R2, поскольку(п-1)>(п-т-1). В результате величинаR2также может стать отрицательной. Но это означает, что она была близкой к нулю до такой поправки, и объясненная с помощью уравнения регрессии доля дисперсии зависимой переменной очень мала.

Соседние файлы в папке econometrika