- •Глава 4. Некоторые вопросы спецификации регрессионных моделей
- •4.1. Нелинейная регрессия
- •4.2. Фиктивные переменные в регрессионных моделях
- •Тест Грегори Чоу
- •4.3. Ошибки спецификации
- •Вопросы и упражнения для самопроверки
- •Глава 5. Регрессионные модели с гетероскедастичными и автокоррелируемыми остатками
- •5.1. Обобщенный метод наименьших квадратов
- •5.2. Гетероскедастичность
- •5.2.1. Обнаружение гетероскедастичности
- •5.2.2. Устранение гетероскедастичности
- •5.3. Автокорреляция
- •5.3.1. Обнаружение автокорреляции
- •5.3.2. Оценивание моделей с автокоррелируемыми остатками
5.2. Гетероскедастичность
Обобщенные линейные регрессионные модели, в которых дисперсии остатков не сохраняют постоянного уровня при переходе от одного наблюдения к другому (т. е. от одного значения объясняющей переменной к другому), называются моделями с гетероскедастичными остатками. В этом случае D(i) D(j), где D() – дисперсия остатков. Гетероскедастичность случайных отклонений – вполне естественная ситуация при анализе пространственных выборочных данных. Кроме того, в выборке могут присутствовать так называемые «выбросы» (аномальные наблюдения), обработка которых представляет собой отдельную статистическую задачу [33].
Применение обычного МНК для оценки регрессионной модели с гетероскедастичностью приводит к тому, что оценка вектора параметров B, оставаясь несмещенной и состоятельной, не будет оптимальной в смысле теоремы Гаусса-Маркова, т. е. наиболее эффективной. Стандартные ошибки оценок будут рассчитаны со смещением и, вследствие этого, результаты по анализу точности и значимости построенной модели оказываются непригодными. Поэтому модели с гетероскедастичностью следует рассматривать в рамках ОМНК.
В целом, прежде чем сделать вывод о возможности практического использования построенной регрессионной модели, необходимо установить наличие или отсутствие гетероскедастичности в каждом конкретном случае. При обнаружении гетероскедастичности далее решается задача по устранению или уменьшению влияния этого нежелательного эффекта.
5.2.1. Обнаружение гетероскедастичности
В случае парной регрессии о проявлении гетероскедастичности можно судить по характеру расположения экспериментальных точек на корреляционном поле (рис. 5.1). На рис. 5.1 можно заметить, что дисперсии случайных отклонений неодинаковы и увеличиваются с возрастанием значений объясняющей переменной. Однако даже для парной регрессии выводы по определению гетероскедастичности могут являться неоднозначными при наличии локальных «выбросов» точек (пиков на диаграмме рассеивания). Естественно, что для множественной регрессии обнаружение гетероскедастичности является значительно более сложной задачей, чем для моделей с одним регрессором.
Рис. 5.1.
В настоящее время существует достаточно большое количество тестов для поверки на гетероскедастичность, базирующихся на дисперсионном анализе случайных отклонений. Рассмотрим наиболее распространенные из них.
Тест ранговой корреляции Спирмена [11,28]. Идея данного теста заключается в том, что в случае гетероскедастичности дисперсия случайного отклонения будет либо увеличиваться, либо уменьшаться с увеличением значений регрессоров Х. Поэтому для регрессионной модели, построенной по МНК, абсолютные значения оценок отклонений ei и значения xi будут коррелированны.
Значения ei и xi ранжируются (упорядочиваются по величинам). Номеру i значения xi в упорядоченном ряду будет соответствовать ранг rxi. Аналогично упорядочим данные по абсолютным значениям остатков и каждому |ei| припишем ранг rei. Тогда разность между рангами (di) запишем как di = rxi rei. Например, если x20 является 30-м по величие среди всех значений X, а e20 является 40-м, то di = 30 40 = 10.
Коэффициент ранговой корреляции Спирмена вычисляется по формуле
(5.2)
где n число наблюдений.
Доказано, что при n > 10 статистика
(5.3)
имеет t-распределение Стьюдента с числом степеней свободы v = n 2.
Следовательно, в соответствии со схемой проверки статистических гипотез, если наблюдаемое значение t-статистики, рассчитанное по формуле (5.3), превышает tкр = t, n 2 (табличное), то необходимо отклонить гипотезу Н0 об отсутствии гетероскедастичности. В противном случае гипотеза Н0 принимается, что соответствует гомоскедастичности.
Если анализируется модель множественной регрессии, то проверка гипотезы осуществляется с помощью t-статистики для каждой объясняющей переменной отдельно.
Следует заметить, что коэффициент ранговой корреляции Спирмена (r) может иметь самостоятельное значение в эконометрических исследованиях. Он используется при установлении тесноты связи между порядковыми переменными. В этом случае анализируемые объекты упорядочивают по степени влияния (проявления) признака. Если объекты ранжированы по двум признакам Х иY, то имеется возможность оценить тесноту связи между этими переменными, основываясь на рангах. В том случае, если ранги всех объектов равны, то r = 1 (полная прямая связь). При полной обратной связи ранги объектов по двум переменным расположены в обратном порядке и r = 1. Во всех остальных случаях |r| < 1. Применение коэффициента ранговой корреляции не требует нормального распределения переменных и линейной связи между ними. Однако необходимо учитывать, что в случае количественных переменных переход от их первоначальных значений и размерностей к рангам сопровождается определенной потерей информации.
Тест Голдфелда-Квандта. Этот тест использует предположения о нормальности распределения случайных отклонений и о пропорциональности средних квадратических (стандартных) отклонений σi = σ(i) значениям соответствующей объясняющей переменной X.
В рамках этих предположений Голдфелд и Квандт предложили следующую процедуру проверки на гетероскедастичность:
1. Все n наблюдений упорядочиваются в порядке возрастания значений регрессора X, и выборка после этого разбивается на три подвыборки размерностей k, n 2k, k соответственно.
2. Оцениваются отдельные регрессии для первой и третьей подвыборок (рассматриваем k первых значений и k последних; средние n 2k наблюдений отбрасываем).
3. Если, в соответствии
с нашим предположением, дисперсия
случайных отклонений увеличивается с
ростом X, то дисперсия
регрессии по первой подвыборке (сумма
квадратов остатков
)
будет существенно меньше дисперсии
регрессии по третьей подвыборке (суммы
квадратов остатков
).
4. Для сравнения соответствующих дисперсий определяется следующая F-статистика:
. (5.4)
Здесь (k m 1) – числа степеней свободы соответствующих выборочных дисперсий (m одинаковое количество объясняющих переменных в уравнениях регрессии). При выполнении начальных предположений относительно остатков построенная F-статистика имеет распределение Фишера с числами степеней свободы v1 = v2 = k m 1.
5. Если наблюдаемое
значение F-статистики
(Fнабл),
рассчитанное по формуле (5.4), превосходит
ее критическое значение
,
то гипотеза об отсутствии гетероскедастичности
(о равенстве дисперсий) отклоняется на
выбранном уровне значимости .
Мощность теста Голдфелда-Квандта, т. е. вероятность отвергнуть гипотезу об отсутствии гетероскедастичности в случае, когда ее действительно нет, оказывается максимальной, если выбирать k n/3.
Для множественной регрессии данный тест может осуществляться для каждой из объясняющих переменных или для одного выбранного регрессора, который в наибольшей степени связан с σi.
Аналогичный тест может быть использован при условии обратной пропорциональности между стандартными отклонениями остатков σi и значениями объясняющей переменной. При этом статистика Фишера примет вид: F = S1/S3.
Тест Уайта [25]. Сущность данного теста заключается в том, что если в модели присутствует гетероскедастичность, то дисперсии случайных отклонений некоторым образом зависят от регрессоров; т. е. гетероскедастичность должна как-то проявляться в поведении остатков исходной регрессионной модели. Исходя из этого при использовании теста Уайта предполагается, что дисперсии остатков представляют собой некоторую функцию от наблюдаемых значений объясняющих переменных
. (5.5)
Для получения соответствующих выводов осуществляется оценка функции (5.5) с помощью уравнения регрессии для квадратов остатков:
, (5.6)
где vi случайный член.
На практике чаще всего функция f выбирается квадратичной, а регрессоры в уравнении (5.6) – это регрессоры исходной модели, их квадраты и, возможно, попарные произведения. Для данного теста гипотеза об отсутствии гетероскедастичности, что соответствует условию f = const, принимается в случае незначимости регрессии (5.6) в целом.
Следует заметить, что во всех рассматриваемых тестах (критериях) осуществляется проверка нулевой гипотезы Н0 об отсутствии гетероскедастичности.
