
Гетероскедастичность
Введение
Изучая модель линейной регрессии, можно заметить, что классическая форма этой модели накладывает значительные ограничения на случайный член. Во многих случаях исследователь имеет такие данные, для которых не выполняются условия Гаусса – Маркова. В частности, случайный член может иметь различные значения дисперсий для различных наблюдений; или случайный член в одном наблюдении зависит от значения случайного члена в предыдущем наблюдении. Несоблюдение условий Гаусса – Маркова весьма характерно для временных и пространственно-временных выборок.
Попытка оценить параметры модели, построенной на подобных данных приводит в лучшем случае к нахождению зависимости, которая не является наилучшим прогнозом зависимой величины от объясняющих переменных.
В этой главе будет рассмотрена модель линейной регрессии, в которой остатки не удовлетворяют условиям классической модели в том смысле, что дисперсии остатков не являются постоянными от наблюдения к наблюдению.
Гомоскедастичность и гетероскедастичность
В начале рассмотрения еще раз напомним классическую модель линейной регрессии: 1. Регрессионное уравнение 2. Объясняющая переменная является неслучайной (так что для каждого наблюдения) 3. Остатки регрессионного уравнения удовлетворяют следующим условиям:
Математическое ожидание для всех наблюдений
Дисперсия одинакова для всех наблюдений;
Остатки независимы: ковариация при
Условия 3.a и 3.b. утверждают, что математическое ожидание случайного члена равно нулю, а его дисперсия в каждом наблюдении должна быть постоянной. Другими словами, вероятность того, что величина u примет какое-то данное положительное (или отрицательное) значение, будет одинаковой для всех наблюдений. Это условие известно как гомоскедастичность, что означает "одинаковый разброс".
Вместе с тем для некоторых выборок, возможно, более целесообразно предположить, что для различных наблюдений величина u распределена по-разному (вероятность того, что в i-ом наблюдении величина примет какое-то конкретное значение отличается от вероятности принятия этого же значения в j-ом наблюдении).
К примеру возможна ситуация, когда от наблюдения к наблюдению дисперсия величины возрастает: Рис. 1. Различия между гетероскедастичностью и гомоскедастичностью.
Это не означает, что случайный член обязательно будет иметь особенно большие (положительные или отрицательные) значения в конце выборки, но это значит, что априорная вероятность получения сильно отклоненных величин будет относительно высока. Это пример гетероскедастичности, что означает "неодинаковый разброс".
Если у – возрастающая функция от х и имеется гетероскедастичность типа, показанного на рис. 1. То диаграмма рассеяния будет следующей: Рис. 2. Модель с гетероскедастичным случайным членом.
Можно видеть, что, хотя наблюдения не обязательно все дальше отстоят от основной нестохастической составляющей линии регрессии , по мере роста x все же имеется тенденция к увеличению их разброса. Следует иметь ввиду, что гетероскедастичность не обязательно относится к такому типу. Данное понятие относится к любому случаю, в котором дисперсия вероятностного распределения случайного члена различна для разных наблюдений.
Математически гетероскедастичность и гомоскедастичность записываются следующим образом: Гомоскедастичность: постоянна для всех наблюдений Гетероскедастичность: не одинакова для всех i. Гетероскедастичность весьма естественная для практики социально-экономических исследований ситуация, когда более реалистично утверждать постоянство относительного, а не абсолютного разброса регрессионных остатков.
Влияние гетероскедастичности на оценивание
Для гетероскедастичной модели будем полагать, что случайные члены имеют нормальное распределение с параметрами 0 и , где величина не постоянна для всех наблюдений.
Как уже говорилось, в случае гетероскедастичности обычный метод наименьших квадратов (МНК) оказывается неэффективным.
Предположим, что имеется гетероскедастичность типа, указанного на рис.1 и 2. Наблюдение, для которого теоретическое распределение случайного члена имеет малое стандартное отклонение (как в наблюдении 1 на рис.1), будет обычно находится близко к линии регрессии и, следовательно, может стать хорошим ориентиром, указывающим на место этой линии. В противоположность этому наблюдение, где теоретическое распределение имеет большое стандартное отклонение ( как в наблюдении n), не сможет помочь в определении местоположения линии регрессии. Обычный МНК не делает различия между качеством наблюдений, придавая одинаковые "веса" каждому из них независимо от того, является ли наблюдение хорошим или плохим для определения местоположения этой линии. Следовательно, обычным МНК мы получим неэффективные оценки коэффициентов .
Кроме того, используя обычный МНК, мы получим неверные оценки стандартных ошибок коэффициентов, так как они вычисляются на основе предположения о том, что остатки модели гомоскедастичны. Следствием такого неверного оценивания может стать включение в модель несущественных переменных или, наоборот, исключение существенных.
Если мы найдем способ придания большего "веса" наблюдениям высокого качества и наименьшего Ц наблюдениям низкого качества, мы, вероятно, получим более точные оценки для и . О том, как это делается речь пойдет в параграфе "Коррекция модели при гетероскедастичности".
Обнаружение гетероскедастичности
Для формальной проверки к настоящему времени предложено большое число статистических процедур, позволяющих обнаружить гетероскедастичность (и, соответственно, критериев для них). В каждой такой процедуре (тесте) мы пытаемся опровергнуть гипотезу о гомоскедастичности , где n – число наблюдений). Если нам удастся опровергнуть эту гипотезу, то можно сделать вывод, что в модели наблюдается гетероскедастичность. Мы рассмотрим некоторые из них: тест Голдфелда-Квандта, тест Бреуша-Погана, тест Уайта и тест Глейзера.
Тест Голдфелда-Квандта
Вероятно, наиболее популярным формальным критерием является критерий, предложенный С.Голдфелдом и Р.Квандтом (S.M.Goldfeld and R.F.Quandt, "Some Tests for Homoscedasticity", Journal of the American Statistical Society,1965). При проведении проверки по этому критерию предполагается, что регрессия парная (регрессионное уравнение имеет вид ) и стандартное отклонение пропорционально значению x в этом наблюдении, то есть . Метод состоит в оценке двух линий регрессии методом наименьших квадратов. Первая линия строится на основе данных с наименьшими значениями регрессионных остатков, вторая – на основе данных с наибольшими значениями остатков. Если значения остатков обоих регрессий примерно одинаковы, то принимается гипотеза о гомоскедастичности. В противном случае можно считать, что в модели присутствует гетероскедастичность.
Тест состоит из следующих действий:
Расположить данные в порядке возрастания величины x, пропорционально которой изменяется стандартное отклонение случайного члена.
Исключить средние d наблюдений. d может быть выбрано, например, как 1/5 всех наблюдений.
Оценить две регрессии. Первая из них использует наименьшие значения переменной x, вторая – наибольшие значения этой переменной. Каждая из регрессий построена на (n-d)/2 наблюдениях с [(n-d)/2]-2 степенями свободы. Величина d должна быть такой, чтобы гарантировать достаточность степеней свободы для правильной оценки каждой из регрессий.
Вычислить сумму квадратов остатков для каждой из регрессий: ESS1 для малых значений x, и ESS2 для больших х.
В предположении, что ошибки имеют нормальное распределение, статистика ESS2/ESS1 будет иметь F-распределение с (n-d-4)/2 степенями свободы. Мы опровергаем гипотезу о гомоскедастичности в выбранном уровне значимости, если вычисленная статистика превышает соответствующее критическое значение F-распределения.
Замечания.
Тест Голдфелда-Квандта может применяться не только в случае парной линейной регрессии. В случае множественной модели число степеней свободы F-распределения будет (n-d-2k)/2, где k – число объясняющих переменных в регрессии (включая постоянный член).
Тест Голдфелда-Квандта может также использоваться для проверки на гетероскедастичность при предположении, что величина обратно пропорциональна х. При этом используется та же процедура, но тестовой статистикой теперь является ESS1/ESS2, которая вновь имеет F-распределение с (n-d-2k)/2 степенями свободы.
Тест Бреуша-Погана
Тест Голфелда-Квандта применим в случае упорядочения наблюдений по возрастанию ошибки (или объясняющей переменной). Альтернативным тестом, не требующим такого упорядочения и простым в применении, является тест Бреуша-Погана. (T.S.Breush and A.R.Pagan, "A Simple Test for Heteroscedasticity and Random Cpefficient Variation", Econometrica, 1979).
Рассмотрим следующую модель, в которой ошибка зависит от некоторой неслучайной переменной Z:
Уравнение (3) показывает возможность представления гетероскедастичности какой-либо функцией. Функция ( ) - общая форма, которой могут быть представлены и линейная, и логарифмическая функции. Z может быть неслучайной переменной X или представлять собой вектор неслучайных переменных.
Для тестирования модели на гетероскедастичность, мы, во-первых, вычислим методом наименьших квадратов оценки ошибок для уравнения (2). Затем мы будем использовать эти оценки для вычисления оценки дисперсии :
Теперь предлагается рассмотреть следующую регрессию:
где – неслучайная величина (объясняющая переменная), - зависимая переменная, - неизвестные параметры, – случайный член этой регрессии.
Если случайный член уравнения (2) нормально распределен и его дисперсия постоянна для всех наблюдений (модель гомоскедастична), то величина RSS/2 может стать тестовой статистикой. Чтобы опровергнуть гипотезу о гомоскедастичности, необходимо, чтобы статистика превышала критическое значение - распределения с одной степенью свободы, так как
Замечаниe.
В общем случае, когда Z содержит р независимых переменных, статистика RSS/2 будет иметь - распределение с р степенями свободы. Чем больше значение RSS, тем больше ошибка регрессии (2) зависит от Z, тем более вероятна гетероскедастичность в модели.
Тест Уайта
Тест Бреуша-Погана основан на предположении о нормальности распределения ошибок регрессии. Уайт предложил тест на гетероскедастичность, не требующий нормальности распределения случайных членов. Предположим, что вместо уравнения (5), мы построим регрессию зависимости остатков от переменной :
,
для которой вычислим коэффициент детерминации . Тест Уайта основывается на утверждении, что величина имеет - распределение с одной степенью свободы:
Замечаниe.
Если переменная Z определяется р объясняющими переменными, то статистика имеет - распределение с р степенями свободы.
Тесты Уайта и Бреуша-Погана настолько сходны, что в большинстве случаев можно использовать любой из них в зависимости от простоты применения.
Тест Глейзера
Тест Глейзера позволяет несколько более тщательно рассмотреть характер гетероскедастичности, чем предыдущие методы. В в этом тесте мы проверяем, может ли быть более подходящей какая-либо другая функциональная форма, например
Чтобы использовать данный метод, следует оценить регрессионную зависимость y от х с помощью обычного МНК, а затем вычислить абсолютные величины остатков . Затем построить регрессию этих остатков для данного значения . Можно построить несколько таких функций, изменяя значение . В каждом случае гипотеза о гомоскедастичности будет отклонена, если оценка значимо отличается от нуля. Если при оценивании более чем одной функции получается значимая оценка , то ориентиром при определении характера гетероскедастичности может служить наилучшая из них.
Коррекция модели при гетероскедастичности
Мы обсудим технологии оценки двух различных случаев. Каждый из случаев использует различную предварительную информацию и информацию о наблюдениях, но оба представляют собой некоторую конкретную процедуру оценки.