- •6. Множественная линейная регрессия 6.1. Определение параметров уравнения регрессии
- •6.2. Расчет коэффициентов множественной линейной регрессии
- •6.3. Дисперсии и стандартные ошибки коэффициентов
- •6.4. Интервальные оценки коэффициентов теоретического уравнения регрессии
- •6.5. Анализ качества эмпирического уравнения множественной линейной регрессии
- •6.6. Проверка статистической значимости коэффициентов уравнения регрессии
- •6.7. Проверка общего качества уравнения регрессии
- •6.8. Проверка выполнимости предпосылок мнк. Статистика Дарбина-Уотсона
6.8. Проверка выполнимости предпосылок мнк. Статистика Дарбина-Уотсона
Статистическая значимость коэффициентов регрессии и близкое к единице значение коэффициента детерминации R2 не гарантируют высокое качество уравнения регрессии. Для иллюстрации этого факта весьма нагляден пример из [3], в котором анализируется зависимость реального объема потребления CONS (млрд долл. 1982) от численности населения POP (млн чел.) в США 1931-1990 гг. Корреляционное поле статистических данных изображено на рис. 6.2.
CONS ^ |
|
■f |
3000 |
- |
у |
2500 |
- |
A |
2000 |
- |
|
1500 |
- |
|
1000 |
- у |
|
500 |
1931 V^ |
|
|
.7 . |
i i i k. |
100
150
200
250
300
Рис. 6.2
Линейное уравнение регрессии, построенное по МНК по реальным статистическим данным, имеет вид:
CONS = -1817.3 + 16.7РОР.
Стандартные ошибки коэффициентов Sb = 84.7, Sb = 0.46. Следовательно, их t-статистики tb = -21.4 , tb = 36.8. Эти значения существенно превышают 3, что свидетельствует о статистической значимости коэффициентов. Коэффициент детерминации R2 = 0.96 (т. е. уравнение "объясняет" 96% дисперсии объема потребления). Однако по расположению точек на корреляционном поле видно, что зависимость между POP и CONS явно не является линейной, а будет скорее экспоненциальной. Для качественного прогноза уровня потребления линейная функция, безусловно, не может быть использована. За рассматриваемый период времени население США росло почти линейно (с постоянными годовыми приростами), а объем потребления - по
163
экспоненте (с почти постоянными темпами прироста), т. е. за рассматриваемый период существенно выросло потребление на душу населения.
Таким образом, при весьма хороших значениях t-статистик и F-статистики предложенное уравнение регрессии не может быть признано удовлетворительным (отметим, что R2 = 0.96, скорее всего, в силу того, что и CONS и POP имели временный тренд). Можно ли определить причину этого?
Нетрудно заметить, что в данном случае не выполняются необходимые предпосылки МНК об отклонениях 8i точек наблюдений от линии регрессии (см. параграф 6.1). Эти отклонения явно не обладают постоянной дисперсией и не являются взаимно независимыми. Нарушение необходимых предпосылок делает неточными полученные оценки коэффициентов регрессии, увеличивая их стандартные ошибки, и обычно свидетельствует о неверной спецификации самого уравнения. Поэтому следующим этапом проверки качества уравнения регрессии является проверка выполнимости предпосылок МНК. Причины невыполнимости этих предпосылок, их последствия и методы корректировки будут подробно рассмотрены в последующих главах. В данном разделе мы лишь обозначим эти проблемы, а также обсудим весьма популярную в регрессионном анализе статистику Дарбина-Уотсона.
Оценивая линейное уравнение регрессии, мы предполагаем, что реальная взаимосвязь переменных линейна, а отклонения от регрессионной прямой являются случайными, независимыми друг от друга величинами с нулевым математическим ожиданием и постоянной дисперсией. Если эти предположения не выполняются, то оценки коэффициентов регрессии не обладают свойствами несмещенности, эффективности и состоятельности, и анализ их значимости будет неточным.
Причинами, по которым отклонения не обладают перечисленными выше свойствами, могут быть либо нелинейный характер зависимости между рассматриваемыми переменными, либо наличие неучтенного в уравнении существенного фактора. Действительно, при нелинейной зависимости между переменными (рис. 6.2) отклонения от прямой регрессии не случайно распределены вокруг нее, а обладают определенными закономерностями, которые зачастую выражаются в существенном преобладании числа пар соседних отклонений ем и 8i с совпадающими знаками над числом пар с противоположными знака-
164
ми. Отсутствие в уравнении регрессии какого-либо существенного фактора может также служить причиной устойчивых отклонений зависимой переменной от линии регрессии в ту или иную сторону. Добиться выполнимости предпосылок МНК в этих ситуациях можно либо путем оценивания какой-то другой нелинейной формулы, либо включением в уравнение регрессии новой объясняющей переменной. Это позволит реалистичнее отразить поведение зависимой переменной.
При статистическом анализе уравнения регрессии на начальном этапе чаще других проверяют выполнимость одной предпосылки, а именно, условия статистической независимости отклонений между собой. Поскольку значения 8i теоретического уравнения регрессии Y = Ро + PiX + e остаются неизвестными ввиду неопределенности истинных значений коэффициентов регрессии, то проверяется статистическая независимость их оценок - отклонений е^ i = 1, 2, ..., п. При этом обычно проверяется их некоррелированность, являющаяся необходимым, но недостаточным условием независимости. Причем проверяется некоррелированность не любых, а только соседних величин еь Соседними обычно считаются соседние во времени (при рассмотрении временных рядов) или по возрастанию объясняющей переменной X (в случае перекрестной выборки) значения ei. Для этих величин несложно рассчитать коэффициент корреляции, называемый в этом случае коэффициентом автокорреляции первого порядка,
г _ КSj -MCeJX е{-1 - Mfo^)) _ Iet е{-1
При этом учитывается, что M(ei) = 0, i = 1,2, ..., п.
На практике для анализа коррелированное™ отклонений вместо коэффициента корреляции используют тесно с ним связанную статистику Дарбина-Уотсона DW, рассчитываемую по формуле:
DW
= ^iQiQi-if
ш (6-47)
Действительно,
2Ze?-2Zeiei_1.
165
Здесь сделано допущение, что при больших п выполняется соотношение: Тогда
Е
е?
Нетрудно заметить, что если ei = ем, то ree. = 1 и DW = 0. Если ei = -ei, то ree. = -1, и DW = 4. Во всех других случаях
0 < DW < 4 .
К этому же результату можно подойти с другой стороны. Если каждое следующее отклонение ei приблизительно равно предыдущему ем, то каждое слагаемое (е^ - ем) в числителе дроби (6.47) близко нулю. Тогда, очевидно, числитель дроби (6.47) будет существенно меньше знаменателя и, следовательно, статистика DW окажется близкой к нулю. Например, для зависимости CONS и POP (рис. 6.2) DW = = 0.045, что очень близко к нулю и подтверждает наличие положительной автокорреляции остатков первого порядка (линейной зависимости между остатками).
В другом крайнем случае, когда точки наблюдений поочередно отклоняются в разные стороны от линии регрессии ( е^« -ем ),
Е(2е)2 Ее-2 ei - ем « 2ei и DW =—-—j— = 4—у = 4. Это случай отрицательной
Ее; Ее;
автокорреляции остатков первого порядка.
При случайном поведении отклонений можно предположить, что в одной половине случаев знаки последовательных отклонений совпадают, а в другой - противоположны. Так как абсолютная величина отклонений в среднем предполагается одинаковой, то можно считать, что в половине случаев е^« ем, а в другой е^« -ем . Тогда
Е^)2 2
DW=
z
.—
= 0.5-4^4 = 2.
Ее2 Ее2
Таким образом, необходимым условием независимости случайных отклонений является близость к двойке значения статистики Дар-бина-Уотсона.
Тогда, если DW« 2, мы считаем отклонения от регрессии случайными (хотя они в действительности могут и не быть таковыми). Это
(6.48)
166
означает, что построенная линейная регрессия, вероятно, отражает реальную зависимость. Скорее всего, не осталось неучтенных существенных факторов, влияющих на зависимую переменную. Какая-либо другая нелинейная формула не превосходит по статистическим характеристикам предложенную линейную. В этом случае, даже когда R2 невелико, вполне вероятно, что необъясненная дисперсия вызвана влиянием на зависимую переменную большого числа различных факторов, индивидуально слабо влияющих на исследуемую переменную, и может быть описана как случайная нормальная ошибка.
Возникает вопрос, какие значения DW можно считать статистически близкими к двум?
Для ответа на этот вопрос разработаны специальные таблицы (приложение 6) критических точек статистики Дарбина-Уотсона, позволяющие при данном числе наблюдений п, количестве объясняющих переменных m и заданном уровне значимости а определять границы приемлемости (критические точки) наблюдаемой статистики DW.
Для заданных a, n, m в таблице (приложение 6) указываются два числа: di - нижняя граница и du - верхняя граница. Для проверки гипотезы об отсутствии автокорреляции остатков используется следующий отрезок.
4-du
Область
принятия гипотезы
Область отклонения Но
Положительная автокорреляция
du
Область неопределенности
Рис. 6.3
4-di
Область отклонения Но
Отрицательная автокорреляция
Выводы осуществляются по следующей схеме.
Если DW < di, то это свидетельствует о положительной автокорреляции остатков.
Если DW > 4 - di, то это свидетельствует об отрицательной автокорреляции остатков.
