Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
регрессия.docx
Скачиваний:
1
Добавлен:
01.07.2025
Размер:
117.26 Кб
Скачать

6.8. Проверка выполнимости предпосылок мнк. Статистика Дарбина-Уотсона

Статистическая значимость коэффициентов регрессии и близкое к единице значение коэффициента детерминации R2 не гарантируют высокое качество уравнения регрессии. Для иллюстрации этого факта весьма нагляден пример из [3], в котором анализируется зависимость реального объема потребления CONS (млрд долл. 1982) от численно­сти населения POP (млн чел.) в США 1931-1990 гг. Корреляционное поле статистических данных изображено на рис. 6.2.

CONS ^

f

3000

-

у

2500

-

A

2000

-

1500

-

1000

- у

500

1931 V^

.7 .

i i i k.

100

150

200

250

300

►pop

Рис. 6.2

Линейное уравнение регрессии, построенное по МНК по реаль­ным статистическим данным, имеет вид:

CONS = -1817.3 + 16.7РОР.

Стандартные ошибки коэффициентов Sb = 84.7, Sb = 0.46. Сле­довательно, их t-статистики tb = -21.4 , tb = 36.8. Эти значения су­щественно превышают 3, что свидетельствует о статистической зна­чимости коэффициентов. Коэффициент детерминации R2 = 0.96 (т. е. уравнение "объясняет" 96% дисперсии объема потребления). Однако по расположению точек на корреляционном поле видно, что зависи­мость между POP и CONS явно не является линейной, а будет скорее экспоненциальной. Для качественного прогноза уровня потребления линейная функция, безусловно, не может быть использована. За рас­сматриваемый период времени население США росло почти линейно (с постоянными годовыми приростами), а объем потребления - по

163

экспоненте (с почти постоянными темпами прироста), т. е. за рассмат­риваемый период существенно выросло потребление на душу населе­ния.

Таким образом, при весьма хороших значениях t-статистик и F-статистики предложенное уравнение регрессии не может быть при­знано удовлетворительным (отметим, что R2 = 0.96, скорее всего, в силу того, что и CONS и POP имели временный тренд). Можно ли оп­ределить причину этого?

Нетрудно заметить, что в данном случае не выполняются необхо­димые предпосылки МНК об отклонениях 8i точек наблюдений от ли­нии регрессии (см. параграф 6.1). Эти отклонения явно не обладают постоянной дисперсией и не являются взаимно независимыми. Нару­шение необходимых предпосылок делает неточными полученные оценки коэффициентов регрессии, увеличивая их стандартные ошиб­ки, и обычно свидетельствует о неверной спецификации самого урав­нения. Поэтому следующим этапом проверки качества уравнения рег­рессии является проверка выполнимости предпосылок МНК. Причи­ны невыполнимости этих предпосылок, их последствия и методы кор­ректировки будут подробно рассмотрены в последующих главах. В данном разделе мы лишь обозначим эти проблемы, а также обсудим весьма популярную в регрессионном анализе статистику Дарбина-Уотсона.

Оценивая линейное уравнение регрессии, мы предполагаем, что реальная взаимосвязь переменных линейна, а отклонения от регресси­онной прямой являются случайными, независимыми друг от друга ве­личинами с нулевым математическим ожиданием и постоянной дис­персией. Если эти предположения не выполняются, то оценки коэф­фициентов регрессии не обладают свойствами несмещенности, эф­фективности и состоятельности, и анализ их значимости будет неточ­ным.

Причинами, по которым отклонения не обладают перечисленны­ми выше свойствами, могут быть либо нелинейный характер зависи­мости между рассматриваемыми переменными, либо наличие неуч­тенного в уравнении существенного фактора. Действительно, при не­линейной зависимости между переменными (рис. 6.2) отклонения от прямой регрессии не случайно распределены вокруг нее, а обладают определенными закономерностями, которые зачастую выражаются в существенном преобладании числа пар соседних отклонений ем и 8i с совпадающими знаками над числом пар с противоположными знака-

164

ми. Отсутствие в уравнении регрессии какого-либо существенного фактора может также служить причиной устойчивых отклонений за­висимой переменной от линии регрессии в ту или иную сторону. До­биться выполнимости предпосылок МНК в этих ситуациях можно ли­бо путем оценивания какой-то другой нелинейной формулы, либо включением в уравнение регрессии новой объясняющей переменной. Это позволит реалистичнее отразить поведение зависимой перемен­ной.

При статистическом анализе уравнения регрессии на начальном этапе чаще других проверяют выполнимость одной предпосылки, а именно, условия статистической независимости отклонений между собой. Поскольку значения 8i теоретического уравнения регрессии Y = Ро + PiX + e остаются неизвестными ввиду неопределенности ис­тинных значений коэффициентов регрессии, то проверяется статисти­ческая независимость их оценок - отклонений е^ i = 1, 2, ..., п. При этом обычно проверяется их некоррелированность, являющаяся необ­ходимым, но недостаточным условием независимости. Причем прове­ряется некоррелированность не любых, а только соседних величин еь Соседними обычно считаются соседние во времени (при рассмотре­нии временных рядов) или по возрастанию объясняющей переменной X (в случае перекрестной выборки) значения ei. Для этих величин не­сложно рассчитать коэффициент корреляции, называемый в этом слу­чае коэффициентом автокорреляции первого порядка,

г _ КSj -MCeJX е{-1 - Mfo^)) _ Iet е{-1

При этом учитывается, что M(ei) = 0, i = 1,2, ..., п.

На практике для анализа коррелированное™ отклонений вместо коэффициента корреляции используют тесно с ним связанную стати­стику Дарбина-Уотсона DW, рассчитываемую по формуле:

DW = ^iQiQi-if ш (6-47)

Действительно,

2Ze?-2Zeiei_1.

165

Здесь сделано допущение, что при больших п выполняется со­отношение: Тогда

Е е?

Нетрудно заметить, что если ei = ем, то ree. = 1 и DW = 0. Если ei = -ei, то ree. = -1, и DW = 4. Во всех других случаях

0 < DW < 4 .

К этому же результату можно подойти с другой стороны. Если каждое следующее отклонение ei приблизительно равно предыдущему ем, то каждое слагаемое (е^ - ем) в числителе дроби (6.47) близко ну­лю. Тогда, очевидно, числитель дроби (6.47) будет существенно меньше знаменателя и, следовательно, статистика DW окажется близ­кой к нулю. Например, для зависимости CONS и POP (рис. 6.2) DW = = 0.045, что очень близко к нулю и подтверждает наличие положи­тельной автокорреляции остатков первого порядка (линейной зависи­мости между остатками).

В другом крайнем случае, когда точки наблюдений поочередно отклоняются в разные стороны от линии регрессии ( е^« -ем ),

Е(2е)2 Ее-2 ei - ем « 2ei и DW =—-—j— = 4—у = 4. Это случай отрицательной

Ее; Ее;

автокорреляции остатков первого порядка.

При случайном поведении отклонений можно предположить, что в одной половине случаев знаки последовательных отклонений совпа­дают, а в другой - противоположны. Так как абсолютная величина от­клонений в среднем предполагается одинаковой, то можно считать, что в половине случаев е^« ем, а в другой е^« -ем . Тогда

Е^)2 2

DW= z .— = 0.5-4^4 = 2.

Ее2 Ее2

Таким образом, необходимым условием независимости случай­ных отклонений является близость к двойке значения статистики Дар-бина-Уотсона.

Тогда, если DW« 2, мы считаем отклонения от регрессии случай­ными (хотя они в действительности могут и не быть таковыми). Это

(6.48)

166

означает, что построенная линейная регрессия, вероятно, отражает ре­альную зависимость. Скорее всего, не осталось неучтенных сущест­венных факторов, влияющих на зависимую переменную. Какая-либо другая нелинейная формула не превосходит по статистическим харак­теристикам предложенную линейную. В этом случае, даже когда R2 невелико, вполне вероятно, что необъясненная дисперсия вызвана влиянием на зависимую переменную большого числа различных фак­торов, индивидуально слабо влияющих на исследуемую переменную, и может быть описана как случайная нормальная ошибка.

Возникает вопрос, какие значения DW можно считать статисти­чески близкими к двум?

Для ответа на этот вопрос разработаны специальные таблицы (приложение 6) критических точек статистики Дарбина-Уотсона, по­зволяющие при данном числе наблюдений п, количестве объясняю­щих переменных m и заданном уровне значимости а определять гра­ницы приемлемости (критические точки) наблюдаемой статистики DW.

Для заданных a, n, m в таблице (приложение 6) указываются два числа: di - нижняя граница и du - верхняя граница. Для проверки ги­потезы об отсутствии автокорреляции остатков используется следую­щий отрезок.

4-du

Область принятия гипотезы

О

Область отклонения Но

Положительная автокорреляция

du

Область неопределенности

Рис. 6.3

4-di

Область отклонения Но

Отрицательная автокорреляция

Выводы осуществляются по следующей схеме.

Если DW < di, то это свидетельствует о положительной автокор­реляции остатков.

Если DW > 4 - di, то это свидетельствует об отрицательной авто­корреляции остатков.