
- •Тема 7. Предпосылки применения метода наименьших квадратов. Статистика Дарбина-Ватсона
- •7.1. Предпосылки метода наименьших квадратов. Классическая линейная регрессионная модель
- •7.2. Предпосылки применимости метода наименьших квадратов (мнк). Расчёт остатков (ошибок) I. Несмещённость, эффективность и состоятельность оценок. Гомоскедатичность. Теорема Гаусса-Маркова
- •7.3. Проверка выполнимости предпосылок мнк. Статистика Дарбина-Уотсона
- •7.4. Задание к лабораторной работе № 6 «Проверка наличия автокорреляции отклонений с помощью статистики Дарбина-Уотсона»
- •Тема 8. Проверка гипотез о значимости отдельных коэффициентов и значимости уравнения регрессии в целом. Построение доверительных интервалов прогноза для линейного уравнения регрессии
- •8.1. Анализ точности определения оценок коэффициентов регрессии
7.3. Проверка выполнимости предпосылок мнк. Статистика Дарбина-Уотсона
Статистическая значимость коэффициентов регрессии и близкое к единице значение коэффициента детерминации R2 не гарантируют высокое качество уравнения регрессии. Для иллюстрации этого факта весьма нагляден пример из [3, 11], в котором анализируется зависимость реального объема потребления CONS (млрд $, в ценах 1982 г.) от численности населения POP (млн чел.) в США в 1931—1990 г. Корреляционное поле статистических данных изображено на рисунке 7.1.
Линейное уравнение регрессии, построенное по МНК по реальным статистическим данным, имеет вид:
CONS = -1817,3 + 16,7РОР.
Стандартные ошибки коэффициентов Sb0 = 84,7, Sb1 = 0,47. Следовательно, их t-статистики tb0 = -1817,3/84,7 = -21,4 , tb1 = 36,8. Эти значения существенно превышают 3, что свидетельствует о статистической значимости коэффициентов. Коэффициент детерминации R2 = 0,96 (т.е. уравнение «объясняет» 96% дисперсии объема потребления). Однако уже по расположению точек на рисунке видно, что зависимость между POP и CONS не является линейной, а будет скорее экспоненциальной. Для качественного прогноза уровня потребления линейная функция, безусловно, не может быть использована. За рассматриваемый период времени население США росло почти линейно (с постоянными годовыми приростами), а объем потребления — экспоненциально (с почти постоянными темпами прироста), т.е. существенно выросло потребление на душу населения.
Рис. 7.1. Построение линейной регрессии зависимости реального потребления от численности населения
Таким образом, при весьма хороших значениях t-статистик и F-статистики предложенное уравнение регрессии не может быть признано удовлетворительным (отметим, что R = 0,96, скорее всего, в силу того, что и CONS и POP имели временной тренд). Можно ли определить причину этого?
Нетрудно заметить, что в данном случае не выполняются необходимые предпосылки МНК об отклонениях i точек наблюдений от линии регрессии. Эти отклонения явно не обладают постоянной дисперсией и не являются взаимно независимыми. Нарушение необходимых предпосылок делает неточными полученные оценки коэффициентов регрессии, увеличивая их стандартные ошибки, и обычно свидетельствует о неверной спецификации самого уравнения. Поэтому следующим этапом проверки качества уравнения регрессии является проверка выполнимости предпосылок МНК. Причины и последствия невыполнимости этих предпосылок, методы корректировки регрессионных моделей будут подробно рассмотрены далее. В данном пункте мы лишь обозначим эти проблемы, а также обсудим весьма популярную в регрессионном анализе статистику Дарбина-Уотсона.
Оценивая линейное уравнение регрессии, мы предполагаем, что реальная взаимосвязь переменных линейна, а отклонения от регрессионной прямой являются случайными, независимыми друг от друга величинами с нулевым математическим ожиданием и постоянной дисперсией. Если эти предположения не выполняются, то оценки коэффициентов регрессии не обладают свойствами несмещенности, эффективности и состоятельности, и анализ их значимости будет неточным.
Причинами, по которым отклонения не обладают перечисленными выше свойствами, могут быть либо нелинейный характер зависимости между рассматриваемыми переменными, либо наличие не учтенного в уравнении существенного фактора. Действительно, при нелинейной зависимости между переменными (рис. 7.1) отклонения от прямой регрессии не случайно распределены вокруг нее, а обладают определенными закономерностями, которые зачастую выражаются в существенном преобладании числа пар соседних отклонений i-1 и i с совпадающими знаками над числом пар с противоположными знаками. Отсутствие в уравнении регрессии какого-либо существенного фактора может также служить причиной устойчивых отклонений зависимой переменной от линии регрессии в ту или иную сторону. Добиться выполнимости предпосылок МНК в этих ситуациях можно либо путем оценивания какой-то нелинейной формулы, либо включением в уравнение регрессии новой объясняющей переменной. Это позволит реалистичнее отразить поведение зависимой переменной.
При статистическом анализе уравнения регрессии на начальном этапе часто проверяют выполнимость одной предпосылки, а именно: условия статистической независимости отклонений между собой. Поскольку значения i теоретического уравнения регрессии Y = + X + остаются неизвестными ввиду неопределенности истинных значений коэффициентов регрессии, то проверяется статистическая независимость их оценок — отклонений ei, i = 1, 2,...,n. При этом обычно проверяется их некоррелированность, являющаяся необходимым, но недостаточным условием независимости. Причем проверяется некоррелированность не любых, а только соседних величин ei. Соседними обычно считаются соседние во времени (при рассмотрении временных рядов) или по возрастанию объясняющей переменной X (в случае перекрестной выборки) значения ei. Для этих величин несложно рассчитать коэффициент корреляции, называемый в этом случае коэффициентом автокорреляции первого порядка:
.
Если здесь учесть, что M(ei) = 0, i = 1, 2, ..., n, то получим
. (7.7)
На практике для анализа коррелированности отклонений вместо коэффициента корреляции используют тесно с ним связанную статистику Дарбина-Уотсона DW, рассчитываемую по формуле
. (7.8)
Действительно,
.
Здесь сделано допущение, что при больших n выполняется соотношение: ei-12= ei2 .
Тогда
.
Нетрудно заметить, что если ei = ei-1, то rеi,ei-1 = 1 и DW = 0. Если ei = -ei-1, то rеi,ei-1 = -1 и DW = 4. Во всех других случаях 0 < DW < 4 .
К этому же результату можно подойти с другой стороны. Если каждое следующее отклонение ei приблизительно равно предыдущему ei-1, то каждое слагаемое (ei-ei-1) в числителе дроби (7.15) близко к нулю. Тогда, очевидно, числитель дроби (7.15) будет существенно меньше знаменателя и, следовательно, статистика DW окажется близкой к нулю. Например, для зависимости CONS и POP (рис. 7.2) DW = 0,045, что очень близко к нулю и подтверждает наличие положительной автокорреляции остатков первого порядка (линейной зависимости между остатками).
В другом крайнем случае, когда точки наблюдений поочередно отклоняются в разные стороны от линии регрессии (ei -ei-1), значит, ei - ei-1 2ei и
DW =
=
4.
Это случай отрицательной автокорреляции остатков первого порядка.
При случайном поведении отклонений можно предположить, что в одной половине случаев знаки последовательных отклонений совпадают, а в другой — противоположны. Так как абсолютная величина отклонений в среднем предполагается одинаковой, то можно считать, что в половине случаев ei ei-1, а в другой ei - ei-1. Тогда
DW
=.
Таким образом, необходимым условием независимости случайных отклонений является близость к двойке значения статистики Дарбина-Уотсона. Тогда, если DW 2, мы считаем отклонения от регрессии случайными (хотя они в действительности могут и не быть таковыми). Это означает, что построенная линейная регрессия, вероятно, отражает реальную зависимость. Скорее всего, не осталось неучтенных существенных факторов, влияющих на зависимую переменную. Какая-либо другая нелинейная формула не превосходит по статистическим характеристикам предложенную линейную. В этом случае, даже когда R невелико, вполне вероятно, что необъясненная дисперсия вызвана влиянием на зависимую переменную большого числа различных факторов, индивидуально слабо влияющих на исследуемую переменную, и может быть описана как случайная нормальная ошибка.
Возникает вопрос, какие значения DW можно считать статистически близкими к двум?
Для ответа на этот вопрос разработаны специальные таблицы критических точек статистики Дарбина-Уотсона (приложение 3), позволяющие при данном числе наблюдений n, количестве объясняющих переменных m и заданном уровне значимости определять границы приемлемости (критические точки) наблюдаемой статистики DW.
Для заданных , n, m в таблице (приложение 3) указываются два числа: dl - нижняя граница (индексом внизу является первая буква от английского слова low – нижний) и du — верхняя граница (индексом внизу является первая буква от слова upper – верхний). Для проверки гипотезы об отсутствии автокорреляции остатков используется числовой отрезок, изображенный на рисунке 7.2.
Рис. 7.2. Области, в которые попадает статистика Дарбина-Уотсона
Выводы осуществляются по следующей схеме.
Если DW < dl, то это свидетельствует о положительной автокорреляции остатков.
Если DW > 4 -dl, то это свидетельствует об отрицательной автокорреляции остатков.
При du<DW< 4-du гипотеза об отсутствии автокорреляции остатков принимается.
Если dl <DW< du или 4-du<DW< 4-dl , то гипотеза об отсутствии автокорреляции не может быть ни принята, ни отклонена.
Не обращаясь к таблице критических точек Дарбина-Уотсона, можно пользоваться «грубым» правилом и считать, что автокорреляция остатков отсутствует, если 1,5 < DW < 2,5. Для более надежного вывода целесообразно обращаться к табличным значениям.
При наличии автокорреляции остатков полученное уравнение регрессии обычно считается неудовлетворительным.
Конечно, статистический анализ построенной регрессии является достаточно сложным и многоступенчатым процессом, имеющим определенную специфику в каждом конкретном случае. Однако базовыми пунктами такого анализа являются описанные в данной главе проверка статистической значимости коэффициентов регрессии и коэффициента детерминации, анализ статистики Дарбина-Уотсона.