Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
92
Добавлен:
10.05.2014
Размер:
2.54 Mб
Скачать

Вопрос 12. Тест Чоу.

Одним и тем же образом специфицированная модель подгоняется по двум наборам данных. Являются ли регрессии, построенные по этим двум выборкам, одинаковыми? Положительный ответ на этот вопрос позволил бы объединить наборы данных и рассматривать единую модель регрессии. Приведем формальную запись. Имеются две регрессии

(3.22)

(3.23)

где и u1 –векторы размерностиN1, и u2 –векторы размерностиN2,F1 – матрица размерности N1×(k+1), F2 – матрица значений тех же базисных функций размерности N2×(k+1), a1 и a2 – векторы размерности (k+1). Векторы u1 и u2 независимы и нормально распределены.

Модель без ограничений можно представить в виде

(3.24)

Для этой регрессии проверяется гипотеза Н: а12. В рамках данной гипотезы матрица D и вектор r примут вид:

, r=0.

Регрессия с ограничениями, для которой справедлива гипотеза Н: а12 может быть записана так:

(3.25)

где .

Остаточная сумма квадратов регрессии с ограничениями (3.25) есть . Для полной регрессии (3.24) есть

,

где и – суммы квадратов отклонений регрессии (3.22), (3.23) соответственно.

Поэтому, если

,

то гипотеза H: a1=a2 отвергается.

Заметим, что проблема сравнения регрессий может решаться также с использованием фиктивных переменных (см. п. 4.3).

Вопрос 13. Проверка значимости коэффициента регрессии.

Проверка статистических гипотез относительно коэффициентов регрессии

Как уже отмечалось, подобная проверка оказывается возможной при известном законе распределения случайной компоненты, а именно, в предположении нормальности u. В этом случае

а для отдельной компоненты

где  – i-й диагональный элемент матрицы. Величина обычно не доступна, поэтому работают с ее оценкой, так что

Отношение подчиняетсяt-распределению с (N-(k+1)) степенями свободы, то есть

Проверка гипотезы H0: ai=ai0

Задавшись уровнем значимости qпо таблицеt-распределения, находят двусторонний квантильtT[q,N–(k+1)]. Тогда есть (1-q)%-ный доверительный интервал для истинного значения коэффициента. Если попадает внутрь доверительного интервала, или точнее, интервал накрывает, то гипотеза принимается. Другая, более распространенная форма проверки следующая: вычисляют

и сравнивают с tT[q,N–(k+1)]. Приtp>tT H0отклоняется.

Если =0,то речь идет о проверке значимости коэффициента регрессии. Прикоэффициентзначимо отклоняется от нуля.

Следует отметить, что проверка гипотезы Н0: аi = 0 важная и ответственная процедура в регрессионном анализе. От ответа на вопрос, считать ли параметр значимо отличающимся от нуля, зависит: оставить или исключить соответствующую базисную функцию из уравнения регресии. Проверка статистических гипотез сопровождается появлением ошибок первого и второго рода.

Пусть : верна. Оценка , являясь величиной случайной с и дисперсией , может отклониться от нуля больше, чем на в обе стороны в q% случаев (q– малая величина, называемая уровнем значимости). Если это имело место, то естьtp>tT, то такое событие считается практически невозможным и H0 отвергается, так что соответствующая базисная функция должна остаться в уравнении регрессии. Тем самым совершается ошибка первого рода, приводящая к переизбытку, перебору, базисных функций.

Ошибка второго рода возникает, если истинное значение коэффициента регрессии отлично от нуля, то есть ai≠   0, а статистическая проверка не выявила значимость коэффициента, то есть принимается, что , а поэтому соответствующая базисная функция исключается из регрессии. Вероятность совершения такой ошибки не постоянна и зависит от . Таким образом, ошибка второго рода ведет к недобору базисных функций в уравнении регрессии. Недобор и перебор базисных функций в уравнении регрессии являются ошибками спецификации и подробно рассматриваются в п. 4.1. Отметим только, что недобор ведет к более «тяжким» последствиям, чем перебор, порождая смещение в оценках.

Общая рекомендация здесь такая: уровень значимости при проверке коэффициентов регрессии на значимость не должен быть слишком низким, так как при этом повышается вероятность недобора.

Вернемся к численному примеру (3.5). По полученному уравнению регрессии рассчитаем ожидаемые значения выходной переменной в точках наблюдений:

; 0,5;

Оценка дисперсии случайной компоненты составляет (см. (3.10))

s2=[(9-10,5)2+(2-0,5)2+(7-6,5)2+(4-4,5)2]/(4-3)=5. (3.15)

Дисперсию и стандартное отклонение оценим по (3.11) и сведем в табл. 10.

Таблица 10

4,5

-4

2

520/64=1,56

520/64=1,56

516/64=1,25

1,25

1,25

1,12

tp

4,5/1,25=3,6

|-4|/1,25=3,2

2/1,25=1,6

Применение статистики Стьюдента (последняя строка табл.10) правомерно в предположении нормальности возмущений. Поскольку ЧСС=1, то табличные значения оказываются весьма высокими: tт =12,7 при q=0,05, так что ни один из коэффициентов нельзя признать значимым. Поскольку известны «незашумленные» значения (табл.9), то можно получить еще одну оценку дисперсии случайной компоненты:

.

Согласно (3.14) Fр=5/1,25=4. Поскольку Fр<FТ(0.95;1;4)=7,71, то гипотеза об адекватности оцененного уравнения не отвергается. Получившееся противоречие: адекватное уравнение – незначимые коффициенты − связано с недостаточной представительностью (малым числом) наблюдений.

Проверка гипотезы Н: с′a=r

Нередко априорная информация указывает на линейные ограничения, которым должны удовлетворять коэффициенты регрессии. Например, постоянная отдача от единицы масштаба в производственной функции Кобба−Дугласа означает, что сумма эластичностей равна единице. В работе с подобными ограничениями существуют два подхода. Рассмотрим вначале первый из них, который предполагает, что оценивание происходит без учета ограничений, и лишь затем проверяют, будут ли оцененные коэффициенты удовлетворять этим ограничениям в статистическом смысле.

Рассматривается гипотеза , где с – известный вектор констант, а r– известная постоянная. Найдем дисперсию линейной комбинации оценок:

Заменяя σ2 на оценку , построим соотношение, которое удовлетворяет t-распределению с (N-(k+1)) степенями свободы:

.

Заменяяв последнем выражении на r,вычисляют, после чего сравнивают с табличным значением при выбранном уровне значимостиq (обычно 0,05) либо надежности (обычно 95%) и ЧСС, равномN-(k+1). ПригипотезаHотвергается.

Второй, альтернативный, подход предполагает, что ограничение учитывается в процессе подгонки так, чтобы оцененные коэффициенты точно ему удовлетворяли. Тем самым осуществляется инкорпорирование априорной информациив процедуру оценивания.

Рассмотрим этот подход в общем виде, полагая, что линейных ограничений может быть несколько. Запишем эти ограничения так:

D a = r, (3.16)

где D– известная матрица порядкаm(k+1), r– известный вектор- столбец, состоящий изmэлементов (m– число ограничений). Пусть, например, необходимо инкорпорировать два ограничения, а именнои Положим

.

Минимизацию суммы квадратов отклонений при наличии ограничений проводят на основе функции Лагранжа:

,

где через обозначены оценки с учетом ограничений, а через λ – вектор неопределенных множителей. Приравняв нулю соответствующие первые производные, получим

. (3.17)

Выразим отсюда и подставим в ограничение (3.16), из которого найдем. Подставим теперь λ в (3.17) и найдем отсюда окончательное выражение для:

где – оценка МНК без ограничений.

Можно показать, что остаточная сумма квадратов регрессии с ограничениями есть

,

где соответствует сумме квадратов отклонений оценки МНК без учета ограничений.

В предположении нормальности возмущений статистика

(3.18)

подчиняется F-распределению с [m, N-(k+1)] степенями свободы, что дает возможность проводить статистические проверки.

Проверка гипотезы Н0: а12=…=аk=0

Рассматриваются две конкурирующие модели:

“длинная” (3.19)

и “короткая . (3.20)

Модель (3.20) называют также моделью среднего, поскольку для нее . Модель среднего является, по сути дела, моделью сkограничениями (a1=a2=…=ak=0), а значит,.

Осуществив подгонку по модели без ограничений (3.19), найдем . Вычисляем

(3.21)

и сравниваем с табличным значением F-распределения при выбранном уровне надежности (обычно 95%). ПриFp>FTгипотезаH0:a1=a2=…=ak=0 отвергается, в противном случае, принимается. Подобную проверку часто называют проверкой на значимость уравнения регрессии(3.19) в целом.

Выражение (3.21) может быть представлено в иной форме с использованием коэффициента детерминации R2(см. п. 3.7).

Аналогично, проверка на значимость нескольких (для определенности ) коэффициентов сразу приводит к статистике

,

где – остаточная сумма квадратов “длинной” регрессии с числом базисных функций (k+1), – остаточная сумма квадратов “короткой” регрессии, где базисных функций опущены. Пригипотеза о равенстве нулюкоэффициентов регрессии отвергается.