
- •Вопрос 1. Понятие измерения. Качественные шкалы измерения.
- •Вопрос 2. Количественные шкалы измерения.
- •Вопрос 3. Модель и предпосылки классической регрессии.
- •Вопрос 4. Вычисление оценок коэффициентов регрессии.
- •Вопрос 5. Ковариационная матрица оценок коэффициентов регрессии.
- •Вопрос 6. Оценка дисперсии случайного возмущения по уравнению регрессии.
- •Вопрос 7. Статистический анализ уравнения регрессии.
- •3.3. Статистический анализ уравнения регрессии
- •3.3.1. Несмещенность оценок коэффициентов регрессии
- •3.3.4. Состоятельность
- •Вопрос 8. Оценка ошибки предсказания по уравнению регрессии.
- •Вопрос 9. Теорема Гаусса-Маркова.
- •Вопрос 10. Перебор и недобор факторов в уравнении регрессии.
- •Вопрос 11. Коэффициент детерминации.
- •Вопрос 12. Тест Чоу.
- •Вопрос 13. Проверка значимости коэффициента регрессии.
- •Вопрос 14. Проблема мультиколлинеарности в регрессионном анализе.
- •Вопрос 15. Меры мультиколлинеарности.
- •Вопрос 16. Меры борьбы с мультиколлинеарностью.
- •Вопрос 17. Ридж-оценки.
- •Вопрос 18. Частный коэффициент корреляции.
- •Вопрос 19. Анализ связи ранговых переменных.
- •Вопрос 20. Анализ связи номинальных переменных.
- •Вопрос 21. Регрессия с качественными переменными.
- •Вопрос 22. Проверка значимости коэффициентов корреляции.
- •Вопрос 23. Структурные компоненты в модели временного ряда.
- •Вопрос 24. Критерии случайности временного ряда.
- •Вопрос 25. Обзор методов выделения тренда.
- •Вопрос 26. Метод скользящего среднего.
- •Вопрос 27. Простое экспоненциальное сглаживание.
- •Простое экспоненциальное сглаживание
- •Вопрос 28. Двойное экспоненциальное сглаживание.
- •Вопрос 29. Дисперсия простой экспоненциальной средней.
- •Простое экспоненциальное сглаживание
- •Вопрос 30. Способы приведения временного ряда к стационарному виду.
- •Вопрос 31. Корреляционная функция марковского временного ярда. Авторегрессия первого порядка (марковский процесс).
- •Вопрос 32. Частная автокорреляционная функция марковского временного ярда.
- •Вопрос 33. Корреляционная функция процесса Юла. Авторерессия второго порядка (процесс Юла)
- •Вопрос 34. Определение порядка полинома в модели временного ряда.
- •Вопрос 35. Оценивание параметров авторегрессионного ряда.
- •Вопрос 36. Модель Бокса-Дженкинса.
- •Вопрос 37. Этапы построения модели арисс.
- •Идентификация модели
- •Вопрос 38. Процесс Юла. Оценка параметров. Авторерессия второго порядка (процесс Юла)
- •Вопрос 39. Система одновременных уравнений. Структурная и приведенная формы.
- •Вопрос 40. Критерии идентифицируемости системы одновременных уравнений.
- •Вопрос 41. Методы оценивания параметров системы одновременных уравнений.
Вопрос 12. Тест Чоу.
Одним и тем же образом специфицированная модель подгоняется по двум наборам данных. Являются ли регрессии, построенные по этим двум выборкам, одинаковыми? Положительный ответ на этот вопрос позволил бы объединить наборы данных и рассматривать единую модель регрессии. Приведем формальную запись. Имеются две регрессии
(3.22)
(3.23)
где
и u1
–векторы размерностиN1,
и u2
–векторы
размерностиN2,F1
– матрица размерности N1×(k+1),
F2
– матрица значений тех же базисных
функций размерности N2×(k+1),
a1
и a2
– векторы размерности (k+1).
Векторы u1
и u2
независимы и нормально распределены.
Модель без ограничений можно представить в виде
(3.24)
Для этой регрессии проверяется гипотеза Н: а1=а2. В рамках данной гипотезы матрица D и вектор r примут вид:
,
r=0.
Регрессия с ограничениями, для которой справедлива гипотеза Н: а1=а2 может быть записана так:
(3.25)
где
.
Остаточная сумма квадратов
регрессии с ограничениями (3.25) есть .
Для полной регрессии (3.24)
есть
,
где
и
–
суммы квадратов отклонений регрессии
(3.22), (3.23) соответственно.
Поэтому, если
,
то гипотеза H: a1=a2 отвергается.
Заметим, что проблема сравнения регрессий может решаться также с использованием фиктивных переменных (см. п. 4.3).
Вопрос 13. Проверка значимости коэффициента регрессии.
Проверка статистических гипотез относительно коэффициентов регрессии
Как уже отмечалось, подобная проверка оказывается возможной при известном законе распределения случайной компоненты, а именно, в предположении нормальности u. В этом случае
а для отдельной компоненты
где
–
i-й
диагональный элемент матрицы
.
Величина
обычно не доступна, поэтому работают
с ее оценкой
,
так что
Отношение
подчиняетсяt-распределению
с
(N-(k+1))
степенями свободы, то есть
Проверка гипотезы H0: ai=ai0
Задавшись уровнем значимости qпо таблицеt-распределения,
находят двусторонний квантильtT[q,N–(k+1)].
Тогда
есть (1-q)%-ный
доверительный интервал для истинного
значения коэффициента
.
Если
попадает внутрь доверительного
интервала, или точнее, интервал накрывает
,
то гипотеза принимается. Другая, более
распространенная форма проверки
следующая: вычисляют
и сравнивают с tT[q,N–(k+1)]. Приtp>tT H0отклоняется.
Если
=0,то речь идет о проверке значимости
коэффициента регрессии. При
коэффициент
значимо отклоняется от нуля.
Следует отметить, что проверка гипотезы Н0: аi = 0 важная и ответственная процедура в регрессионном анализе. От ответа на вопрос, считать ли параметр значимо отличающимся от нуля, зависит: оставить или исключить соответствующую базисную функцию из уравнения регресии. Проверка статистических гипотез сопровождается появлением ошибок первого и второго рода.
Пусть :
верна. Оценка
,
являясь величиной случайной с
и дисперсией
,
может отклониться от нуля больше, чем
на
в обе стороны в q%
случаев (q– малая величина, называемая уровнем
значимости). Если это имело место, то
естьtp>tT,
то такое событие считается практически
невозможным и H0
отвергается, так что соответствующая
базисная функция должна остаться в
уравнении регрессии. Тем самым совершается
ошибка первого рода, приводящая к
переизбытку, перебору, базисных функций.
Ошибка второго рода возникает,
если истинное значение коэффициента
регрессии отлично от нуля, то есть
ai≠ 0,
а статистическая проверка не выявила
значимость коэффициента, то есть
принимается, что ,
а поэтому соответствующая базисная
функция исключается из регрессии.
Вероятность совершения такой ошибки
не постоянна и зависит от
.
Таким образом, ошибка второго рода ведет
к недобору базисных функций в уравнении
регрессии. Недобор и перебор базисных
функций в уравнении регрессии являются
ошибками спецификации и подробно
рассматриваются в п. 4.1. Отметим только,
что недобор ведет к более «тяжким»
последствиям, чем перебор, порождая
смещение в оценках.
Общая рекомендация здесь такая: уровень значимости при проверке коэффициентов регрессии на значимость не должен быть слишком низким, так как при этом повышается вероятность недобора.
Вернемся к численному примеру
(3.5). По полученному уравнению регрессии
рассчитаем ожидаемые значения выходной
переменной в точках наблюдений:
;
0,5;
Оценка дисперсии случайной компоненты составляет (см. (3.10))
s2=[(9-10,5)2+(2-0,5)2+(7-6,5)2+(4-4,5)2]/(4-3)=5. (3.15)
Дисперсию и стандартное отклонение оценим по (3.11) и сведем в табл. 10.
Таблица 10
|
4,5 |
-4 |
2 |
|
520/64=1,56 |
520/64=1,56 |
516/64=1,25 |
|
1,25 |
1,25 |
1,12 |
tp |
4,5/1,25=3,6 |
|-4|/1,25=3,2 |
2/1,25=1,6 |
Применение статистики
Стьюдента (последняя строка табл.10)
правомерно в предположении нормальности
возмущений. Поскольку ЧСС=1, то табличные
значения оказываются весьма высокими:
tт
=12,7 при q=0,05,
так что ни один из коэффициентов нельзя
признать значимым. Поскольку известны
«незашумленные» значения (табл.9),
то можно получить еще одну оценку
дисперсии случайной компоненты:
.
Согласно (3.14) Fр=5/1,25=4. Поскольку Fр<FТ(0.95;1;4)=7,71, то гипотеза об адекватности оцененного уравнения не отвергается. Получившееся противоречие: адекватное уравнение – незначимые коффициенты − связано с недостаточной представительностью (малым числом) наблюдений.
Проверка гипотезы Н: с′a=r
Нередко априорная информация указывает на линейные ограничения, которым должны удовлетворять коэффициенты регрессии. Например, постоянная отдача от единицы масштаба в производственной функции Кобба−Дугласа означает, что сумма эластичностей равна единице. В работе с подобными ограничениями существуют два подхода. Рассмотрим вначале первый из них, который предполагает, что оценивание происходит без учета ограничений, и лишь затем проверяют, будут ли оцененные коэффициенты удовлетворять этим ограничениям в статистическом смысле.
Рассматривается гипотеза
,
где с
– известный вектор констант, а r– известная постоянная. Найдем дисперсию
линейной комбинации оценок:
Заменяя σ2 на оценку ,
построим соотношение, которое удовлетворяет
t-распределению
с (N-(k+1))
степенями свободы:
.
Заменяяв последнем
выражении
на r,вычисляют
,
после чего сравнивают с табличным
значением
при выбранном уровне значимостиq
(обычно 0,05) либо надежности (обычно
95%) и ЧСС, равномN-(k+1).
При
гипотезаHотвергается.
Второй, альтернативный, подход предполагает, что ограничение учитывается в процессе подгонки так, чтобы оцененные коэффициенты точно ему удовлетворяли. Тем самым осуществляется инкорпорирование априорной информациив процедуру оценивания.
Рассмотрим этот подход в общем виде, полагая, что линейных ограничений может быть несколько. Запишем эти ограничения так:
D a = r, (3.16)
где D– известная матрица порядкаm(k+1),
r– известный вектор- столбец, состоящий
изmэлементов (m– число ограничений). Пусть, например,
необходимо инкорпорировать два
ограничения, а именнои
Положим
.
Минимизацию суммы квадратов отклонений при наличии ограничений проводят на основе функции Лагранжа:
,
где через
обозначены оценки с учетом ограничений,
а через λ – вектор неопределенных
множителей. Приравняв нулю соответствующие
первые производные, получим
.
(3.17)
Выразим отсюда
и
подставим в ограничение (3.16), из которого
найдем
.
Подставим теперь λ в (3.17) и найдем отсюда
окончательное выражение для
:
где
–
оценка МНК без ограничений.
Можно показать, что остаточная
сумма квадратов
регрессии с ограничениями есть
,
где
соответствует сумме квадратов отклонений
оценки МНК без учета ограничений.
В предположении нормальности возмущений статистика
(3.18)
подчиняется F-распределению с [m, N-(k+1)] степенями свободы, что дает возможность проводить статистические проверки.
Проверка гипотезы Н0: а1=а2=…=аk=0
Рассматриваются две конкурирующие модели:
“длинная”
(3.19)
и “короткая .
(3.20)
Модель (3.20) называют также моделью
среднего, поскольку для нее
.
Модель среднего является, по сути
дела, моделью сkограничениями (a1=a2=…=ak=0),
а значит,
.
Осуществив подгонку по модели без
ограничений (3.19), найдем
.
Вычисляем
(3.21)
и сравниваем
с табличным значением F-распределения
при выбранном уровне надежности (обычно
95%).
ПриFp>FTгипотезаH0:a1=a2=…=ak=0
отвергается, в противном случае,
принимается. Подобную проверку часто
называют проверкой
на значимость уравнения регрессии(3.19) в целом.
Выражение (3.21) может быть представлено в иной форме с использованием коэффициента детерминации R2(см. п. 3.7).
Аналогично, проверка на
значимость нескольких (для определенности
)
коэффициентов сразу приводит к статистике
,
где
–
остаточная сумма квадратов “длинной”
регрессии с числом базисных функций
(k+1),
–
остаточная сумма квадратов “короткой”
регрессии, где
базисных функций опущены. При
гипотеза о равенстве нулю
коэффициентов регрессии отвергается.