- •ОГЛАВЛЕНИЕ
- •ПРЕДИСЛОВИЕ
- •МЕТОДИЧЕСКИЕ МАТЕРИАЛЫ
- •РАБОЧАЯ ПРОГРАММА ДИСЦИПЛИНЫ
- •РЕКОМЕНДАЦИИ ПО САМОСТОЯТЕЛЬНОЙ РАБОТЕ СТУДЕНТА
- •ТЕОРЕТИЧЕСКИЕ МАТЕРИАЛЫ
- •ГЛАВА 1. СТАТИСТИЧЕСКИЕ ПОНЯТИЯ И РАСПРЕДЕЛЕНИЯ
- •§ 1. Введение
- •§ 2. Суть регрессионного анализа
- •§ 3. Некоторые статистические определения
- •§ 4. Нормальное (гауссовское) распределение
- •§ 5. (хи-квадрат)-распределение
- •§ 6. Распределение Стьюдента (t-распределение)
- •§ 7. F-распределение (распределение дисперсионного отношения)
- •§ 8. Статистическая проверка гипотез
- •§ 9. Определение критических значений распределений Стьюдента и Фишера с использованием программы Microsoft Office Excel
- •Резюме
- •Вопросы для самопроверки
- •ГЛАВА 2. ПАРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ. УСЛОВИЯ ГАУССА–МАРКОВА
- •§ 1. Основные понятия
- •§ 2. Метод наименьших квадратов
- •§ 3. Предпосылки метода наименьших квадратов
- •§ 4. Анализ точности определения оценок коэффициентов регрессии
- •§ 5. Проверка статистической значимости коэффициентов парной линейной регрессии
- •§ 6. Интервальные оценки коэффициентов линейного уравнения регрессии
- •§ 7. Доверительные интервалы для зависимой переменной
- •§ 8. Проверка общего качества уравнения регрессии. Коэффициент детерминации
- •Резюме
- •Вопросы для самопроверки
- •ГЛАВА 3. МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ
- •§ 1. Определение параметров уравнения регрессии
- •§ 2. Расчет коэффициентов множественной линейной регрессии
- •§ 3. Дисперсии и стандартные ошибки коэффициентов
- •§ 4. Проверка статистической значимости коэффициентов уравнения регрессии
- •§ 5. Интервальные оценки коэффициентов теоретического уравнения регрессии
- •§ 6. Проверка общего качества уравнения регрессии
- •§ 7. Проверка равенства двух коэффициентов детерминации
- •§ 8. Проверка гипотезы о совпадении уравнений регрессии для двух выборок
- •§ 10. Частные уравнения регрессии
- •Резюме
- •Вопросы для самопроверки
- •ГЛАВА 4. АВТОКОРРЕЛЯЦИЯ СЛУЧАЙНЫХ ВОЗМУЩЕНИЙ
- •§ 1. Суть и причины автокорреляции
- •§ 2. Последствия автокорреляции
- •§ 3. Обнаружение автокорреляции. Критерий Дарбина–Уотсона
- •§ 4. Методы устранения автокорреляции
- •Резюме
- •Вопросы для самопроверки
- •ГЛАВА 5. ГЕТЕРОСКЕДАСТИЧНОСТЬ СЛУЧАЙНЫХ ВОЗМУЩЕНИЙ
- •§ 1. Общие понятия
- •§ 2. Последствия гетероскедастичности
- •§ 3. Обнаружение гетероскедастичности
- •§ 4. Методы смягчения проблемы гетероскедастичности
- •Резюме
- •Вопросы для самопроверки
- •ГЛАВА 6. МУЛЬТИКОЛЛИНЕАРНОСТЬ
- •§ 1. Общие понятия и последствия мультиколлнеарности
- •§ 2. Определение мультиколлинеарности
- •§ 3. Методы устранения мультиколлинеарности
- •Резюме
- •Вопросы для самопроверки
- •ГЛАВА 7. ФИКТИВНЫЕ ПЕРЕМЕННЫЕ В РЕГРЕССИОННЫХ МОДЕЛЯХ
- •§ 1. Модель с одной фиктивной (бинарной) переменной
- •§ 3. Сравнение двух регрессий
- •Резюме
- •Вопросы для самопроверки
- •ГЛАВА 8. НЕЛИНЕЙНАЯ РЕГРЕССИЯ
- •§ 1. Общие понятия
- •§ 2. Степенные модели (логарифмические)
- •§ 3. Обратная модель (гиперболическая)
- •§ 4. Полиномиальная модель
- •§ 5. Показательная модель (лог-линейная)
- •§ 6. Выбор формы модели
- •Резюме
- •Вопросы для самопроверки
- •ГЛАВА 9. ВРЕМЕННЫЕ РЯДЫ
- •§ 1. Общие понятия
- •§ 2. Моделирование тренда временного ряда
- •§ 4. Стационарные ряды
- •§ 5. Процесс авторегрессии AR(p)
- •§ 6. Процессы скользящего среднего MA(q)
- •§ 7. Комбинированные процессы авторегрессии-скользящего среднего ARMA(p, q)
- •§ 8. Модели ARMA, учитывающие наличие сезонности
- •§ 9. Нестационарные временные ряды. Процессы авторегрессии и проинтегрированного скользящего среднего ARIMA(p, k, q)
- •§ 10. Регрессионные модели с распределенными лагами
- •§ 11. Полиномиально распределенные лаги Ш. Алмон
- •Резюме
- •Вопросы для самопроверки
- •ГЛАВА 10. СИСТЕМЫ ОДНОВРЕМЕННЫХ УРАВНЕНИЙ
- •§ 1. Общие понятия
- •§ 2. Идентификация структурной формы модели
- •§ 3. Косвенный метод наименьших квадратов
- •§ 4. Двухшаговый метод наименьших квадратов
- •§ 5. Трехшаговый метод наименьших квадратов
- •Резюме
- •Вопросы для самопроверки
- •ЗАКЛЮЧЕНИЕ
- •ЗАДАНИЯ ДЛЯ КОНТРОЛЯ
- •Тесты для самоконтроля
- •Ключи к тестам для самоконтроля
- •Контрольная работа
- •Вопросы к зачету (экзамену)
- •ГЛОССАРИЙ
- •СПИСОК ЛИТЕРАТУРЫ
Для примера 2.1 tb0 = 43,,759 =1,218; tb1 = 00,926,03 =30,9 . Крити-
ческое значение при уровне значимости α=0,05 и числе степеней свободы ν=20−2=18 равно tкрит =t 0,205; 18 =2,101.
Следовательно, коэффициент b1 статистически значим. Гипотеза о статистической незначимости коэффициента b0 не отклоняется. Это означает, что в данном случае свободным членом уравнения регрессии можно пренебречь ирассматривать регрессиюкак ˆy =b1x .
§ 6. Интервальные оценки коэффициентов линейного уравнения регрессии
Базовыми предпосылками МНК является предположение о нормальном распределении отклонений εi с нулевым математиче-
ским ожиданием и постоянной дисперсией, т. е. εi φ (0,σ2ε).
Это позволяет получать не только наилучшие линейные несмещенные точечные оценки b0 и b1 коэффициентов β0 и β1 линейного уравнения регрессии, но и находить их интервальные оценки, что дает определенные гарантии точности.
Доверительные интервалы для коэффициентов имеют вид:
b0 |
−t |
α |
, n−2 |
S b0 < β0 |
<b0 |
+t |
α |
, n−2 S b0 |
|
|
|||||
|
|
|
|
|
|
||||||||||
|
|
2 |
|
|
|
|
2 |
|
, |
(2.13) |
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
b1 |
−t |
α |
, n−2 |
S b1 < β1 |
<b1+t |
α |
, n−2 S b1 |
|
|
||||||
|
|
|
|
||||||||||||
|
|
2 |
|
|
|
|
2 |
|
|
|
|
Фактически доверительный интервал определяет значения теоретических коэффициентов регрессии β0 и β1, которые будут приемлемыми с надежностью 1−α при найденных оценках b0 и b1.
Если обратиться к примеру 2.1, то 95%-е доверительные интервалы для коэффициентов будут следующими:
|
4,46−2,101× 3,9< β0 |
<4,46+2,101× 3,9; |
|
|
<0,926+2,101× 0,03; |
0,926−2,101× 0,03< β1 |
56
-3,44 < β 0 < 12,94;0,863 < β1 < 0,989 .
§7. Доверительные интервалы для зависимой переменной
Одной из центральных задач эконометрического моделирования является предсказание (прогнозирование) значений зависимой переменной при определенных значениях объясняющих переменных. Здесь возможен двоякий подход: либо предсказать условное математическое ожидание зависимой переменной при определенных значениях объясняющих переменных (предсказание среднего значения), либо прогнозировать некоторое конкретное значение зависимой переменной (предсказание конкретного значения).
Рассмотрим предсказание среднего значения.
Пусть построено уравнение парной регрессии ˆyi =b0 +b1xi , на основе которого необходимо предсказать условное математическое ожидание M (Y (X =x p) переменной Y при X =x p . Сначала определим
точечнуюоценкуматематическогоожиданиязависимойпеременной:
ˆy p =b0 +b1x p .
Тогда, с заданной надежностью 1−α, при любом конкретном значении x p объясняющей переменной доверительный интервал
для M (Y (X =x p)= β0 +β1x p имеет вид: |
|
||||||||||||||||||
|
|
|
|
|
|
1 ( |
|
−x p)2 |
|
|
|||||||||
ˆy p −t |
|
|
|
|
|
x |
|
||||||||||||
α |
, n−2 S e |
|
|
1+ |
|
|
|
|
|
|
< β0 +β1x p < |
||||||||
|
|
Var (x) |
|||||||||||||||||
|
|||||||||||||||||||
2 |
|
|
|
|
n |
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
1 ( |
|
−x p)2 |
|||||||||
< ˆy p +t |
|
|
|
|
|
x |
|||||||||||||
α |
, n−2 |
S e |
|
|
1+ |
|
|
|
|
. |
|||||||||
|
|
Var (x) |
|||||||||||||||||
|
|||||||||||||||||||
2 |
|
|
|
|
n |
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
57
Предсказание индивидуальных значений зависимой переменной.
Пусть нас интересует некоторое возможное значение yp переменной Y при определенном значении x p объясняющей перемен-
ной X. Тогда интервал:
|
|
|
|
|
1 |
|
|
|
2 |
|
|
|
|
|
|
(x−x p) |
|||||||
|
|
|
|
|
|
|
|||||
b0 |
+b1x p ±t |
α |
, n−2 S e |
1+ |
|
1+ |
|
|
|
|
|
|
Var (x) |
||||||||||
|
2 |
|
|
n |
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
определяет границы, за пределами которых могут оказаться не более 100α% точек наблюдений значений Y при X =xp . Заметим, что
данный интервал шире доверительного интервала для условного математического ожидания.
Построенные интервалы наиболее узкими будут при xp =x . По
мере удаления xp от среднего значения доверительные интервалы расширяются. Поэтому необходимо достаточно осторожно экстраполировать полученные результаты на прогнозные области. С другой стороны, с ростом числа наблюдений n эти интервалы сужаются к линии регрессии при n →∞.
|
|
Вернемся к примеру 2.1. Пусть xp =160, тогда: |
|
|
|
|
||||||||||
|
|
|
1 |
|
|
−xp)2 |
|
|
|
|
|
|
|
|
||
|
|
|
( |
|
|
|
(2490 20−160)2 |
|
||||||||
|
|
|
x |
1 |
||||||||||||
t |
α |
, n−2 Se |
|
1+ |
|
|
|
=2,101×1,98× |
|
|
1+ |
|
|
|
|
=2,5; |
|
Var(x) |
|
|
314050 |
|
2490 |
2 |
|||||||||
|
|
|||||||||||||||
2 |
|
n |
|
20 |
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
20 |
− |
20 |
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
b0 +b1x p =4,46+0,928×160=152,9; 152,9−2,5< β0 +β1x p <152,9+2,5 ;
150,4< β0 +β1x p <155,4.
Рассмотрим предсказание индивидуальных значений зависимой переменной. Пусть xp =160, тогда:
58
|
|
|
|
( |
|
|
2 |
|
|
|
|
|
|
|
|
||||
|
|
|
x |
− |
1 |
|
(2490 20−160) |
2 |
|
||||||||||
|
α |
|
1 |
|
xp) |
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
t |
|
, n−2 Se 1+ 1+ |
Var(x) |
|
=2101, ×198, × 1+ |
|
1+ |
314050 |
|
|
|
2 |
=4,9. |
||||||
|
|
|
|
|
|||||||||||||||
2 |
|
n |
|
|
|
20 |
2490 |
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
20 |
− |
20 |
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Доверительный интервал имеет вид:
b0 +b1x p ±4,9=4,46+0,928×160±4,9 .
§ 8. Проверка общего качества уравнения регрессии. Коэффициент детерминации
После проверки значимости каждого коэффициента регрессии обычно проверяется общее качество уравнения регрессии, которое оценивается по тому, как хорошо эмпирическое уравнение регрессии согласуется со статистическими данными. Другими словами, насколько широко рассеяны точки наблюдений относительно линии регрессии.
Рассмотрим тождество
(yi −y)=(ˆyi −y)+(yi −ˆyi)
или
(yi −y)=(ˆyi −y)+ei .
Возведем обе части тождества в квадрат и просуммируем по i от 1 до n. Учитывая, что остатки ei не коррелируют со значениями зависимой переменной ˆyi , рассчитанными по уравнению регрес-
сии, получим:
n |
|
|
|
n |
|
|
|
|
n |
|
∑(yi− |
y |
)2 |
=∑(ˆyi− |
y |
)2 |
+∑(yi−ˆyi)2, |
||||
i=1 |
|
i=1 |
|
i=1 |
||||||
n |
|
)2 |
n |
|
)2 |
n |
||||
∑(yi− |
y |
=∑(ˆyi− |
y |
+∑ei2, |
||||||
i=1 |
|
|
i=1 |
|
|
i=1 |
TSS =ESS +RSS ,
59
где TSS =∑n (yi−y)2 — общая сумма квадратов отклонений значе-
i=1
ний зависимой переменной от среднего значения;
ESS =∑n (ˆyi−y)2 — сумма квадратов отклонений значений за-
i=1
висимой переменной, объясненных регрессией от среднего значения (объясненная сумма квадратов отклонений);
n |
n |
RSS =∑(yi−ˆyi)2 |
=∑ei2 — необъясненная сумма квадратов |
i=1 |
i=1 |
отклонений.
Каждой сумме квадратов отклонений соответствует число, называемое ее числом степеней свободы. Это число показывает, сколько независимых единиц информации, определяемых по n независимым числам y1, y2,..., yn , требуется для того, чтобы вычис-
лить эту сумму квадратов. Например, для того чтобы вычислить TSS, необходимо n-1 независимых единиц информации, поскольку по определению среднего значения только (n-1) из чисел
|
|
|
|
|
|
|
|
|
|
|
|
|
y1−y, y2 |
−y,..., yn −y |
являются независимыми. Так как |
||||||||||
|
|
n |
|
|
|
|
|
|
|
n |
|
|
ESS =∑(ˆyi− |
y |
)2 =b12∑(xi− |
x |
)2 , то ESS определяется коэффициен- |
||||||||
|
|
i=1 |
|
|
|
|
|
|
|
i=1 |
том b1, т. е. имеет одну степень свободы. Следовательно, RSS имеет (n-2) степени свободы. Это отражает тот факт, что в данном случае сумма квадратов остатков вычисляется для модели, имеющей два параметра. Вообще, число степеней свободы остаточной суммы квадратов есть разность между числом наблюдений и числом оцениваемых параметров. Можно построить таблицу дисперсионного анализа:
Источник |
df |
SS |
MS |
|
число степеней |
||||
отклонения |
Сумма квадратов |
Средний квадрат |
||
|
свободы |
|
|
|
регрессия |
1 |
ESS |
ESS/1 |
60
остаток |
n-2 |
RSS |
RSS/(n-2) |
итого |
n-1 |
TSS |
|
Суммарной мерой общего качества уравнения регрессии (соответствия уравнения регрессии статистическим данным) является коэффициент детерминации R2. Коэффициент детерминации рассчитывается по формуле:
|
|
|
|
|
n |
|
|
|
)2 |
|
|
|
|
|
|
n |
|
|||
|
ESS |
|
RSS |
|
∑(ˆyi− |
y |
|
|
|
|
|
|
|
∑ei2 |
|
|||||
R2 = |
=1− |
= |
i=1 |
|
|
|
|
|
|
= |
1− |
|
|
i=1 |
= (2.14) |
|||||
TSS |
TSS |
n |
|
|
|
)2 |
|
n |
|
|||||||||||
|
|
|
∑(yi− |
y |
|
|
|
|
|
∑(yi− |
y |
)2 |
|
|||||||
|
|
|
|
|
i=1 |
|
|
|
|
|
|
|
|
|
i=1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n∑ei2 |
|
|
|
|
|
|
|
|
|||
|
|
|
|
=1− |
|
|
|
|
i=1 |
|
|
|
|
. |
|
|
|
|
||
|
|
|
|
n |
2 |
n |
|
2 |
|
|
|
|
||||||||
|
|
|
|
|
|
n∑ y |
− |
∑ y |
|
|
|
|
||||||||
|
|
|
|
|
|
|
i |
|
|
|
|
|
i |
|
|
|
|
|||
|
|
|
|
|
|
i=1 |
|
|
i=1 |
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Коэффициент детерминации R2 определяет долю разброса зависимой переменной, объяснимую регрессией Y на X. Дробь
n
∑ei2
i=1
∑n (yi−y)2
i=1
определяет долю разброса зависимой переменной, не объясненную регрессией Y на X. В общем случае справедливо соотношение
0≤R2 ≤1.
Если между величинами Y и X существует значимая линейная
n |
n |
|
)2 . В этом слу- |
связь, то ∑ei2 , существенно меньше, чем ∑(yi− |
y |
||
i=1 |
i=1 |
|
чае коэффициент детерминации R2 близок к единице. Чем теснее линейная связь между Y и X, тем ближе коэффициент детерминации R2 к единице. Чем слабее такая связь, тем R2 ближе к нулю.
61
Отметим, что в случае парной линейной регрессии r2xy =R2 , где r xy — коэффициент корреляции зависимой и объясняющей пере-
менной.
Не следует абсолютизировать высокое значение R2, так как коэффициент детерминации может быть близким к единице просто в силу того, что обе исследуемые величины Y и X имеют выраженный временной тренд, не связанный с их причинно-следственной зависимостью. Какое значение R2 можно считать удовлетворительным? Анализ статистической значимости коэффициента детерминации будет изложен ниже.
Проверяют гипотезу о статистической значимости коэффициента детерминации R2:
H 0 : R2 =0,
H 1 : R2 >0.
Для проверки данной гипотезы часто используется следующая F-статистика:
|
ESS |
|
|
R2 |
|
|
R2 |
|
n−m−1 |
|
|
|||
F = |
m |
= |
|
m |
|
|
= |
|
× |
, |
(2.15) |
|||
RSS |
1−R2 |
1−R2 |
m |
|||||||||||
|
|
|
|
|
|
|||||||||
|
n−m−1 |
|
|
|
|
|
|
|
|
|
||||
|
|
n−m−1 |
|
|
|
|
|
|
|
|
где n — число наблюдений, m — число объясняющих переменных. В случае парной линейной регрессии (одна объясняющая перемен-
ная) F = R2 (n−2). 1−R2
Величина F при выполнении предпосылок МНК и при справедливости H0 имеет распределение Фишера. Показатели F и R2 равны или не равны нулю одновременно. Для проверки нулевой гипотезы H0:F=0, R2=0 при заданном уровне значимости α по таблицам критических точек распределения Фишера находится критическое значение Fкрит=Fα; m; n-m-1. Нулевая гипотеза отклоняется, если Fнабл>Fкрит. Это равносильно тому, что R2 >0 , т. е. R2 статистически значим.
Для примера 2.1 имеем:
62