- •П.Я. Бушин
- •Введение
- •Глава 1. Парная линейная регрессия и корреляция
- •1.1. Обычный метод наименьших квадратов (мнк) и его предпосылки
- •1.2. Оценки точности уравнения регрессии и его параметров
- •1.2.1. Стандартная ошибка оценки по регрессии
- •1.2.3. Интервальные оценки параметров уравнения регрессии
- •1.2.4. Проверка значимости параметров уравнения регрессии
- •1.2.7. Коэффициент ранговой корреляции Спирмена
- •1.3. Спецификация уравнения регрессии
- •0 1,22 1,42 2,58 2,78 4
- •1.4. Нелинейная корреляция и регрессия
- •1.4.2. Индекс корреляции
- •Глава 2. Множественная корреляция и регрессия
- •2.1. Множественный корреляционный анализ
- •2.1.1. Анализ матрицы парных коэффициентов корреляции
- •2.1.2. Частная и множественная корреляция
- •2.2. Линейная модель множественной регрессии
- •2.2.1. Уравнение множественной регрессии в натуральном масштабе
- •2.2.2.Стандартизованное уравнение множественной регрессии
- •2.2.3. Оценки точности уравнения множественной регрессии
- •2.2.4. Анализ остатков уравнения множественной регрессии на втокорреляцию
- •2.2.5. Пошаговый выбор переменных
- •0 0,9 1,83 2,17 3,1 4
- •2.3. Особые случаи использования мнк во множественной регрессии
- •2.3.1. Оценка параметров уравнения множественной регрессии в условиях мультиколлинеарности (пошаговый регрессионный анализ)
- •2.3.2. Оценка параметров уравнения множественной регрессии с автокоррелированными остатками
- •2.3.3. Оценка уравнения множественной регрессии с гетероскедастичными остатками (обобщенный мнк)
- •2.3.4. Регрессионные модели с переменной структурой (фиктивные переменные)
- •Глава 3. Анализ временных рядов
- •3.1. Характеристики временных рядов
- •3.2. Показатели точности прогноза
- •3.3. Анализ автокорреляций
- •3.4. Модели стационарных временных рядов
- •3.5. Модели нестационарных временных рядов
- •3.5.1. Прогноз по тренду
- •3.5.2. Прогнозирование на основе сезонной компоненты (сезонная декомпозиция временного ряда)
- •3.5.3. Прогноз по экспоненциально взвешенным скользящим средним (адаптивные методы прогнозирования)
- •Поквартальные данные продажи учебников
- •Расчет прогноза с учетом сезонной компоненты
- •Глава 4. Система одновременных эконометрических уравнений
- •4.1. Общие понятия о системах одновременных уравнений
- •4.2. Косвенный метод наименьших квадратов
- •4.3. Проблемы идентифицируемости
- •Библиографический список
- •Оглавление
- •Глава 1. Парная линейная регрессия и корреляция………………………………………4
- •Глава 2. Множественная корреляция и регрессия………………………………………..23
- •Глава 3. Анализ временных рядов………………………………………………………….58
- •Пример. Моделирование сезонной компоненты на основе
- •Учебное издание Павел Яковлевич Бушин эконометрика
1.2.3. Интервальные оценки параметров уравнения регрессии
При использовании параметров уравнения регрессии в анализе и прогнозировании для них необходимо уметь строить интервальные оценки.
Доверительный интервал для коэффициента регрессии определяется как (btSb),
где Sb– стандартная ошибка оценки коэффициента регрессии. Известно, что
Sb=.
Доверительный интервал для свободного члена уравнения регрессии определяется как (аtSа), гдеSа– стандартная ошибка оценки свободного члена уравнения регрессии. Известно, что
Sа=.
Интервальная оценка расчетных значений или, по-другому, доверительная область линии регрессии определяется доверительной областью:
t, где– стандартная ошибка, характеризующая положение линии регрессии и определяемая из соотношения
=S2().
Интервальная оценка прогнозных значений определяется из подобного же соотношения, только в стандартную ошибку добавляется еще стандартное отклонение, характеризующее рассеяние прогнозных значений зависимой переменной вокруг линии регрессии.
1.2.4. Проверка значимости параметров уравнения регрессии
Кроме проверки значимости уравнения регрессии в целом, необходимо уметь проверять значимость каждого параметра уравнения регрессии в отдельности. Осуществляется это на основе соответствующих t-статистик. Значения этихt-статистик рассчитываются из соотношенийta=a/Sa,tb=b/Sb. Для этих статистик определяются критические значения или расчетные уровни значимости (p-value), на основе которых и принимаются решения о значимости или незначимости соответствующих оценок.
В случае парной линейной регрессии проверка значимости уравнения регрессии в целом и проверка значимости коэффициента уравнения регрессии, по сути дела, одно и то же, т. к. в том и другом случае проверяется одна и та же гипотеза о том, что коэффициент уравнения регрессии равен нулю. Кроме того, можно показать, что для парной линейной регрессии F=.
Уравнение простой регрессии в компьютерных расчетах обычно выдается в виде следующей таблицы.
Таблица 1.2
Параметр |
Оценка |
Ст. ошибка |
t-статистика |
р-value |
Пересечение |
а |
Sa |
ta=a/Sa |
|
Наклон |
b |
Sb |
tb =b/Sb |
|
Пересечениеинаклон– это другое название свободного члена уравнения регрессии и его коэффициента, основанное на геометрическом смысле этих величин, если рассматривать уравнение регрессии как уравнение прямой линии или линии регрессии. Смысл остальных столбцов понятен из их названия.
Кроме уже рассмотренных показателей точности уравнения регрессии, обычно еще используются такие, как коэффициент корреляции и коэффициент детерминации. Рассмотрим их.
1.2.5. Коэффициент парной линейной корреляции иликоэффициент корреляции Пирсонаслужит мерой тесноты линейной корреляционной связи двух случайных величин. Для случайных величинxиyвыборочный коэффициент корреляции определяется из соотношения
,
где и – выборочные средние для значений переменныхxиy, а суммирование ведется по всем элементам выборки. В дальнейшем слово «выборочные» для простоты изложения будем опускать.
Другие формы записи для коэффициента парной корреляции:
= =,
где – среднее значение произведений случайных величинxиy;
и – соответственно, среднее квадратов значений величинxиy;
sиs– соответственно, стандартные отклонения переменныхxиy;
Sx,y =cov(x,y) – коэффициент ковариации или просто ковариация переменныхxиy.
Известно, что –1 rxy1.
При rxy> 0 имеем прямую корреляционную связь, т. е. с ростом значения одной переменной растет среднее значение другой, а приrxy< 0 – обратную – с ростом значения одной переменной среднее значение другой убывает. Еслиrxy= 0, то это означает отсутствиелинейнойкорреляционной связи, а еслиrxy=1, то это означает наличие между переменными линейной, функциональной связи видаy = a + bx(прямой – в случае rxy= +1 и обратной – в случаеrxy= –1).
Как видно из приведенных формул, связь между коэффициентами уравнения регрессии и корреляции следующая:
rxy = b·sx /sy.
Оценивая значение коэффициента корреляции по выборочным данным, мы должны указывать надежность такой оценки. Обычно это осуществляется с помощью проверки различных гипотез о параметрах генеральной совокупности. Например, гипотезу о равенстве нулю коэффициента корреляции (Ho :) проверяют на основеt-статистики, вычисляемой на основе выборочных данных по формуле. Известно, что эта случайная величина при верности нулевой гипотезы следует распределению Стьюдента сn–2 степенями свободы.
Как уже отмечалось, в случае простой регрессии проверка значимости уравнения регрессии в целом и проверка значимости коэффициента уравнения регрессии равнозначны. Аналогично, проверка значимости коэффициента уравнения регрессии и проверка значимости коэффициента корреляции – одно и то же, т. к. можно показать, что . Следовательно, в случае простой регрессии проверка гипотезы о значимости коэффициента регрессии и коэффициента корреляции равносильна проверке гипотезы о значимости уравнения регрессии в целом.
При компьютерных расчетах вместе с оценками коэффициентов корреляции рассчитываются обычно и выборочные уровни значимости статистик Стьюдента (p-value). Если расчетное значение уровня значимости или р-величина для коэффициента корреляции окажется больше фиксированного уровня значимости, то нулевая гипотеза о равенстве нулю коэффициента корреляции не отклоняется, и в этом случае говорят, что отличие коэффициента корреляции от нуля незначимо и, следовательно, линейная корреляционная связь между соответствующими переменными отсутствует. В противном случае говорят, что коэффициент корреляции значимо отличен от нуля, что означает наличие линейной корреляционной связи между соответствующими переменными.
Для качественной интерпретации значений коэффициентов парной линейной корреляции (в случае их значимого отличия от нуля) используют шкалу Чеддока:
Величина коэфф. |
0,1–0,3 |
0,3–0,5 |
0,5–0,7 |
0,7–0,9 |
0,9–0,99 |
Характеристика силы связи |
слабая |
Умерен ная |
заметная |
высокая |
весьма высокая |
1.2.6. Коэффициент детерминацииявляется удобной оценкой точности уравнения регрессии. Выясним его смысл. Коэффициент детерминации определяется из соотношения
R2= 1–= = .
Отсюда следует, что коэффициент детерминации характеризует долю вариации зависимой переменной, обусловленную вариацией независимой переменной. Обычно он выражается в процентах, поэтому, например, если R2 = 75 %, то это значит, что 75 % вариации зависимой переменнойуобъясняется вариацией независимой переменнойх, а остальные 25 % измененияуобъясняются либо ошибками наблюдений, либо действием неучтенных факторов, либо тем и другим.
Можно показать, что в случае парной линейной регрессии коэффициент детерминации равен квадрату коэффициента корреляции, т.е. R2 =r2.