- •3.1. Простая линейная регрессия.
- •Пример построения линейной регрессии.
- •3.1.1. Определение параметров уравнения регрессии с помощью метода наименьших квадратов.
- •3.1.2. Критерии значимости коэффициентов и в уравнении регрессии.
- •Коэффициент детерминации .
- •Гетероскедастичность.
- •Автокорреляция.
- •Мультиколлинеарность.
- •Фиктивные переменные.
- •Исходные данные
- •Результаты вычислений.
- •3.4. Использование регрессии для прогнозирования.
- •Матрица коэффициентов парной корреляции
- •Множественный коэффициент корреляции
- •Частный коэффициент корреляции
- •Исходные данные.
- •Результаты расчета.
- •Проверка точности.
- •Проверка адекватности и оценка точности модели парной линейной регрессии.
- •Проверка адекватности.
- •Курс доллара сша и предположительно влияющие на него факторы.
- •Корреляционная матрица системы показателей.
- •Параметры модели зависимости курса доллара от цены золота и ее статистические характеристики.
- •Параметры модели зависимости курса доллара от цены золота и dj-индекса и ее статистические характеристики.
- •Параметры модели зависимости курса доллара от цены золота, dj-индекса и тn-индекса и ее статистические характеристики.
- •Результаты моделирования зависимости курса доллара от цены золота и dj-индекса.
- •Исходные данные.
- •Коэффициенты корреляции.
- •Исходные данные.
- •Исходные данные.
3.1.2. Критерии значимости коэффициентов и в уравнении регрессии.
Формально значимость
оцененного коэффициента регрессии
может быть проверена с помощью анализа
его отношения к своему стандартному
отклонению
.
Эта величина в случае выполнения
исходных предпосылок модели имеет
t-распределение
Стьюдента с (n-2)
степенями свободы (n
- число наблюдений). Она называется
t-статистикой:
(3.5).
Для t-статистики проверяется нулевая гипотеза, то есть гипотеза о равенстве ее нулю. Очевидно, t=0 равнозначно =0, поскольку t пропорциональна . Аналогично проверяется значимость коэффициента .
При оценке значимости коэффициента линейной регрессии можно использовать следующее грубое правило. Если стандартная ошибка коэффициента больше его модуля, т.е. t < 1, то он не может быть признан хорошим (значимым). Если стандартная ошибка меньше модуля коэффициента, но больше его половины, т.е. 1 < t < 2, то сделанная оценка может рассматриваться как более или менее значимая. Доверительная вероятность здесь примерно от 0,7 до 0,95. Значение t от 2 до 3 свидетельствуете весьма значимой связи (доверительная вероятность от 0,95 до 0,99), и t > 3 есть практически стопроцентное свидетельство ее наличия. Конечно, в каждом случае играет роль число наблюдений; чем их больше, тем надежнее при прочих равных условиях выводы о наличии связи и тем меньше верхняя граница доверительного интервала для данных числа степеней свободы и уровня значимости.
Коэффициент детерминации .
Регрессионная модель показывает, что вариация Y может быть объяснена вариацией независимой переменной X и значением ошибки . Очень часто необходимо знать, насколько вариация Y обусловлена изменением X и насколько она является следствием случайных причин. Другими словами, нам нужно знать, насколько хорошо рассчитанное уравнение регрессии соответствует фактическим данным, т.е. насколько мала вариация данных вокруг линии регрессии. Для оценки степени соответствия линии регрессии нам нужно рассчитать общую сумму квадратов отклонений, сумму квадратов отклонений, объясняемую регрессией, и остаточную сумму квадратов отклонений, чтобы определить коэффициент детерминации .
Для анализа общего качества оцененной линейной регрессии используют обычно коэффициент детерминации , называемый также квадратом коэффициента множественной корреляции. Для случая парной регрессии это квадрат коэффициента корреляции переменных X и Y. Коэффициент детерминации рассчитывается по формуле:
(3.6).
В случае простой регрессии двух переменных R2 представляет собой квадрат коэффициента корреляции.
Этот коэффициент характеризует долю вариации (разброса) зависимой переменной, объясненной с помощью данного уравнения. В качестве меры разброса зависимой переменной обычно используется ее дисперсия, а остаточная вариация может быть измерена как дисперсия отклонений вокруг линии регрессии. Если числитель и знаменатель вычитаемой из единицы дроби разделить на число наблюдений n, то получим, соответственно, выборочные оценки остаточной дисперсии и дисперсии зависимой переменной Y. Отношение остаточной и общей дисперсий представляет собой долю необъясненной дисперсии. Если же эту долю вычесть из единицы, то получим долю дисперсии зависимой переменной, объясненной с помощью регрессии.
Иногда при расчете коэффициента детерминации для получения несмещенных оценок дисперсии в числителе и знаменателе вычитаемой из единицы дроби делается поправка на число степеней свободы; тогда
(3.7)
или, для парной регрессии, где число независимых переменных n равно 1:
(3.8).
Обычный (без поправки) всегда растет при добавлении новой переменной; в с поправкой растет величина т, уменьшающая его. Если увеличение доли объясненной дисперсии при добавлении новой переменной мало, то с поправкой может уменьшиться. Если это так, то добавлять переменную нецелесообразно. Скорректированный R2 уменьшится по величине, если дополнительная переменная незначима. Однако необходимо предостеречь против включения и исключения переменных только лишь из-за их влияния на скорректированный R2. Рациональной базой для включения и исключения служит экономическая теория, стоящая за проверяемой моделью. Отсюда переменная, которая имеет сильное теоретическое основание для включения, должна быть добавлена в модель, даже если скорректированный R2 от этого не улучшится.
Если существует статистически значимая линейная связь величин X и Y, то коэффициент близок к единице. Однако он может быть близким к единице просто в силу того, что обе эти величины имеют выраженный временной тренд, не связанный с их причинно-следственной взаимозависимостью. В экономике обычно объемные показатели (доход, потребление, инвестиции) имеют такой тренд, а темповые и относительные (производительности, темпы роста, доли, отношения) - не всегда. Поэтому при оценивании линейных регрессий по временным рядам объемных показателей (например, зависимости выпуска от затрат ресурсов или объема потребления от величины дохода) величина обычно очень близка к единице. Это, говорит о том, что зависимую переменную нельзя описать просто как равную своему среднему значению, но это и заранее очевидно, раз она имеет временной тренд.
Если имеются не временные ряды, а перекрестная выборка, то есть данные об однотипных объектах в один и тот же момент времени, то для оцененного по ним уравнения линейной регрессии величина не превышает обычно уровня 0.6 - 0.7. То же самое обычно имеет место и для регрессии по временным рядам, если они не имеют выраженного тренда. В макроэкономике примерами таких зависимостей являются связи относительных, удельных, темповых показателей: зависимость темпа инфляции от уровня безработицы, нормы накопления от величины процентной ставки, темпа прироста выпуска от темпов прироста затрат ресурсов. Таким образом, при построении макроэкономических моделей, особенно - по временным рядам данных, нужно учитывать, являются входящие в них переменные объемными или относительными, имеют ли они временной тренд.
Для определения статистической значимости коэффициента детерминации проверяется нулевая гипотеза для F-статистики, рассчитываемой по формуле:
(3.9).
Соответственно,
для парной регрессии
.
Смысл проверяемой
гипотезы заключается в том, что все
коэффициенты линейной
регрессии, за исключением свободного
члена, равны нулю. Если они действительно
равны нулю для генеральной совокупности,
то уравнение регрессии должно иметь
вид
,
а
коэффициент детерминации
и
F-статистика
Фишера также равны нулю. При этом
их оценки для случайной выборки, конечно,
отличаются от нуля,
но чем больше такое отличие, тем менее
оно вероятно. Логика проверки нулевой
гипотезы заключается в том, что если
произошло событие,
которое было бы слишком маловероятным
в том случае, если
данная гипотеза действительно была бы
верна, то эта гипотеза отвергается.
Величина F, если предположить, что выполнены предпосылки относительно отклонений , имеет распределение Фишера с (m; n-m-1) степенями свободы, где m - число объясняющих переменных, n - число наблюдений. Распределение Фишера - двухпараметрическое распределение неотрицательной случайной величины, являющейся в частном случае, при m=1, квадратом случайной величины, распределенной по Стьюденту. Для распределения Фишера имеются таблицы критических значений, зависящих от чисел степеней свободы m и n-m-1, при различных уровнях значимости.
Итак,
показатели F
и
равны
или не равны нулю одновременно,
поэтому F
= 0
равнозначно тому, что линия регрессии
является
наилучшей
по МНК и, следовательно, величина Y
статистически независима от X.
Поэтому проверяется нулевая гипотеза
для показателя F,
который имеет хорошо известное,
табулированное распределение Фишера.
Для проверки этой гипотезы при
заданном уровне значимости по таблицам
находится критическое значение
- и нулевая гипотеза отвергается, если
F
>
.
Пусть, например, при оценке парной
регрессии по 15 наблюдениям
= 0.7. В этом случае
.
По таблицам для распределения Фишера
с (1; 13) степенями свободы найдем, что при
5%-ном уровне значимости (доверительная
вероятность 95%) критическое значение
F
равно 4.67, при 1%-ном – 9.07. Таким образом,
для того, чтобы отвергнуть гипотезу о
равенстве нулю одновременно всех
коэффициентов линейной регрессии,
коэффициент детерминации не должен
быть очень близким к единице; его
критическое значение для данного числа
степеней свободы уменьшается при росте
числа наблюдений и может стать сколь
угодно малым. В то же время величина
коэффициента
может служить отражением общего качества
регрессионной модели.
