Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Рег.анализ.docx
Скачиваний:
26
Добавлен:
30.03.2015
Размер:
111.14 Кб
Скачать

Статистические свойства оценок коэффициентов регрессии:

- оценки коэффициентов a0 , a1 являются несмещенными;

- дисперсии оценок a0 , a1 уменьшаются (точность оценок увеличивается) при увеличении объема выборки n;

- дисперсия оценки углового коэффициента a1 уменьшается при увеличении и поэтому желательно выбирать хi так, чтобы их разброс вокруг среднего значения был большим;

- при х¯ > 0 (что представляет наибольший интерес) между a0 и a1 имеется отрицательная статистическая связь (увеличение a1 приводит к уменьшению a0).

Теорема Гаусса – Маркова

Если регрессионная модель (1) удовлетворяет условиям 1)-4), МНК оценки a0 и a1 , полученные из системы 4), имеют наименьшую дисперсию в классе всех линейных несмещенных оценок (являются наиболее эффективными).

Оценка значимости и доверительных интервалов для коэффициентов регрессии

Пусть β0j - заданное гипотетическое значение j-го коэффициента регрессии (j=0,1). При оценке значимости коэффициентов регрессии β1 и β0 формулируются следующие гипотезы:

H0 : βj = β0j

H1: β ≠ β0j

Статистикой критерия является случайная величина

= ( aj - aj (5)

При условии выполнения нулевой гипотезы Ho имеющая распределение Стьюдента с к=n-2 степенями свободы. Критическая область, как следует из вида конкурирующей гипотезы H1, является двусторонней.

Критическая точка tкр = tкр (α; к=n-2) находится по статистическим таблицам или с помощью стандартных функций в пакетах прикладных программ.

Наиболее просто статистика (4) выглядит при β0j=0, когда

  1. =

==

= (6)

В этом случае при оценке значимости коэффициентов регрессии β1 и β0 гипотезы имеют следующий вид:

H0 : βj = 0

H1: β ≠ 0

Нулевая гипотеза принимается в случае, когда ׀taj׀ ≤ tкр и с уровнем значимости α делается вывод о том, что коэффициент βj незначим. Альтернативная гипотеза принимается в случае, когда ׀taj׀ > tкр tкр и с уровнем значимости α делается вывод о том, что коэффициент βj значим (имеется статистическая связи между х и у).

Именно такой подход используется в компьютерных пакетах. При использовании этого подхода обычно дополнительно вычисляется так называемое p-значение.

Анализ вариации зависимой переменной (дисперсионный анализ)

Согласно идее дисперсионного анализа, общую сумму квадратов (вариацию или разброс yi вокруг среднего значения )

Q=

можно разбить на две части – объясненную уравнением регрессии и необъясненную (остаточную):

Q=Qr +Qe ,

где Qr=– сумма квадратов, объясненная регрессией;

Qe=– остаточная сумма квадратов, характеризующая влияние случайных (неучтенных) факторов.

Выборочный коэффициент детерминации

Выборочный коэффициент детерминации показывает, какая доля вариации зависимой переменной обусловлена вариацией объясняющей переменной и определяется выражением

= = 1 -

Свойства коэффициента :

  1. Коэффициент служит для оценки значимости уравнения регрессии, в том числе линейной и множественной.

  2. Коэффициент – состоятельная оценка генерального коэффициента детерминации (при выполнении 5-го условия КЛМПР).

  3. Коэффициент – безразмерная величина, лежащая в пределах

0 ≤ ≤ 1.

  1. При =0 вариация зависимой переменной полностью обусловлена воздействием неучтенных в модели переменных (случайных факторов) и линия регрессии параллельна оси абсцисс (Qr=0, Q=Qe).

  2. При =1 все эмпирические точкиyi лежат на линии регрессии, и между х и у имеется линейная функциональная завиисмость (Qr =Q, Qe=0).

  3. Для линейной парной регрессии (в общем случае это неверно) . В общем случае коэффициент=иногда называют множественным коэффициентом корреляции.

Оценка значимости уравнения регрессии

Проверить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.

Проверка значимости уравнения регрессии проводится на основе регрессионного анализа. Для оценки значимости уравнения регрессии естественно использовать величину

F== (n-2), (*)

которая показывает, во сколько раз объясненная (факторная) дисперсия превышает остаточную. Понятно, что при отсутствии какой-либо линейной статистической связи между зависимой и предикторной переменной (при β=0 и, следовательно, незначимости уравнения регрессии) факторная и остаточнаядисперсии будут близкими друг к другу, и величинаF будет мала. В этом случае статистика (*) имеет распределение Фишера-Снедекора (F – распределение) с к1=1 и к2=n-2 степенями свободы числителя и знаменателя.

Следовательно, нулевая гипотеза о незначимости уравнения регрессии Н0: β1=0.

Критическая точка Fкр= Fкр (α; к1=1, к2=n-2) находится по таблицам критических точек или с помощью стандартных функций в пакетах компьютерных программ.

Нулевая гипотеза принимается, когда F< Fкр и с уровнем значимости α делается вывод о том, что уравнение регрессии значимо.

В противном случае, когда F≥ Fкр с уровнем значимости α делается вывод о том, что уравнение регрессии значимо.

Величину F можно выразить в эквивалентном виде

F=, (**)

из которого вытекает явный экономический смысл – чем ближе коэффициент к 1, тем более значимо уравнение регрессии (хорошая аппроксимация эмпирических данных).

Легко показать (см. Приходько с.17,20), что выполняется соотношение

F==, справедливое, однако только для случая парной регрессии, когда корень из статистики (**):

tr= = ,

имеет распределение Стьюдента с к=n-2 степенями свободы.

Доверительный интервал для значений зависимой переменной

Ошибка регрессионного предсказания равна разности между действительными yi и предсказанными ŷi значениями зависимой переменной

ei = yi - ŷi (***)

(ошибка (***) имеет нулевое математическое ожидание М[ei]=0). Соответствующий доверительный интервал для yi определяется по формуле

yi min < yi < yi max ,

где yi min = ŷi – tкр , yi max = ŷi + tкр , tкр = tкр (α; к = n–2) – критическая точка распределения Стьюдента с к = n–2 степенями свободы для уровня значимости α.

Как следует из (***) по мере удаления аргумента xi от среднего значения , ширина доверительного интервала увеличивается.

Пример 2. (парной линейной регрессии пример Кремер с.449).