Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Konspekt_lekcii Зандер

.pdf
Скачиваний:
18
Добавлен:
01.06.2015
Размер:
624.83 Кб
Скачать

имеем линейную модель

yb0 = a00 + a1x01 + : : : + apx0p;

к которой применяются все операции множественного регрессионного анализа.

В третьем случае, когда функцию невозможно привести к линейному виду, оценивание параметров осуществляют с помощью нелинейного МНК, где решение проводится с использованием итерационных процедур при минимизации функции многих переменных (разложение функции в ряд Тейлора и др.).

41

Лекция 2.3.2. Анализ вариации результирующего признака.

Проверка значимости уравнения регрессии и

коэффициентов уравнения регрессии

Оценить значимость уравнения регрессии — значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.

Оценка значимости уравнения регрессии производится на основе дисперсионного анализа. Рассмотрим сумму квадратов отклонений зависимой переменной от средней y:

n

X

Q = (yi y)2;

i=1

где n — объем выборки.

Общая сумма квадратов Qобщ может быть разложена на отдельные составляющие:

n

n

 

 

 

 

 

 

 

 

 

 

X

X

 

 

 

 

 

 

 

 

 

 

Qобщ = (yi

y

)2 =

(yi y^i + y^i

y

)2 =

 

 

 

 

 

i=1

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

n

 

n

 

 

Xi

 

X

 

X

=

(yi yi)2

+

(yi

y

)2

+ 2

(yi yi)(yi

y

):

 

 

 

b

 

 

b

 

b b

 

 

 

=1

 

i=1

 

i=1

Сумма квадратов отклонений фактических значений от расчетных

называется остаточной суммой квадратов и обозначается как

n

 

Xi

 

Qост = (yi yi)2

:

b

 

=1

 

Сумма квадратов отклонений расчетных значений от среднего на-

зывается объясненной суммой квадратов и обозначается как

n

Xi

 

Qобъясн = (yi

y

)2

:

b

 

=1

 

 

 

Третий элемент в разложении представляет собой сумму произведений объясненной и остаточной компонент регрессии. Основываясь на

42

предпосылках регрессионного анализа, доказывается, что этот элемент равен нулю, и тогда общая сумма квадратов раскладывается на остаточную сумму квадратов и объясненную сумму квадратов:

Qобщ = Qобъясн + Qост:

Это соотношение является основным для получения практически всех статистических характеристик уравнения регрессии.

Поделим все перечисленные выше суммы квадратов на соответствующие значения степеней свободы:

общую сумму квадратов — на (n 1) и получим оценку общей дисперсии (Sy2) зависимой переменной, которая характеризует разброс значений показателя вокруг среднего;

объясненную сумму квадратов — на p (количество факторов в уравнении регрессии) и получим оценку объясненной дисперсии переменной y (Sобъясн2 ), которая характеризует вариацию зависимого показателя, объясненную построенным уравнением регрессии;

остаточную сумму квадратов — на (n p 1) и получим оценку остаточной дисперсии зависимой переменной (Sост2 ), которая характеризует разброс значений относительно линии регрессии, и может служить показателем точности воспроизведения значений зависимой переменной.

Большое значение показателя остаточной дисперсии может быть вызвано неверным выбором функции, недостаточным набором объясняющих переменных или отсутствием связи между зависимой переменной модели и факторными.

На практике часто используют величину среднеквадратического отклонения от линии регрессии, которая вычисляется как квадратный корень из значения Sост2 , и называется стандартной ошибкой регрессии

p

SE = Sост2 :

43

Величину R2 называют множественным коэффициентом детерминации. Он показывает, какая часть дисперсии функции отклика объясняется вариацией линейной комбинации выбранных факторов x1; x2; : : : ; xj; : : : ; xp. Вычисляется коэффициент детерминации как отношение сумм квадратов:

R2 = Qобъясн = 1 Qост :

Qобщ Qобщ

Измеряется в долях единицы (от 0 до 1) либо в процентах (от 0 до 100 %). Преимуществом коэффициента детерминации является то, что R2 — величина относительная и может быть использована для сопоставления оценки качества как линейных, так и нелинейных моделей (в отличие от остаточной дисперсии). Квадратный корень из коэффициента детерминации представляет собой коэффициент множественной корреляции и характеризует тесноту связи между функцией отклика и совокупности факторов, включенных в уравнение.

Собственно проверка значимости уравнения регрессии осуществляется следующим образом.

Нулевая гипотеза состоит в том, что уравнение регрессии незначимо, т. е. параметры уравнения несущественно отличаются от нуля:

H0 : все j = 0:

Альтернативная гипотеза утверждает, что уравнение значимо, т. е. существует хотя бы одно j, которое отличается от нуля существенно:

H1 : найдется j 6= 0:

Для проверки гипотез в качестве критерия используется статистика, имеющая распределение Фишера. Для оценки теоретических дисперсий принимают выборочные оценки объясненной и остаточной дисперсий. Уравнение регрессии считается значимым, если значение статисти-

ки

S2

F = объясн

Sост2

больше табличного значения F -критерия, соответствующего уровню значимости и числу степеней свободы 1 и 2 (где 1 = p, 2 = n p 1).

44

В случае, когда Fрасч > Fтабл, нулевая гипотеза отвергается и делается вывод, что уравнение регрессии значимо с уровнем доверительной вероятности, равным 1 . Чем выше требования к надежности результатов, предсказанных по уравнению регрессии, тем меньше должна быть выбрана величина , соответственно, тем выше уровень доверительной вероятности.

Причинами незначимости уравнения регрессии можно назвать следующие:

недостаточный размер выборки;

слабая колеблемость факторных и результирующих показателей;

неверный выбор формы связи;

слабая зависимость между объясняющими переменными и функцией отклика, либо отсутствие связи вообще.

Кроме проверки на значимость регрессионного уравнения в целом, осуществляется также проверка значимости параметров, целью которой является проверка существенности влияния отдельных факторов на функцию отклика. В качестве проверяемых гипотез выдвигаются следующие:

H0 : параметр регрессии j не значимо отличается от нуля;

H1 : параметр регрессии j значимо отличается от нуля.

Значимость коэффициентов регрессии bj проверяют, используя табличные значения распределения Стьюдента. Первоначально определяется расчетное значение t-статистики Стьюдента:

t= jbjj; Sbj

где jbjj — абсолютное значение оценки параметра j;

Sbj — стандартная ошибка параметра.

Стандартная ошибка параметра определяется по формуле

q

Sbj = Sост2 cjj;

45

где cjj — диагональный элемент матрицы, обратной матрице нормальных уравнений (XT X) 1.

Вычисленное значение t сравнивают с табличным при числе степеней свободы = n p 1. В случае, когда tрасч > tтабл, говорят, что данный фактор оказывает существенное (значимое) влияние на результирующую переменную. В противном случае фактор может быть исключен из уравнения связи.

Представляет интерес расчет доверительных интервалов параметров уравнения регрессии. Доверительный интервал для коэффициентов регрессии вычисляется по следующей формуле:

bj tтабл Sbj 6 j 6 bj + tтабл Sbj ;

где tтабл — табличное значение распределения Стьюдента при уровне значимости и числе степеней свободы = n p 1;

j — значение коэффициента в уравнении регрессии для генеральной совокупности;

bj — оценка параметра в выборочном уравнении.

46

Лекция 2.3.3. Построение точечных и интервальных прогно-

зов зависимого признака

Построенное уравнение регрессии y = f (X; b) позволяет найти точечную и интервальную оценку истинных значений зависимой переменной y для заданных значений факторов x1; x2; : : : ; xp.

Точечную оценку результирующего признака дает простая подстановка значений объясняющих переменных в уравнение регрессии:

y = b0 + b1x1 + b2x2 + : : : + bpxp:

Однако точечный прогноз не гарантирует, что истинная величина зависимого признака будет равна полученной оценке. Поэтому точечную оценку необходимо дополнить интервальной, т. е. построить доверительный интервал, который с заданной вероятностью (надежностью) p = 1

накроет неизвестное значение оцениваемого параметра. Рассмотрим интервальное оценивание для:

1.линии регрессии;

2.индивидуальных значений зависимого показателя.

Построим доверительный интервал для условного математического ожидания Mx(Y ), который с заданной надежностью будет содержать неизвестное значение Mx(Y ). Так как параметры 0 и j оцениваются по выборке, то их оценки b0, bj содержат случайные ошибки. Ошибки в значении b0 приводят к вертикальному сдвигу линии регрессии. Колеблемость параметров bj приводит к «покачиванию» линии регрессии относительно точки (x; y). В результате значения y, найденные по уравнению регрессии, также содержат случайные ошибки.

Доверительный интервал для условного математического ожидания

Mx(Y ) (или же для линии регрессии) определяется по формуле

q

Mx(Y ) = y t ; Sост XT (XT X) 1X:

Эта формула показывает пределы, в которых с заданной вероятностью (1 ) находится теоретическая линия регрессии. Здесь = n p 1, причем n — объем выборки, p — число факторов в уравнении регрессии.

47

Для парной линейной регрессии доверительный интервал для ли-

нии регрессии рассчитывается следующим образом:

 

 

 

 

 

 

y1; 2

= y t ; Sост v

 

 

 

 

 

 

 

 

 

 

 

 

 

n +

n

 

 

 

 

 

 

2

;

 

u

1

 

(x

 

 

x

)2

 

 

 

 

 

 

 

 

(xi

 

 

)

 

 

 

 

 

 

 

i=1

x

 

 

 

 

u

 

 

 

 

 

 

 

 

 

 

 

 

u

 

 

 

P

 

 

 

 

 

 

 

 

 

 

 

t

 

 

 

 

 

 

 

 

 

 

 

 

 

где x — прогнозное значение фактора, x — среднее значение фактора,

n — объем выборки,

t ; — статистика Стьюдента с числом степеней свободы = n 2 и уровнем значимости ,

p

Sост = Sост2 показывает среднеквадратическое отклонение наблюдений от линии регрессии, а произведение

q

Sост XT (XT X) 1X

называется погрешностью оценки регрессии.

Из последней формулы видно, что ширина доверительного интервала зависит от значения объясняющей переменной x : при x = x она минимальна, а по мере удаления x от x ширина доверительного интервала увеличивается. Таким образом, прогноз значений зависимой переменной по уравнению регрессии оправдан, если значение объясняющей переменной не выходит за диапазон ее значений по выборке. Иначе говоря, экстраполяция кривой регрессии вне пределов обследованного диапазона объясняющей переменной (даже если это оправдано) может привести к значительным погрешностям.

Построенная доверительная область определяет местоположение модельной линии регрессии (т. е. условного математического ожидания), но не отдельных возможных значений зависимой переменной, которые отклоняются от средней. Поэтому при определении доверительного интервала для индивидуальных значений зависимой переменной необходимо учитывать еще один источник вариации — рассеяние вокруг линии регрессии, т. е. в формулу для расчетов следует включить еще величину остаточной дисперсии Sост2 . Тогда в случае уравнения множественной регрессии формула для расчета доверительного интервала прогноза примет

48

вид:

q

yпрогноз = y t ; Sост 1 + XT (XT X) 1X;

где y — прогнозное значение фактора,

t ; — статистика Стьюдента с числом степеней свободы = n 2 и уровнем значимости ,

p

Sост = Sост2 — среднеквадратическое отклонение наблюдений от линии регрессии.

А в случае парной линейной регрессии доверительный интервал для индивидуального прогнозного значения зависимой переменной

определится как

y1; 2

= y t ; Sост v

 

 

 

 

 

 

 

 

 

 

n +

n

 

 

 

 

2

+ 1;

 

u

1

 

(x

 

 

x

)2

 

 

 

 

 

 

i=1

(xi

 

x)

 

 

 

 

u

 

 

 

 

 

 

 

 

 

u

 

 

P

 

 

 

 

 

 

 

 

 

t

 

 

 

 

 

 

 

 

 

 

где y — прогнозное значение фактора y, x — прогнозное значение фактора x, x — среднее значение фактора x,

t ; — статистика Стьюдента с числом степеней свободы = n 2 и уровнем значимости ,

p

Sост = Sост2 — среднеквадратическое отклонение наблюдений от линии регрессии.

Погрешность интервального оценивания линии регрессии (как видно из приведенных формул) пропорциональна величине S=pn, поэтому с ростом объема выборки n ! 1 погрешность стремится к нулю.

Погрешность оценивания прогнозных значений при неограниченном росте объема выборки стремится к величине

u1 =2 Sост;

где u1 =2 — квантиль нормального распределения.

49

Лекция 2.3.4. Особые случаи при построении регрессионных

уравнений: мультиколлинеарность

Под мультиколлинеарностью понимается высокая взаимная коррелированность объясняющих переменных. Мультиколлинеарность может проявляться в функциональной (явной) и стохастической (скрытой) форме.

При функциональной форме мультиколлинеарности по крайней мере одна из парных связей между объясняющими переменными является линейной функциональной зависимостью. В этом случае матрица

XT X особенная, т. к. содержит линейно-зависимые векторы-столбцы и ее определитель равен нулю. При этом нарушается предпосылка регрессионного анализа

det(XT X) 6= 0;

введенная для случая множественной регрессии (о неособенности матрицы XT X). Это приводит к невозможности решения соответствующей системы нормальных уравнений и получения оценок параметров регрессионной модели.

Однако в экономических исследованиях мультиколлинеарность чаще проявляется в стохастической форме, когда между хотя бы двумя объясняющими переменными существует тесная корреляционная связь. Хотя в этом случае матрица XT X и является неособенной, но ее определитель близок к нулю, так что в результате решения системы нормальных уравнений получаются значительные средние квадратические отклонения (стандартные ошибки) параметров регрессии b0; b1; : : : ; bp и

оценка значимости их по t-критерию не имеет смысла. Оценки становятся очень чувствительными к незначительному изменению результатов наблюдений и объема выборки. Уравнения регрессии в этом случае, как правило, не имеют смысла.

Причиной возникновения мультиколлинеарности может стать некорректное проведение этапа формализации модели относительно набора факторных переменных.

Кследствиям мультиколлинеарности относят:

1.Резко падает точность оценок параметров, получаемых с помо-

50