Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЭконометрикаУМК20010__УчПособие.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
2.47 Mб
Скачать

2.5. Качество оценок мнк линейной регрессии. Теорема Гаусса-Маркова

При использовании полученных различными способами оценок параметров уравнения регрессии (2.6) важно быть уверенными, являются ли они «лучшими» среди всех остальных в некотором смысле. Ответ на этот вопрос дает теорема Гаусса-Маркова, согласно которой оценки параметров линейной регрессии, полученные методом наименьших квадратов, будут несмещенными и эффективными (т. е. будут иметь наименьшую дисперсию) в классе линейных несмещенных оценок при выполнении четырех условий, известных как условия Гаусса-Маркова.

Эти условия принимаются в качестве основных предпосылок регрессионного анализа.

1-е условие Гаусса-Маркова: математическое ожидание случайного члена εi равно нулю в любом наблюдении

М(εi) = 0. (2.16)

2-е условие Гаусса-Маркова: дисперсия случайного члена εi постоянна для всех наблюдений

. (2.17)

3-е условие Гаусса-Маркова: значения случайного члена в любых наблюдениях εi и εj не коррелируют между собой

Cov(εi, εj) = = 0 (ij). (2.18)

Это условие с учетом того, что М(εi) = М(εj) = 0 принимает вид

M(εi·εj) = 0 (ij). (2.19)

4-е условие Гаусса-Маркова: случайный член должен быть распределен независимо от объясняющих переменных xi

Cov(xi, εi) = M (xi, εi) = 0, (2.20)

где было учтено, что М(εi) = 0.

Следует сказать, что последнее условие заведомо выполняется, если объясняющие переменные xi считаются детерминированными величинами.

Выполнение 4-го условия Гаусса-Маркова обеспечивает несмещенность оценки параметра b.

Выполнение 1-го и 4-го условий Гаусса-Маркова обеспечивает несмещенность оценки параметра а.

Нарушение одного из условий Гаусса-Маркова приводит к нарушению эффективности оценок, т. е. в классе несмещенных оценок можно найти такие, которые имеют меньшую дисперсию.

В регрессионном анализе обычно делается еще одна предпосылка о нормальности распределения случайного члена, что позволяет выполнить количественную оценку точности полученных оценок параметров (2.13).

После построения модели необходимо вычислить значения остатков еi и проверить выполнение условий Гаусса-Маркова, так как их нарушение снижает качество модели. Если условия нарушаются, то следует модернизировать модель соответствующим образом. Эти вопросы будут рассмотрены в 3 разделе.

2.6. Проверка качества уравнения регрессии. F-критерий Фишера

Оценка качества полученного уравнения регрессии основывается на методах дисперсионного анализа.

Наблюдаемые значения результативного признака yi можно представить в виде суммы двух составляющих ŷi и еi

yi = ŷi+ еi. (2.21)

Величина ŷi = а + b∙хi представляет собой расчетное значение переменной у в наблюдении с номером i. Остаток еi есть расхождение между наблюдаемым и расчетными значениями переменной у. Его можно рассматривать как необъясненную с помощью уравнения регрессии часть значения переменной у.

Введем следующие обозначения:

TSS =  полная сумма квадратов отклонений;

ESS =  объясненная сумма квадратов отклонений;

RSS =  необъясненная сумма квадратов отклонений.

 дисперсия исходных значений переменной y;

 дисперсия расчетных значений переменной y;

дисперсия остатков.

Имеют место соотношения

D(y) = D(ŷ) + D(е). (2.22)

. (2.23)

Отношение объясненной части D(ŷ) дисперсии переменной у к общей дисперсии D(y)

или (2.24)

называют коэффициентом детерминации и используют для характеристики качества уравнения регрессии или соответствующей модели связи.

Соотношение (2.23) можно представить в альтернативном виде

или . (2.25)

Коэффициент детерминации R2 принимает значения в диапазоне от нуля до единицы

0 ≤ R2 ≤ 1.

Коэффициент детерминации R2 показывает, какая часть дисперсии результативного признака y объяснена уравнением регрессии. Например, значение R2 = 0,56 говорит о том, что соответствующее уравнение регрессии объясняет 56 % дисперсии результативного признака.

Чем больше R2, тем большая часть дисперсии результативного признака y объясняется уравнением регрессии и тем лучше уравнение регрессии описывает исходные данные. При отсутствии зависимости между у и x коэффициент детерминации R2 будет близок к нулю. Таким образом, коэффициент детерминации R2 может применяться для оценки качества (точности) уравнения регрессии.

Возникает вопрос, при каких значениях R2 уравнение регрессии следует считать статистически незначимым, что делает необоснованным его использование в анализе. Ответ на этот вопрос дает F-критерий Фишера.

Известно, что величина

, (2.26)

в случае нормально распределенной ошибки εi является F-статистикой Фишера (случайная величина, распределенная по закону Фишера) с числом степеней свободы k1 = k, k2 = nk  1. В (2.26) n  число наблюдений, k  число независимых переменных в уравнении регрессии (для парной регрессии k = 1),

Используя соотношение (2.24), величину F можно выразить через коэффициент детерминации R2

. (2.27)

Процедура применения F-критерию Фишера следующая:

1) выдвигается «нулевая» гипотеза H0 о статистической незначимости уравнения регрессии (т. е. о статистически незначимом отличии величины F от нуля);

2) вычисляется фактическое значение критерия F и определяется «критическое» значение критерия Fкрит. Значение Fкрит определяется по таблицам F-критерия Фишера (П3, П4) при числе степеней свободы k1 = k, k2 = nk  1 и заданному уровню значимости α;

3) проверяется условие F > Fкрит . Если условие выполняется, то нулевая гипотеза H0 о статистической незначимости уравнения регрессии отвергается и уравнение считается статистически значимым.

Уровнем значимости (обозначается α) в статистических гипотезах называется вероятность отвергнуть верную гипотезу (это, так называемая, ошибка первого рода). Обычно используются значения уровня значимости 0,05 и 0,01, что соответствует вероятности совершения ошибки первого рода 5 % и 1 %.

Например, предположим, что по данным 30 наблюдений было получено уравнение регрессии

y = 50,5 + 3,2x и R2 = 0,60.

Необходимо проверить его статистическую значимость при уровне значимости α = 0,05.

Определим величину F-статистики, учитывая, что k = 1

.

По таблицам F-критерия Фишера при

k1 = k = 1, k2 = n k  1 = 30 – 1 – 1 = 28 и α = 0,05

находим Fкрит = 4,20. Так как F = 42 > Fкрит = 4,20 , то делаем вывод о статистической значимости уравнения регрессии.