
- •Основы эконометрики
- •690077, Г. Владивосток, ул. 50 лет влксм, 1
- •1. Основные понятия эконометрики
- •1.1 Измерения в экономике.
- •2. Регрессия и корреляция в эконометрических исследованиях
- •2.1. Спецификация модели
- •2.2. Линейная регрессия и корреляция: смысл и оценка параметров
- •2.3. Оценка существенности параметров линейной регрессии и корреляции
- •2.4. Интервалы прогноза по линейному уравнению регрессии
- •3. Средняя ошибка аппроксимации
- •4. Пример выбора спецификации эконометрической модели (метод парной регрессии, и оценка ее параметров)
2.3. Оценка существенности параметров линейной регрессии и корреляции
После того как найдено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров.
Оценка значимости уравнения регрессии в целом дается с помощью F-критерия Фишера. При этом выдвигается нулевая гипотеза, что коэффициент регрессии равен нулю, т. е. b = 0, и, следовательно, фактор х не оказывает влияния на результат у.
Непосредственному расчету F-критерия предшествует анализ дисперсии. Центральное место в нем занимает разложение общей суммы квадратов отклонений переменной у от среднего значения у на две части — «объясненную» и «необъясненную»:
|
= |
|
+ |
|
Общая сумма квадратов отклонений |
= |
Сумма квадратов отклонений объясненная регрессией |
+ |
Остаточная сумма квадратов отклонений |
Общая
сумма квадратов отклонений индивидуальных
значений результативного признака у
от
среднего значения
вызвана
влиянием множества причин. Условно
разделим всю совокупность причин на
две группы: изучаемый
фактор х и
прочие
факторы. Если
фактор не оказывает влияния на результат,
то линия регрессии на графике параллельна
оси Oх
и
.
Тогда
вся дисперсия результативного признака
обусловлена воздействием прочих факторов
и общая сумма квадратов отклонений
совпадет с остаточной. Если же прочие
факторы не влияют на результат, то у
связан
с х
функционально
и остаточная сумма квадратов равна
нулю. В этом случае сумма квадратов
отклонений, объясненная регрессией,
совпадает с общей суммой квадратов.
Поскольку не все точки поля корреляции лежат на линии регрессии, то всегда имеет место их разброс как обусловленный влиянием фактора х, т. е. регрессией у по х, так и вызванный действием прочих причин (необъясненная вариация). Пригодность линии регрессии для прогноза зависит от того, какая часть, общей вариации признака у приходится на объясненную вариацию. Очевидно, что если сумма квадратов отклонений, обусловленная регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на результат у. Это равносильно тому, что коэффициент детерминации будет приближаться к единице.
Любая
сумма квадратов отклонений связана с
числом степеней свободы (df—
degrees
of
freedom),
т.
е. с числом свободы независимого
варьирования признака. Число степеней
свободы связано с числом единиц
совокупности n
и с числом определяемых по ней констант.
Применительно к исследуемой проблеме
число степеней свободы должно показать,
сколько независимых отклонений из п
возможных
требуется для образования данной суммы
квадратов. Так, для общей суммы квадратов
требуется (п
– 1)
независимых отклонений, ибо по совокупности
из п
единиц
после расчета среднего уровня свободно
варьируют лишь (п
— 1)
число отклонений. Например, имеем ряд
значений у: 1, 2, 3, 4, 5. Среднее из них равно
3, и тогда п
отклонений
от среднего составят: –2; –1; 0; 1; 2. Так
как
,
то
свободно варьируют лишь четыре отклонения,
а пятое отклонение может быть определено,
если предыдущие четыре известны.
При
расчете объясненной или факторной суммы
квадратов
используются теоретические (расчетные)
значения результативного признака
,
найденные
по линии регрессии:
.
В
линейной регрессии
.
В
этом нетрудно убедиться, обратившись
к формуле
линейного коэффициента корреляции:
или
где
— общая дисперсия признака у;
— дисперсия
признака у, обусловленная фактором х.
Соответственно сумма квадратов отклонений, обусловленных линейной регрессией, составит:
. (2.31)
Поскольку
при заданном объеме наблюдений по х
и
у
факторная
сумма квадратов при линейной регрессии
зависит только от одной константы
коэффициента регрессии b,
то данная сумма квадратов имеет одну
степень свободы. К этому же выводу
придем, если рассмотрим содержательную
сторону расчетного значения признака
у,
т.е.
.
Величина
определяется по уравнению линейной
регрессии:
.
Параметр
а
можно
определить как
.
Подставив
выражение параметра а
в
линейную модель, получим:
.
(2.32)
Отсюда видно, что при заданном наборе переменных у и х расчетное значение является в линейной регрессий функцией только одного параметра — коэффициента регрессии. Соответственно и факторная сумма квадратов отклонений имеет число степеней свободы, равное 1.
Существует равенство между числом степеней свободы общей, факторной и остаточной суммами квадратов. Число степеней свободы остаточной суммы квадратов при линейной регрессии составляет п – 2. Число степеней свободы для общей суммы квадратов определяется числом единиц, и поскольку мы используем среднюю вычисленную по данным выборки, то теряем одну степень свободы, т. е. dfобщ = п – 1.
Итак, имеем два равенства:
(2.33)
Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений, или, что то же самое, дисперсию на одну степень свободы D.
,
(2.34)
,
(2.35)
.
(2.36)
Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F-отношения (F-критерий):
,
(2.37)
где F – критерий для проверки нулевой гипотезы H0: Dфакт = Dоcm.
Если нулевая гипотеза справедлива, то факторная и остаточная дисперсии не отличаются друг от друга. Для Н0 необходимо опровержение, чтобы факторная дисперсия превышала остаточную в несколько раз. Английским статистиком Снедекором разработаны таблицы критических значений F-отношений при разных уровнях существенности нулевой гипотезы и различном числе степеней свободы. Табличное значение F-критерия — это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы. Вычисленное значение F-отношения признается достоверным (отличным от единицы), если оно больше табличного. В этом случае нулевая гипотеза об отсутствии связи признаков отклоняется и делается вывод о существенности этой связи: Fфакт > Fтабл — Н0 отклоняется.
Если же величина окажется меньше табличной Fфакт < Fтабл, то вероятность нулевой гипотезы выше заданного уровня (например, 0,05) и она не может быть отклонена без серьезного риска сделать неправильный вывод о наличии связи. В этом случае уравнение регрессии считается статистически незначимым. Н0 не отклоняется.
В рассматриваемом примере:
– общая
сумма квадратов;
– факторная
сумма квадратов;
– остаточная
сумма квадратов;
Dфакт = 14735;
Docmam = 265/5 = 53;
F = 14735/53 = 278;
Fa=0,05 = 6,61; Fa=0,01 = 16,26.
Поскольку Fфакт > Fтабл как при 1%-ном, так и при 5%-ном уровне значимости, то можно сделать вывод о значимости уравнения регрессии (связь доказана).
Величина F-критерия связана с коэффициентом детерминации r2. Факторную сумму квадратов отклонений можно представить как
,
(2.38)
а остаточную сумму квадратов — как
.
(2.39)
Тогда значение F-критерия можно выразить как
.
(2.40)
В
нашем примере r
= 0,982. Тогда
(некоторое несовпадение с предыдущим
результатом объясняется ошибками
округления).
Оценка значимости уравнения регрессии обычно дается в виде таблицы дисперсионного анализа (табл. 2.2).
Таблица 2.2
Дисперсионный анализ результатов регрессии
Источники вариации |
Число степеней свободы |
Сумма квадратов отклонений |
Дисперсия на одну степень свободы |
F-отношение |
|
фактическое |
табличное при а=0,05 |
||||
Общая |
6 |
15000 |
— |
— |
— |
Объясненная |
1 |
14735 |
14735 |
278 |
6,61 |
Остаточная |
5 |
265 |
53 |
1 |
— |
В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров. С этой целью по каждому из параметров определяется его стандартная ошибка: тb и та.
Стандартная ошибка коэффициента регрессии определяется по формуле
,
(2.41)
где S2 – остаточная дисперсия на одну степень свободы.
Для нашего примера величина стандартной ошибки коэффициента регрессии составила:
.
Величина стандартной ошибки совместно с t-распределением Стьюдента при (n – 2) степенях свободы применяется для проверки существенности коэффициента регрессии и для расчета его доверительных интервалов.
Для
оценки существенности коэффициента
регрессии его величина сравнивается с
его стандартной ошибкой, т. е. определятся
фактическое значение t-критерия
Стьюдента:
–
которое
затем сравнивается с табличным значением
при определенном уровне значимости а
и числе степеней свободы (n
– 2).
В рассматриваемом примере фактическое значение t-критерия для коэффициента регрессии составило:
.
Этот же результат получим, извлекая квадратный корень из найденного ранее F-критерия, т. е.
Покажем справедливость равенства tb = F :
При
а
= 0,05 (для двустороннего критерия) и числе
степеней свободы 5 табличное значение
tb
= 2,57. Так как фактическое значение
t-критерия
превышает табличное, то, следовательно,
гипотезу о несущественности коэффициента
регрессии можно отклонить. Доверительный
интервал для коэффициента регрессии
определяется как
.
Для
коэффициента регрессии b
в примере 95 %-ные границы составят:
36,84 ± 2,57 2,21 = 36,84 ± 5,68,
т.е.
31,16 ≤ b ≤ 42,52.
Поскольку коэффициент регрессии в эконометрических исследованиях имеет четкую экономическую интерпретацию, то доверительные границы интервала для коэффициента регрессии не должны содержать противоречивых результатов, например, –10 ≤ b ≤ 40. Такого рода запись указывает, что истинное значение коэффициента регрессии одновременно содержит положительные и отрицательные величины и даже ноль, чего не может быть.
Стандартная ошибка параметра а определяется по формуле:
.
(2.42)
Процедура оценивания существенности данного параметра не отличается от рассмотренной выше для коэффициента регрессии; вычисляется t-критерий:
,
(2.43)
его величина сравнивается с табличным значением при df = п – 2 степенях свободы.
Значимость линейного коэффициента корреляции проверяется на основе величины ошибки коэффициента корреляции тr:
.
(2.44)
Фактическое значение t-критерия Стьюдента определяется как
.
(2.45)
Данная
формула свидетельствует, что в парной
линейной регрессии
,
ибо,
как уже указывалось,
.
Кроме того,
.
Следовательно,
.
Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.
В
рассматриваемом примере tr
не
совпало с tb
в
результате ошибок округлений. Величина
значительно превышает табличное значение
2,57 при а = 0,05.
Следовательно, коэффициент корреляции
существенно отличен от нуля и зависимость
является достоверной.
Рассмотренная формула оценки коэффициента корреляции рекомендуется к применению при большом числе наблюдений и если r не близко к +1 или -1. Если же величина коэффициента корреляции близка к +1, то распределение его оценок отличается от нормального или распределения Стьюдента, так как величина коэффициента корреляции ограничена значениями от -1 до +1. Чтобы обойти это затруднение, Р. Фишером было предложено для оценки существенности r ввести вспомогательную величину z, связанную с коэффициентом корреляции следующим отношением:
.
(2.46)
При изменении r от –1 до +1 величина z изменяется от –∞ до +∞, что соответствует нормальному распределению. Математический анализ доказывает, что распределение величины z мало отличается от нормального даже при близких к единице значениях коэффициента корреляции. Стандартная ошибка величины z определяется по формуле:
,
(2.47)
где п — число наблюдений.
При
r
= 0,991,
,
а
.
Величину z
можно не рассчитывать, а воспользоваться
готовыми таблицами z-преобразования.
в которых приведены значения величины
z
для соответствующих значений r.
Далее выдвигаем нулевую гипотезу Н0, которая состоит в том, что корреляция отсутствует, т. е. теоретическое значение коэффициента корреляции равно нулю. Коэффициент корреляции z значимо отличен от нуля, если
(2.48)
т. е. если фактическое значение tz превышает его табличное значение на уровне значимости а = 0,05 или а = 0,01.
Иными
словами, если
,
то коэффициент корреляции значимо
отличен от нуля, что имеет место в
рассмотренном примере:
при
ta=0,05
= 2,57.
Ввиду того, что r и z связаны между собой приведенным выше соотношением, можно вычислить критические значения r, соответствующие каждому из значений z. Таблицы критических значений r разработаны для уровней значимости 0,05 и 0,01 и соответствующего числа степеней свободы. Критические значения r предполагают справедливость нулевой гипотезы, т. е. r мало отлично от нуля. Если фактическое значение коэффициента корреляции по абсолютной величине превышает табличное, то данное значение r считается существенным. Если же r оказывается меньше табличного, то фактическое значение r несущественно.
В рассматриваемом примере при числе степеней свободы п – 2 = 5 критическое значение r при а = 0,05 составляет 0,754, а при а= 0,01 составляет 0,874, что ниже фактической величины rху = 0,991. Следовательно, как было уже доказано, полученное значение r существенно отлично от нуля.