Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Елисеева И.И. - Эконометрика.doc
Скачиваний:
3
Добавлен:
01.04.2025
Размер:
6.06 Mб
Скачать

2.3. Оценка существенности параметров линейной регрессии и корреляции

После того как найдено уравнение линейной регрессии, про­водится оценка значимости как уравнения в целом, так и отдель­ных его параметров.

Оценка значимости уравнения регрессии в целом дается с по­мощью F-критерия Фишера. При этом выдвигается нулевая ги­потеза, что коэффициент регрессии равен нулю, т. е. b — 0, и, сле­довательно, фактор х не оказывает влияния на результату.

Непосредственному расчету /"-критерия предшествует анализ дисперсии. Центральное место в нем занимает разложе­ние общей суммы квадратов отклонений переменной у от средне­го значения у на две части — «объясненную» и «необъясненную»:

Z(y-y)2 = Ъ$х-у)2 + Ъ(у-$х)2 (2.11)

Общая сумма Сумма квадратов Остаточная сумма квадратов = откл оне н и й, + квадратов отклонений объясненная отклонений

регрессией

Общая сумма квадратов отклонений индивидуальных значе­ний результативного признака у от среднего значения у вызвана влиянием множества причин. Условно разделим всю совокуп­ность причин на две группы: изучаемый фактор х и прочие факторы. Если фактор не оказывает влияния на результат, то линия регрес­сии на графике параллельна оси ох и У = у. Тогда вся дисперсия ^результативного признака обусловлена воздействием прочих ^факторов и общая сумма квадратов отклонений совпадет с оста­точной. Если же прочие факторы не влияют на результат, то у связан с х функционально и остаточная сумма квадратов равна нулю. В этом случае сумма квадратов отклонений, объясненная /регрессией, совпадает с общей суммой квадратов.

Поскольку не все точки поля корреляции лежат на линии рег­рессии, то всегда имеет место их разброс как обусловленный вли­янием фактора т. е. регрессией у по х, так и вызванный 'действием прочих причин (необъясненная вариация). Пригод­ность линии регрессии для прогноза зависит от того, какая часть общей вариации признака у приходится на объясненную вариа­цию. Очевидно, что если сумма квадратов отклонений, обуслов- , ленная регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор х оказыва­ет существенное воздействие на результат у. Это равносильно то- \му, что коэффициент детерминации г2^ будет приближаться к ^единице.

Любая сумма квадратов отклонений связана с числом степе­ней свободы (df degrees of freedom), т. е. с числом свободы неза- вйсимого варьирования признака. Число степеней свободы свя­зано с числом единиц совокупности лис числом определяемых по ней констант. Применительно к исследуемой проблеме число ; степеней свободы должно показать, сколько независимых откло­нений из п возможных [(у{у),2 - у),пУ)] требуется для образования данной суммы квадратов. Так, для общей суммы ' квадратов — У)2 требуется (п — 1) независимых отклонений, ибо по совокупности из п единиц после расчета среднего уровня свободно варьируют лишь (п — 1) число отклонений. Например, имеем ряд значений у: 1, 2, 3, 4, 5. Среднее из них равно 3, и тог­да п отклонений от среднего составят: —2; —1; 0; 1; 2. Так как — У) ~ 0, то свободно варьируют лишь четыре отклонения, а пятое отклонение может бьггь определено, если предыдущие че­тыре известны.

49

При расчете объясненной или факторной суммы квадратов Wx - У? используются теоретические (расчетные) значения ре-

4-3117

зультативного признака ух, найденные по линии регрессии: у х = а + b • х.

В линейной регрессии Е(ух — у)2 = Ь2 • Е(х — х )2. В этом нет­рудно убедиться, обратившись к формуле линейного коэффициен­та корреляции:

^ = - (2.12) Gy

Из формулы (2.12) видно, что

2

2 l2

r*y=b-jT> (2.13)

у

где а2у - общая дисперсия признака у;

Ь2 а2х — дисперсия признака у, обусловленная фактором х.

4

Соответственно сумма квадратов отклонений, обусловлен­ных линейной регрессией, составит:

»

Поскольку при заданном объеме наблюдений по х и у фактор­ная сумма квадратов при линейной регрессии зависит только от одной константы коэффициента регрессии b, то данная сумма квадратов имеет одну степень свободы. К этому же выводу при­дем, если рассмотрим содержательную сторону расчетного значе­ния признака у, т. е. рх. Величина ух определяется по уравнению линейной регрессии: ух = а + b * х. Параметр а можно определить как а — У — b-x. Подставив выражение параметра а в линейную модель, получим:

«

ух = У — Ь-х + Ь-х = у — 6 • (х — Зс).

Отсюда видно» что при заданном наборе переменных у их расчетное значение ух является в линейной регрессии функцией только одного параметра — коэффициента регрессии. Соответ­ственно и факторная сумма квадратов отклонений имеет число степеней свободы, равное 1.

Существует равенство между числом степеней свободы об­щей, факторной и остаточной суммами квадратов. Число степе­ней свободы остаточной суммы квадратов при линейной регрес­сии составляет п — 2. Число степеней свободы для общей суммы

л-1

квадратов определяется числом единиц, и поскольку мы исполь­зуем среднюю вычисленную по данным выборки, то теряем одну степень свободы, т. е. df^ = п — 1. Итак, имеем два равенства:

(2.14)

п - 1 - 1 + (п - 2).

Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений, или, что то же самое, дисперсию на одну степень свободы D.

Аящ -

D

факт

Ш-У)2.

1

п-2

иОС1 ~

Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и оста­точную дисперсии в расчете на одну степень свободы, получим величину ^-отношения (F-критерий)

:

(2.15)

D

р _ AfraKT

ос

т

ост*

4*

где F критерий для проверки нулевой гипотезы Н0: = D

Если нулевая гипотеза справедлива, то факторная и остаточ­ная дисперсии не отличаются друг от друга. Для Н0 необходимо опровержение, чтобы факторная дисперсия превышала остаточ­ную в несколько раз. Английским статистиком Снедекором раз­работаны таблицы критических значений /'-отношений при раз­ных уровнях существенности нулевой гипотезы и различном чис­ле степеней свободы. Табличное значение /^-критерия — это мак­симальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероят­ности наличия нулевой гипотезы. Вычисленное значение F-от-

ношения признается достоверным (отличным от единицы), если оно больше табличного. В этом случае нулевая гипотеза об отсут­ствии связи признаков отклоняется и делается вывод о сущест­венности этой связи: /фает > #0 отклоняется.

Если же величина окажется меньше табличной Гф^ < то вероятность нулевой гипотезы выше заданного уровня (напри­мер, 0,05) и она не может бцть отклонена без серьезного риска сделать неправильный вывод о наличии связи. В этом случае уравнение регрессии считается статистически незначимым. Я0 не отклоняется.

В рассматриваемом примере:

4

1(у - Л2 = 2У - л • у2 = 99700 - 7 • ПО2 = 15 ООО - общая сумма квадратов;

Wx ~ У)2 =* ЛХ* - * )2 = 36'84*" (80 - 7 (22:7)2) = 14 735 - фак­торная сумма квадратов;

Рх)2 = ООО — 14 735 = 265 — остаточная сумма квадратов;

Ъфакт = 14 735;

Постат = 265 ^ 5 = 53;

F= 14 735 -ь 53 = 278;

Fa - 0,05 = 6,61; /'а-0,01 = 16,26.

Поскольку F^m > Рщавл при 1%-ном, так и при 5%-ном уровне значимости, то можно сделать вывод о значимости урав­нения регрессии (связь доказана).

Величина /'-критерия связана с коэффициентом детермина­ции Л Факторную сумму квадратов отклонений можно предста­вить как

ЗЕФг-У)2-**-о2, -и.

а остаточную сумму квадратов — как

Тогда значение F- критерия можно выразить как

г2

= 2). (2.16)

1 -г

0 982

В нашем примере г2 = 0,982. Тогда F=- ' (7 - 2)=273

1 - и,Уо2

(некоторое несовпадение с предыдущим результатом объясняет­ся ошибками округления).

Оценка значимости уравнения регрессии обычно дается в ви­де таблицы дисперсионного анализа (табл. 2.2).

Таблица 2.2

Дисперсионный анализ результатов регрессии


»

Число сте­пеней сво­боды

Сумма квад­ратов откло­нений

Дисперсия

F-отношение

Источники вариации

на одну степень свободы

фактиче- . ское

табличное

при а = 0,05

Общая

6

15000

Объяснен­

ная

1

14 735

щ

14 735

278

6,61

*

Остаточная

5

265

53

1

. —

В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров. С этой целью по каждому из параметров определяется его стандартная ошибка: тькта.

Стандартная ошибка коэффициента регрессии определяется по формуле

' ш )Z0>-ух)г/(^2) s2

b~i ых-х)2 ii<*-*)2' (2Л7)

|де S2 - остаточная дисперсия на одну степень свободы.

Для нашего примера величина стандартной ошибки коэффи­циента регрессии составила:

mh - J——— = 2,21. ь V 10,857

Величина стандартной ошибки совместно с /-распределением Стьюдента при п — 2 степенях свободы применяется для провер­ки существенности коэффициента регрессии и для расчета его доверительных интервалов.

Для оценки существенности коэффициента регрессии его ве­личина Сравнивается с его стандартной ошибкой, т. е. определя-

L

ется фактическое значение /-критерия Стьюдента: tb = —, кото

Щ

рое затем сравнивается с табличным значением при определен­ном уровне значимости а и числе степеней свободы (/7 — 2).

В рассматриваемом примере фактическое значение /-крите­рия для коэффициента регрессии составило:

36,84 th =—1— = 16,67.

b 2,21

2 _

Этот же результат получим, извлекая квадратный корень из найденного ранее критерия, т. е.

= л/278 = 16,67. Покажем справедливость равенстваF:

t2^b2 =ьг/иУ~Ух)2/(п-2)= &2-1(с-ЗсУ

2 / ЫУ-УХ)2/(П-2)

Т,(У-УХ)2 4кг

(й-2)

При 1а — 0,05 (для двустороннего критерия) и числе степе­ней свободы 5 табличное значение tb = 2,57. Так как фактическое значение /-критерия превышает табличное, то, следовательно, гипотезу о несущественности коэффициента регрессии можно отклонить. Доверительный интервал для коэффициента регрес­сии определяется как b ± / • mb. Для коэффициента регрессии b в примере 95 %-ные границы составят:

36,84 ± 2,57 • 2,21 = 36,84 ± 5,68,

т. е.

31,16 <42,52.

Поскольку коэффициент регрессии в эконометрических ис­следованиях имеет четкую экономическую интерпретацию, то доверительные границы интервала для коэффициента регрессии не должны содержать противоречивых результатов, например, —10 < ft < 40. Такого рода запись указывает, что истинное значе-

Vi

ние коэффициента регрессии одновременно содержит положи­тельные и отрицательные величины й даже ноль, чего не может $ыть.

Стандартная ошибка параметра а определяется по формуле:

L*

IX

= Is2-

г

А

т

гт\2

\2

(2.18)

_ 1Е(У-УХ)2

П-2 wl(x-3c

)

Процедура оценивания существенности данного параметра |te отличается от рассмотренной выше для коэффициента регрес-

а

, его величина сравнивается

:и; вычисляется /-критерий: t

т

табличным значением при df-n-2 степенях свободы. Значимость линейного коэффициента корреляции проверя­ется на основе величины ошибки коэффициента корреляции т

^

1—г

(2.19)

ftlr =

п-

2

Фактическое значение /-критерия Стьюдента определяется

£ак

(2.20)

л/l^r

л/я^2.

Данная формула свидетельствует, что в парной линейной рег-

(/1-2). Кроме

л

2

г

Грессии = F, ибо, как уже указывалось, F =

того, = F. Следовательно, -

Таким образом, проверка гипотез о значимости коэффициен­тов регрессии и корреляции равносильна проверке гипотезы о су­щественности линейного уравнения регрессии.

В рассматриваемом примере /г не совпало с tb в результате ошибок округлений. Величина /г - 16,73 значительно превышает табличное значение 2,57 при а = 0,05. Следовательно, коэффи­циент корреляции существенно отличен от нуля и зависимость является достоверной.

Рассмотренная формула оценки коэффициента корреляции рекомендуется к применению при большом числе наблюдений и если г не близко к + 1 или -1. Если же величина коэффициент

а

корреляции близка к + 1, то распределение его оценок отличает­ся от нормального или распределения Стьюдента, так как вели­чина коэффициента корреляции ограничена значениями от — 1 до +1. Чтобы обойти это затруднение, Р. Фишером было предло­жено для оценки существенности г ввести вспомогательную ве­личину z, связанную с коэффициентом корреляции следующим отношением:

1 . 1+г

тг =

* — - (2.21)

При изменении г от — 1 до +1 величина z изменяется от —оо до +оо, что соответствует нормальному распределению. Математи­ческий анализ доказывает, что распределение величины z мало отличается от нормального даже при близких к единице значени­ях коэффициента корреляции. Стандартная ошибка величины z определяется по формуле

1

V^T <2-22>

где п — число наблюдений.

При г =0,991, г = 0,5 • ln[( 1 + 0,991) : (1 - 0,991)] = 2,699, а mz = 1:7(7-3) =0,5. Величину z можно не рассчитывать, а вос­пользоваться готовыми таблицами ^-преобразования, в которых приведены значения величины z для соответствующих значений г.

Далее выдвигаем нулевую гипотезу #0, которая состоит в том, что корреляция отсутствует, т. е. теоретическое значение коэффи­циента корреляции равно нулю. Коэффициент корреляции зна-

z

чимо отличен от нуля, если — = > 'а=о,о5> т. е. если фактическое

значение tz превышает его табличное значение на уровне значи­мости а — 0,05 или а = 0,01.

Иными словами, если z■ 3 > /а=005, то коэффициент кор-

реляции значимо отличен от нуля, что имеет место в рассмотрен­ном примере:

г • 4гП = 2,699л/7^3 = 5,398 при /а= 0,05 = 2,57

Ввиду того, что г и z связаны между собой приведенным выше соотношением, можно вычислить критические значения г, соот­ветствующие каждому из значений z. Таблицы критических зна­чений г разработаны для уровней значимости 0,05 и 0,01 и соот­ветствующего числа степеней свободы. Критические значения г предполагают справедливость нулевой гипотезы, т. е. г мало от­лично от нуля. Если фактическое значение коэффициента корре­ляции по абсолютной величине превышает табличное, то данное значение г считается существенным. Если же г оказывается мень­ше табличного, то фактическое значение г несущественно.

В рассматриваемом примере при числе степеней свободы /1 — 2 = 5 критическое значение г при а = 0,05 составляет 0,754, а при а — 0,01 составляет 0,874, что ниже фактической величины г^ = 0,991. Следовательно, как было уже доказано, полученное значение г существенно отлично от нуля.

г