Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Методичка__Сарычева Т.В

..pdf
Скачиваний:
28
Добавлен:
03.06.2015
Размер:
1.38 Mб
Скачать

y

dy

dx

a

x

Рисунок 2 – Графическая оценка параметров линейной регрессии

Построение линейной регрессии сводится к оценке ее параметров a и b. Оценки параметров могут быть найдены разными методами. Можно обратится к полю корреляции и, выбрав на графике две точки, провести через них прямую линию. Далее по графику можно определить значение параметров. Параметр a определим как точку пересечения линии регрессии с осью 0y, а

параметр b оценим, исходя из угла наклона линии регрессии, как dy/dx, где dy- приращение результата, а dx - приращение

фактора x, т.е. yˆx a b x x

Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК).

МНК позволяет получить такие оценки параметров a и b, при которых сумма квадратов отклонений фактических значений результативного признака ( y) от расчетных yˆx минимальна:

2

(yi yˆxi ) min

i

Иными словами, из всего множества линий линия регрессии выбирается так, чтобы сумма квадратов расстояний по вертикали между точками и этой линией была бы минимальной:

11

i yi yˆxi

следовательно, i2 min

i

Чтобы найти минимум функции, надо вычислить частные производные по каждому из параметров a и b и приравнять их к нулю.

2

Обозначим i через S , тогда:

i

 

 

 

2

 

S (yi

yˆxi )

(y a b x)2 ;

 

dS

i

 

 

 

2 y 2 n a 2 b x 0;

(1)

 

da

 

 

 

dSdb 2 y x 2 n a x 2 b x2 0

Преобразуя формулу (1), получим следующую систему нормальных уравнений для оценки параметров a и b:

n a b x y

 

(2)

a x b x2

y x

Решая нормальную систему уравнений (2) либо методом последовательного исключения переменных, либо методом определителей, найдем искомые оценки параметров a и b. Можно воспользоваться следующими готовыми формулами:

a

y

b

x

.

(3)

Формула (3) получена из (2) путем деления всех его членов на n.

12

bcov x, y

x2

где cov x,y - ковариация признаков;

x2 - дисперсия признака x.

Ввиду того, что cov x,y yx y x, а x2 x2 x2 , получим формулу расчета оценки параметра b

b yx y x x2 x2

Параметр b называется коэффициентом регрессии. Его величина показывает среднее изменение результата с изменением факторного признака на одну единицу. Возможность четкой эконометрической интерпретации коэффициента регрессии сделала линейное уравнение регрессии достаточно распространенным в эконометрических исследованиях.

Уравнение регрессии всегда дополняется показателями тесноты связи. При использовании линейной регрессии в качестве такого показателя выступает линейный коэффициент корреляции

rxy

r

b

x

 

cov x,y

 

 

yx

 

y

 

x

 

 

 

 

x y

xy

y

 

x y

 

Как известно, линейный коэффициент корреляции находится

в границах 1 rxy 1детерминации.

 

 

Если коэффициент регрессии b 0, то

0 rxy

1, и,

наоборот, при b 0, то 1 rxy 0.

 

 

Следует иметь в виду, что величина линейного коэффициента корреляции оценивает тесноту связи рассматриваемых признаков в ее линейной форме. Поэтому близость абсолютной величины

13

линейного коэффициента корреляции к нулю еще не означает отсутствие связи между признаками. При иной спецификации модели связь между признаками может оказаться достаточно тесной.

Для оценки качества подбора линейной функции рассчитывается квадрат линейного коэффициента корреляции

r2 xy , называемый коэффициент детерминации. Коэффициент детерминации характеризует долю дисперсии результативного признака объясняемую регрессией, в общей дисперсии результативного признака:

r2

2

 

 

yобъясн

.

 

 

xy

 

 

2

 

 

 

yобщ

Соответственно величина

1 r2 характеризует долю

дисперсии y, вызванную влиянием остальных не учтенных в модели факторов.

Оценка существенности параметров линейной регрессии и корреляции

После того как найдено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных параметров.

Оценка значимости уравнения регрессии в целом дается с помощью F - критерия Фишера. При этом выдвигается нулевая гипотеза, что коэффициент регрессии равен нулю, т.е b 0, и, следовательно, фактор x не оказывает влияние на результат y.

Непосредственному расчету F - критерия предшествует анализ дисперсии. Центральное место в нем занимает разложение общей суммы квадратов отклонений переменной yот среднего

значения yна две части – «объясненную» и «необъясненную»:

14

y

y

2

 

yˆx

y

2

 

y yˆx 2

Общая

 

Сумма

 

Остаточная

 

квадратов

 

сумма

сумма

отклонений,

квадратов

 

объясненная

 

квадратов

отклонений

 

 

отклонений

 

регрессией

 

 

 

 

 

 

 

 

 

Общая сумма квадратов отклонений индивидуальных

значений результативного признака

yот

среднего

y

вызвана

влиянием множества причин. Условно разделим всю совокупность причин на две группы: изучаемый фактор x и прочие факторы.

Если фактор не оказывает влияния на результат, то линия регрессии на графике параллельна оси 0x и y yˆ. Тогда вся

дисперсия результативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадает с остаточной. Если же прочие факторы не влияют на результат, то yсвязан с x функционально и остаточная сумма квадратов

отклонений, объясненная регрессией, совпадает с общей суммой квадратов.

Поскольку не все точки поля корреляции лежат на линии регрессии, то всегда имеет место их разброс как обусловленный влиянием фактора x, т. е. регрессией y по x, так и вызванный

действием прочих причин (необъясненная вариация). Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации признака y приходится на объясненную вариацию.

Очевидно, что если сумма квадратов отклонений будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор x оказывает существенное воздействие на результат y. Это равносильно тому, что

коэффициент детерминации rxy2 будет приближать к единице.

Любая сумма квадратов отклонений связана с числом степеней свободы (df-degrees of freedom), т.е. с числом свободы независимого варьированного признака. Число степеней свободы связано с числом единиц совокупности n и с числом определяемых по ней констант. Число степеней свободы должно

15

показать, сколько независимых

отклонений

от

nвозможных

y1

y

, y2

y

,..., yn

y

 

требуется

для

образования

данной суммы квадратов. Так для общей суммы квадратов требуется (n 1) независимых отклонений, ибо по совокупности из n единиц после расчета среднего уровня свободно варьируются лишь (n 1) число отклонений.

При расчете объясненной или факторной суммы квадратов

yˆx

y

2

используются теоретические (расчетные)

значения

результативного признака yˆx , найденные

по

линии

регрессии

yˆx a b x.

 

 

 

 

 

В линейной регрессии yˆx

y

2

b2

(x

x

)2 . В

этом нетрудно убедится, обратившись к формуле линейного коэффициента корреляции:

 

 

 

 

 

 

r

b

x

 

 

 

(4)

 

 

 

 

 

 

 

 

 

 

 

xy

 

 

 

 

 

y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Из формулы (4) видно, что

 

 

 

 

 

 

 

 

 

 

 

 

 

 

r 2 b2

x

2

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xy

 

y

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где y

2

- общая дисперсия признака y

 

 

 

 

 

b2 x

2

- дисперсия признака y, обусловленная фактором x.

Соответственно сумма квадратов отклонений, обусловленных

линейной регрессией, составит:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yˆx

y

2 b2 (x

x

)2 .

x и

Поскольку при заданном объеме наблюдений по

yфакторная сумма квадратов при

линейной регрессии зависит

16

только от одной константы коэффициента регрессии, то данная сумма квадратов имеет одну степень свободы. К этому же выводу придем, если рассмотрим содержательную сторону расчетного

значения признака y, т.е. yˆx . Величина yˆx определяется по уравнению линейной регрессии: yˆx a b x. Параметр a

можно определить как a y b x. Подставим выражение параметра a в линейную модель, получим

yˆx y b x b x y b (x x).

Отсюда видно, что при заданном наборе переменных y и x

расчетное значение yˆx является в линейной регрессии функцией

только одного параметра – коэффициента регрессии. Соответственно и факторная сумма квадратов отклонений имеет число степеней свободы, равное 1.

Существует равенство между числом степеней свободы общей, факторной и остаточной суммой квадратов. Число степеней свободы остаточной суммы квадратов при линейной регрессии составляет n 2. Число степеней свободы для общей суммы квадратов определяется числом единиц, и поскольку мы используем среднюю вычисленную по данным выборки, то теряем одну степень свободы, т.е. dfобщ n 1.

Итак, имеем два равенства:

y

y

2

 

yˆx

y

2

 

y yˆx 2 ;

n 1

 

1

(n 2).

Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений, или, что то же самое, дисперсию на одну степень свободы D .

Dобщ y y 2 ;

n 1

17

Dфакт

yˆx y 2

1

Dост

y yˆx 2

n 2

Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточные дисперсии в расчете на одну степень свободы, получим величину F - отношения (F - критерий):

F Dфакт .

 

 

 

Dост

 

 

где

F -

критерий

для проверки

нулевой

гипотезы

H0 :Dфакт Dост .

 

 

 

 

Если нулевая гипотеза справедлива, то факторная и

остаточная

дисперсии

не отличаются друг

от друга.

Для H0

необходимо опровержение, чтобы факторная дисперсия превышала остаточную в несколько раз. Табличное значение F - критерия – это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы. Вычисленное значение F - отношения признается достоверным (отличным от 1), если оно больше табличного. В этом случае нулевая гипотеза об отсутствии связи признаков отклоняется и делается вывод о существенности

этой связи: Fфакт Fнабл. H0

отклоняется.

Если же

величина

окажется меньше табличной

Fфакт Fнабл ,

то вероятность нулевой гипотезы выше заданного

уровня и она не может быть отклонена без серьезного риска сделать неправильный вывод о наличии связи. В этом случае

уравнение регрессии считается статистически незначимым. H0 не отклоняется.

18

В линейном уравнении обычно оценивается не только значимость уравнения в целом, но и отдельных его параметры. С этой целью по каждому из параметров определяется его

стандартная ошибка: ma и mb .

Стандартная ошибка коэффициента регрессии определяется по формуле

m

(y yˆx)2 /(n 2)

 

S2

 

 

 

 

 

b

 

 

 

 

 

 

 

 

(x x)2

(x x)2

 

где S2 - остаточная дисперсия на одну степень свободы.

Величина

стандартной ошибки

совместно с t-

распределением Стьюдента при n 2 степеням свободы применяется для проверки существенности коэффициента регрессии и для расчета его доверительных интервалов.

Для оценки существенности коэффициентов регрессии его величина сравнивается с его стандартной ошибкой, т.е.определяется фактическое значение t- критерия Стьюдента:

b

tb mb , которое затем сравнивается с табличным значением при

определенном уровне значимости и числе степеней свободы

n 2.

Доверительный интервал для коэффициента регрессии определяется как b t mb .

Поскольку коэффициент регрессии в эконометрических исследованиях имеет четкую экономическую интерпретацию, то доверительные границы интервала для коэффициентов регрессии не должны содержать противоречивых результатов., т.е. коэффициент регрессии не может принадлежать промежутку содержащему 0.

Стандартная ошибка параметра определяется по формуле:

19

 

 

(y yˆx )2

 

x2

 

2

 

x2

 

ma

 

 

 

 

 

 

 

S

 

 

 

 

.

 

 

 

 

 

 

 

(n 2)

n (x x)2

n (x x)2

 

 

 

 

 

 

 

Процедура оценивания существования данного параметра не отличается от рассмотренной выше для коэффициента регрессии;

вычисляется t- критерия: t

 

 

a

, его величина сравнивается с

a

ma

 

 

 

табличным значением при df

n 2 степенях свободы.

Значимость линейного коэффициента корреляции проверяется на основе величины ошибки коэффициента

корреляции mr :

1 r2 mr . n 2

Фактическое значение t- критерия Стьюдента определяется

как

tr

 

r

 

 

 

.

 

 

n 2

 

 

 

 

 

 

1 r2

 

 

Данная формула свидетельствует, что в парной регрессии tr2 F . Кроме того tb2 F . Следовательно tr2 tb2 .

Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существовании линейного уравнения регрессии.

Интервальные прогноза по линейному уравнению регрессии

В прогнозных оценках по уравнению регрессии определяется предсказываемое ( yp ) значение как точечный прогноз yˆx при

xp xk , т.е. путем подстановки в уравнение регрессии

20