Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Эконометрика, лекции

.pdf
Скачиваний:
64
Добавлен:
01.06.2015
Размер:
1.34 Mб
Скачать

Generated by Foxit PDF Creator © Foxit Software

http://www.foxitsoftware.com For evaluation only.

Как и в случае парной регрессии, для анализа статистической значимости параметров множественной линейной регрессии с m факторами, необходимо оценить дисперсию и стандартные отклонения параметров:

Обозначим матрицу:

Z 1 X ' X 1,

и в этой матрице обозначим j – й

диагональный элемент как z jj '. Тогда выборочная дисперсия

эмпирического параметра регрессии равна:

 

 

 

 

 

 

D S 2 z

 

',

j

 

,

 

jj

1, m

 

bj

 

 

 

 

а для свободного члена выражение имеет вид:

Da

S 2 z00 ',

если считать, что в матрице Z 1

индексы изменяются от 0 до m.

Здесь S2 – несмещенная оценка дисперсии случайной ошибки ε (среднеквадратическая

ошибка регрессии):

S

2

 

ei2

 

 

.

 

 

n m 1

Соответственно, стандартные ошибки (отклонения) параметров bj a регрессии равны

Sb j Db j или Sa Da .

Для проверки значимости каждого коэффициента рассчитываются t – статистики:

 

 

 

bj

 

 

 

 

a

 

,

t

b j

 

 

 

или t

a

 

 

 

 

 

 

 

Sb j

 

 

 

 

 

 

 

 

 

 

 

 

 

Sa

 

Полученная t – статистика для соответствующего параметра имеет распределение Стьюдента с числом степеней свободы (n-т-1). При требуемом уровне значимости α эта статистика сравнивается с критической точкой распределения Стьюдента t(α; n-т-1) (двухсторонней).

Если t tкр ( ;n m 1) , то соответствующий параметр считается статистически значи-

мым, и нуль – гипотеза в виде H0 : bj 0 или H0 : a 0 отвергается.

При t tкр ( ;n m 1) параметр считается статистически незначимым, и нуль – гипоте-

за не может быть отвергнута. Поскольку bj не отличается значимо от нуля, фактор хj линейно не связан с результатом. Его наличие среди объясняющих переменных не оправдано со статистической точки зрения. Не оказывая какого–либо серьёзного влияния на зависимую переменную, он лишь искажает реальную картину взаимосвязи. Поэтому после установления того факта, что коэффициент bj статистически незначим, переменную хj рекомендуется исключить из уравнения регрессии. Это не приведет к существенной потере качества модели, но сделает её более конкретной.

Строгую проверку значимости параметров можно заменить простым сравнительным анализом.

Если t 1, т.е. bj Sbj , то коэффициент статистически незначим.

Если 1 t 2, т.е. bj 2Sbj , то коэффициент относительно значим. В данном случае рекомендуется воспользоваться таблицей критических точек распределения Стьюдента.

Если 2 t 3, то коэффициент значим. Это утверждение является гарантированным

при (n-т-1)>20 и 0,05.

Если t 3 , то коэффициент считается сильно значимым. Вероятность ошибки в данном

случае при достаточном числе наблюдений не превосходит 0,001.

К анализу значимости коэффициента bj можно подойти по – другому. Для этого строится интервальная оценка соответствующего коэффициента. Если задать уровень значимости α, то

51

Generated by Foxit PDF Creator © Foxit Software

http://www.foxitsoftware.com For evaluation only.

доверительный интервал, в который с вероятностью (1-α) попадает неизвестное значение параметра j , определяется неравенством:

 

bj t ;n p 1 Sbj

j bj t ;n p 1 Sbj

Или

a t ;n p 1 Sa

a t ;n p 1 Sa .

Если доверительный интервал не содержит нулевого значения, то соответствующий параметр является статистически значимым, в противном случае гипотезу о нулевом значении параметра отвергать нельзя.

Для проверки общего качества уравнения регрессии используется коэффициент детерминации R2. Для множественной регрессии R2 является неубывающей функцией числа объясняющих переменных. Добавление новой объясняющей переменной никогда не уменьшает значение R2. Действительно, каждая следующая объясняющая переменная может лишь дополнить, но никак не сократить информацию, объясняющую поведение зависимой переменной.

Анализ статистической значимости коэффициента детерминации проводится на основе проверки нуль-гипотезы Н0: R2=0 против альтернативной гипотезы Н1: R2>0. Для проверки данной гипотезы используется следующая F – статистика.

Задача 1. Бюджетное обследование пяти случайно выбранных семей дало следующие результаты (в тыс. руб.):

Семья

Накопления, S

Доход, Y

Имущество, W

1

3

40

60

2

6

55

36

3

5

45

36

4

3,5

30

15

5

1,5

30

90

А) Оценить регрессию S на Y и W.

Б) Спрогнозируйте накопления семьи, имеющей доход 40 тыс.руб.и имущество стоимостью 25 тыс.руб.

В) Предположим, что доход семьи вырос на 10 тыс.руб, в то время как стоимость имущества не изменилась. Оцените как возрастут её накопления.

Г) Оцените как возрастут накопления семьи, если её доход вырос на 5, а стоимость имущетва увеличилась на 15.

Задача 2. Для изучения жилья в городе по данным о 46 коттеджах было получено уравнение множественной регрессии:

у 21,1 6,2х

0,95х

2

3,57х

,

R2 0,7

 

1

 

3

 

 

Sbj

(1,8)

(0,54)

 

(0,83)

 

 

Где у – цена объекта (тыс.дол), x1 - расстояние до центра города, x2 - полезная площадь объек-

та (кв.м), x3 - число этажей в доме (ед.).

А) Проверить гипотезы о равенстве нулю коэффициентов b1 ,b2 ,b3 в генеральной совокупности (т.е. проверить значимость коэффициентов регрессии).

Б) Проверить гипотезу об одновременном равенстве нулю коэффициентов множественной регрессии (или о том, что R2=0) в ген.совокупности.

52

Generated by Foxit PDF Creator © Foxit Software

http://www.foxitsoftware.com For evaluation only.

Тема 7. Прогнозирование 7.1. Оценка прогнозных качеств модели

Пример 1. Рассмотрим зависимость объёма реального частного потребления в США (С) от располагаемого дохода Y за 1971-1990 гг:

С 217,6 1,007Y

ta,b ( 7,7) (81,9)

R2 0,997;DW 1,58

Со статической точки зрения данная зависимость приемлема по всем показателям.

Стандартная ошибка регрессии S

ei2

20 при среднем значении зависимой перемен-

 

n 2

 

ной C 2000, т.е. составляет около 1%.Отклонения от линии регрессии носят случайный характер, и их среднее значение остаётся приблизительно постоянным.

Отношение стандартной ошибки регрессии к среднему значению зависимой переменной

V S называется средней относительной ошибкой прогноза, и может служить критерием y

прогнозных качеств оценённой регрессионноё модели. Если величина V мала и отсутствует автокорреляция ошибок (т.е. систематичность отклонений зависимой переменной от линии регрессии, проверяемая с помощью статистики Дарбина-Уотсона), то прогнозные качества модели высоки.

Если уравнение регрессии используется в прогнозировании, то величина V часто рассчитывается не для того периода, на котором было построено уравнение, а для некоторого следующего за ним «постпрогнозного» периода, для которого имеются наблюдения зависимой и объясняющих переменных.

И уже для последующего периода, если для него известны прогнозы значений объясняющих переменных, может быть построен прогноз объясняемой переменной.

Считается, что период прогнозирования должен быть по крайней мере в 3 раза короче, чем тот период, для которого было оценено уравнение регрессии.

Для примера, оценим функцию зависимости С от Y за период не 1971-1990гг, а 1971-1986 гг., а затем построим постпрогноз на период 1987-1990гг.

Уравнение регрессии также получается приемлемое по всем параметрам:

С 208,8 1,003Y

ta,b ( 5,6) (58,8)

R2 0,996;DW 1,72

Оценим прогнозные качества модели, рассчитав среднюю относительную ошибку прогноза V. Поскольку для постпрогнозного периода число степеней свободы равно числу точек

4 , стандартная ошибка прогноза за 1987-1990гг рассчитывается как

S

ei2

25,2 . Отно-

4

 

 

 

 

 

 

 

S

 

 

25,2

 

 

 

 

 

 

 

сительная ошибка прогноза V

 

 

 

0,0096 или 0,96%. Если относительную ошибку про-

 

 

 

 

 

 

 

 

С

2615,3

 

 

 

S

 

 

 

 

 

гноза оценить по расчётному периоду 1971-1986гг, то она окажется равной V

 

 

 

 

17,5

0,009

 

 

 

1947,5

 

 

 

 

 

 

 

 

 

 

 

 

С

 

или 0,90%, где S

ei2

 

17,5.

 

 

 

 

 

 

 

 

 

 

 

16 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Т.о. оценка прогнозных качеств уравнения регрессии даёт хороший результат (менее 1% ошибки) как на расчётном, так и на контрольном (постпрогнозном) периоде.

Для построения прогноза объёма потребления С на период после 1990г нужно оценить уравнение за 1971-1990 г. И подставить в него прогнозируемые значения величины располагаемого дохода Y.

53

Generated by Foxit PDF Creator © Foxit Software

http://www.foxitsoftware.com For evaluation only.

7.2. Интервалы прогноза по линейному уравнению регрессии

Прогнозирование по уравнению регрессии представляет собой подстановку в уравнение

регрессии соответственного значения х. Такой прогноз yˆ

называется точечным.

Он не является точным, поэтому дополняется расчетом стандартной ошибки yˆ . Стандартная

ошибка предсказываемого среднего значения зависимой

 

переменной при заданном значении

x xк :

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

(xк

х

)2

 

 

 

 

 

2

1

 

(xк

х

)2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Syˆ S

 

 

 

 

 

 

 

2 S

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n (х х)

 

 

 

 

 

n

 

(х х)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Где S

ei2

- стандартная ошибка регрессии, S

2

- остаточная дисперсия.

n 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

и возрастает по мере удаления хк от

х

 

Величина Syˆ

достигает минимума при xк

х

в

y

xk

x

любом направлении.

Получаем интервальную оценку прогнозного значения y :

yˆ Syˆ tтабл y yˆ Syˆ tтабл.

Пример 2: Уравнение зависимости затрат на производство от объёма выпускаемой про-

дукции по 7 предприятиям имеет вид:

 

 

 

у 5,79 36,84 х .

 

 

 

 

 

 

 

 

 

 

(х

х

)2 10,857 ;

х

3,143; n 7, S 2

 

265

53.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

7

 

 

 

 

 

 

 

 

При хк 4 точечный прогноз затрат на производство:

 

5,79

 

36,84

 

4

 

141,57

у

 

 

 

 

 

 

 

 

 

 

1

 

(4 3,143)2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S

yˆ

 

53

 

 

 

3,34 .

 

 

 

 

 

 

 

 

 

 

 

 

 

10,857

 

 

 

 

 

 

 

 

 

 

 

 

 

 

7

 

 

 

 

 

 

 

 

 

 

 

 

 

Для прогнозируемого значения

уˆ 95%-ные доверительные интервалы при заданном хк

определены выражением: уˆ t S yˆ y уˆ t S yˆ ,

 

 

 

 

 

 

 

 

 

 

 

 

 

т.е. 141,57 2,57 3,34 y 141,57 2,57 3,34.

 

 

 

 

 

 

Т.о. прогноз линии регрессии лежит в интервале:

 

132,99 уˆ 150,15.

 

 

 

 

Мы рассмотрели доверительные интервалы для среднего значения у при заданном х.

Однако фактические значения у варьируются около среднего значения

уˆ, они могут от-

клоняться на величину случайной ошибки ε, дисперсия которой оценивается как остаточная дисперсия на одну степень свободы S2. Поэтому ошибка прогноза отдельного значения у

должна включать не только стандартную ошибку Syˆ , но и случайную ошибку S. Таким образом,

средняя ошибка прогноза индивидуального значения у составит:

54

Generated by Foxit PDF Creator © Foxit Software

http://www.foxitsoftware.com For evaluation only.

 

 

Sy

S

1

1

 

 

(xк

х

)2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i(xк)

 

 

 

n (х х)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Для примера:

S y

 

 

 

1

 

(4 3,143)2

 

 

 

53 1

 

 

 

 

 

 

 

 

8,01

 

 

 

 

 

 

 

 

i(xк 4)

 

 

 

7

10,857

 

 

Доверительный интервал прогноза индивидуальных значений y при xк 4 с вероятностью 0,95 составит: 141,57 2,57 8,01, или 120,98 ур 162,16.

Получился достаточно большой интервал, т.к. мало наблюдений.

Пусть в примере с функцией издержек выдвигается предположение, что в предстоящем году в связи со стабилизацией экономики затраты на производство 8 тыс. ед. продукции не превысят 250 млн. руб. Означает ли это изменение найденной закономерности или затраты соответствуют регрессионной модели?

Точечный прогноз: yˆx 8 5,79 36,84 8 288,93.

Предполагаемое значение – 250. Средняя ошибка прогнозного индивидуального значения:

 

 

 

1

 

(х

х

)

 

 

 

 

1

 

8 3,1432

 

 

 

S

1

 

 

 

к

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Sy

 

 

 

 

 

 

 

 

 

 

53

1

 

 

 

 

 

13,26.

i(xi)

 

 

n

 

(х х)

 

 

 

7

 

10,857

 

 

Сравним ее с предполагаемым снижением издержек производства, т.е. 250–288,93= –

38,93:

t 38,93 2,93. 13,26

Поскольку оценивается только значимость уменьшения затрат, то используется односторонний t- критерий Стьюдента. При ошибке в 5 % с n 2 5 tтаб. 2,015 , поэтому предполагаемое уменьшение затрат значимо отличается от прогнозируемого значения при 95 % – ном уровне доверия. Однако, если увеличить вероятность до 99%, при ошибке 1 % фактическое значение t-критерия оказывается ниже табличного 3,365, и различие в затратах статистически не значимо, т.е. затраты соответствуют предложенной регрессионной модели.

Тема 8. Нелинейные модели регрессии. Простейшие методы линеаризации

Если между экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих нелинейных функций.

Различают два класса нелинейных регрессий:

1. Регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам.

Например,

полиномы различных степеней y a0 a1x a2 x2 ... am xm ,

y a bx cx2 , y a bx cx2 dx3 ;

равносторонняя гипербола y a b ; x

полулогарифмическая функция y a b ln x .

2.Регрессии, нелинейные по оцениваемым параметрам.

Например,

степенная y a xb ;

показательная y a bx ;

экспоненциальная y ea bx .

55

y a b ln x ,

Generated by Foxit PDF Creator © Foxit Software

http://www.foxitsoftware.com For evaluation only.

1. Регрессии нелинейные по включенным переменным сводятся к линейному виду с помощью методов линеаризации простой заменой переменных, а дальнейшая оценка параметров производится с помощью метода наименьших квадратов. Рассмотрим некоторые функции.

Полином второй степени

y a bx cx2

приводится к линейному виду с помощью

замены:

x x ,

x2 x . В

результате приходим к двухфакторному уравнению

 

1

2

 

 

 

 

y a bx1

cx2 , оценка параметров которого при помощи МНК, приводит к системе сле-

дующих нормальных уравнений:

 

b x1

c x2

y;

 

 

a n

 

 

 

 

b x12

c x1 x2 x1 y;

 

 

a x1

 

 

 

 

b x1 x2 c x22

x2 y.

 

 

a x2

А после обратной замены переменных получим

 

 

 

 

 

 

 

2

 

 

 

 

b x c x

y;

 

 

 

a n

 

 

 

 

 

 

x y;

 

 

 

a x b x2 c x3

 

 

 

 

 

 

x2 y.

 

 

 

a x2 b x3 c x4

Полином второй степени обычно применяется в случаях, когда для определенного интервала значений фактора меняется характер связи рассматриваемых признаков: прямая связь меняется на обратную или обратная на прямую.

Аналогично, для полинома третьего порядка получим трёхфакторную модель.

Для полинома степени m, получим множественную регрессию с m объясняющими переменными

y a0 a1 x1 a2 x2

... am xт .

Среди нелинейной полиномиальной модели чаще всего используется полином второй

степени, реже – третьей.

 

Для равносторонней гиперболы y a

b

 

замена z 1 приводит к уравнению пар-

 

x

x

ной линейной регрессии yˆ a b z , для оценки параметров которого используется МНК.

Система линейных уравнений при применении МНК будет выглядеть следующим образом:

 

 

b

1

 

y;

a n

 

 

 

 

x

 

 

 

 

 

 

 

 

 

1

 

1

 

1

 

 

 

 

 

a

x

b

x

2

 

 

y.

 

 

 

 

x

Такая модель может быть использована для характеристики связи удельных расходов сырья, материалов, топлива от объема выпускаемой продукции, времени обращения товаров от величины товарооборота, процента прироста заработной платы от уровня безработицы (например, кривая А.В. Филлипса), расходов на непродовольственные товары от доходов или общей суммы расходов (например, кривые Э. Энгеля) и в других случаях.

Аналогичным образом приводятся к линейному виду зависимости

уa bx и другие.

2.Регрессии, нелинейными по оцениваемым параметрам, делятся на два типа: нели-

нейные модели внутренне линейные (приводятся к линейному виду с помощью соответствующих преобразований, например, логарифмированием) и нелинейные модели внутренне нелинейные (к линейному виду не приводятся).

56

 

 

 

 

 

 

 

 

 

 

 

 

 

Generated by Foxit PDF Creator © Foxit Software

 

 

 

К внутренне

линейным моделям

http://www.foxitsoftware.com

For evaluation only.

 

 

 

относятся,

например,

степенная функция –

y a xb , показательная –

y a bx , экспоненциальная – y ea bx , логистическая –

 

 

 

a

 

, обратная –

 

1

 

 

.

 

 

 

 

 

 

 

 

y

x

 

 

 

y

 

 

 

 

 

 

 

 

 

 

 

 

 

1 b e c x

 

 

a bx

 

 

 

 

 

используется степенная функция

 

 

 

Среди

 

нелинейных

моделей

 

наиболее

часто

y a xb , которая приводится к линейному виду логарифмированием:

 

 

 

 

 

 

 

 

 

 

 

ln y ln a xb ;

 

 

 

 

 

 

 

 

 

 

ln y ln a b ln x ln ;

 

 

 

 

 

 

 

 

 

 

 

 

 

Y A b X ,

 

где Y ln y,

X ln x,

A ln a,

 

 

 

ln . Т.е. МНК мы применяем для преобразованных данных:

 

 

 

 

 

 

 

 

 

 

 

 

b

 

X

 

Y,

 

 

 

 

 

 

 

 

 

 

A n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X b X 2 X Y,

 

 

 

 

 

 

 

 

 

A

 

а затем потенцированием находим искомое уравнение.

Широкое использование степенной функции связано с тем, что параметр b в ней имеет четкое экономическое истолкование – он является коэффициентом эластичности. (Коэффициент эластичности показывает, на сколько процентов измениться в среднем результат, если фактор

изменится на 1%.) Формула для расчета коэффициента эластичности имеет вид: Э f x x . y

Так как для остальных функций коэффициент эластичности не является постоянной величиной, а зависит от соответствующего значения фактора x , то обычно рассчитывается сред-

ний коэффициент эластичности:

 

 

f

 

 

 

x

.

 

 

Э

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y

 

 

 

Наконец, следует отметить зависимость логистического типа:

y

1

 

. Графиком

 

a be x

 

 

 

 

 

 

 

 

 

 

функции является так называемая «кривая насыщения», которая имеет две горизонтальные асимпто-

ты у 0, у

1

и точку перегиба x ln b / a ,

y 1/ 2a , а также точку пересечения с осью ординат

а

 

1

 

 

 

у

:

 

 

 

 

 

 

a b

 

 

1/a

1/(a+b)

 

 

 

 

 

 

 

 

x

 

Уравнение приводится к линейному виду заменами переменных u 1/ y,

z e x.

К

внутренне нелинейным

моделям можно, например, отнести следующие модели:

 

b

, y a bx

c

 

1

 

 

 

y a x

 

 

, y a 1

 

 

 

.

 

 

 

 

 

 

 

 

 

 

1 xb

 

 

 

В случае, когда функция не поддаётся непосредственной линейной линеаризации, можно разложить её в функциональный ряд и затем оценить регрессию с членами этого ряда.

57

Generated by Foxit PDF Creator © Foxit Software

http://www.foxitsoftware.com For evaluation only.

При линеаризации функции или разложении её в ряд возникают и другие проблемы: искажение отклонений е и нарушение их первоначальных свойств, статистическая зависимость членов ряда между собой.

Например, если оценивается формула y bx cx2 е , полученная путём линеаризации или разложения в ряд, то независимые переменные x, x2 связаны между собой функционально.

Поэтому во многих случаях актуальна непосредственная оценка нелинейной формулы регрессии. Для этого используется нелинейный МНК, идея которого основана на минимизации суммы квадратов отклонений расчётных значений от эмпирических, т.е. нужно оценить па-

раметры вектора а функции

у f (a, x), так чтобы ошибки ei

yi

f (a, xi ) по совокупности

были минимальны:

F ( yi f (a, xi ))2 min .

 

 

Для решения этой задачи существуют два пути:

 

 

1)непосредственная минимизация функции F с помощью методов нелинейной оптимизации, позволяющих находить экстремум выпуклых линий (метод наискорейшего спуска).

2)решение системы нелинейных уравнений, которая получается из необходимого условия экстремума функции – равенство нулю частных производных по каждому из параметров:

Fa j

0,

j 1,m система уравнений:

 

 

 

 

 

2 ( yi f (a, xi )) fa j (a, xi ) min,

j

 

.

 

 

1,m

Эта система может быть решена итерационными методами. Однако в общем случае решение такой системы не является более простым способом нахождения вектора а.

Существуют методы оценивания нелинейной регрессии, сочетающие непосредственную оптимизацию, использующую нахождение градиента, с разложением в ряд Тейлора для последующей оценки линейной регрессии (метод Марквардта).

При построении нелинейной регрессии более остро, чем в линейном случае, стоит проблема правильной оценки формы зависимости между переменными.

Неточности при выборе формы функции существенно сказываются на качестве отдельных параметров уравнения и соответственно, на адекватности всей модели в целом.

Любое уравнение нелинейной регрессии, как и линейной зависимости, дополняется показателем корреляции, который в данном случае называется индексом корреляции:

R 1 ост2

y2

Здесь 2y - общая дисперсия результативного признака y, ост2 - остаточная дисперсия, опреде-

ляемая по уравнению нелинейной регрессии yˆx f x . Следует обратить внимание на то, что разности в соответствующих суммах y y 2 и y yˆx 2 берутся не в преобразованных, а

в исходных значениях результативного признака. Иначе говоря, при вычислении этих сумм следует использовать не преобразованные (линеаризованные) зависимости, а именно исходные

 

 

 

 

 

 

 

 

нелинейные уравнения регрессии. По-другому можно записать так:

R

1

 

y yˆx 2

 

y

y

2

 

 

 

 

 

Величина R находится в границах 0 R 1, и чем ближе она к единице, тем теснее связь рассматриваемых признаков, тем более надежно найденное уравнение регрессии. При этом индекс корреляции совпадает с линейным коэффициентом корреляции в случае, когда преобразование переменных с целью линеаризации уравнения регрессии не проводится с величинами результативного признака. Так обстоит дело с полулогарифмической и полиномиальной регрессией, а также с равносторонней гиперболой. Определив линейный коэффициент корреляции для линеаризованных уравнений, например, в пакете Excel с помощью функции ЛИНЕЙН, можно использовать его и для нелинейной зависимости.

58

Generated by Foxit PDF Creator © Foxit Software

http://www.foxitsoftware.com For evaluation only.

Иначе обстоит дело в случае, когда преобразование проводится также с величиной y, например, взятие обратной величины или логарифмирование. Тогда значение R, вычисленное той же функцией ЛИНЕЙН, будет относиться к линеаризованному уравнению регрессии, а не к исходному нелинейному уравнению, и величины разностей под суммами будут относиться к преобразованным величинам, а не к исходным, что не одно и то же. При этом, как было сказано выше, для расчета R следует воспользоваться выражением, вычисленным по исходному нелинейному уравнению.

Поскольку в расчете индекса корреляции используется соотношение факторной и общей СКО, то R2 имеет тот же смысл, что и коэффициент детерминации. В специальных исследованиях величину R2 для нелинейных связей называют индексом детерминации.

Оценка существенности индекса корреляции проводится так же, как и оценка надежности коэффициента корреляции.

Индекс детерминации используется для проверки существенности в целом уравнения не-

линейной регрессии по F-критерию Фишера:

F

R2

n m 1,

 

 

 

 

 

 

1 R2

m

 

где n-число наблюдений, m-число параметров при переменных х. Во всех рассмотренных нами случаях, кроме полиномиальной регрессии, m=1, для полиномов число параметров равно m, т.е. степени полинома. Величина m характеризует число степеней свободы для факторной СКО, а (n-m-1) – число степеней свободы для остаточной СКО.

Индекс детерминации R2 можно сравнивать с коэффициентом детерминации r2 для обоснования возможности применения линейной функции. Чем больше кривизна линии регрессии, тем больше разница между R2 и r2. Близость этих показателей означает, что усложнять форму уравнения регрессии не следует и можно использовать линейную функцию. Практически, если величина (R2-r2) не превышает 0,1, то линейная зависимость считается оправданной. В противном случае проводится оценка существенности различия показателей детерминации, вычислен-

ных по одним и тем же данным, через t-критерий Стьюдента:

t

R2 r 2

.

 

Здесь в знаменателе находится ошибка разности (R2-r2),

 

S|R r|

определяемая по формуле:

S|R r| 2

R2 r 2 R2 r 2 2 2 R2 r 2

n

Если t tтабл ;n m 1 , то различия между показателями корреляции существенны и

замена нелинейной регрессии линейной нецелесообразна.

В заключение приведем формулы расчета коэффициентов эластичности для наиболее распространенных уравнений регрессии:

Вид уравнения регрессии

Коэффициент эластичности

y а b х

 

 

 

b х

 

 

 

 

 

 

 

 

а bх

 

 

 

y a bx cx2

 

b 2cx x

 

 

 

 

 

 

a bx cx2

 

y а

b

 

 

 

 

b

 

 

 

 

 

ах b

 

 

х

 

 

 

y a bx

 

 

 

x lnb

y a xb

 

 

 

b

y a bln x

 

 

 

b

 

 

 

 

 

 

 

a b ln x

 

1

 

 

 

 

bx

y

 

 

 

 

 

 

 

 

 

a bx

 

 

 

a bx

 

 

 

 

59

Generated by Foxit PDF Creator © Foxit Software

http://www.foxitsoftware.com For evaluation only.

Тема 9. Фиктивные переменные в регрессионных моделях

Врегрессионных моделях наряду с количественными переменными часто используются качественные переменные, такие как профессия, пол, образование, климатические условия и т.п.

Чтобы ввести такие переменные в регрессионную модель, им должны быть присвоены те или иные цифровые метки, т.е. качественные переменные должны быть преобразованы в количественные.

Такого рода переменные в эконометрике называются фиктивными (структурными, или

искусственными) переменными, а также индикатором.

Фиктивные переменные отражают два противоположных состояния качественного фактора: фактор действует – фактор не действует. (Например, сезон летний – сезон зимний, пол мужской – женский, есть высшее образование – нет высшего образования).

Вэтом случае фиктивные переменные выражаются в двоичной форме:

0,не

действует

. (Например, z=0, если потребитель не имеет высшего образования,

z

действует

1,

 

z=1, если потребитель имеет высшее образование).

Таким образом, кроме моделей, содержащих только количественные переменные хi , в регрессионном анализе рассматриваются также модели, содержащие лишь качественные переменные (обозначаемые zi), либо те и другие одновременно.

1. Регрессионные модели, содержащие лишь качественные объясняющие переменные,

называются ANOVA – моделями (моделями дисперсионного анализа).

Например, зависимость начальной заработной платы от образования может быть записана так: y a gz e ,

где z=0, если претендент на рабочее место не имеет высшего образования, z=1, если имеет. Тогда при отсутствии высшего образования начальная заработная плата равна: yˆ a g 0 a,

а при его наличии: yˆ a g 1 a g.

При этом параметр а определяет среднюю начальную заработную плату при отсутствии высшего образования. Коэффициент g показывает, на какую величину отличаются средние начальные заработные платы при наличии и при отсутствии высшего образования у претендента. Проверяя статистическую значимость коэффициента g с помощью t – статистики (или значение R2 с помощью F- статистики), можно определить, влияет или нет наличие высшего образования на начальную заработную плату.

ANOVA – модели представляют собой кусочно–постоянные функции. Такие модели в экономике встречаются редко.

2. Гораздо чаще встречаются модели, содержащие как количественные, так и качественные переменные. Такие модели называются ANCOVA – моделями (моделями ковариацион-

ного анализа).

Рассмотрим ANCOVA – модель при наличии у фиктивной переменной двух альтернатив. Простейшая модель с одной количественной и одной качественной переменными имеет вид: y a bx gz e,

Где у – заработная плата сотрудника фирмы, х – стаж работы, z – пол сотрудника,

 

0,

если

сотрудник женщина

 

z

если

сотрудник мужчина.

 

1,

Тогда для женщин ожидаемое значение заработной платы при х годах трудового стажа

будет:

yˆ a bx,

 

а для мужчин –

yˆ a bx g a g bx.

Эти зависимости являются линейными относительно стажа работы х и различаются только величиной свободного члена. Если коэффициент g является статистически значимым, то можно сделать вывод, что в фирме имеет место дискриминация в заработной плате по половому

60