Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

теория

.pdf
Скачиваний:
48
Добавлен:
27.05.2015
Размер:
792.01 Кб
Скачать

y

α+δ

α

D=1

 

D=0

0

x

Влияние фиктивной переменной на уравнение регрессии

где D – фиктивная переменная, т.е. искусственно введенная переменная, принимающая значения 0 или 1.

Ситуация определяется тем, что происходит при переменной D, равной 0

или 1. Если D = 0, то уравнение y =α + βx +δD +u упрощается до вида y =α + βx + u .

Использование сезонных фиктивных переменных

При анализе временных рядов многие исследователи предпочитают квартальные данные годовым, поскольку их будет в 4 раза больше за рассматриваемый период. Вместе с тем иногда заметное воздействие на зависимость оказывает именно сезонность. Если не учесть ее, то она вносит свой вклад в случайную компоненту u.

Рассмотрим зависимость

y =α + βt +δ2 D2 +δ3D3 +δ4 D4 +u ,

где y – расходы электроэнергии по кварталам. Переменные D2 , D3, D4 - фиктивные переменные, определяемые следующим образом:

1)D2=1, если наблюдение относится ко 2 кварталу, и нулю в остальных случаях.

2)D3=1, если наблюдение относится к 3 кварталу, и нулю в остальных случаях.

3)D4=1, если наблюдение относится к 4 кварталу, и нулю в остальных случаях.

Коэффициенты δ2 ,δ3 ,δ4 дают численную величину эффекта, вызываемого

сменой сезонов. Коэффициент δ2 показывает дополнительную потребность электроэнергии во 2 квартале относительно 1 квартала, связанную со

временем года. По аналогии δ3 и δ4 показывают соответствующие дополнительные количества электроэнергии в 3 и 4 кварталах относительно 1 квартала. Все эти сдвиги даются относительно 1 квартала, потому что он выбран в качестве эталонной категории.

Таким образом, можем показать распределение значений фиктивных переменных в следующей таблице:

Квартал

1

2

3

4

1

2

3

4

1

2

3

4

D2

0

1

0

0

0

1

0

0

0

1

0

0

D3

0

0

1

0

0

0

1

0

0

0

1

0

D4

0

0

0

1

0

0

0

1

0

0

0

1

Такое сезонное колебание можно изобразить графически на рисунке.

y

1

2

3

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

1

 

2

 

3

 

4

 

1

 

2

 

3

 

4

 

1

 

2

 

3

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Сезонные колебания, смоделированные при помощи фиктивных переменных

Из уравнения зависимости потребления электроэнергии можно получить модели для каждого квартала:

1 квартал -

~

~

~

 

y

=α

+ βt,

 

2 квартал -

~

~

~

,

y

= α

+ βt +δ2

3 квартал -

y =α + βt +δ3,

 

~

~

~

 

4 квартал -

~

~

~

,

y

= α

+ βt +δ4

Усредняя четыре полученных уравнения, получим усредненную линию

~

~

~

где

α~ =

4α~ +δ2

+δ3

+δ4

~

 

4

 

регрессии y

=α

+ βt,

 

 

 

, а β = β . Расстояние между

определенной линией регрессии любого квартала и усредненной линией, которое представлено разностью значений постоянного члена в уравнении регрессий, дает оценку сезонных отклонений в рассматриваемом квартале.

Она составляет для 1 квартала - α~ α , для 2 квартала - α~ +δ2 α , для 3

квартала - α~ +δ3 α , для 4 квартала - α~ +δ4 α . Сумма сезонных отклонений должна быть равна 0, проверим это:

α~ α +α~ +δ2 α +α~ +δ3 α +α~ +δ4 α = 4α~ 4α +δ2 +δ3 +δ4 =

=4α~ 4 4α~ +δ2 4+δ3 +δ4 +δ2 +δ3 +δ4 =

=4α~ 4α~ δ2 δ3 δ4 +δ2 +δ3 +δ4 = 0 .

Выбор эталонной категории не оказывает воздействия на сущность уравнений регрессии. Сам выбор определяет форму представления коэффициента регрессии. Пусть в нашем примере выбрана эталонная категория для второго квартала. Тогда вводим новую фиктивную

переменную D1 =1, если наблюдение относится к 1 кварталу, и 0 иначе и опустим переменную D2 , т.к. фиктивная переменная для эталонной

категории не включается в уравнение регрессии. Переменные D3 и D4 включаются в уравнение с теми же определениями, что и раньше. Получим y =α + βt +δ1D1 +δ3D3 +δ4 D4 +u

Положим D1 = D2 = D3 = 0 и получим вариант уравнения для 1 квартала:

y =α + βt +δ1 = α +δ1 + βt .

Но интерпретация коэффициентов регрессии при введении новой эталонной переменной будет уже иной. Так, например, для уравнения

y =α + βt +δ2 D2 +δ3D3 +δ4 D4 +u коэффициент δ3 оценивает разность между потребленной электроэнергией в третьем и первом кварталах, а в уравнении

y =α + βt +δ1D1 +δ3D3 +δ4 D4 +u коэффициент δ3 есть разность между потребленной электроэнергией в 3-ем и 2-ом кварталах. Если включить в уравнение фиктивную переменную для эталонной категории то:

1.Если бы было возможно вычислить коэффициент регрессии, то им невозможно дать интерпретацию.

2.Фактически станет невозможной процедура вычисление коэффициентов уравнений регрессии.

Аналогично можно смоделировать сезонные колебания спроса на

мороженое.

Фиктивные переменные для коэффициента наклона

Ранее предполагалось, что качественные переменные, введенные в уравнение регрессии, отвечают только за сдвиги в значении постоянного члена в уравнении регрессии, а наклон линии регрессии одинаков для каждой категории переменных. Рассмотрим теперь фиктивные переменные коэффициента наклона. Для этого введем в рассмотрение модель:

y =α +δD + βx +u ,

где y – вес новорожденного (в граммах), x – количество выкуренных мамой в день сигарет, D - фиктивная переменная, принимающая значение D=1, если не первый ребенок и D = 0, если первый ребенок.

В этой формулировке явно предположение о том, что воздействие курения на вес новорожденного одинаково, независимо от того, первый ребенок или нет.

Добавим в уравнение член γDx - произведение D и x с коэффициентом

γ :

y =α +δD + βx +γDx +u ,

перепишем в виде

y =α +δD +(β +γD)x +u .

Если принять D=0, то y =α +δD + βx +u и угловой коэффициент k = β .

Если же D=1, то y =α +δD +(β +γ)x +u и угловой коэффициент k = β +γ . Поэтому величина γ рассматривается как разность между коэффициентом при показателе интенсивности курения в случае не первого ребенка и коэффициентом при показателе интенсивности курения в случае первого

ребенка. Показатель Dx – фиктивная переменная для коэффициента наклона. Он рассматривается как третья объясняющая переменная. Модель может иметь вид:

y = 3363 +143D 4x 8,1Dx .

Результат оценивания регрессии показывает, что снижение веса новорожденного, связанное с курением матери, значительно больше, для первого ребенка – 12,1 г на каждую сигарету в день против 4 г для непервого.

Регрессионная зависимость веса новорожденного (y) от интенсивности курения (x – число выкуренных в день сигарет), фиктивной переменной D (D=0 – первый ребенок, D=1 – не первый), фиктивной переменной М пола ребенка (М=0 – для девочек, М=1 для мальчиков), и фиктивной переменной для коэффициента наклона , определяемой как произведение M на х, имеет вид

~

= 3312 +124D +108M 10.5x +5.7Mx .

y

Возможны 4 случая различных попарных значений фиктивных переменных D и M:

1.

D = 0 ,

M = 0 ,

~

= 3312 10.5x .

y

2.

D =1,

M = 0 ,

~

= 3436

10.5x .

y

3.

D = 0 ,

M =1,

~

= 3420

10.5x +5.7x = 3420 4.8x .

y

4.

D =1,

M =1,

~

= 3544 10.5x +5.7x = 3544 4.8x .

y

Результат регрессии показывает, что снижение веса новорожденного, связанного с курением матери, значительно больше, если должна родиться девочка – 10,5 г против 4,8 г для мальчиков.

Вопрос в аудиторию. Какую модель необходимо построить, чтобы ответить на вопрос: каково снижение веса, связанное с показателем курения, на первого мальчика или непервую девочку? Какую фиктивную переменную для коэффициента наклона необходимо ввести?

Тест Чоу

На практике нередки случаи, когда имеются две выборки пар значений зависимой и объясняющих переменных. Например, одна выборка пар значений переменных объемом n1 получена при одних условиях, а другая объемом n2 - при других несколько измененных условиях. Необходимо выяснить, действительно ли две выборки однородны в регрессионном смысле? Другими словами, можно ли объединить эти две подвыборки в одну и рассматривать единую модель регрессии? Ответ на этот вопрос может дать тест Чоу.

Иногда выборка наблюдений состоит: из двух или более подвыборок, и трудно установить, следует ли оценивать одну объединяющую регрессию или отдельные регрессии для каждой подвыборки.

Пусть имеется 2 выборки А и В. Обозначим суммы квадратов остатков для регрессий подвыборок А и В через:

U A = ei2 (A), U B = ei2 (B).

Пусть суммы квадратов остатков в объединенной регрессии для наблюдений, относящихся к двум подвыборкам, равны соответственно

U PA = ei2 (PA ), U BP = ei2 (PB ).

y

Подвыборка

Подвыборка

x

Регрессии, оцениваемые для теста Чоу

Т.к. отдельные регрессии для подвыборок должны соответствовать наблюдениям так же хорошо, если не лучше, чем объединенная регрессия, то

P

,

P

 

 

 

 

U A U A

U B U BA .

 

 

 

 

 

 

P

P

=U

P

, где U P - общая сумма

Складывая неравенства U A +U B U A

+U B

 

квадратов остатков, U P ei2 (P).

Предположим, что имеются данные временного ряда по двум переменным и что в период выборки произошли структурные изменения, разд4еляющие наблюдения на подвыборки А и В.

y

x

Объединенная регрессия

Из рисунка видно, что если бы потребовалось объединить регрессию, то остатки были бы значительно больше.

В регрессии имеется k объясняющих переменных плюс одна константа, следовательно, имеем k + 1 степень свободы.

Рассмотрим F- статистику

F = ((U P U A )(U B )/(k +1))

U A +U B / n 2k 2

с (k+1) и (n-2k-2) степенями свободы.

Если F > Fкр , то не следует оценивать объединенную регрессию, а если

F < Fкр , то следует ее оценить. Fкр определяется из таблицы F- распределения Фишера при уровне значимости α и с (k+1) и (n-2k-2) степенями свободы.

3.2. Решение типовых задач

Пример 1. По статистическим данным сайта www.vladhome.ru построить модель ценообразования квартир г. Владивостока.

Рассматривается модель ценообразования однокомнатных квартир. В выборку включены 230 трехкомнатных квартир г. Владивостока. Среднее значение цены квартиры равно 36542 долларов. Среднее квадратическое отклонение показывает, на сколько цена квартиры y в среднем отклоняется от своего среднего значения. Результаты показали, что на 10881 долларов в среднем отклоняется цена квартиры от своего среднего значения.

К факторным признакам относятся: общая площадь x1 ( м2 ) – жилая площадь x 2

( м2 ) , площадь кухни x3 ( м2 ),

этажность –

x 4 , тип здания – x5 ,

наличие балкона либо лоджии –

x 6 , район города – x 7 .

 

 

 

Фиктивные переменные вводятся следующим образом: x 4

– этажность: переменная равна 0, если этаж первый или

последний;

1, если этаж второй или предпоследний;

2, если этаж средний; x5 – тип здания: 0,если здание панельное;

1, если

здание кирпичное; x 6

– наличие балкона либо лоджии:

0, если нет ни балкона, ни лоджии; 1, если имеется балкон; 2, если

имеется лоджия; 3, если имеются и лоджия и балкон;

x 7 – район: 0, если район периферийный; 1, если район – центр города.

Матрица парных коэффициентов корреляций имеет вид:

 

 

 

 

 

y

 

x1

 

x 2

 

 

x3

 

x 4

 

x5

 

x 6

 

x 7

y

 

1.00

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x1

 

0.56

 

1.00

 

 

 

 

 

 

 

 

 

 

 

 

 

x 2

 

0.44

 

0.78

 

1.00

 

 

 

 

 

 

 

 

 

 

 

x3

 

0.25

 

0.45

 

0.24

 

 

1.00

 

 

 

 

 

 

 

 

x 4

 

0.21

 

0.02

 

-0.06

 

 

0.08

 

1.00

 

 

 

 

 

 

x5

 

0.32

 

0.14

 

0.17

 

 

0.01

 

-0.08

 

1.00

 

 

 

 

x 6

 

-0.08

 

-0.02

 

-0.13

 

 

0.05

 

0.21

 

-0.48

 

1.00

 

 

x 7

 

0.46

 

0.19

 

0.23

 

 

-0.08

 

0.07

 

0.31

 

-0.30

 

1.00

Между ценой квартиры и общей площадью связь умеренная прямая, т.е. с увеличением общей площади цена квартиры увеличивается. ежду ценой квартиры и жилой площадью квартиры связь слабая прямая, т.е. с увеличением жилой площади цена квартиры увеличивается. Между ценой и площадью кухни квартиры связь слабая прямая, т.е. при увеличении площади кухни увеличивается цена. Между ценой квартиры и этажностью прямая, но практически отсутствует. Связь между типом дома и ценой квартиры прямая слабая, т.е. у квартир расположенных в кирпичных домах цена выше, чем в панельных. Cвязь между ценой квартиры и наличием балкона либо лоджии обратная и она практически отсутствует. Связь между ценой квартиры и районом расположения прямая слабая, т.е. квартира находящиеся в центре города оцениваются дороже, нежели в других районах города.

На основании матрицы парных коэффициентов корреляции можно сделать вывод о том, что общая площадь квартир и район являются наиболее существенными факторами, от которых зависит цена квартиры.

Составим уравнение

 

 

~

 

 

множественной регрессии: y = a 0 + a1x1 + a 7 x 7 .

Расчеты произведем в Excel:

 

 

 

 

ВЫВОД ИТОГОВ

 

 

 

 

 

 

 

 

 

 

Регрессионная статистика

 

 

 

 

Множественный R

0.66035895

 

 

 

 

R-квадрат

0.436073943

 

 

 

 

Нормированный R-квадрат

0.431083447

 

 

 

 

Стандартная ошибка

8236.902065

 

 

 

 

Наблюдения

229

 

 

 

 

Дисперсионный анализ

 

 

 

 

 

 

F

Значимость F

 

 

 

Регрессия

87.38088079

7.72866E-29

 

 

 

Остаток

 

 

 

 

 

Итого

 

 

 

 

 

 

 

 

 

 

Коэффициенты

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

-4369.689056

-1.058238577 0.291076458 -12506.36199

3766.983881

x1

607.8560818

9.56093149

2.09428E-18

482.5764482

733.1357154

x 7

12144.00236

7.179966463

9.96149E-12

8811.124935

15476.87979

Уравнение зависимости цены квартиры от общей площади и района имеет вид:

~y = −4369 + 608x1 +12144x 7 .

При увеличении общей площади квартиры на 1 м кв. цена квартиры увеличивается на 608 $, а квартира расположенная в центре стоит на 12183$ дороже, чем в периферийном районе.

Коэффициент множественной корреляции равен 0,66, что свидетельствует о тесной связи между факторными признаками и результативным. Коэффициент детерминации говорит о том, что 44% изменения цены квартиры объясняется размером общей площади и районом, где располагается квартира.

На 5% уровне модель значима, т.е. форма связи выбрана правильна. Подтверждается сила связи между признаками. Коэффициенты регрессии тоже значимы, это означает, что выводы, сделанные по этой модели можно переносить с выборочной совокупности на генеральную.

3.3. Задачи для самостоятельного решения Задача 1. Проанализируйте данные приложения, написав зависимость

между военными расходами и уровнем ВВП; проверьте тест Чоу для крупных и мелких стран.

Задача 2. Изучается зависимость спроса на персональные компьютеры

y от дохода на одного члена семьи – x. Результаты опроса мужчин и

женщин представлены на рис a., а результаты опроса всех взрослых в зависимости от жилищных условий приведены на рис б.

y

 

 

 

z1

 

z2

 

0

а

x

0

 

 

 

y

 

v2

v1

 

б

x

 

Определите, в каком случае возможно построение уравнения регрессии с включением фиктивной переменной. Напишите общий вид уравнения регрессии с фиктивной переменной. Укажите, как можно ввести в модель фиктивную переменную и как интерпретировать коэффициент регрессии при ней.

Задача 3. Смоделируйте сезонные колебания потребления электроэнергии Вашей семьей за последние три года с использованием фиктивных переменных. Постройте уравнение регрессии. Оцените его коэффициенты. Проведите анализ и сделайте вывод.

Глава 4. Моделирование динамических процессов

4.1.Теоретические основы

Под временным рядом в экономике понимается последовательность наблюдений некоторого признака (случайной величины) Y в последовательные моменты времени. Отдельные наблюдения

называются уровнями ряда и обозначаются y t .

В статистике

 

переменная

t -

время выступала в качестве

факторного

признака:

y = at + b ,

а

коэффициенты определялись по

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

a =

 

yt

y

t

 

 

 

 

 

 

 

 

 

 

 

 

 

(

 

)2

 

 

b =

 

a

 

.

 

 

 

t 2

 

 

формулам:

 

t

,

y

t

Рассмотрим регрессионную модель

временного ряда. Если в модели результаты предыдущих наблюдений влияют на результаты последующих, то такие модели называются моделями с наличием автокорреляции.

Рассмотрим временной ряд – ряд последовательных значений курса ценной бумаги в моменты времени от 1 до 278. Результаты наблюдений можно графически представить в виде:

38

 

 

 

 

 

37

 

 

 

 

 

36

 

 

 

 

 

35

 

 

 

 

 

34

 

 

 

 

 

33

 

 

 

 

 

32

 

 

 

 

 

31

 

 

 

 

 

30

 

 

 

 

 

1

51

101

151

201

251

Курс ценной бумаги имеет тенденцию к снижению, это видно из графика. Оценивая обычным МНК зависимость курса акции от времени получим: y = −0.0063t + 35.807 . Естественно предположить, что результаты предыдущих торгов оказывают на результаты последующих: если в какой-то момент времени курс окажется завышенным по сравнению с реальным, то скорее всего он будет и завышен на следующих торгах, т.е. имеет место положительная автокорреляция. Графически положительная автокорреляция выражается в чередовании зон, где наблюдаемые значения оказываются выше расчетных и зон, где наблюдаемые значения ниже.

Отрицательная автокорреляция встречается в тех случаях, когда наблюдения действуют друг на друга по принципу маятника – завышенные значения в предыдущих наблюдениях приводят к занижению их в наблюдениях последующих. Графически это выражается в том, что результаты наблюдений «слишком часто» перескакивают график регрессии.

В случае наличия автокорреляции коэффициенты регрессии оказываются заниженными и результаты тестирований гипотез оказываются недостоверными.

Если рассматривается ряд значений курса ценной бумаги, то результат последних торгов служит отправной точкой для формирования курса на следующих торгах. Можно предположить наличие корреляция между соседними членами. Тест на наличие автокорреляции между соседними членами – тест Дарбина-Уотсона состоит в следующем. Рассчитывается статистика ДарбинаУотсона:

 

T

 

d =

(et et 1 )2

 

t =2

 

T

 

 

et2

.

 

t =1

Существует известная взаимосвязь между данной статистикой и коэффициентом корреляции: d 2(1 r) . По таблицам значений статистик

Дарбина-Уотсона определяются границы dL и d U при числе наблюдений n и числе факторных признаков k. Определяется, какому интервалу принадлежит d:

1.

если

0 <d <dL , то имеет место положительная автокорреляция,

 

2.

если

d L < d < d U , то

невозможно решить

вопрос

о

наличии

 

автокорреляции,

 

 

 

 

3.

если

d U < d < 4 d U , то автокорреляция отсутствует,

 

 

4.

если

4 d U < d < 4 d L ,

то невозможно решить

вопрос

о

наличии

 

автокорреляции,

 

 

 

 

5.

если

4 dL <d < 4 , то имеет место отрицательная автокорреляция.

При наличии автокорреляции нельзя оценивать коэффициенты

регрессии

обычным методом

наименьших квадратов.

Рассмотрим

модель

yt = a + bx t , при t-1 эта модель примет вид:

yt1 = a + bx t1

Домножим это уравнение на ρ = const :

ρyt1 a + bρx t1 .

Вычтем из модели для времени t модель для t-1 и упростим ее:

ρyt 1 yt = ρa a +bρx t 1 bx t ;

yt −ρyt1 = a(1 −ρ) + b(x t −ρx t1 )

Заменим:

yt −ρyt1 = yt , x t − ρx t1 = xt , a(1 − ρ) = a,

получим yt = a′ + bxt . Для оценки параметров aи b в этой регрессии можно применить обычный метод наименьших квадратов.

Итак, если исходное уравнение содержит автокорреляцию, то для оценки его параметров используют обобщенный метод наименьших квадратов, этапы которого следующие:

1. Преобразовать исходные временные ряды y t и x t к yt и xt .