Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

41_4_Econometrics_Polyansky__Part_4

.pdf
Скачиваний:
25
Добавлен:
05.06.2015
Размер:
1.44 Mб
Скачать

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Полянский Ю.Н.

 

 

 

 

 

 

 

Эконометрика. Экономическое моделирование и прогнозирование.

 

Решение.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Для исследования статистической однородности двух выборок разра-

ботаны несколько подходов. Например можно:

 

 

 

 

 

1)

построить и сравнить интервальные оценки параметров регрессии

для каждой выборки отдельно. Если доверительные интервалы пересекают-

ся,

значит можно строить единую модель.

 

 

 

 

 

 

 

2)

использовать различные критерии однородности выборок, напри-

мер, критерий Г.Чоу.

 

 

 

 

 

 

 

 

 

 

 

 

 

Последний критерий наиболее употребим и распространен из-за своей

простоты и надежности. В целом его суть состоит в следующем.

 

 

Пусть 1-я выборка имеет объем n1 =20 , 2-я -

n2 =10 . Объединенная

выборка имеет объем n =n1

+n2

=30 .

 

 

 

 

 

 

 

а)

Для каждой выборки строится своя регрессионная модель:

 

 

 

 

 

yi

=b0( 1 ) + p

b(j

1 ) xij

+ε i( 1 ) ,

i =1,2 ,...,n1 ;

 

 

 

 

 

 

 

 

j =1

 

 

 

 

 

 

 

 

 

 

 

 

 

yi

=b0( 2 ) +p

b(j

2 ) xij

+ε i( 2 ) ,

 

i = 1,2 ,...,n2 ;

 

 

 

 

 

 

 

+p

j=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y =b0

b j x j

 

+ε ,

 

i = 1,2 ,...,n .

 

 

 

 

 

 

 

j=1

 

 

 

 

 

 

 

 

 

 

 

 

б) Выдвигается гипотеза о равенстве векторов коэффициентов регрес-

сии и дисперсий возмущений

(статистической однородности) 1-й и

2-й мо-

делей:

H 0

:

 

b( 1 ) = b( 2 ) ,

 

D( ε ( 1 )

) = D( ε ( 2 )

) =σ 2 .

 

 

в)

H 0

отвергается на заданном уровне значимости α, если

 

 

 

 

 

F =

( Se Se( 1 ) Se( 2 ) )( n 2 p 2 )

> Fα; p+1 ;n2 p2 ,

 

 

 

 

 

 

( Se( 1 ) + Se( 2 ) )( p + 1 )

 

 

где

Se( 1 ) = n1

( ei( 1 )

)2 ;

Se( 2 )

=n1

( ei( 2 ) )2 ;

Se

= n

ei2

- остаточные

суммы

 

 

 

i =1

 

 

 

 

i =1

 

 

 

 

i =1

 

 

 

 

квадратов соответственно для 1-й, 2-й и объединенной выборок.

 

Работаем с 1-й моделью.

 

Запустим инструмент «Регрессия»

пакета

анализа, поставив в диалоговом окне (рис.4.12) галочку в поле «Остатки».

Результат лучше вывести на отдельный лист.

В полях «Входной интервал Y»

и «Входной интервал X» инструмента зададим ячейки расчетной таблицы,

относящиеся

к первой выборке, т.е. соответственно ячейки G6:G25 и

С6:F25.

Лист с итогами расчета назовём

«1-я подвыборка», щёлкнув два-

жды мышкой на названии листа.

 

 

 

 

 

 

 

 

98

Полянский Ю.Н.

Эконометрика. Экономическое моделирование и прогнозирование.

 

На

нем

в

таблице

 

 

«Вывод остатка» по-

 

лучим

(в

квадраты

 

остатков

ячейках

 

D28:D47). Для этого в

 

D28

введём

формулу

 

«=C28*C28»

и протя-

 

нем по D28:D47. А за-

 

тем в ячейке

D48 по-

 

лучим

 

сумму

 

«=СУММ(D28:D47)»:.

 

Можно

использовать

 

также

встроенную

 

функцию

СУММКВ

 

(попробуйте

самосто-

 

ятельно).

Аналогично

 

получаем

 

 

Рис. 4.12

 

 

Se( 1 ) =n1

( ei( 1 ) )2 =65,98 ; Se( 2 )

= n

( ei( 2 ) )2 =6,91;

Se =n

ei2

=127,45.

i =1

 

i=n1 +1

i =1

 

 

Чтобы было удобно, расчеты проведем на основном листе под расчет-

ной таблицей, сведя вместе ссылками полученные суммы (рис.4.13).

Осталось только вычислить F -статистику. Запрограммировав её

формулу «=((B41-B39-B40)*(A35-2*B38-2))/((B39+E40)*(B38+1))», получим

F = 3,307 > Fα; p+1;n2 p2

= F0 ,05 ;4+1;302 4 2 = F0 ,05 ;5 ;20 = 2,71.

Есть основания отвергнуть нулевую гипотезу о статистической одно-

родности 2-х выборок. Данные первых 20-ти и послед-

 

 

 

 

 

 

них 10-ти квартир приведенного списка нельзя объеди-

 

 

 

нить в одну выборку и строить по ней одну регрессион-

 

 

 

ную модель. Такой результат возможен из-за различных

 

 

 

причин. Например, потому, что две подвыборки получе-

 

 

 

ны в несколько разное время или данные из не очень до-

 

 

 

 

 

Рис. 4.13

стоверных источников. Кроме того, сами объемы выбо-

 

рок не столь велики. Не случайно в задаче 3.2 объединенная модель имеет невысокую точность (коэффициент детерминации R 2 =0 ,842 ).

Задача 4.4

Входе социологических исследований проводится анализ зави- симости среднедушевых расходов семьи от среднедушевых доходов. Статистические данные о 15 случайно отобранных семьях представ- лены в расчетной таблице (рис. 4.14). По ним:

1)построить модель парной линейной регрессии;

99

Полянский Ю.Н. Эконометрика. Экономическое моделирование и прогнозирование.

2)по общему виду графика регрессии сделать предварительный вывод о нали- чии в модели гетероскедастичности;

3)исследовать модель на гетеро- скедастичность с помощью теста ранго-

вой корреляции Спирмена на уровне значимости α =0 ,05 ;

4)аналогичное выполнить с помощью теста Голдфелда-Квандта;

5)сделать вывод.

Решение.

 

 

 

 

 

 

 

 

 

 

 

 

В данной модели объясняющая пере-

 

 

 

 

 

 

 

менная

X -

среднедушевой

доход семьи

 

 

 

 

 

 

 

(тыс.руб.

на

1

чел. в месяц),

объясняемая

 

 

 

 

 

 

 

переменная

Y -

среднедушевой расход се-

 

 

 

 

 

 

 

мьи (тыс.руб. на 1

чел. в месяц). Объем вы-

 

 

 

 

 

 

 

борки n =15 (в учебных целях он намерен-

 

 

 

 

 

 

 

но взят небольшой, в действительности же-

 

 

 

 

 

 

 

лательно иметь существенно больший объ-

 

 

Рис. 4.14

 

 

ем выборки).

 

 

 

 

 

 

непостоянство

дисперсий

Как известно, гетероскедастичность

ошибок регрессии для различных участков исследуемого диапазона объяс-

няющей переменной

X : D( ε i ) D( ε j ) ( i =1,2 ,...,n , j =1,2 ,...,n , i j ).

Это явление «вредное». Оно существенно «портит» результаты статистиче-

ского анализа, снижает точность модели и требует устранения.

Конкретно

гетероскедастичность

выражается в том, что при различных

X

разброс

наблюдаемых значений от прогнозных существенно непостоянен.

На гра-

фике регрессии

Y

на

X это выражается в том, что наблюдаемые значения

располагаются внутри полосы, ширина которой непостоянна

(см. далее

рис.4.15).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1) Сначала необходимо упорядочить данные расчетной таблицы по

возрастанию

X (не потеряйте соответствия строк в столбцах Y и X ).

Найдем оценки коэффициентов парной линейной регрессии

(с помо-

щью любого из известных средств, например Пакетом анализа):

 

 

 

ˆ

=

0 ,497

,

ˆ =

0 ,044 , т.е. искомая модель

ˆ =

0,044

+

0,497 x .

b

 

a

y

 

2) Построим общий точечный график наблюдаемых (эксперименталь-

ных) и прогнозных (оценочных) значений (рис.4.15).

Анализ графика пока-

зывает,

что разброс наблюдаемых значений от прямой линии регрессии

непостоянен при малых и больших X .

 

 

 

 

 

 

 

100

Полянский Ю.Н.

Эконометрика. Экономическое моделирование и прогнозирование.

Воображаемая полоса, внутри

 

 

 

 

которой находятся эксперимен-

 

 

 

 

тальные точки,

расширяется с

 

 

 

 

ростом

X . Это внешний при-

 

 

 

 

знак

гетероскедастичности.

В

 

 

 

 

линейной

регрессии

это

часто

 

 

 

 

очевидно.

В нелинейной,

когда

 

 

 

 

сама

линия

регрессии

 

может

 

 

 

 

сильно

изгибаться,

 

 

разброс

 

 

 

 

наблюдать

 

сложнее.

 

Тогда

 

 

 

 

можно

проанализировать

гра-

 

 

 

 

фик

 

остатков

ei

=

yi

ˆ

 

 

 

 

 

 

 

 

yi

 

 

 

 

(рис.4.16).

Напомним,

 

чтобы

 

 

 

 

получить прогнозные значения

 

 

 

Рис. 4.15

Y

и остатки,

можно при вызове

 

 

 

инструмента

«Регрессия» паке-

 

 

 

 

та анализа Microsoft

Excel

по-

 

 

 

 

ставить

 

галочку

 

в

 

поле

 

 

 

 

«Остатки» (см.

рис.1.30 зада-

 

 

 

 

чи 1.4).

Для дальнейших расче-

 

 

 

 

тов

скопируем

рассчитанные

 

 

 

 

пакетом анализа значения

ˆ

и

 

 

 

 

yi

 

 

 

 

ei

в расчетную таблицу

в

 

 

 

 

столбцы D

и E (см. рис.4.17).

 

 

 

 

Рис. 4.16

 

 

Удобно графики

(рис.4.14 и 4.15) размещать один под другим в одном

масштабе по

OX для сопоставления. Видно,

что разброс остатков суще-

ственно непостоянен по

X ,

т.е.

в модели имеет место гетероскедастич-

ность.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3) Однако, такую визуальную картинку можно получить не всегда. Да

и степень проявления гетероскедастичности трудно оценить «на глаз».

 

 

Проверим предварительный вывод о наличии в данной модели гетеро-

скедастичности с помощью теста ранговой корреляции Спирмена [17].

 

 

В его основе лежит идея о том, что в случае гетероскедастичности аб-

солютные величины регрессоров

xi и остатков ei коррелированны. Надо

проанализировать коэффициент ранговой корреляции этих величин

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6n

d i2

 

 

 

 

 

 

 

 

 

 

 

 

ρ x ,e = 1

i =1

 

,

 

 

 

 

 

 

 

 

 

 

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n n

 

где d i - разность между рангами абсолютных значений xi и ei .

Дальнейшие вычисления можно проследить по рис.4.17.

101

Полянский Ю.Н. Эконометрика. Экономическое моделирование и прогнозирование.

Рис. 4.17

В столбцах F и G расчетной таблицы вычислим значения xi и ei с помощью функции ABS.

Ранжируем (т.е. определим ранги) наблюдений по xi и ei . Для этого сначала упорядочим (пункт меню «Данные/Сортировка») расчетную табли- цу по возрастанию xi - столбца F (не забудьте выделить всю таблицу, а не только нужный столбец). В упорядоченной таблице в столбце H впишем номера (ранги N ) наблюдений в порядке возрастания xi : 1,2,3,…15.

Можно это сделатьx не вручную, используя средства Microsoft Excel. Задав в ячейках H2, H3 первые номера (1 и 2), а затем выделим H2:H3 и протянем до H16. (можно и иначе: протянем ячейку H2 за точку в нижнем правом уг- лу при нажатой клавише Ctrl).

102

Полянский Ю.Н.

Эконометрика. Экономическое моделирование и прогнозирование.

 

Аналогично поступим с

 

ei

 

 

. Упорядочим таблицу по столбцу G. В

 

 

 

 

столбце I получим ранги N e

наблюдений в порядке возрастания

 

ei

 

.

 

 

!

Внимание! После вычисления рангов таблицу необходимо опять упо-

рядочить по исходному возрастанию xi .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В столбце J

вычислим разности

рангов

d i

= N x i

N e i

, только что

полученных в столбцах H и I, а в столбце K

квадраты разностей di2 .

 

Остается только в ячейке K17 вычислить

n

d i2 , т.е. просуммировать

данные ячеек K2:K16.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i =1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Получены все предварительные данные. Вычислим в ячейке C21 ко-

эффициент Спирмена,

введя формулу

 

«=1-(6*K17)/(B17*B17*B17-B17)».

Полученное значение

ρ x ,e =0 ,757 достаточно близко к

1,

что свидетель-

ствует о наличии между абсолютными величинами регрессоров xi

 

и остат-

ков

ei

достаточно тесной корреляционной связи. В анализируемой выборке

присутствует гетероскедастичность.

 

 

коэффициент?

Насколько ему

 

Но насколько значим

полученный

«можно доверять»?

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Коэффициент ранговой корреляции Спирмена значим на уровне α,

если t-статистика Стьюдента при числе степеней свободы

(n-2)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t

 

=

 

 

ρ x ,e

 

 

n

2

> t1α;n2 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рассчитаем

 

 

 

 

 

 

 

 

 

1 − ρ x2 ,e

 

 

в

ячейке

 

 

по

 

формуле

 

t-статистику

Стьюдента

C22

 

«=ABS(C21)*КОРЕНЬ(B17-2)/КОРЕНЬ(1-C21*C21)»:

 

t

 

= 4 ,179 .

 

 

 

 

 

 

 

Табличное значение t1α;n2

 

 

 

 

 

 

и степе-

нях

для уровня значимости

 

 

α =0 ,05

 

свободы

 

 

 

 

n 2 = 15 2 = 13

найдем

по

 

таблице

2

приложения:

t1α;n2

= 2 ,16 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Так как

 

 

t

 

= 4 ,179 > t1α;n2

= 2 ,16 , то коэффициент Спирмена значим

 

 

 

 

на указанном

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

уровне.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4) Кроме теста Спирмена для выявления гетероскедастичности широ-

ко используется тест Голдфелда-Квандта. Его общая идея: гетероскедастич-

ность наблюдается в случае, если дисперсии остатков существенно различ-

ны для двух наборов по k наблюдений,

взятых из различных частей упоря-

доченной выборки. Гипотеза

H o

об отсутствии гетероскедастичности от-

вергается, если

 

F = S max

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

> F

 

p

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Smin

 

α;k p ;k

 

 

 

 

 

 

 

 

 

 

 

 

 

Здесь

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Smax

=max S1 ; S2 ,

Smin =min S1 ; S2

;

 

 

 

 

 

 

 

 

 

 

 

 

 

103

Полянский Ю.Н. Эконометрика. Экономическое моделирование и прогнозирование.

S1 =k

ei2 ;

S2 =

n

ei2 ;

 

i =1

 

i =nk +1

 

p - число регрессоров (объясняющих переменных), p =1 .

 

Мощность теста максимальна, когда сравниваются первые и послед-

ние 30…35% наблюдений, т.е. k n

3 .

 

 

Вычисления продолжим в той же расчетной таблице. Объемы частей

основной выборки

k = 15 / 3 =5 в этом случае вычислим в ячейке С24

по

формуле «=ЦЕЛОЕ(B17/3)». Для расчетов требуются значения ei2 , которые

вычислим в дополнительном столбце L.

 

 

 

 

Необходимые суммы m

ei2 и

n

ei2 - это не что иное,

как суммы

 

i =1

 

i =nm+1

 

 

 

соответствующих ячеек L2:L6

и L12:L16 (т.е. для первых 5 и последних 5

наблюдений при упорядочении выборки по возрастанию

xi ). Их вычислим

в ячейках D25 и J25.

 

 

 

 

 

 

 

Далее найдем отношения полученных сумм (1-й ко 2-й и наоборот),

чтобы выбрать из ним максимальное.

В ячейке С26 по формуле «=D25/J25»

получим F1 =0 ,035 , а в E26 по формуле «=J25/D25» получим F2

= 28 ,723 .

Табличное максимально допустимое значение

Fα;mp ;mp

найдем по

таблице критерия Фишера-Снедекора для α =0 ,05

и

k p = 5 1 = 4 :

Fтабл. =6 ,39 (таблица 4

приложения).

 

 

 

 

 

Так как Fmax = F2

= 28 ,723 > Fтабл. = 6 ,39 , то гипотеза об отсутствии

гетероскедастичности отвергается, принимается гипотеза об её наличии. Напомним, что можно находить отношение не только первых 30% к

последним 30% наблюдений, но и наоборот, а также центральных к первым и центральных к последним наблюдениям.

5) Полученные результаты попробуем понять с экономической точки зрения. В данной задаче установлено, что в анализируемой выборке для се- мей с большими доходами ( X ) разброс в уровне расходов (Y ) значительно больший, чем для семей с малыми доходами. Действительно, затраты бед- ных семей практически одинаковы. Им просто нечем отличаться. А вот рас- ходы богатых семей существенно отличаются друг от друга. Кто-то доходы тратит на путешествия, недвижимость и т.п., а кто-то большую часть откла- дывает "на чёрный день" (а, возможно, и скрывает расходы).

Причины этого необходимо устанавливать, делать социологические, экономические и др. выводы, но это уже не задачи эконометрики.

104