Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Эконометрика. Тихомиров

.pdf
Скачиваний:
405
Добавлен:
27.03.2016
Размер:
6.13 Mб
Скачать

В этой связи модели типа (10.28), (10.30) могут быть интерпретированы как сплайн-функции, у которых зависимая переменная у одинаково и

“монотонно” реагирует на изменения “количественных” независимых переменных хi на всех рассматриваемых временных интервалах и скачкообразно меняется при смене интервала.

Вместе с тем, фиктивные переменные могут быть применены при построении сплайн-функций любой модификации. Рассмотрим следующий пример. Пусть зависимая переменная у характеризует уровень дохода, а

единственная переменная х – возраст индивидуума.

Предполагается, что в различных возрастных группах доход определяется специфическими формами зависимости следующего вида:

y 0

1

x, x 20;

0

0

 

 

 

y 0

 

 

 

1

 

y 0

1

x, x 30.

2

2

 

1 1

x,20 x 30;

(10.34)

Введем фиктивные переменные d1 и d2, такие что d1=1, если х 20, и d2=1,

если х 30. Тогда три уравнения из выражения (10.34) могут быть объединены в одно, следующего вида:

0

0

1

d1

1

2

d2

2

d2 x .

(10.35)

y 0

1

x 0

1

d1 x 0

1

Заметим, что коэффициенты наклона на рассматриваемых участках

согласно выражению (10.35) определяются следующим образом:

10 ,

если x 20;

 

 

10 11, если 20 x 30;

(10.36)

y10 11 12 , если x 30.

асвободные члены должны удовлетворять условию равенства функции у

соответствующих участков х=20 и х=30. Исходя из этого получим

00 10 20 ( 00 10) ( 10 11) 20,

 

0

 

1

 

 

0

 

1

 

0

 

1

 

2

 

0

 

1

 

2

0

0

1

1

0

 

0

 

0

1

 

1

 

1

) 30. (10.37)

(

 

 

) (

 

) 30

(

 

 

 

) (

 

 

 

Выражение (10.37)

определяет систему линейных ограничений на

коэффициенты модели

(10.34) следующего вида:

 

 

0

1 20 0

0

20 1;

 

 

1

1

1

1

 

 

 

02

12 30 0 02 30 12 .

(10.38)

Подставляя ограничения (10.38) в (10.35), получим рассматриваемую модель дохода как сплайн-функцию в следующем виде:

y 0

1

x 0

d1

(x 20) 1 d2 (x 30) .

(10.39)

0

0

1

 

2

 

где, напомним, d1 и d2 – фиктивные переменные, принимающие значения 1 на втором и третьем возрастных интервалах соответственно, и 0 – в противном случае.

В “фиктивной” форме может быть выражена и зависимая переменная.

Такая ситуация имеет место, например, при проведении социологических опросов, когда их результат может быть представлен двумя ответами “да”, “нет” (1 или 0) (предполагаемая покупка автомобиля, дачи; желание иметь ребенка в семье и т. п.), а влияющие на этот результат факторы выражаются в произвольной форме (количественные характеристики – уровень дохода,

жилая площадь и т. п., качественные характеристики – уровень образования

и т. д.). Тогда расчетные значения y , определенные по модели при различных комбинациях значений независимых переменных хi, можно интерпретировать как оценку условий вероятности события у при фиксированных значениях хi, i=1,2,..., п.

10.3. Модели с дискретными зависимыми переменными

Как следует из

рассмотренного в предыдущих разделах материалов, в

эконометрических

исследованиях

обычно

предполагается,

что

результирующий показатель yt, является количественной величиной, которая в принципе может принимать любые значения на множестве действительных чисел. Однако в экономических и социальных исследованиях часто приходится сталкиваться с разного рода ограничениями на значения зависимой переменной. В частности, зависимая переменная может принимать только целочисленные значения: 0, 1, 2,... Примерами таких зависимых переменных являются:

1а. Семейное положение, которое выражается следующими категориями (и

соответствующими целыми числами):

холост (1);

женат (2);

вдовец (3);

разведен (4).

1б. Альтернативные товары, между которыми выбирает покупатель, и

которые представляются следующими числами:

марка А(1);

марка Б(2);

марка В(3);

марка Г(4);

прочие марки(5).

Очевидно, что в обоих случаях числа служат только для разграничения понятий. Расстояние между двумя числами не имеет никакого значения.

2а. Оценки, полученные на экзамене:

отлично(5);

хорошо(4);

удовлетворительно(3);

неудовлетворительно(2). 2б. Классы гостиниц:

пять звезд(1);

четыре звезды(2);

три звезды(3);

две звезды(4) и т. д.

В случаях 2а и 2б (в отличие от 1а и 1б) понятия естественным образом упорядочены, и характеризующие их числа отражают этот порядок. Но различия между 1 и 2 понятиями не обязательно столь же сильные, как между 2 и 3 и т. д.

3. Число предприятий, обанкротившихся в текущем году (0,1,2...). Так называемые счетные данные (count data).

При представлении значений зависимой переменной в целочисленном виде эконометрическая модель, связывающая эти значения с соответствующим набором независимых факторов, имеет специфическое содержание. Обычно такая модель определяет вероятность осуществления события, заключающегося в том, что при известных уровнях независимых факторов зависимая переменная примет конкретное значение j из заданного набора значений j=0,1,2,....

Содержательное уравнение такой модели выглядит следующим образом:

Вероятность(событие j произойдет)=

=Вероятность(Y=j)=F(параметры, факторы). (10.40)

Модели с дискретными зависимыми переменными могут быть классифицированы в зависимости от:

а) типа переменных;

б) выбранного закона распределения.

Всвою очередь, внутри выделенных групп может быть развернута более подробная классификация в зависимости от более детальных свойств классификационных признаков. Эти детальные группировки будут рассмотрены по ходу дальнейшего изложения материала.

Внаучной литературе в зависимости от типа переменных модели с дискретными зависимыми переменными разделяются на модели выбора

среди конечного числа альтернативных вариантов (примеры 1а,1б,2а,2б)

имодели счетных данных (пример 3).

Взависимости от числа вариантов, среди которых осуществляется выбор,

различают модели бинарного выбора и модели множественного выбора. В

отличие от моделей множественного выбора в моделях бинарного выбора результирующий показатель может принимать только два значения: 0 и 1.

К моделям множественного выбора относятся модели с неупорядоченными

(примеры 1а, 1б) и упорядоченными (примеры 2а, 2б) альтернативными вариантами.

Рассмотрим особенности формализованного представления эконометрических моделей с различными видами дискретных зависимых переменных более подробно.

10.3.1. Модели бинарного выбора

Модели бинарного выбора широко используются в экономических и социальных исследованиях, особенно в экономике труда, при проведении анализа на микро-уровне. Покажем их специфические свойства на примере модели трудовой активности населения, исходные предпосылки которой состоят в следующем. Индивидуум в определенный период времени может работать или искать работу (y=1) или не делать этого (y=0). Предположим,

что состояние “работать” или “не работать” определяется набором факторов

(возраст, семейное положение, образование, опыт работы и т. д.), и

соответствующие вероятности можно представить в следующем виде:

P(y=1)= F( x);

P(y=0)=1–F( x). (10.41)

Вектор коэффициентов отражает влияние факторов, например,

характеризующих положение индивидуума в обществе, на рассматриваемую вероятность.

Одной из основных проблем при построении моделей бинарного выбора является обоснование функционала F( x). Например, предположим, как и в случае “классических” эконометрических моделей, что вероятности соответствующих событий могут быть представлены в виде линейной функции от значений рассматриваемых факторов:

 

 

 

 

 

F( x)= x= 0+ 1x1+...+ nxn,

(10.42)

где 0, 1,...,

n

параметры модели; x1,..., xn – значения

независимых

факторов.

 

 

 

 

 

 

Тогда, приняв

 

 

 

M[yt|x t]=F( xt), соответствующую эконометрическую

y

t

 

 

 

 

 

модель можно представить в следующем виде:

 

 

 

 

 

 

yt =M[yt |x t]+(yt M[yt |x t])= x t + t.

(10.43)

 

 

 

 

 

 

 

где M[yt|x t]=

y t – условное математическое ожидание переменной yt при

условии, что вектор независимых переменных равен x t.

Линейная форма модели представляет определенное удобство для

раскрытия содержания, входящих в нее слагаемых. Прежде всего заметим,

что между их значениями выполняется следующие соотношения (см. табл.

10.1).

 

 

 

Таблица 10.1

 

 

 

 

 

 

 

 

 

 

 

P(уt=...)= y t

 

 

 

уt

 

 

t

 

 

 

 

 

 

1

xt

1– xt

(с вероятностью xt)

 

 

 

 

 

0

xt

xt (с вероятностью 1– xt)

 

 

 

 

 

 

Из табл. 10.1. следует, что ошибки t модели (10.43) имеют следующие характеристики:

M[ t]= xt(1– xt)+ (1– xt)( – xt)=0; D[ t|xt]= xt(1– xt)2+(1– xt)(– xt) 2= xt(1– xt)(1– xt+ xt)=

= xt(1– xt). (10.44)

где D[ t|xt] – условная дисперсия ошибки

t

при условии, что вектор

независимых переменных равен x t.

 

 

Рассмотрим в качестве критерия выбора оценок параметров модели

(10.43) минимум суммы дисперсий ее ошибок t:

 

 

s

 

 

xt) +

( xt) = ' xt(1– xt) + ( 1– xt)(– xt)

=

2

(1

2

 

 

 

2

2

2

 

 

 

 

 

 

 

 

 

 

 

 

y

1

 

y

0

t 1

t 1

 

 

 

t

 

 

 

t

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

' xt(1– xt)=

D[ t | xt ] min.

(10.45)

 

 

 

 

t 1

 

 

 

t 1

 

 

Используя МНК

для оценки

параметров

модели (10.43) при

критерии

(10.45), получим следующую систему “нормальных” уравнений,

относительно неизвестных оценок а0, а1,..., аn:

s2

 

 

 

 

 

2

 

 

0

 

 

 

(a0

+ a1 x1t +...+ an xnt ) (a0 + a1 x1t +...+ an xnt )

 

;

a0

 

a0

 

 

t

t

 

 

 

 

s2

 

 

 

 

 

2

 

 

0

 

 

 

(a0

+ a1 x1t +...+ an xnt ) (a0 + a1 x1t +...+ an xnt )

 

.

 

an

 

 

an

 

 

t

t

 

 

Выполнив дифференцирование с учетом попарной независимости коэффициентов между собой и со значениями факторов хit, i=1,2,...,T, эту систему можно представить в следующем виде:

2T a0

+ a1

x1t +...+ an xnt

T;

 

 

 

 

 

 

 

 

 

 

 

t

 

 

 

 

 

t

 

 

 

 

 

 

 

 

 

 

 

 

 

a

0

x

1t

+ 2 a x

2

+... a

n

x

1t

x

 

x

1t

;

 

1t

nt

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t

 

 

t

 

 

 

 

 

 

 

t

 

 

 

 

 

 

t

 

 

 

 

 

 

a

 

x

nt

+...+ a

x

1t

x

 

+...2 a

 

x

2

x

 

.

0

nt

n

nt

nt

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t

 

 

 

t

 

 

 

 

 

 

 

 

 

 

t

 

 

t

 

 

 

 

В свою очередь, последняя система может быть представлена в векторно-

матричном виде следующим образом:

2T

x 1t ...

x nt

 

a0

 

T

 

 

t

 

t

 

 

 

x 1t

 

x 1t

 

2

x 1t

x nt

 

 

 

 

2 x 1t ...

 

a1

 

 

t

t

 

t

 

t

(10.46)

 

 

 

 

 

...

...

...

...

...

...

 

 

 

 

x nt

x nt x 1t ...

 

2

 

an

 

x nt

 

2 x nt

 

 

 

t

t

 

t

 

 

 

 

t

 

 

 

 

 

 

 

 

или в компактной форме записи как

 

 

 

2T

 

x 1t ...

x nt

 

 

 

 

 

t

 

t

 

 

 

 

x

 

 

2

x 1t

x nt

где

матрица

X

1t

2 x 1t ...

t

 

t

 

t

 

 

 

 

 

 

 

 

 

 

...

 

...

...

...

 

 

 

 

x nt

x nt x 1t ...

 

2

 

 

 

2 x nt

 

 

 

t

 

t

 

t

 

z [T , x 1t,..., x nt ]' .

 

 

 

 

 

 

 

t

t

 

 

 

 

 

 

 

X a=z,

(10.47)

ивектор-столбец

Из выражения (10.47) непосредственно вытекает, что неизвестные оценки параметров бинарной модели линейного типа могут быть получены на основании следующего выражения:

a=X–1 z,

(10.47)

Однако линейная интерпретация (10.42) закона распределения

вероятностей

достаточно “неудобна” по своим “эконометрическим

следствиям”.

 

Во-первых, заметим, что из выражения (10.44) вытекает, что ошибка гетероскедастична, поскольку дисперсия ошибки зависит от вектора x. В

таких условиях оценки параметров модели (10.43), полученные на основе выражения (10.48), являются неэффективными. Для получения эффективных

оценок ее параметров, необходимо использовать обобщенный МНК.

Во-вторых, любой метод оценки параметров линейных моделей бинарного выбора не дает гарантий, что результат произведения x может принимать

значения только на интервале [0, 1]. С учетом выражения (10.44) несложно заметить, что при отрицательных значениях этого произведениях и значениях больших единицы будет иметь место и другой абсурдный результат – отрицательная дисперсия остатков. Это обстоятельство существенно ограничивает область применения линейной модели бинарного выбора. На практике она используется только для предварительной обработки данных и для сопоставления с результатами, полученными более тонкими методами.

Из приведенных рассуждений вытекает, что модель бинарного выбора должна удовлетворять двум условиям:

и

lim

P(Y 1) 1

 

' x

 

 

 

lim P(Y 1) 0,

(10.49)

' x

где x – область значений x, при которых P(y=1)=1, а x – – область значений x, при которых P(y=1)=0.

При этом между значениями составных частей регрессионного уравнения должно выполняться следующее соответствие (см. табл. 10.2).

 

 

 

 

Таблица 10.2

 

 

 

 

 

 

 

P(уt=...)=

 

t

 

 

 

y

 

 

 

 

 

 

 

уt

 

 

 

t

 

 

 

 

 

 

 

1

F(xt)

 

 

1– F(xt)

 

 

 

 

 

0

1– F(xt)

–(1– F(xt))

 

 

 

 

 

 

 

Условиям (10.49) отвечает, например, функция F(x), близкая к закону нормального распределения, график которой представлен на рис. 10.2. Ее использование позволяет снять рассмотренные выше ограничения моделей бинарного выбора. Модели с функционалом, обладающим свойством

“нормального закона“, в литературе получили название probit-моделей:

P(Y=1)=

' x

(u)du

 

 

 

(x).

(10.50)

где Ф(.) – функция стандартного нормального распределения, зависящая от значений факторов x и параметров , (u)– функция плотности распределения стандартной нормальной переменной u.

В предположении о независимости и гомоскедастичности ошибок t

функцию (u) можем записать в следующем виде:

(xt)=

1

 

 

1

( y

t

' x

)' ( y

t

' x

)

 

 

exp

 

 

 

t

 

 

t

 

=

2

2

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

1

 

 

1

 

t

 

 

=

exp

 

 

t

 

.

(10.51)

 

 

 

2

2

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

Заметим, что 2 в выражении (10.51) является неизвестным параметром,

который должен быть оценен, как и вектор параметров .