
Эконометрика / Фиктивные переменные
.docФиктивные переменные множественной регрессии.
До сих пор мы рассматривали в качестве факторов количественные переменные (переменные, принимающие числовые значения в некотором интервале).
Вместе с тем, может оказаться необходимым включить в модель качественный (атрибутивный) фактор (ры). Примером качественных признаков может служить пол, профессия, климатические условия.
Чтобы ввести такие переменные в модель, они должны быть преобразованы в количественные, т.е. им должны быть присвоены цифровые метки. Такого рода сконструированные числовые переменные называют фиктивными переменными.
Рассмотрим применение фиктивных переменных на нашем примере с магазинами. Признак результат y – объем продаж, тыс.руб. Признаки факторы: 1) количественный х1 – численность населения в торговой зоне, тыс. чел. 2) качественный х2 – наличие (отсутствие) кафе в магазине. Мы предполагаем, что наличие кафе (как дополнительной услуги) будет способствовать увеличению объема продаж. Введем в модель: y=a+b1∙x1+u фиктивную переменную z, которая принимает 2 значения: 1, если в магазине имеется кафе; 0, если в магазине кафе отсутствует.
Построим модель y=a+b1·x1+c·z (*)+u. Данная модель может использоваться при принятии решения об открытии кафе в магазине.
Исходные данные:
y |
х1 |
z |
6 |
34 |
0 |
15 |
92 |
0 |
12 |
75 |
0 |
9 |
36 |
0 |
17 |
78 |
1 |
5 |
8 |
0 |
11 |
23 |
1 |
16 |
69 |
1 |
9 |
10 |
0 |
10 |
25 |
1 |
Для оценки параметров модели (*) используем обычный МНК. Построим систему нормальных линейных уравнений:
В результате решения системы получим: a=4,969; b1=0,103; c= 3,525.
y’=4,969+0,103 x1+ 3,525 z R2=0,877; R=0,937; R2скор=0,842; F=25.
(4,98) (5,82) (3,37)
В скобках указаны значения t-критерия.
Интерпретация параметров оцененного уравнения регрессии:
с- наличие кафе в среднем увеличивает на 3,525 тыс.руб. объем продаж при одной и той же численности населения в торговой зоне.
Сравним полученные результаты с результатами оценивания однофакторной модели y=a+b1·x1:
y’=6,098+0,109 x1 R2=0,678; R=0,823; R2скор=0,638; F=17.
(4,29) (4,104)
Из модели, включающей фиктивную переменную, можно вывести частные уравнения регрессии для различных частей полной совокупности. Всю совокупность наблюдений можно разделить на 2 части: одна из них представляет те наблюдения, у которых z=1; другая – те наблюдения, у которых z=0.
а) y’=8,494+0,103 x1 при z=1 (наличие кафе в магазине)
б) y’=4,97+0,103 x1 при z=0 (отсутствие кафе в магазине)
Сопоставляя эти частные уравнения регрессии, видим, что модели, описывающие объем продаж для магазинов с кафе и без, состоят в различном значении свободного члена. В случае а) (при наличии кафе) свободный член почти в 2 раза больше, чем в случае б) (отсутствие кафе).
В рассмотренном примере качественный признак принимает только 2 значения. Если же число градаций (значений) качественного фактора больше 2, в модель вводится несколько фиктивных переменных. Их число должно быть на 1 меньше числа градаций качественного фактора. Например, пусть изучается зависимость цены 2-ухкомнатной квартиры -y от ее полезной площади –x. Введем в эту модель качественный фактор – тип дома, принимающий 3 градации(значения): «хрущевки»; панельные; кирпичные. Данной переменной соответствуют 2 фиктивные переменные z1 и z2:
Тип дома |
z1 |
z2 |
«хрущевки» |
0 |
0 |
Панельные |
1 |
0 |
кирпичные |
0 |
1 |
Модель будет иметь вид: y= a+b1·x1+c1·z1+c2·z2+u (**).
В результате оценивания с помощью МНК получено следующее уравнение: y’=320+500·x1+2200·z1+1600·z2.
Частные уравнения регрессии, соответствующие различным значениям качественного признака:
Для «хрущевок»: y’=320+500x1;
Для панельных: y’=320+2200+500x1=2520+500 х1;
Для «хрущевок»: y’=320+1600+500x1=1920+500 х1.
Параметр при фиктивной переменной z1 представляют собой разность между средним уровнем y для соответствующего z1 значения качественного фактора (для которого z1=1) и среднем уровнем y для базового значения качественного фактора (для которого z1=z2=0).
Параметр при фиктивной переменной z2 представляют собой разность между средним уровнем y для соответствующего z2 значения качественного фактора (для которого z2=1) и среднем уровнем y для базового значения качественного фактора (для которого z1=z2=0).
В данном примере базовым значением качественной переменной являются «хрущевки». Параметр с1=2200 означает, что при одной и той полезной площади квартиры ее цена в панельных домах (z1=1) в среднем на 2200 тыс.руб. выше чем в «хрущевках». Параметр с2=1600 означает, что при одной и той же полезной площади, цена квартиры в кирпичных домах в среднем на 1600 тыс.руб. выше чем в «хрущевках».
Графически частные уравнения регрессии представляют собой линии, сдвинутые по оси ординат.