§ 4.9. Фиктивные переменные во множественной регрессии
До сих пор в качестве факторов рассматривались экономические переменные, принимающие количественные значения в некотором интервале. Вместе с тем может оказаться необходимым включить в модель фактор, имеющий два или более качественных уровней. Это могут быть разного рода атрибутивные признаки, такие, например, как профессия, пол, образование, климатические условия, принадлежность к определенному региону. Чтобы ввести такие переменные в регрессионную модель, им должны быть присвоены те или иные цифровые метки, т.е. качественные переменные преобразованы в количественные. Такого вида сконструированные переменные в эконометрике принято называть фиктивными переменными. В отечественной литературе можно встретить термин «структурные переменные».
Рассмотрим применение фиктивных переменных для функции спроса. Предположим, что по группе лиц мужского и женского пола изучается линейная зависимость потребления кофе от цены. В общем виде для совокупности обследуемых уравнение регрессии имеет вид:
,
где
– количество потребляемого кофе;
– цена.
Аналогичные
уравнения могут быть найдены отдельно
для лиц мужского пола:
и женского пола:
.
Различия в
потреблении кофе проявятся в различии
средних
и
.
Вместе с тем сила влияния
на
может быть одинаковой, т. е.
.
В этом случае возможно построение общего
уравнения регрессии с включением в него
фактора «пол» в виде фиктивной переменной.
Объединяя уравнения
и
и вводя фиктивные переменные, можно
прийти к следующему выражению:
,
где
и
– фиктивные переменные, принимающие
значения:
.
В общем уравнении
регрессии зависимая переменная у
рассматривается как функция не только
цены, но и пола (
,
).
Переменная
рассматривается как дихотомическая
переменная, принимающая всего два
значения: 1 и 0. При этом когда
=1,
то
=0
и, наоборот, при
=0
переменная
=1.
Для лиц мужского
пола, когда
и
,
объединенное уравнение регрессии
составит:
,
а для лиц женского пола, когда
и
,
.
Иными словами, различия в потреблении
для лиц мужского и женского пола вызваны
различиями свободных членов уравнения
регрессии:
.
Параметр
является общим для всей совокупности
лиц, как для мужчин, так и для женщин.
Следует иметь в
виду, что при введении фиктивных
переменных
и
в модель
применение МНК для оценивания параметров
и
приведет к вырожденной матрице исходных
данных, а следовательно, и к невозможности
получения их оценок. Объясняется это
тем, что при использовании МНК в данном
уравнении появляется свободный член,
т. е.yравнение
примет вид
.
Ранее говорилось только о качественном факторе, который имел только два состояния, которым и соответствовали обозначения 1 и 0. Если же число градаций качественного признака-фактора превышает два, то в модель вводится несколько фиктивных переменных, число которых должно быть меньше числа качественных градаций. Только при соблюдении этого положения матрица исходных фиктивных переменных не будет линейно зависима и возможна оценка параметров модели.
В отдельных случаях может оказаться необходимым введение двух и более групп фиктивных переменных, т. е. двух и более качественных факторов, каждый из которых может иметь несколько градаций. Например, при изучении потребления некоторого товара наряду с факторами, имеющими количественное выражение (цена, доход на одного члена семьи, цена на взаимозаменяемые товары и др.), учитываются и качественные факторы. С их помощью оцениваются различия в потреблении отдельных социальных групп населения, дифференциация в потреблении по полу, национальному составу и др. При построении такой модели из каждой группы фиктивных переменных следует исключить по одной переменной. Так, если модель будет включать три социальные группы, три возрастные категории и ряд экономических переменных, то она примет вид:
,
где
– потребление;
![]()
![]()
–экономические
(количественные) переменные.
Фиктивные переменные широко используются для оценки сезонных различий в потреблении. Учет сезонного фактора при построении динамических моделей рассмотрен позже.
Фиктивные переменные могут вводиться не только в линейные, но и в нелинейные модели, приводимые путем преобразований к линейному виду.
Включение в модель фиктивных переменных может иметь цель отразить в модели неоднородность совокупности. Однако нельзя рассматривать фиктивные переменные как панацею при применении методов регрессии к неоднородным данным.
До сих пор мы рассматривали фиктивные переменные как факторы, которые используются в регрессионной модели наряду с количественными переменными. Вместе с тем возможна регрессия только на фиктивных переменных. Например, изучается дифференциация заработной платы рабочих высокой квалификации по регионам страны. Модель заработной платы может иметь вид:
,
где
– средняя заработная плата рабочих
высокой квалификации по отдельным
предприятиям;

Поскольку последний
район, указанный в модели, обозначен
,
то в исследование включено
район.
Ввиду того, что
факторы данной регрессионной модели
выражены как дихотомические признаки,
параметры модели имеют свою специфику
по сравнению с традиционной их
интерпретацией. Параметр
представляет собой среднее значение
результативного признака для базовой
группы
.
Параметр
характеризует разность средних уровней
результативного признака для группы 1
и базовой группы 0. Соответственно
параметр
представляет собой разность между
и
.
Иными словами, коэффициенты при
отражают величину эффекта соответствующей
группы фактора
.
Рассмотрим применение данной модели
на следующем условном примере.
Пример: Распространенность ручного труда на предприятиях одной отрасли в зависимости от уровня автоматизации производства
|
Уровень автоматизации производства |
Число заводов |
Процент рабочих ручного труда в общей численности рабочих | |
|
На каждом заводе данной группы |
В среднем по группе | ||
|
Высокий |
8 |
31, 37, 38, 39, 35, 32, 34, 34 |
35,0 |
|
Средний |
12 |
40, 45, 47, 48, 46, 48, 50, 52, 39, 43, 44, 56 |
46,5 |
|
Низкий |
10 |
47, 54, 59, 55, 57, 56, 65, 57, 55, 61 |
56,6 |
|
Итого |
30 |
|
46,8 |
По данным этой таблицы рассматривается следующая регрессионная модель:
,
где
– процент рабочих ручного труда в общей
численности рабочих;
–уровень
автоматизации производства;
![]()
![]()
В качестве базовой группы, с которой ведется сравнение уровня занятости ручным трудом, выступают предприятия с низким уровнем автоматизации производства.
Регрессионная модель, исходя из средних уровней, приведенных в последней графе таблицы, составит:
![]()
Она показывает,
что на предприятиях с низким уровнем
автоматизации производства средний
процент рабочих ручного труда равен
56,6. На предприятиях с высоким уровнем
автоматизации производства
распространенность ручного труда ниже
на 21,6 проц. пункта
,
а на предприятиях со средним уровнем
автоматизации производства - ниже на
10,1 проц. пункта
по сравнению с предприятиями третьей
группы.
В справедливости данного уравнения регрессии можно убедиться, обратившись к методу наименьших квадратов.
Индекс детерминации для данной модели составит:
,
что статистически
значимо:
-критерий
при
и при степенях свободы 2 и 27,
.
Поскольку
коэффициенты при фиктивных переменных
в модели, не содержащей других экономических
факторов, характеризуют величину
эффектов
-го
уровня фактора
,
то регрессионная модель по своему
содержанию тождественна дисперсионной
модели. В основе нашего примера лежит
дисперсионная модель вида
,
где
–
-е
наблюдение результативного признака
на
-м
уровне исследуемого фактора (в примере
;
);
–среднее значение
результативного признака в целом по
совокупности (в примере
);
–эффект,
обусловленный
-м
уровнем фактора
;
–случайная ошибка
в
-м
наблюдении на
-м
уровне изучаемого фактора; величина,
на которую фактический уровень
результативного признака
отличается от его среднего значения
для
-ro
уровня фактора, т. е.
.
Так, подставляя в
уравнение регрессии
,
,
получим
для каждого завода первой группы по
уровню автоматизации производства, что
является средней величиной для данной
группы (см. табл.). Соответственно
подставляя в уравнение регрессии
,
,
получим:
.
Ввиду того, что
теоретические значения результативного
признака в рассматриваемой модели
представляют собой групповые средние
(
),
общая сумма квадратов отклонений
раскладывается на одни и те же составляющие
как в регрессионном, так и в дисперсионном
анализе. Так, для дисперсионного анализа
имеем:
.
Для регрессионной модели данное равенство примет следующий вид:
.
Но так как
,
то факторная и остаточная суммы квадратов,
найденные по регрессионной модели и по
модели дисперсионного анализа, совпадают
(см. следующую таблицу).
|
Источники вариации |
Число степеней свободы |
Сумма квадратов, SS |
Дисперсия на одну степень свободы, D |
F-отношение | |
|
фактическое |
Табличное,
| ||||
|
Различия между факторами (за счет регрессии) |
2 |
2075,4 |
1037,7 |
54,6 |
3,35 |
|
Различия внутри фактора (остаточная) |
27 |
513,4 |
19,0 |
1 |
– |
|
Общая |
29 |
2588,8 |
– |
– |
– |
Мы рассмотрели
модели с фиктивными переменными, в
которых последние выступают факторами.
Может возникнуть необходимость построить
модель, в которой дихотомический признак
играет роль результата. Подобного вида
модели применяются, например, при
обработке данных социологических
опросов. В качестве зависимой переменной
рассматриваются ответы на вопросы,
данные в альтернативной форме: «да» или
«нет». Поэтому зависимая переменная
имеет два значения: 1, когда имеет место
ответ «да», и 0 – во всех остальных
случаях. Модель такой зависимой переменной
имеет вид:
.
Модель является
вероятностной линейной моделью. В ней
принимает значения 1 и 0, которым
соответствуют вероятности
и
.
Поэтому при решении модели находят
оценку условной вероятности события
при фиксированных значениях
.
Такого рода модели используют при работе
с неколичественными переменными. Как
правило, это модели выбора из заданного
набора альтернатив.
Среди моделей с
фиктивными переменными наибольшими
прогностическими возможностями обладают
модели, в которых зависимая переменная
рассматривается как функция ряда
экономических факторов
и фиктивных переменных
.
Последние обычно отражают различия в
формировании результативного признака
по отдельным группам единиц совокупности,
т. е. в результате неоднородной структуры
пространственного или временного
характера.
Пример.
Проанализируем с использованием
фиктивных переменных зависимость
урожайности пшеницы
от вида вспашки
и количества внесенного органического
удобрения
.
По 25 наблюдениям уравнение парной регрессии (без учета вида вспашки) составило:
;
;
;
;
.
Для его расчета использовалась следующая система нормальных уравнений:
![]()
Уравнение регрессии
статистически значимо –
,
,
превышают табличные значения: (при 5
%-ном уровне существенности и числе
степеней свободы 23:
;
;
).
По виду вспашки
поля характеризовались двумя категориями:
зяблевая и весенняя. Вид вспашки не
влияет на количество внесенных удобрений,
но обусловливает различия в урожайности.
Чтобы убедиться в этом, введем в уравнение
регрессии фиктивную переменную
для отражения эффекта вида вспашки, а
именно:
для зяблевой вспашки и
для весенней вспашки. Уравнение регрессии
примет вид:
.
Применяя метод наименьших квадратов для оценки параметров данного уравнения, получим следующую систему нормальных уравнений:

Ввиду того, что
принимает лишь два значения (1 и 0),
(число полей с зяблевой вспашкой),
(количество внесенных удобрений на
полях с зяблевой вспашкой),
,
(сумма
по полям зяблевой вспашки).
В рассматриваемом
примере вся совокупность из 25 единиц
подразделена на две подгруппы: с зяблевой
вспашкой – 13 полей и с весенней - 12 полей,
т. е.
и
.
Соответственно разделению на эти две
группы имеем:
;
.
Тогда система нормальных уравнений примет вид:

Peшая
ее, получим уравнение регрессии
.
Уравнение регрессии
статистически значимо:
,
,
,
,
,
.
Как видим, добавление
в регрессию фиктивной переменной
существенно улучшило результат модели:
доля объясненной вариации выросла с
27,5%
до 58,7%
.
При этом сила влиянии количества
внесенных органических удобрений на
урожайность осталась практически
неизменной: коэффициент регрессии, по
существу, одинаковы (0,326 в парном уравнении
и 0,331 во множественном). Корреляция между
видом вспашки и количеством внесенного
удобрения на 1 га практически отсутствует:
.
Применение зяблевой
вспашки способствует росту урожайности
в среднем на 2,9 ц с 1 га при одном и том
же количестве внесенного удобрения на
1 га, что в целом соответствует и различию
средней урожайности по видам вспашки
(15,3 ц с 1 га для зяблевой вспашки и 12,5 ц
с 1 га для весенней вспашки). Частный
-критерий
для фактора
составил 16,58, что выше табличного знамения
при числе степеней свободы 1 и 22 (4,30 при
).
Это подтверждает целесообразность
включения фиктивной переменной в
уравнение регрессии.
Уравнения парной регрессии по отдельным видам вспашки показывают, практически, единую меру влияния количества внесенного удобрения на урожайность:
,
– при зяблевой вспашке;
,
– при весенней вспашке.
Поэтому вполне
реально предположить единую меру влияния
данного фактора независимо от вида
вспашки, что и имеет место в уравнении
регрессии с фиктивной переменной.
Включив фиктивную переменную, удалось
измерить ее влияние на изменение
урожайности: частный коэффициент
корреляции оценивающий в чистом виде
влияние данного фактора, составил
,
что несколько выше, чем аналогичный
показатель для фактора
,
т.е.
.
Частные уравнения регрессии по отдельным видам вспашки составили:
–для зяблевой
вспашки;
–для весенней
вспашки.
Как видим, функция
урожайности для первой группы (при
)
параллельна функции для второй группы,
но сдвинута вверх.
Пример.
Проанализируем зависимость цены
двухкомнатной квартиры
от ее полезной площади
.
При этом в модель могут быть введены
фиктивные переменные, отражающие тип
дома: «хрущевка», панельный, кирпичный.
При использовании
трех категорий домов вводятся две
фиктивные переменные:
и
.
Пусть переменная
принимает значение 1 для панельного
дома и 0 для всех остальных типов домов;
переменная
принимает значение 1 для кирпичных домов
и 0 для остальных; тогда переменные
и
принимают значения 0 для домов типа
«хрущевки».
Предположим, что уравнение регрессии с фиктивными переменными составило:
.
Частные уравнения регрессии для отдельных типов домов, свидетельствуя о наиболее высоких ценах квартир в панельных домах, будут иметь следующий вид:
«хрущевки» –
;панельные –
;кирпичные –
.
Параметры при
фиктивных переменных
и
представляют собой разность между
средним уровнем результативного признака
для соответствующей группы и базовой
группы. В рассматриваемом примере за
базу сравнения цены взяты дома «хрущевки»,
для которых
.
Параметр при
(2200) означает, что при одной и той же
полезной площади квартиры цена ее в
панельных домах в среднем на 2200 долл.
США выше, чем в «хрущевках». Соответственно
параметр при
показывает, что в кирпичных домах цена
выше в среднем на 1600 долл. при неизменной
величине полезной площади по сравнению
с указанным типом домов.
Пример.
Рассмотрим зависимость среднего уровня
квалификации рабочих от сферы применения
ручного труда. Если неоднородность
вызвана резкими качественными различиями
единиц совокупности, обусловливающими
искажения характера рассматриваемой
связи признаков
и
,
то фиктивные переменные мало изменят
результаты анализа. В этом случае более
результативным является построение
уравнений регрессии по отдельным группам
совокупности (см. таблицу).
