
- •Глава 9. Фиктивные переменные в уравнении множественной регрессии
- •9.1. Необходимость использования фиктивных переменных
- •9.2. Задание для лабораторной работы №9 «Использование фиктивных переменных при построении множественной регрессии»
- •9.3. Критерий г. Чоу
- •9.4. Задание для лабораторной работы №10 «Использование критерия г. Чоу для оценки однородности двух регрессий»
Глава 9. Фиктивные переменные в уравнении множественной регрессии
9.1. Необходимость использования фиктивных переменных.
9.2. Задание для лабораторной работы №9 «Использование фиктивных переменных при построении множественной регрессии».
9.3. Критерий Г. Чоу.
9.4. Задание для лабораторной работы №10 «Использование критерия Г. Чоу для оценки однородности двух регрессий».
9.1. Необходимость использования фиктивных переменных
В регрессионных моделях в качестве объясняющих переменных часто приходится использовать не только количественные (определяемые численно), но и качественные переменные. Например, спрос на некоторое благо может определяться ценой данного блага, ценой на заменители данного блага, ценой дополняющих благ, доходом потребителей и т.д. (эти показатели определяются количественно). Но спрос может также зависеть от вкусов потребителей, их ожиданий, сезона, пола, национальных и религиозных особенностей и т.д. А эти показатели можно представить в целочисленном виде. В литературе они называются качественными признаками [3, 11].
Качественные признаки могут существенно влиять на структуру линейных связей между переменными и приводить к скачкообразному изменению параметров регрессионной модели. В этом случае говорят об исследовании регрессионных моделей с переменной структурой или построении регрессионных моделей по неоднородным данным.
Например, нам надо изучить зависимость размера заработной платы Y работников не только от количественных факторов Х1, X2, …, Xn, но и от качественного признака Z1 (например, фактора «пол работника»).
В принципе можно было получить оценки регрессионной модели
Yi = 0+ 1x1i + … + pxpi + i, i= 1, ..., n, (9.1)
для каждого уровня качественного признака (т. е. выборочное уравнение регрессии отдельно для работников-мужчин и отдельно – для женщин), а затем изучать различия между ними.
Но есть и другой подход, позволяющий оценивать влияние значений количественных переменных и уровней качественных признаков с помощью одного уравнения регрессии. Этот подход связан с введением так называемых фиктивных (манекенных) переменных, или манекенов (dummy variables). В отечественной литературе используется также термин структурные переменные.
В качестве фиктивных переменных обычно используются дихотомические (бинарные, булевы) переменные, которые принимают всего два значения: «0» или «1» (например, значение такой переменной Z1 по фактору «пол»: Z1i = 0 для работников-женщин и Z1i = 1 – для мужчин).
В этом случае первоначальная регрессионная модель (9.1) заработной платы изменится и примет вид:
Yi = 0+ 1x1i + … + pxpi + 1z1i + i, i= 1, ..., n, (9.2)
где
Таким образом, принимая модель (9.2), мы считаем, что средняя заработная плата у мужчин на 11= 1 выше, чем у женщин, при неизменных значениях других параметров модели. А проверяя гипотезу H0: 1 = 0, мы можем установить существенность влияния фактора «пол» на размер заработной платы работника.
Следует отметить, что в принципе качественное различие можно формализовать с помощью любой переменной, принимающей два разных значения, не обязательно «0» или «1». Однако в эконометрической практике почти всегда используются фиктивные переменные типа «0 – 1», так как при этом интерпретация полученных результатов выглядит наиболее просто. Так, если бы в модели (9.2) в качестве фиктивной выбрали переменную Z1, принимающую значения z1i = 4 (для работников-мужчин) и z1i =1 (для женщин), то коэффициент регрессии 1 при этой переменной равнялся бы 1/(4–1), т. е. одной трети среднего изменения заработной платы у мужчин.
Если рассматриваемый качественный признак имеет несколько (к) уровней (градаций), то в принципе можно было ввести в регрессионную модель дискретную переменную, принимающую такое же количество значений (например, при исследовании зависимости заработной платы Y от уровня образования Z можно рассматривать к = 3 значения: z2i = l при наличии начального образования, z2i = 2 – среднего и z2i = 3 при наличии высшего образования). Однако обычно так не поступают из-за того, что сумма этих переменных будет равна константе, которая уже имеется в уравнении множественной регрессии (и, стало быть, матрица системы нормальных уравнений будет иметь линейно зависимые столбцы и ее определитель будет равен нулю), а вводят (к–1) бинарных переменных.
В рассматриваемом примере для учета фактора образования можно было в регрессионную модель (9.2) ввести к–1 = 3 – 1 = 2 бинарные переменные Z22i и Z23i:
Yi = 0+ 1x1i + … + pxpi + 1z1i + 22z22i +
+ 23z23i + i, i= 1, ..., n (9.3)
где
Третьей бинарной переменной Z21i, очевидно, не требуется; если i-ый работник имеет начальное образование, это будет отражено парой значений z22i = 0, z23i = 0.
Более того, вводить третью бинарную переменную Z21i (со значениями z21i = 1, если i-ый работник имеет начальное образование; z21i = 0 – в остальных случаях) нельзя, так как при этом для любого i-го работника z21i + z22i + z23i = l, т.е. при суммировании элементов столбцов общей матрицы плана, соответствующих фиктивным переменным Z21, Z22, Z23, мы получили бы столбец, состоящий из одних единиц. А так как в матрице плана
такой столбец из единиц уже есть (напомним (пункт 5.4.), что это первый столбец, соответствующий свободному члену уравнения регрессии), то это означало бы линейную зависимость значений (столбцов) общей матрицы плана X, т.е. нарушило бы предпосылку о мультиколлинеарности регрессионного анализа. Таким образом, мы оказались бы в условиях мультиколлинеарности в функциональной форме (пункт 5.4) и как следствие — невозможности получения оценок методом наименьших квадратов.
Такая ситуация, когда сумма значений нескольких переменных, включенных в регрессию, равна постоянному числу (единице), получила название «dummy trap» или «ловушки». Чтобы избежать такие ловушки, вводится правило число вводимых бинарных переменных должно быть на единицу меньше числа уровней (градаций) качественного признака.
Следует отметить не совсем удачный перевод на русский язык термина «dummy variables» как «фиктивная» переменная. Во-первых, в модели регрессионного анализа мы уже имеем фиктивную переменную X при коэффициенте 0, всегда равную единице. Во-вторых, и это главное – все процедуры регрессионного анализа (оценка параметров регрессионной модели, проверка значимости ее коэффициентов и т. п.) проводятся при включении фиктивных переменных так же, как и «обычных», количественных объясняющих переменных. «Фиктивность» же переменных Zj состоит только в том, что они количественным образом описывают качественный признак.
Рассматриваемые выше регрессионные модели (9.2) и (9.3) отражали влияние качественного признака (фиктивных переменных) только на значения переменной Y, т. е. на свободный член уравнения регрессии. В более сложных моделях может быть отражена также зависимость фиктивных переменных на сами параметры (коэффициенты) при переменных регрессионной модели. Например, при наличии в модели объясняющих переменных — количественной Х1 и фиктивных Z11, Z12, Z21, Z22, из которых Z11, Z12 влияют только на значение коэффициента при Х1, a Z21, Z22 – только на величину свободного члена уравнения, такая регрессионная модель примет вид:
Yi = 0+ 1x1i + 11(z11ix1i ) + + 12(z12x1i) +
+ 21z21i +22z22i + i, i = 1, ..., n. (9.4)
Модели типа (9.4) используются, например, при исследовании зависимости объема потребления Y некоторого продукта от дохода потребителя X, когда одни качественные признаки (например, фактор сезонности) влияют лишь на количество потребляемого продукта (свободный член уравнения регрессии), а другие (например, уровень доходности домашнего хозяйства) — на параметр i при X, интерпретируемый как «склонность к потреблению».
Пример 9.1 [12]. Необходимо исследовать зависимость между результатами письменных вступительных и курсовых (на I курсе) экзаменов по математике. Получены следующие данные о числе решенных задач на вступительных экзаменах X (задание – 10 задач) и курсовых экзаменах Y (задание – 7 задач) 12 студентов, а также распределение этих студентов по фактору «пол»:
Таблица 1
№ студента |
Число решенных задач |
Пол студента | |
i |
на вступит. экзам. xi |
на курсовых экзам. yi | |
1 |
10 |
6 |
муж. |
2 |
6 |
4 |
жен. |
3 |
8 |
4 |
муж. |
4 |
8 |
5 |
жен. |
5 |
6 |
4 |
жен. |
6 |
7 |
7 |
муж. |
7 |
6 |
3 |
жен. |
8 |
7 |
4 |
муж. |
9 |
9 |
7 |
муж. |
10 |
6 |
3 |
жен. |
11 |
5 |
2 |
муж. |
12 |
7 |
3 |
жен. |
Построить линейную регрессионную модель Y по X с использованием фиктивной переменной по фактору «пол». Можно ли считать, что эта модель одна и та же для юношей и девушек?
Решение.
Вначале рассчитаем уравнение парной регрессии Y по X, используя первый или второй способы в MS EXCEL. Получим в частности, первым способом итоги регрессии
0,814545 |
-1,43636 |
0,242368 |
1,749144 |
0,530402 |
1,160251 |
11,2948 |
10 |
15,20485 |
13,46182 |
Значит, уравнение регрессии имеет вид
yteor(xi) = –1,43636 + 0,814545 xi. (9.5)
Коэффициент детерминации R2 = 0,530402 , т.е. 53,0402 % вариации зависимой переменной Y обусловлено регрессией. Уравнение регрессии в целом значимо согласно F-критерию, так как Fфакт = 11,2948 > F0,05;1;10 = 4,96.
Однако полученное уравнение не учитывает влияние качественного признака – фактора «пол».
Для её учёта введём фиктивную бинарную переменную
Согласно этому, заменим третий столбец на нули и единицы, т.е. получим значения бинарной переменной, используя оператор условного перехода =ЕСЛИ(D3="муж.";1;0). Полагая, что фактор «пол» может повлиять на результаты курсовых экзаменов наряду с итогами вступительных экзаменов, построим множественную регрессию. Теперь в качестве независимых переменных будут выступать два аргумента (массива): результаты вступительных экзаменов xi и пол студента zi (бинарная переменная).
Таблица 2
Результаты вступительных экзаменов xi |
Пол студента (бинарная переменная) zi |
Результаты курсовых экзаменов yi |
10 |
1 |
6 |
6 |
0 |
4 |
8 |
1 |
4 |
8 |
0 |
5 |
6 |
0 |
4 |
7 |
1 |
7 |
6 |
0 |
3 |
7 |
1 |
4 |
9 |
1 |
7 |
6 |
0 |
3 |
5 |
1 |
2 |
7 |
0 |
3 |
Применяя второй способ построения регрессии, получим следующие значения коэффициентов
Y-пересечение |
-1,16519 |
Переменная X1 |
0,743363 |
Переменная X2 |
0,466077 |
Таким образом, получим уравнение
yteor(xi, zi ) = -1,16519 + 0,743363xi + 0,466077zi (9.6)
Коэффициент детерминации тоже вычисляется и равен R2 = 0,549084. Наряду с этими параметрами также вычисляется значение F-статистики (факторной) Fфакт. = 5,47969. Отсюда следует, что уравнение регрессии (9.6) в целом значимо, так как для уровня значимости = 0.05
Fфакт. > F0,05; 2; 9 = 4,26.
Можно было не сравнивать эти две величины, так как второй способ построения регрессии выдаёт также под ячейкой «Значимость F» значение аргумента распределения Фишера 0,027761. Поскольку оно меньше уровня значимости = 0.05, то уравнение (9.6) в целом значимо.
Из уравнения (9.6) следует, что при одном и том же числе решённых задач на вступительных экзаменах xi, на курсовых экзаменах юноши решают в среднем на 0, 466077 задачи больше, что изображено на рисунке 9.1.
Рис. 9.1. Две линии зависимости результатов курсовых экзаменов от итогов вступительных отдельно для юношей и девушек.
Но коэффициент регрессии 0,466077 при фиктивной переменной z1i не является значимым по t-критерию Стьюдента, так как
tфакт. < t0,95; 9 = 2,262.
Следовательно, для наших данных влияние фактора «пол» оказалось несущественным (незначимым), и есть основания считать, что регрессионная зависимость результатов курсовых экзаменов по математике в зависимости от вступительных одна и та же для юношей и девушек.
Замечание. Если бы в регрессионной модели мы хотели учесть другие факторы с большим, чем две, числом ki градаций (здесь i – номер фактора), то, как отмечено выше, следовало бы ввести в модель (ki–1) бинарных переменных. Например, если было бы необходимо изучить влияние на результаты курсового экзамена фактора Z2 - «тип учебного заведения», оконченного студентом (школа, техникум, колледж), то в регрессионную модель (5.6) следовало ввести ki–1 = 3–1 = 2 бинарные переменные
Yi = 0+ 1x1i + 1z1i + 22z22i +
+ 23z23i + i, i= 1, ..., n, (9.7)
где
Но при этом, конечно, следовало увеличить объем выборки n, так как надежность статистических выводов существенно зависит от отношения объема выборки n к общему числу всех параметров регрессионной модели: чем больше величина отношения n/(m+1), тем точнее соответствующие оценки, тем надежнее статистические выводы.