Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ГОС по социологии - все части.doc
Скачиваний:
2
Добавлен:
01.05.2025
Размер:
3.64 Mб
Скачать

5.4 Регрессия с фиктивными переменными: определение, цели использования.

Включение в регрессионные модели переменных, измеренных на порядковом и номинальном уровнях, возможно благодаря введению в регрессионную модель фиктивных переменных.

Фиктивными переменными называются дихотомические переменные, которые создаются из номинальных или порядковых переменных. Процедура эта состоит в следующем. Предположим, что мы имеем переменную с 4-мя градациями, измеренную на номинальным уровне (напр., семейное положение). Разделим переменную «Семейное положение» на фиктивные переменные следующим образом.

Ваше семейное положение

1. Холост (не замужем) ------------------- >

Q1 1. Холост (не замужем)

0. Иное семейное положение

2. Женат (замужем) -------------------- >

Q2 1. Женат (замужем)

0. Иное семейное положение

3. Разведен (а) --------------------- >

Q3 1. Разведен

0. Иное семейное положение

4. Вдовец (вдова) ---------------------- >

Q4 1. Вдовец (вдова)

0. Иное семейное положение

Т.о., одну переменную «Ваше семейное положение» мы преобразовали в 4 дихотомических переменных, которые в совокупности эквивалентны одной исходной переменной, т.е. вся информация, которая содержится в ответе респондента на исходный вопрос без каких-то потерь может быть извлечена из значений новых 4-х переменных. Более того, на самом деле для восстановления информации исходного вопроса достаточно любых трех из четырех созданных переменных.

Общее правило разложение на фиктивные переменные: всю информацию, которая содержится в переменной с N градациями можно сохранить, используя N-1 дихотомическую переменную.

Интерпретация коэффициентов регрессии при фиктивных переменных. Смысл коэффициентов регрессии при фиктивных переменных принципиально отличается от коэффициентов при обычных количественных переменных.

Если выполнить процедуру построения модели множественной регрессии с использованием этих переменных, то модель будет выглядеть следующим образом:

y = b0 + b1 Q1 + b2 Q2 + b3 Q3 (4.26)

Коэффициент b0 – это среднее значение y для той группы респондентов, для которой не создано фиктивной переменной.

Коэффициент bi при фиктивной переменной xi показывает, на сколько среднее значение y в группе респондентов, для которых значение фиктивной переменной xi равно 1, отличается от среднего значения y в группе респондентов, для которых не создано фиктивной переменной. Все коэффициенты bi при фиктивных переменных показывают величину различия с одной группой респондентов. Т.о., группа, для которой не создано фиктивной переменной выступает эталонной, с которой и производится сопоставление всех остальных групп – контрольная группа.

Эталон для сопоставления должен представлять из себя социологически понятную группу респондентов. Тогда и само сравнение будет представлять интерес. Вторым требованием к выбору контрольной группы является ее объем. Однако если с содержательной точки зрения выделенная в качестве эталонной совокупность достаточно однородна и социологически понятна, то в ситуации малой по объему контрольной группы нет ничего страшного. Рекомендация отнесения к контрольной группе достаточно больших совокупностей респондентов является не столько требованием, сколько пожеланием.

Несколько групп фиктивных переменных. Если несколько групп фиктивных переменных, то мы имеем и несколько контрольных групп. Если помимо семейного положения включаем переменную «образование», то контрольной группой будет пересечение двух контрольных групп. Например, контрольная группа здесь это вдовцы (вдовы) с незаконченным, или полным высшим образованием и средняя зарплата в этой группе – 2527,7 рублей.

Коэффициент bi показывает, как отличается среднее значение y в i-ой группе от среднего значения y в объединении контрольных групп, либо от контрольной группы, образованной для соответствующей группы фиктивных переменных.

Независимые фиктивные переменные дают количество сочетаний, равное произведению количества градаций каждой из них. Для каждого из сочетаний требуется создание своей фиктивной переменной, кроме сочетания, которое будет считаться контрольной группой.

Для учета взаимодействия между независимыми переменными можно ввести в уравнение переменную, равную произведению X1 и X2:

Y=B0+B1*X1+B2*X2+B3*X1*X2.

Произведение X1*X2 равно единице, если факторы действуют совместно и нулю, если какой либо из факторов отсутствует.

Использование фиктивных переменных для угла наклона. При одновременном включении в модель количественных и номинальных (порядковых) переменных, последние преобразовывались в наборы фиктивных переменных так, что получаемые регрессионные прямые шли параллельно друг другу Это означает, что, зависимость У от, например, пола одинакова, только у юношей исходный уровень У ниже/выше.

С точки зрения содержательных социологических моделей предположение о параллельности регрессионных прямых для различных социальных групп в большинстве случаев выглядит надуманным. Это ограничение можно преодолеть с помощью фиктивных переменных.

При введении фиктивных переменных для изменения угла наклона регрессионная модель будет выглядеть следующим образом.

y =b0+(b1+b2 Q1) x1+b3 Q1 (4.28)

, где x1 – количественная переменная, Q1 – фиктивная переменная. Выражение (4.28) можно переписать в следующем виде:

y =b0+b1 x1+b2 Q1 x1+b3 Q1 (4.28)

Поскольку переменная Q1 является фиктивной, то уравнение (4.28) представляет собой два уравнения. Одно для ситуации Q1=0, а другое – Q1=1 (уравнение 4.29).

y =

b0 + b1 x1 +

b2 x1 +

b3

(Q1=1)

(4.29)

y =

b0 + b1 x1

(Q1=0)

Построение модели (4.28) дает регрессионную модель с разными углами наклона для двух разных уровней Q1.