Скачиваний:
106
Добавлен:
21.01.2014
Размер:
645.12 Кб
Скачать

Можно ли в регрессии использовать неколичественные переменные?

Однозначно можно сказать, что они не могут быть использованы в качестве зависимой переменной Y. Это будет грубейшей ошибкой; в этом случае уравнением регрессии может быть предсказан, к примеру, пол имеющий код 1.5 или 0.5 при общепринятой кодировке пола 1-мужчины, 2-женщины. Может быть, это как-то интерпретируется с медицинской точки зрения, но в практике социальных исследований это будет едва ли возможно.

Для использования в качестве независимой переменной применяются индексные переменные (в англоязычной литературе dummy-variables).

Например, для семейного положения в данных Курильского обследования (женат, вдов, разведен, холост) стоит ввести три индикаторные переменные t1, t2 и t3 для выделения женатых, вдовых, и разведенных. Эти переменные будут равны, соответственно единице или нулю, в зависимости от того принадлежит или не принадлежит респондент к соответствующей группе по семейному положению.

Почему не 4 индексные переменные? Четвертая переменная определяется однозначно через первые три, поэтому, введение ее вызвало бы коллинеарность, не позволяющую найти коэффициенты регрессии.

Вот задание, которое позволяет изучить зависимость душевого дохода от возраста и семейного положения:

compute lnv14m =ln(v14/200).

compute t1=(v11=1).

compute t2=(v11=2).

compute t3=(v11=3).

Compute v9_2=v9**2.

*квадрат возраста.

REGRESSION /DEPENDENT lnv14m /METHOD=ENTER v9 v9_2 t1 t2 t3 /SAVE PRED.

График связи возраста (V9) с предсказанным уравнением логарифмом доходов (переменная pre_2) получается командой

GRAPH /SCATTERPLOT(BIVAR)=v9 WITH pre_2 /MISSING=LISTWISE

Он представляет собой 4 параболы (рисунок 6.2). В соответствии с коэффициентами перед t1, t2 и t3 (см. таблицу 6.4), эти пораболы соответствуют, сверху вниз, холостякам, разведенным, женатым и вдовцам (порабола холостяков получается при t1=t2=t3=0).

Вероятно, полученное уравнение можно улучшить, исключив из уравнения переменные с незначимыми коэффициентами. Поскольку индексные переменные должны быть в определенной степени взаимосвязаны, уровень наблюдаемой значимости может определяться здесь коллинеарностью, поэтому "ревизию" переменных нужно проводить осторожно, чтобы существенно не ухудшить полученного уравнения.

Из-за взаимосвязи переменных здесь нет возможности говорить о том, какая переменная больше влияет на зависимую переменную. Обратите внимание на довольно редкий эффект: бета-коэффициенты для возраста и его квадрата по абсолютной величине больше 1!

Таблица 6.4. Коэффициенты регрессии с индексными переменными.

B

Std. Error

Beta

T

Sig.

(Constant)

-1.1721

0.1937

-6.0500

0.0000

V9 Возраст

0.0635

0.0105

1.4298

6.0299

0.0000

V9_2

-0.0007

0.0001

-1.3243

-5.7351

0.0000

T1 Женат

-0.2030

0.0766

-0.1540

-2.6488

0.0083

T2 Вдовец

-0.2471

0.1352

-0.0850

-1.8279

0.0680

T3 Разведен

-0.1494

0.1134

-0.0661

-1.3176

0.1881

Кроме того, модель с тремя "параллельными" параболами, вероятно, не полностью адекватна, каждая группа может иметь свою конфигурацию линии регрессии. Для учета этого в уравнении стоит использовать переменные взаимодействия. О том, как их конструировать - следующий раздел.

Соседние файлы в папке Учебник по SPSS, учебное пособие