
- •6. Регрессионный анализ
- •6.1. Классическая линейная модель регрессионного анализа
- •Существует ли линейная регрессионная зависимость?
- •Коэффициенты детерминации и множественной корреляции
- •Оценка влияния независимой переменной
- •Стандартизация переменных. Бета коэффициенты
- •Надежность и значимость коэффициента регрессии
- •Значимость включения переменной в регрессию
- •Пошаговая процедура построения модели
- •Переменные, порождаемые регрессионным уравнением
- •Взвешенная регрессия
- •Команда построения линейной модели регрессии
- •Пример построения модели
- •Можно ли в регрессии использовать неколичественные переменные?
- •Взаимодействие переменных
- •6.2. Логистическая регрессия
- •Отношение шансов и логит
- •Решение уравнения с использованием логита.
- •Неколичественные данные
- •Взаимодействие переменных
- •Пример логистической регрессии и статистики
- •Качество подгонки логистической регрессии
- •Вероятность правильного предсказания
- •Коэффициенты регрессии
- •О статистике Вальда
- •Сохранение переменных
Взаимодействие переменных
Предположим, что мы рассматриваем пару индикаторных переменных: X1 - для выделения группы женатых и X2 - для выделения группы "начальников", а прогнозируем с помощью уравнения регрессии все тот же логарифм дохода: Y=B0+B1*X1+B2*X2.
Это уравнение моделирует ситуацию, когда действие факторов X1 и X2 складывается, т.е. считается, к примеру, что женатый начальних имеет зарплату B1+B2, не женатый начальник B2. Это достаточно смелое предположение, так как, скорее всего, закономерность не так груба и существует взаимодействие между факторами, в результате которого их совместный вклад имеет другую величину. Для учета такого взаимодействия можно ввести в уравнение переменную, равную произведению X1 и X2:
Y=B0+B1*X1+B2*X2+B3*X1*X2.
Произведение X1*X2 равно единице, если факторы действуют совместно и нулю, если какой либо из факторов отсутствует.
Аналогично можно поступить для учета взаимодействия обычных количественных переменных, а также индексных переменных с количественными.
Для получения переменных взаимодействия, следует воспользоваться средствами преобразования данных SPSS.
6.2. Логистическая регрессия
Предсказания событий, исследования связи событий с теми или иными факторами с нетерпением ждут от социологов. Будем считать, что событие в данных фиксируется дихотомической переменной (0 не произошло событие, 1 - произошло). Для построения модели предсказания можно было бы построить, к примеру, линейное регрессионное уравнение с зависимой дихотомической переменной Y, но оно будет не адекватно поставленной задаче, так как в классическом уравнении регрессии предполагается, чтоY- непрерывная переменная. С этой целью рассматривается логистическая регрессия. Ее целью является построение модели прогноза вероятности события {Y=1} в зависимости от независимых переменныхX1,…,Xp. Иначе эта связь может быть выражена в виде зависимостиP{Y=1|X}=f(X)
Логистическая регрессия выражает эту связь в виде формулы
,
где Z=B0+B1X1+…+BpXp(1).
Название "логистическая регрессия"
происходит от названия логистического
распределения, имеющего функцию
распределения
. Таким образом, модель, представленная
этим видом регрессии, по сути, является
функцией распределения этого закона,
в которой в качестве аргумента используется
линейная комбинация независимых
переменных.
Отношение шансов и логит
Отношение вероятности того, что событие произойдет к вероятности того, что оно не произойдет P/(1-P)называется отношением шансов.
С этим отношением связано еще одно представление логистической регрессии, получаемое за счет непосредственного задания зависимой переменной в виде Z=Ln(P/(1-P)), гдеP=P{Y=1|X1,…,Xp}.ПеременнаяZ называетсялогитом.По сути дела, логистическая регрессия определяется уравнением регрессииZ=B0+B1X1+…+BpXp.
В связи с этим отношение шансов может быть записано в следующем виде
P/(1-P)=.
Отсюда получается, что, если модель
верна, при независимых X1,…,Xp
изменениеXkна единицу
вызывает изменение отношения шансов
враз.
Решение уравнения с использованием логита.
Механизм решения такого уравнения можно представить следующим образом
Получаются агрегированные данные по переменным X, в которых для каждой группы, характеризуемой значениямиXj=
подсчитывается доля объектов, соответствующих событию{Y=1}. Эта доля является оценкой вероятности
. В соответствии с этим, для каждой группы получается значение логитаZj.
На агрегированных данных оцениваются коэффициенты уравнения Z=B0+B1X1+…+BpXp. К сожалению, дисперсияZздесь зависит от значенийX, поэтому при использовании логита применяется специальная техника оценки коэффициентов - взвешенной регрессии.
Еще одна особенность состоит в том, что
в реальных данных очень часто группы
по X оказываются однородными по Y, поэтому
оценки
оказываются равными нулю или единице.
Таким образом, оценка логита для них не
определена (для этих значений
).
В некоторых статистических пакетах такие группы объектов просто-напросто отбрасываются.
В настоящее время в статистическом пакете для оценки коэффициентов используется метод максимального правдоподобия, лишенный этого недостатка. Тем не менее, проблема, хотя и не в таком остром виде остается: если оценки вероятности для многих групп оказываются равными нулю или единице, оценки коэффициентов регрессии имеют слишком большую дисперсию. Поэтому, имея в качестве независимых переменных такие признаки, как душевой доход в сочетании с возрастом, их следует укрупнить по интервалам, приписав объектам средние значения интервалов.