Добавил:

inf Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Российский государственный социальный университет

Предмет:

Математические методы анализа в социологии

Файл:

Статистический пакет SPSS / Ростовцев П. Анализ социологических данных с применением статистического пакета SPSS, учебное пособие.DOC

Скачиваний:

203

Добавлен:

21.01.2014

Размер:

3.94 Mб

Скачать

☆

<<< < Предыдущая 20 21 22 23 24 25 26 27 28 29 30 31 3233 / 4433 34 35 36 37 38 39 40 41 42 43 44 > Следующая >>>

Взаимодействие переменных

Предположим, что мы рассматриваем пару индикаторных переменных: X¹- для выделения группы женатых иX²- для выделения группы "начальников", а прогнозируем с помощью уравнения регрессии все тот же логарифм дохода:Y=B₀+B₁*X¹+B₂*X².

Это уравнение моделирует ситуацию, когда действие факторов X¹иX²складывается, т.е. считается, к примеру, что женатый начальних имеет зарплатуB₁+B₂, не женатый начальникB₂. Это достаточно смелое предположение, так как, скорее всего, закономерность не так груба и существует взаимодействие между факторами, в результате которого их совместный вклад имеет другую величину. Для учета такого взаимодействия можно ввести в уравнение переменную, равную произведениюX¹иX²:

Y=B₀+B₁*X¹+B₂*X²+B₃*X¹*X².

Произведение X¹*X²равно единице, если факторы действуют совместно и нулю, если какой либо из факторов отсутствует.

Аналогично можно поступить для учета взаимодействия обычных количественных переменных, а также индексных переменных с количественными.

Для получения переменных взаимодействия, следует воспользоваться средствами преобразования данных SPSS.

6.2. Логистическая регрессия

Предсказания событий, исследования связи событий с теми или иными факторами с нетерпением ждут от социологов. Будем считать, что событие в данных фиксируется дихотомической переменной (0 не произошло событие, 1 - произошло). Для построения модели предсказания можно было бы построить, к примеру, линейное регрессионное уравнение с зависимой дихотомической переменной Y, но оно будет не адекватно поставленной задаче, так как в классическом уравнении регрессии предполагается, чтоY- непрерывная переменная. С этой целью рассматривается логистическая регрессия. Ее целью является построение модели прогноза вероятности события {Y=1} в зависимости от независимых переменныхX¹,…,X^p. Иначе эта связь может быть выражена в виде зависимостиP{Y=1|X}=f(X)

Логистическая регрессия выражает эту связь в виде формулы

, где Z=B₀+B₁X¹+…+B_pX^p(1).

Название "логистическая регрессия" происходит от названия логистического распределения, имеющего функцию распределения . Таким образом, модель, представленная этим видом регрессии, по сути, является функцией распределения этого закона, в которой в качестве аргумента используется линейная комбинация независимых переменных.

Отношение шансов и логит

Отношение вероятности того, что событие произойдет к вероятности того, что оно не произойдет P/(1-P)называется отношением шансов.

С этим отношением связано еще одно представление логистической регрессии, получаемое за счет непосредственного задания зависимой переменной в виде Z=Ln(P/(1-P)), гдеP=P{Y=1|X¹,…,X^p}.ПеременнаяZ называетсялогитом.По сути дела, логистическая регрессия определяется уравнением регрессииZ=B₀+B₁X¹+…+B_pX^p.

В связи с этим отношение шансов может быть записано в следующем виде

P/(1-P)=.

Отсюда получается, что, если модель верна, при независимых X¹,…,X^pизменениеX^kна единицу вызывает изменение отношения шансов враз.

Решение уравнения с использованием логита.

Механизм решения такого уравнения можно представить следующим образом

Получаются агрегированные данные по переменным X, в которых для каждой группы, характеризуемой значениямиX_j=подсчитывается доля объектов, соответствующих событию{Y=1}. Эта доля является оценкой вероятности. В соответствии с этим, для каждой группы получается значение логитаZ_j.
На агрегированных данных оцениваются коэффициенты уравнения Z=B₀+B₁X¹+…+B_pX^p. К сожалению, дисперсияZздесь зависит от значенийX, поэтому при использовании логита применяется специальная техника оценки коэффициентов - взвешенной регрессии.

Еще одна особенность состоит в том, что в реальных данных очень часто группы по X оказываются однородными по Y, поэтому оценки оказываются равными нулю или единице. Таким образом, оценка логита для них не определена (для этих значений).

В некоторых статистических пакетах такие группы объектов просто-напросто отбрасываются.

В настоящее время в статистическом пакете для оценки коэффициентов используется метод максимального правдоподобия, лишенный этого недостатка. Тем не менее, проблема, хотя и не в таком остром виде остается: если оценки вероятности для многих групп оказываются равными нулю или единице, оценки коэффициентов регрессии имеют слишком большую дисперсию. Поэтому, имея в качестве независимых переменных такие признаки, как душевой доход в сочетании с возрастом, их следует укрупнить по интервалам, приписав объектам средние значения интервалов.

<<< < Предыдущая 20 21 22 23 24 25 26 27 28 29 30 31 3233 / 4433 34 35 36 37 38 39 40 41 42 43 44 > Следующая >>>

Соседние файлы в папке Статистический пакет SPSS

#
21.01.20147.3 Mб167Д. Таганов SPSS.doc
#
21.01.20143.94 Mб203Ростовцев П. Анализ социологических данных с применением статистического пакета SPSS, учебное пособие.DOC