Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Архив WinRAR / Rost SPSS.doc
Скачиваний:
61
Добавлен:
15.05.2015
Размер:
8.1 Mб
Скачать

6.2.6. Качество логистической регрессии

Далее в выдаче появляется описательная информация о качестве модели:

–2 Log Likelihood 3289.971

Goodness of Fit 2830.214

Cox & Snell – R^2  .072

Nagelkerke – R^2  .102

которые означают:

  • –2 Log Likelihood – удвоенный логарифм функции правдоподобия со знаком минус;

  • Goodness of Fit– характеристика отличия наблюдаемых частот от ожидаемых;

  • Cox & Snell – R^2 и Nagelkerke – R^2 – псевдокоэффициенты детерминации, полученные на основе отношения функций правдоподобия модели с константой к модели со всеми коэффициентами.

Эти коэффициенты стоит использовать при сравнении очень похожих моделей, построенных на аналогичных данных, что практически нереально, поэтому на них мы не будем останавливаться.

6.2.7. Вероятность правильного предсказания

На основе модели логистической регрессии можно строить предсказание, произойдет или не произойдет событие {y = 1}. Правило предсказания, по умолчанию заложенное в процедуру LOGISTIC REGRESSION, устроено по следующему принципу: если > 0,5,то считаем, что событие произойдет; если 0,5, то счи­таем, что событие непроизойдет. Это правило оптимально с точки зрения минимизации числа ошибок, но очень грубо с точки зрения исследования связи. Зачастую оказывается, чтовероятность событияP{y = 1} мала (значительно меньше 0,5), тогда все имеющиеся в данных сочетания x предсказывают противоположное событие, или велика (значительно больше 0,5), поэтому оказывается, что они предсказывают событие {y = 1}.

Поэтому необходима другая классификация, которая демонстрирует связь между зависимой и независимыми переменными. С этой целью стоит выделить два типа объектов:

  • объекты, имеющие повышеннуювероятность события {y = 1}, для которых оцененная условная вероятностьP{y = 1|x}, больше безусловной оценки вероятностиP{y = 1} (доли объектов, для которыхy = 1);

  • объекты, имеющие повышенную вероятность противоположного события {y = 0}, для которых оцененная условная вероятностьP{y = 1x} меньше оценки безусловной вероятностиP{y = 1}.

В нашем случае доля объектов, для которых y = 1, равна 0,69. Поэтому в процедуре указан параметр/CRITERIA CUT(.69).Связь между этими классификациями представлена в таблице сопряженности (рис. 6.3). Но лучше, пользуясь EXCEL или калькулятором, в этой таблице вычислить процентные соотношения.

Classification Table for ALCOHOL

The Cut Value is .69

Predicted

не пьет пьет Percent

Observed

не пьет н 541 340 61.41%

Рис. 6.3. Классификационная таблица

пьет п 694 1244 64.19%

Таблица 6.6

Связь наблюдения и предсказания в логистической регрессии

Наблюдается

Предсказанный тип

Всего

Не пьет

Пьет

Не пьет

43,8 %

21,5 %

31,3 %

Пьет

56,2 %

78,5 %

68,7 %

6.2.8. Коэффициенты логистической регрессии

Основная информация содержится в таблице коэффициентов регрессии (рис. 6.4). Преждевсего, следует обратить внимание на значимость коэффициентов. Наблюдаемая значимость вычисляется на основе статистики

Variable B S.E. Wald df Sig R

WAGE .0432 .0078 30.4619 1 .0000 .0902

MANAG 9.9788 3 .0187 .0337

MANAG(1) .3544 .1489 5.6637 1 .0173 .0323

MANAG(2) .5241 .2328 5.0673 1 .0244 .0296

MANAG(3) .0393 .1580 .0618 1 .8036 .0000

SMOKE .6419 .1074 35.6956 1 .0000 .0981

DH5(1) .8801 .1366 41.5022 1 .0000 .1062

DH5(1) by WAGE -.0390 .0101 14.7972 1 .0001 -.0605

Constant -.0534 .0767 .4852 1 .4861

В

Рис. 6.4. Коэффициенты логистической регрессии

альда. Эта статистика связана с методом максимального правдоподобия и может быть использована при оценках разнообразных параметров.

Универсальность статистики Вальда позволяет оценить значимость не только отдельных переменных, но и в целом значимость категориальных пе­ременных, несмотря на то что они дезагрегированы на индексные переменные. Статистика Вальда имеет распределение хи-квадрат. Число степеней свободы равно единице, если проверяется гипотеза о равенстве нулю коэффициента при обычной или индексной переменной,а для категориальной переменной – числу значений без единицы (т. е. числу соответствующих индексных переменных). Квадратный корень из статистики Вальда при­ближенно равен отношению величины коэффициента к его стандартной ошибке – так же выражаетсяt-статистика в обычной линейной модели регрессии.

В нашей таблице коэффициентов почти все переменные значимы на уровне значимости 5 %. Закрыв глаза на возможное взаимодействие между независимыми переменными (коллинеарность), можно считать, что вероятность употребления алкоголя повышена при высокой зарплате, а также у руководителей различного ранга. Из-за незначимости статистики Вальда нет, правда, полной уверенности относительно повышенной вероятности для начальников, имеющих более 10 подчиненных. Курение и принадлежность к мужскому полу также повышают эту вероятность, однако, взаимодействие «мужчина – зарплата» имеет обратное действие.

В этой же таблице присутствует аналог коэффициента корреляции (R), также построенный на основании статистики Вальда. Для обычных и индексных переменных положительные значения коэффициента свидетельствуют о положительной связи переменной с вероятностью события, отрицательные – об отрицательной связи.

Кроме того, мы выдали таблицу экспонент коэффициентов eB и их доверительные границы (см. рис. 6.5). Эта таблица выдана подкомандой /PRINT = CI(95)в команде задания логистической регрессии.

95% CI for Exp(B)

Variable Exp(B) Lower Upper

WAGE 1.0441 1.0282 1.0603

MANAG(1) 1.4253 1.0645 1.9083

MANAG(2) 1.6889 1.0701 2.6654

MANAG(3) 1.0401 .7630 1.4177

SMOKE 1.9001 1.5393 2.3455

DH5(1) 2.4112 1.8448 3.1515

D

Рис. 6.5. Экспоненты коэффициентов

H5(1) by WAGE .9618 .9429 .9811

Согласно модели и полученным значениям коэффициентов при фиксированных прочих переменных принадлежность к мужскому полу увеличивает отношение шансов «пития» и «не пития» в 2,4 раза (точнее, в 1,84 – 3,15 раза), курения – в 1,9 раза (1,54 – 2,35), а прибавка к зарплате 100 рублей – на 4,4 % (2,8 – 6 %). Правда, такая прибавка мужчине одновременно уменьшает это отношение на 3,8 % (5,7 % – 1,9 %). Быть начальником низкого ранга – значит увеличить отношение шансов в 1,43  (1,06 – 1,9) раза, чем в среднем, а начальником среднего ранга – в 1,7 (1,07 – 2,67) раза.