1) Значения прогноза выживания могут выйти за пределы [0; 1]
Если убрать команду и оставить только пассажиров
SMPL 1 1316
Ls surv c class age sex
Variable |
Coefficient |
Std. Error |
t-Statistic |
Prob. |
C |
1.208220 |
0.052562 |
22.98679 |
0.0000 |
CLASS |
-0.151493 |
0.013396 |
-11.30922 |
0.0000 |
AGE |
-0.181377 |
0.040233 |
-4.508208 |
0.0000 |
SEX |
-0.478305 |
0.023462 |
-20.38658 |
0.0000 |
Вероятность вышла за пределы единицы
2) Значения остатков максимальны для значений 0 и 1, а в середине они не превышают 0.5
меньше (остатки имеют разную дисперсию - гетероскедастичность – нарушение условия Гаусса-Маркова)
3) Нет нормального распределения (либо выжил либо нет – как на экзамене – сдал-не сдал)
4) Линейная модель – постоянные предельные эффекты, а на деле они переменные
На этом примере это плохо видно
Возьмем пример сдачи экзамена в зависимости от продолжительности подготовки
(например в случае сдачи экзамена дополнительный час занятий бесполезен для отличников и двоечников, но максимально полезен для нормальных студентов – предельный эффект часа занятий разный – кривая обучения)
На рисунке растущая кривая – кривая обучения, колоколообразная кривая – кривая предельного эффекта – она наибольший в середине
Поэтому линейная вероятностная модель на практике не используется
РЕАЛЬНО ИСПОЛЬЗУЮТ МОДЕЛИ ТИПА ЛОГИТ ИЛИ ПРОБИТ
ИДЕЯ ЭТИХ МОДЕЛЕЙ – ЗАМЕНИТЬ ПРЯМУЮ ЛИНИЮ КРИВОЙ ОБУЧЕНИЯ (ЛОГИСТИЧЕСКАЯ – ЛОГИТ ИЛИ НОРМАЛЬНАЯ (ПРОБИТ) КРИВАЯ). – КРИВАЯ ОБУЧЕНИЯ – сигмовидная кривая – похожа на букву «S» РАСПОЛАГАЕТСЯ ЦЕЛИКОМ МЕЖДУ НУЛЕМ И ЕДИНИЦЕЙ
Считается обычная регрессия, но ее результат (значения зависимой переменной) потом подставляются в кривую обучения, чтобы вписаться в нужный интервал) В результате вероятность с гарантией оказывается между 0 и 1, кроме предельные эффекты становятся переменными
Таких кривых (наиболее популярных) – две: логит и пробит
Самая популярная
Logit
model
Выбрать мышкой вместо LS метод BINARY и поставить точку против logit и указать обычное уравнение без LS
Surv c class age sex
Программа выполняет преобразование по типу сложной функции
SURV SURV = 1-@CLOGISTIC(-(2.60984551216 - 0.329037734676*CLASS - 1.00627214048*AGE - 2.61419915962*SEX))
Обычная линейная регрессия, оцененная МЕТОДОМ МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ вставляется в
логистическую функцию
SURV= ,
Z=(2.60984551216 - 0.329037734676*CLASS - 1.00627214048*AGE - 2.61419915962*SEX
SURV= , Z=2.61 - 0.33*CLASS - 1.01*AGE - 2.61*SEX
ВАЖНО
Этот метод не имеет никакого отношения к Методу наименьших квадратов
И хорошо, что не имеет, так как мы видели, что условия Г-М были нарушены
Его идея состоит в том, что максимизируется функция правдоподобия – вероятность того, что то, что есть в выборке будет случайно получено.
Практически это означает, что мы больше не обращаем внимания на суммы квадратов остатков, нам теперь интересна функция правдоподобия
Dependent Variable: SURV |
||||
Method: ML - Binary Logit |
||||
Date: 11/13/12 Time: 14:36 |
||||
Sample: 1 1316 |
||||
Included observations: 1316 |
||||
Convergence achieved after 4 iterations |
||||
Covariance matrix computed using second derivatives |
||||
Variable |
Coefficient |
Std. Error |
z-Statistic |
Prob. |
C |
3.895347 |
0.346861 |
11.23030 |
0.0000 |
CLASS |
-0.874834 |
0.084731 |
-10.32486 |
0.0000 |
AGE |
-1.056173 |
0.243096 |
-4.344670 |
0.0000 |
SEX |
-2.367345 |
0.145240 |
-16.29951 |
0.0000 |
Mean dependent var |
0.379179 |
S.D. dependent var |
0.485367 |
|
S.E. of regression |
0.394611 |
Akaike info criterion |
0.976294 |
|
Sum squared resid |
204.3022 |
Schwarz criterion |
0.992045 |
|
Log likelihood |
-638.4012 |
Hannan-Quinn criter. |
0.982200 |
|
Restr. log likelihood |
-873.3778 |
Avg. log likelihood |
-0.485107 |
|
LR statistic (3 df) |
469.9532 |
McFadden R-squared |
0.269043 |
|
Probability(LR stat) |
0.000000 |
|
|
|
Obs with Dep=0 |
817 |
Total obs |
1316 |
|
Obs with Dep=1 |
499 |
|
|
|
Здесь совсем другие тесты (нет тестов F, t вообще никаких, которые построены на сумме квадратов)
ИНТЕРПРЕТАЦИЯ
Чтобы правильно интерпретировать коэффициент при переменной
Его значение нужно умножить на производную кривой обучения
Обоснование
Через производную сложной функции
SURV= , Z=2.61 - 0.33*CLASS - 1.01*AGE - 2.61*SEX
Вторая функция линейна и производная по факторам просто равна коэффициентам регрессии
Здесь
- производная логистической функции
На графике показана логистическая кумулятивная кривая (возрастающая кривая) и ее производная (колоколообразная кривая – она симметрична относительно нуля (четная функция)
Покажем порядок расчета на примере
Представим себе, что богатый (едущий в первом классе) джентльмен случайно нацепил платье жены
Let Class=1, Let AGE=1 LET SEX=1
Подставим эти значения в уравнение регрессии
=2.61 - 0.33*1 - 1.01*1 - 2.61*1
Z=-1.34
Оценим предельный эффект «смены» пола
Производную логистической кривой в точке Z=-1.34 нужно умножить по формуле сложной функции на коэффициент при поле
=(exp(1.34)/(1+exp(1.34))^2)* (- 2.61)
=-0.43
Таким образом эффект «смены пола» оценивается в 43 пункта
Это меньше, чем в линейной вероятностной модели (55 пунктов) но все же достаточно велико
Это можно проверить прямым расчетом
Подставим сначала в преобразованную по логит формулу регрессии
SURV = 1-@CLOGISTIC(-(2.60984551216 - 0.329037734676*CLASS - 1.00627214048*AGE - 2.61419915962*SEX))
параметры джентльмена (class=1, age=1, sex=1)
SURV = 1-@CLOGISTIC(-(2.60984551216 - 0.329037734676*1 - 1.00627214048*1 - 2.61419915962*1))
=0.2
Теперь пусть он «стал женщиной»
Теперь его параметры (class=1, age=1, sex=0)
SURV = 1-@CLOGISTIC(-(2.60984551216 - 0.329037734676*1 - 1.00627214048*1 - 2.61419915962*0))
=0.78
Рост почти на 60 пунктов
Результат отличен от предельного эффекта, рассчитанного по производным
Здесь – прямой расчет
Важно что качественно они совпадают
Предельные эффекты здесь переменные, так как модель нелинейна
Максимальный эффект будет там, где производная логистической функции максимальна
Так как эта функция четная, то ее точка максимума будет в нуле
Вычислим максимальный эффект пола в Z=0
=-0.65=(exp(0)/(1+exp(0))^2)* (- 2.61)
