Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Тема 9 Модели бинарного выбора 505.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
476.67 Кб
Скачать

1) Значения прогноза выживания могут выйти за пределы [0; 1]

Если убрать команду и оставить только пассажиров

SMPL 1 1316

Ls surv c class age sex

Variable

Coefficient

Std. Error

t-Statistic

Prob.

C

1.208220

0.052562

22.98679

0.0000

CLASS

-0.151493

0.013396

-11.30922

0.0000

AGE

-0.181377

0.040233

-4.508208

0.0000

SEX

-0.478305

0.023462

-20.38658

0.0000

Вероятность вышла за пределы единицы

2) Значения остатков максимальны для значений 0 и 1, а в середине они не превышают 0.5

меньше (остатки имеют разную дисперсию - гетероскедастичность – нарушение условия Гаусса-Маркова)

3) Нет нормального распределения (либо выжил либо нет – как на экзамене – сдал-не сдал)

4) Линейная модель – постоянные предельные эффекты, а на деле они переменные

На этом примере это плохо видно

Возьмем пример сдачи экзамена в зависимости от продолжительности подготовки

(например в случае сдачи экзамена дополнительный час занятий бесполезен для отличников и двоечников, но максимально полезен для нормальных студентов – предельный эффект часа занятий разный – кривая обучения)

На рисунке растущая кривая – кривая обучения, колоколообразная кривая – кривая предельного эффекта – она наибольший в середине

Поэтому линейная вероятностная модель на практике не используется

РЕАЛЬНО ИСПОЛЬЗУЮТ МОДЕЛИ ТИПА ЛОГИТ ИЛИ ПРОБИТ

ИДЕЯ ЭТИХ МОДЕЛЕЙ – ЗАМЕНИТЬ ПРЯМУЮ ЛИНИЮ КРИВОЙ ОБУЧЕНИЯ (ЛОГИСТИЧЕСКАЯ – ЛОГИТ ИЛИ НОРМАЛЬНАЯ (ПРОБИТ) КРИВАЯ). – КРИВАЯ ОБУЧЕНИЯ – сигмовидная кривая – похожа на букву «S» РАСПОЛАГАЕТСЯ ЦЕЛИКОМ МЕЖДУ НУЛЕМ И ЕДИНИЦЕЙ

Считается обычная регрессия, но ее результат (значения зависимой переменной) потом подставляются в кривую обучения, чтобы вписаться в нужный интервал) В результате вероятность с гарантией оказывается между 0 и 1, кроме предельные эффекты становятся переменными

Таких кривых (наиболее популярных) – две: логит и пробит

Самая популярная

Logit model

Выбрать мышкой вместо LS метод BINARY и поставить точку против logit и указать обычное уравнение без LS

Surv c class age sex

Программа выполняет преобразование по типу сложной функции

SURV SURV = 1-@CLOGISTIC(-(2.60984551216 - 0.329037734676*CLASS - 1.00627214048*AGE - 2.61419915962*SEX))

Обычная линейная регрессия, оцененная МЕТОДОМ МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ вставляется в

логистическую функцию

SURV= ,

Z=(2.60984551216 - 0.329037734676*CLASS - 1.00627214048*AGE - 2.61419915962*SEX

SURV= , Z=2.61 - 0.33*CLASS - 1.01*AGE - 2.61*SEX

ВАЖНО

Этот метод не имеет никакого отношения к Методу наименьших квадратов

И хорошо, что не имеет, так как мы видели, что условия Г-М были нарушены

Его идея состоит в том, что максимизируется функция правдоподобия – вероятность того, что то, что есть в выборке будет случайно получено.

Практически это означает, что мы больше не обращаем внимания на суммы квадратов остатков, нам теперь интересна функция правдоподобия

Dependent Variable: SURV

Method: ML - Binary Logit

Date: 11/13/12 Time: 14:36

Sample: 1 1316

Included observations: 1316

Convergence achieved after 4 iterations

Covariance matrix computed using second derivatives

Variable

Coefficient

Std. Error

z-Statistic

Prob.

C

3.895347

0.346861

11.23030

0.0000

CLASS

-0.874834

0.084731

-10.32486

0.0000

AGE

-1.056173

0.243096

-4.344670

0.0000

SEX

-2.367345

0.145240

-16.29951

0.0000

Mean dependent var

0.379179

S.D. dependent var

0.485367

S.E. of regression

0.394611

Akaike info criterion

0.976294

Sum squared resid

204.3022

Schwarz criterion

0.992045

Log likelihood

-638.4012

Hannan-Quinn criter.

0.982200

Restr. log likelihood

-873.3778

Avg. log likelihood

-0.485107

LR statistic (3 df)

469.9532

McFadden R-squared

0.269043

Probability(LR stat)

0.000000

Obs with Dep=0

817

Total obs

1316

Obs with Dep=1

499

Здесь совсем другие тесты (нет тестов F, t вообще никаких, которые построены на сумме квадратов)

ИНТЕРПРЕТАЦИЯ

Чтобы правильно интерпретировать коэффициент при переменной

Его значение нужно умножить на производную кривой обучения

Обоснование

Через производную сложной функции

SURV= , Z=2.61 - 0.33*CLASS - 1.01*AGE - 2.61*SEX

Вторая функция линейна и производная по факторам просто равна коэффициентам регрессии

Здесь - производная логистической функции

На графике показана логистическая кумулятивная кривая (возрастающая кривая) и ее производная (колоколообразная кривая – она симметрична относительно нуля (четная функция)

Покажем порядок расчета на примере

Представим себе, что богатый (едущий в первом классе) джентльмен случайно нацепил платье жены

Let Class=1, Let AGE=1 LET SEX=1

Подставим эти значения в уравнение регрессии

=2.61 - 0.33*1 - 1.01*1 - 2.61*1

Z=-1.34

Оценим предельный эффект «смены» пола

Производную логистической кривой в точке Z=-1.34 нужно умножить по формуле сложной функции на коэффициент при поле

=(exp(1.34)/(1+exp(1.34))^2)* (- 2.61)

=-0.43

Таким образом эффект «смены пола» оценивается в 43 пункта

Это меньше, чем в линейной вероятностной модели (55 пунктов) но все же достаточно велико

Это можно проверить прямым расчетом

Подставим сначала в преобразованную по логит формулу регрессии

SURV = 1-@CLOGISTIC(-(2.60984551216 - 0.329037734676*CLASS - 1.00627214048*AGE - 2.61419915962*SEX))

параметры джентльмена (class=1, age=1, sex=1)

SURV = 1-@CLOGISTIC(-(2.60984551216 - 0.329037734676*1 - 1.00627214048*1 - 2.61419915962*1))

=0.2

Теперь пусть он «стал женщиной»

Теперь его параметры (class=1, age=1, sex=0)

SURV = 1-@CLOGISTIC(-(2.60984551216 - 0.329037734676*1 - 1.00627214048*1 - 2.61419915962*0))

=0.78

Рост почти на 60 пунктов

Результат отличен от предельного эффекта, рассчитанного по производным

Здесь – прямой расчет

Важно что качественно они совпадают

Предельные эффекты здесь переменные, так как модель нелинейна

Максимальный эффект будет там, где производная логистической функции максимальна

Так как эта функция четная, то ее точка максимума будет в нуле

Вычислим максимальный эффект пола в Z=0

=-0.65=(exp(0)/(1+exp(0))^2)* (- 2.61)