эконометрика с косяками
.pdf1, _ если _ экология благоприятная
Eco (X ) = 0, _ иначе
4
–это – фиктивная переменная
Полулогарифмическая модель:
log(Price) 0 1 log(Dist) 2 log(House)
3 log(Area) 4Eco
НАЙДИТЕ: |
|
|
b _____, P |
_____? |
|
0 |
val |
|
b _____, P |
_____? |
|
1 |
val |
|
b _____, P |
_____? |
|
2 |
val |
|
b _____, P |
_____? |
|
3 |
val |
|
b _____, P |
_____? |
|
4 |
val |
|
Какие из этих коэффициентов значимы?
Radj2 _____?
41
Содержательная интерпретация найденных коэффициентов.
Price = A(Dist)b1 (House)b2 (Area)b3 eb4Eco
( A = eb0 )
(запишите в таком виде полученную Вами модель, подставив найденные коэффициенты )
Вопросы:
1. Пусть имеется два одинаковых дома с участком, но один из них на 100 км, а второй
– на 101км.
Как будут отличаться их цены?
2.Пусть имеется два одинаковых дома с участком, но один из них – с хорошей экологией, а другой – нет.
Как будут отличаться их цены?
Ловушка, связанная с введением дамми-переменных: |
||||||||||
Если у переменной z j |
есть k градаций, то есть риск ввести k дамми-переменных. |
|||||||||
## zi 2.4 |
|
1, |
если i-наблюдение осуществлено зимой, |
|
||||||
|
|
|
|
|
|
|
|
|
||
|
|
0, |
иначе. |
|
|
|
|
|
||
месяц |
|
z 2.1 |
|
z 2.2 |
|
z 2.3 |
z 2.4 |
В данной модели присутствует линейная зависимость |
||
январь |
|
0 |
|
0 |
|
|
0 |
1 |
переменных: |
z 2.1 z 2.2 z 2.3 z 2.4 x 0 1 |
февраль |
|
0 |
|
0 |
|
|
0 |
1 |
(полная мультиколлинеарность). |
|
март |
|
1 |
|
0 |
|
|
0 |
0 |
Матрица X T X вырожденная, обратной матрицы X T X 1 |
|
апрель |
|
1 |
|
0 |
|
|
0 |
0 |
||
Май |
|
1 |
|
0 |
|
|
0 |
0 |
не существует, формулы МНК не работают! |
|
июнь |
|
0 |
|
1 |
|
|
0 |
0 |
Число дамми-переменных должно быть на |
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
единицу меньше числа градаций соответствующей |
|
|
|
|
|
|
|
|
|
|
42 |
|
|
|
|
|
|
|
|
|
|
категоризованной переменной! |
июль |
0 |
1 |
0 |
0 |
август |
0 |
1 |
0 |
0 |
сентябрь |
0 |
0 |
1 |
0 |
октябрь |
0 |
0 |
1 |
0 |
ноябрь |
0 |
0 |
1 |
0 |
декабрь |
0 |
0 |
0 |
1 |
Контрольное задание (файл Чебуреки2.sf)
Менеджер новой чебуречной не уверен в правильности выбранной цены на чебуреки, поэтому в течение 12 недель он варьирует цену и записывает количество проданных чебуреков.
В файле чебуреки2.sf приведены результаты его экспериментов (P-цена, Q- количество).
1.Постройте регрессионную модель для количества проданных чебуреков в зависимости от цены.
2.Найдите, при какой цене выручка от продаж будет максимальной.
(Конец 1 дня)
--------------------------------------------------------------------------------
Logit и Probit модели
Бинарные результирующие показатели и связанные с ними логит- и пробит-модели
x 1 , x 2 ,..., x p |
|
0 |
y |
||
|
|
1 |
0, нет ## Возраст, образование, стаж, желаемый уровень зарплаты безработный
1, да
43
Если построить |
линейную регрессионную |
зависимость |
|
y |
0 |
x 1 ... |
p |
x p , |
||||||
|
|
|
|
|
|
|
|
1 |
|
|
|
|
||
непонятна интерпретация значений |
ˆ |
|
|
|
|
|
|
|
|
|
|
|
|
|
yˆi Xi , измеренных в непрерывной количественной |
||||||||||||||
шкале. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
Выход: построить регрессионную зависимость вероятности |
P y 1 |
от |
X |
! |
|
|||||||||
Непосредственная |
зависимость |
P y 1 |
0 |
x 1 ... |
p |
x p |
|
плоха, так |
|
как |
||||
|
|
|
1 |
|
|
|
|
|
|
|
|
|
||
вероятность выходит за пределы отрезка [0; 1], лучше подобрать функцию F X : |
|
|
P y 1 F X F z .
Свойства:
1.F z – монотонно возрастает.
2.F z 0; 1 .
3.F z 0 при z .
4.F z 0 при z .
p=F(z) |
|
|
1 |
|
|
0,5 |
|
|
0 |
|
z |
-5 |
0 |
5 |
44
Пример 5 ( файл Titanic.sf)
От чего и как зависела вероятность выжить на Титанике?
В данном примере зависимая переменная
(Y) – это качественная переменная, принимающая два значения, пусть 1 – если пассажир выжил и 0 – в противном случае. Все остальные переменные – зависимые.
(описание переменных можно найти в файле titanic3info.txt ). Для нас важны следующие переменные:
Survived =1 или 0, - выживаемость, Age – возраст,
Fare – стоимость билета, Pclass – класс каюты,
Sibsp – количество братьев/сестер, parch - количество родителей/детей sex – пол,1-ж, 2-м
y = |
1 |
|
|
|
|
|
|
|
|
1+ e- z |
, |
|||
где |
|
|
|
|
z b0 b1x1 ... bk xk .
45
y
1
z
Такая модель называется логистической
(logit).
Данная функция принимает значения из отрезка [0,1] и ее значения можно интерпретировать, как прогнозируемые вероятности появления 1 (в нашем примере – вероятность выжить).
Вместо логистической функции, можно было использовать функцию
|
|
1 |
|
z |
x2 |
1 |
|
||
y |
|
|
e |
|
dx Ф(x) |
|
|||
|
|
2 |
|||||||
|
|
|
|
|
|||||
|
2 , |
||||||||
|
|
|
|
|
|
||||
|
|
2 |
|
|
|
|
|
где Ф(x) - функция Лапласа.
Это- probit модель. (В нашей версии SGее нет).
46
Построим логистическую модель для нашего примера.
В главном меню StatGraphics выбираем:
Special/Advance Regression/Logistic Regression
Вполе Dependent Value заносим survived ,
вполе Quantitative Factors –age, fare, pclass, sibsp, parch в , в поле Categorical Factors – sex..
Смотрим результаты. Также как и для обычной регрессионной модели нас будет интересовать значимость найденных коэффициентов (см.соотв. Pval) и качество подгонки модели (Adjusted Percentage).
1)Какие коэффициенты незначимы?
2)Последовательно исключите соответствующие переменные.
3)Что осталось?
4)На графиках (Grafical Option/Plot of Fitted Model) – посмотрите, как зависит вероятность выжить от
i.возраста,
ii.от пола,
iii.от класса каюты?
47
Метод главных компонент.
Иногда метод главных компонент называют преобразованием Кархунена-Лоэва (англ. Karhunen-Loeve) или преобразованием Хотеллинга (англ. Hotelling transform).
Геометричская интерпретация. Связь с матрицей ковариаций.
При пошиве костюма портной делает 8 – 10 измерений фигуры человека, но при покупке готовой одежды мы обычно учитываем только два измерения: размер и рост, т.е. какие то измерения не очень существенны.
Пусть имеется n объектов (например – людей), и каждый из объектов характеризуется набором из k признаков (например – биометрических характеристик человека). Эти данные можно представить в виде матрицы:
|
(1) |
x1 |
|
X x2(1) |
|
|
(1) |
xn
x1(2) ...
x2(2) ...
xn(2) ...
x1(k ) x2(k ) xn(k )
Каждая строка в этой матрице – это объект, а каждый столбец – это признак.
48
Пусть k=3, тогда каждый объект будет изображаться точкой в трехмерном пространстве, и мы получим облако из n точек.
Мы попытаемся от исходной системы координат
( X (1) , X (2) , X (3) ) X
перейти к новой системе следующим образом: начало новой системы координат (главных компонент)
(Y (1) , Y (2) , Y (3) ) Y
мы выберем в «центре тяжести» облачка точек (такая точка называется центроидом ).
Направление первой главной компоненты
– оси Y (1) мы выберем так, чтобы
рассеяние точек облачка вдоль этой оси было максимально
(точнее: мы проектируем все точки на ось и направление оси выбираем так, чтобы выборочная дисперсия для проекций была максимальна).
49
Первая главная компонента максимизирует выборочную дисперсию проекций данных.
Вторая главная компонента должна быть ортогональна предыдущей, поэтому в плоскости ортогональной к построенной оси мы выбираем такое направление, вдоль которого рассеяние точек макимально
(т.е. дисперсия для проекций на эту ось – масимальна) и т.д.
50