Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
лекции по эконометрике от полины.doc
Скачиваний:
12
Добавлен:
19.11.2019
Размер:
750.59 Кб
Скачать

II. Оценка значимости коэффициентов регрессии:

1. Выдвигается Н0: коэффициент регрессии b в генеральной совокупности равен 0;

2. Выдвигается Н1: коэффициент регрессии b в генеральной совокупности не равен 0;

3. Определяется уровень значимости α;

4. Определяется критическое значение критерия Стьюдента (Seb – станд. ошибка b; b – коэфф. регрессии, абс. показатель силы связи (в лин. ур-ии), мера зависимости у от х):

t = b/Seb

Seb1 = δу / δх1 * корень из ((1 - R2yx1x2) / (1- r2x1x2* (n-m-1))

Seb2 = δу / δх2 * корень из ((1 - R2yx1x2) / (1- r2x1x2* (n-m-1))

а. t > tтабл., то Н0 отклоняется, то есть параметр b не случайно отличается от нуля, сформировался под влиянием систематически действующего фактора.

б. t < tтабл., то Н0 не отклоняется, и признается случайная природа формирования b.

Можно проверить достоверность а (свободный член уравнения регрессии; экономически не интерпретируется):

Seа = корень из (MSE / Σ(x-xср)2) = корень из (Σ(у-у с крыш)2/(n-2)) * Σx2/n* Σ(х- xср)2

III. Оценка качества (достоверности) модели

Ошибка аппроксимации (А)ошибка или остаток.

Можно рассчитать А по каждому наблюдению в относительном виде:

А = (Σ |(у-у с крыш) / у| * 100%) / n

Расчет м. оформить в таблице:

y

x

у с крыш

у-у с крыш

|(у-у с крыш) / у| * 100%

1

10,57

1

21,48

-10,91

103,22

2

17,50

3

22,29

-4,79

27,37

Итого:

-

-

-

-

197,15

Если n = 8, то А = 197,15 / 8 = 24,64 %

Если А<10% - норма.

24. Частные критерии Фишера в оценке результатов множественной регрессии

Есть частные F-критерии, с помощью которых м. оценить дополнительное включение фактора в модель. Необходимость такой оценки связана с тем, что не каждый фактор в модели существенно увеличивает фактическую вариацию – поэтому нужно ли включать этот фактор в модель?

Важно, что из-за различной связи между факторов, значимость одного и того же доп. фактора различна в зависимости от порядка его включения в модель.

Частные F-критерии строятся на сравнении прироста факторов на 1 степень свободы за счет доп. включения в модель фактора к остаточной вариации до модели.

Fx1 = ((R2yx1x2 – r2yx2) / (1-R2 yx1x2)) * (n-m-1) = 0,96

Fx2 = ((R2yx1x2 – r2yx1) / (1-R2 yx1x2)) * (n-m-1) = 1,9

Fтабл = 10.

Вывод: С вероятностью α м. утверждать, что включение фактора х1 после х2 не целесообразно, и включение х2 после х1 нецелесообразно – нельзя построить двухфакторную модель.

Все показатели м. оформить в виде частной таблицы дисперсионного анализа ANOVA.

Источник вариации:

df

SS

MS

F

- регрессия

2

SSR

MSR

F

- в т.ч. с ф. х2

1

SSRх2

MSRх2

F х2

- регрессия, обусл. вкл. в модель ф. x1 после x2

1

SSRх1

MSRх1

F х1

- остаток

3

SSE

MSE

- итого

5

df – кол-во степеней свободы; MS = SS/df – дисперсия на 1 степень свободы; SSx2 = SST * r2yx2 - сумма квадратов отклонений (общ., факт., остат.); F = MSR/MSE – критерий Фишера. F = t2.

а. Если F>Fтабл., то гипотеза о случайной природе оцениваемых характеристик отклоняется и признается статистическая значимость и надежность.

б. Если F<Fтабл., то гипотеза о случ… не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии.

Вывод: с вероятностью α м. утверждать, что коэфф. детерминации R2 в генеральной совокупности не значим; модель недостоверна.

25. Использование фиктивных переменных в моделях множественной регрессии

Фиктивная (структурная) переменная переменная, принимающая значение 1 или 0.

Используется при решении следующих задач:

1. при моделировании качественных признаков;

2. для учета структурной неоднородности, к которой приводят качественные признаки;

3. для оценки сезонных колебаний.

Фиктивные (структурны) переменныеэто сконструированные искусственно переменные, например, пронумерованные атрибутивные признаки (пол, образование, регион).

Рассмотрим пример:

Дано: Z=0, если камина в доме нет; Z=1, если камин в доме есть.

- Рассчитаем показатели тесноты (R2) и силы (b, Э) связи.

- Оценим значимость (достоверность) параметров модели (t) и самой модели (F, Fчастн).

- Общий вид уравнения: Y = 50 + 16X + 3Z .

Вывод: Для домов, не имеющих камина: Y = 50 + 16X (поскольку Z=0); для домов, имеющих камин: Y = 5 + 3 + 16X = 53 + 16Х (поскольку Z=1).

Вывод:

1. Увеличение жилой площади на 1000 кв.футов приводит к увеличению предсказанной средней оценочной стоимости на 16 тыс.долл. (это b) при условии, что фиктивная переменная (наличие камина) имеет постоянное значение.

2. Если жилая площадь постоянна, наличие камина увеличивает среднюю оценочную стоимость дома на 3 тыс.долл. (это коэфф. перед Z = c).

!!! Фиктивные переменные м. вводится и в нелинейные модели. При этом они вводятся линейно.

Рассмотрим пример:

ln y = ln a + b1ln x1 + b2z; ln y = 4 +0,3 ln x + 0,05z

yc крыш = e4 x0,3 e0,05z e4 = 65 e0,05z = 1,05

y = a + b1z1 +b2z2

Параметр a - среднее значение результативного признака при z1, z2 = 0.

Параметр b1 и b2 характеризует разность средних уравнений результативного признака для группы 1 и базовой группы 0.

Параметр b2 характеризует разность средних уравнений результативного признака для группы 2 и базовой группы 0.

Вывод:

1. 0,3 – коэфф. Э: при увеличении площади на 1 %, стоимость увеличивается на 0,3 %.

2. e0,05z - оценка стоимости домов с камином в 1,05 раз дороже (на 5 %), чем без него.

26. Предпосылки метода наименьших квадратов

МНК применяется при оценке уравнения регрессии. Делаются предпосылки относительно случайной составляющей ε (ненаблюдаемой величиной): y = a + b1х1 +b2х2 + … + ε.

Основные предпосылки МНК:

1. случайный характер остатков (если на поле корреляции нет направленности в расположении точек ε);

2. нулевая средняя остатков, не зависящая от фактора x: Σ(у - ух с крыш) = 0 или нелин. модель - Σ(ln у - ln ух с крыш) = 0 и также на поле корреляции … ;

3 . гомоскедастичность (дисперсия каждого

отклонения одинакова для всех значений x);

4. отсутствие автокорреляции остатков

(распределение остатков независимо друг от друга);

5. остатки должны подчиняться нормальному распределению .

Если все 5 предпосылок выполнены, то оценки, полученные МНК и методом максимального правдоподобия, совпадают. Если не все – нужно скорректировать модель.

27. Гетероскедастичность - понятие, проявление и меры устранения

Проблемы, возникающие при построении регрессионных моделей:

1. Гетероскедастичность.

2. Мультиколлинеарность.

Гетероскедастичность (неоднородность) — означает ситуацию, когда дисперсия ошибки в уравнении регрессии изменяется от наблюдения к наблюдению. В этом случае приходится подвергать определенной модификации МНК (иначе возможны ошибочные выводы).

Г. проявляется, если совокупность неоднородна (изучаются разносторонние области).

Симптомы Г.:

1. низкий коэффициент детерминации r2;

2. это м. привести к смещенности оценки.

Меры по устранению гетероскедастичности:

1. Увеличение числа наблюдений.

2. Изменение функциональной формы модели.

3. Разделение исходной совокупности на качественно-однородные группы и проведение анализа в каждой группе.

4. Использование фиктивных переменных, учитывающих неоднородность.

5. Исключение из совокупности единиц, дающих неоднородность.

З ависимость остатков от выровненного значения результата:

а. дисперсия остатков увеличивается с

увеличением выровненного значения

результата (один из случаев Г.).

б. нет зависимости (гомоскедастичность). а) б)

Тесты, используемые для выявления Г.:

1. Гольдфельда-Квандта

2. Парка

3. Глейзера

4. Уайта

5. Ранговой корреляции Спирмена

28. Оценка гетероскедастичности с помощью метода Гольдфельда и Квандта

Гетероскедастичность (неоднородность) — проблема, возникающая при построении регрессионных моделей; означает ситуацию, когда дисперсия ошибки в уравнении регрессии изменяется от наблюдения к наблюдению. В этом случае приходится подвергать определенной модификации МНК (иначе возможны ошибочные выводы).

Г. проявляется, если совокупность неоднородна (изучаются разносторонние области).

Этот метод используется при малом объеме выборки. Рассмотрели однофакторную модель, для кот. дисперсия остатков возрастает пропорционально квадрату фактора. Чтобы оценить нарушение Г., предложили параметрический тест.

1. Все наблюдения упорядочивают по мере возрастания какого-либо фактора, который, как предполагается, оказывает влияние на возрастание дисперсии остатков.

2. Упорядоченную совокупность делят на три группы, причем первая и последняя должны быть равного объема с числом единиц, больших, чем число параметров модели регрессии. Число отобранных единиц обозначим k

3. По первой и третьей группе находят параметры уравнений регрессии и остатки по ним.

4. Используя данные об остатках моделей первой и третьей группы, рассчитывают фактическое значение F-критерия.

F = SSE(3) / SSE(1)

df1=df2=k-m-1

Вывод: отношения R будет удовлетворять отношение F-критериев. Чем больше будет величина R превышать табличное значение F-критерия, тем более будет нарушена предпосылка о равенстве дисперсий остаточных величин.

29. Использование коэффициента корреляции рангов Спирмэна для проверки наличия гетероскедастичности в остатках

Гетероскедастичность (неоднородность) — проблема, возникающая при построении регрессионных моделей; означает ситуацию, когда дисперсия ошибки в уравнении регрессии изменяется от наблюдения к наблюдению. В этом случае приходится подвергать определенной модификации МНК (иначе возможны ошибочные выводы).

Г. проявляется, если совокупность неоднородна (изучаются разносторонние области).

Суть проверки заключается в том, что в случае гетероскедастичности абсолютные остатки коррелированны со значениями фактора.

1. Эту корреляцию можно измерить с помощью коэффициента ранговой корреляции Спирмена:

p = rСпирмана = 1 - (6Σd2 / (n * (n2-1)))

где, d – абсолютная разность между рангами значений фактора и остатка.

2. Статистическую значимость можно оценить с помощью t-критерия:

t = rСпирмана * корень из (n-2) / корень из (1- r2Спирмана)

3. Сравним эту величину с табличной при кол-ве степеней свободы df = n – 2.

Вывод: Если это значение больше табличного, то корреляция между остатком и фактором статистически значима, то есть имеет место гетероскедастичность остатков. В противном случае принимается гипотеза об ее отсутствии.

30. Использование тестов Уайта, Парка, Глейзера при анализе гетероскедастичности в остатках

Гетероскедастичность (неоднородность) — проблема, возникающая при построении регрессионных моделей; означает ситуацию, когда дисперсия ошибки в уравнении регрессии изменяется от наблюдения к наблюдению. В этом случае приходится подвергать определенной модификации МНК (иначе возможны ошибочные выводы).

Г. проявляется, если совокупность неоднородна (изучаются разносторонние области).

1. тест Парка:

Этот тест относится к тестам гетероскедастичности (для квадрата остатков). Предполагается, что дисперсия остатков связана со значениями факторов функции ln e2 = a + b ln x + u. Данная регрессия строится для каждого фактора в условиях многофакторной модели. Проверяется значимость коэффициента регрессии по критерию Стьюдента. Если коэффициент регрессии для уравнения ln ε2 окажется статистически значимым, то существует зависимость ln ε2 от ln x, то есть имеет место гетероскедастичность остатков.