Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Методичка Построение линейной регрессионной модели .pdf
Скачиваний:
58
Добавлен:
20.05.2014
Размер:
2.86 Mб
Скачать

Об этой ситуации может свидетельствовать значение статистики Дарбина – Ватсона далекое от 2.

Минимальные требования

Необходимо построить две различные модели линейной регрессии, сравнить их указанными выше способами и проверить выполнение основных предположений регрессионного анализа.

Организация вычислений

Рекомендуется первоначально включать в модель только интервальные (относительные) переменные. Это облегчает использование результатов корреляционного анализа.

Модель №1

Построение регрессионной модели начнем с простейшей одномерной регрессии. В качестве объясняющей переменной выберем «Вес», поскольку его коэффициент корреляции с переменной «Удой» максимален по абсолютной величине относительно других «независимых» переменных. Таким образом, мы первоначально остановились на модели Удой = a0 + a1 * Вес+υ . Для нахождения

МНК – оценки параметров линейной регрессии можно воспользоваться следующей командой EVies: equation a.ls yield c weight. Здесь объект типа “equation” назван ‘a’. Таблица результатов оценивания имеет вид:

Таблица 7 Результаты оценивания модели № 1

Variable

Coefficient

Std. Error

t-Statistic

Prob.

C

-8012.378

1132.700

-7.073696

0.0000

WEIGHT

22.53241

2.015296

11.18070

0.0000

R-squared

0.387012

Mean dependent var

4627.630

Adjusted R-squared

0.383916

S.D. dependent var

1265.533

S.E. of regression

993.3300

Akaike info criterion

16.64995

Sum squared resid

1.95E+08

Schwarz criterion

16.68294

Log likelihood

-1662.995

F-statistic

 

125.0080

Durbin-Watson stat

1.830490

Prob(F-statistic)

0.000000

В подвале Таблицы 7 посчитаны значения R2, adjR2, а так же ‘s’ (S.E. of

regression). В столбцах ‘Coefficient’, ‘Std. Error’, ‘t-Statistic’ представлены значения оценок

параметров модели, t-статистики для проверки гипотез об их значимости. Вычисленные для них р – значения позволяют при выполнении нормальной гипотезы отклонить гипотезу о не значимости и принять альтернативную о том, что все коэффициенты значимы с вероятность ошибки первого рода менее 5%. Подставив оценки для коэффициентов в модель, получим

Удой = −8012.38+ 22.53* Вес+υ

( p<0,05) ( p<0,05)

Общее представление о качестве модели дает следующий график EViews:

8012.38 = 22.53* Вес

 

 

 

 

 

 

 

 

 

10000

Примеры

 

 

 

 

 

 

 

 

 

8000

 

 

 

 

 

 

 

 

 

6000

 

6000

 

 

 

 

 

 

 

 

4000

 

 

 

 

 

 

 

 

 

 

 

4000

 

 

 

 

 

 

 

 

2000

 

 

 

 

 

 

 

 

 

 

 

2000

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

-2000

 

 

 

 

 

 

 

 

 

 

-4000

 

 

 

 

 

 

 

 

 

 

20

40

60

80

100

120

140

160

180

200

 

 

 

Residual

Actual

 

Fitted

 

 

Рисунок 5. Визуальный анализ качества модели №1.

Поскольку подогнанные значения (Fitted) расположены достаточно близко к истинным (Actual), можно предположить, что модель в целом соответствует данным. Тем не менее, видно, что есть ряд измерений, которые плохо описываются нашей моделью (резко выделяющиеся значения, выбросы).

Дадим краткую экономическую интерпретацию полученным результатам. Коэффициенты линейной регрессии определяют приращение удоя при положительном изменении значения независимой переменной на одну единицу. Таким образом, на один килограмм привеса коровы удой увеличивается в год в среднем на 22 – 23 литра. Несколько сложнее дать интерпретацию константе.

Прежде всего, необходимо помнить, что наша модель достаточно примитивна и не учитывает громадного числа, возможно критических факторов. Тем не менее, попытаемся проанализировать ситуацию. Отметим, что переменная «Вес», по сути, не является относительной, поскольку для нее не определено значение «0». Не существует коровы с нулевым весом.

Таким образом, эта переменная, скорее всего, имеет некоторое минимальное допустимое с биологической точки зрения положительное значение. Следовательно, константу нельзя связать с ситуацией, когда независимая переменная принимает значение «0». С другой стороны, можно предположить существование взрослых коров с критически низкой, практически нулевой продуктивностью, которой сопутствует определенное «неблагоприятное» значение веса коровы. Можно даже предположить, что это являются причиной низких надоев. Таким образом, константа может определять множество таких «неблагоприятные» ситуаций, в данном случае:

и критический вес равен приблизительно 356 кг. Отметим,

что приведенные соображения в практической ситуации, безусловно, нуждаются в обсуждении со специалистом зоотехником.

Проанализируем апостериорные остаточные разности. Прежде всего, отметим, что статистика Дарбина – Уотсона достаточно близка к 2. Поскольку таблиц для такого, как в нашем случае, числа измерений не существует, то экспертно мы приходим к заключению, что наличие корреляции ближайших по номеру случайных составляющих маловероятно. Построим график нормальной кривой, в EViews он носит название Quantile-Quantile:

Normal Quantile

4

2

0

-2

-4 -4000 -2000 0 2000 4000 6000

RESID

Рисунок 6. Анализ вида распределения с помощью нормальной кривой в модели №1

Отчетливо видна асимметрия вправо, т.е. модель недооценивает истинный удой.

Проанализируем наличие гетероскедастичности. Тест Уайта с учетом взаимодействий (приведена основная часть таблицы) не позволяет отвергнуть гипотезу об ее отсутствии ан 5% уровне, поскольку Probability > 0.05.

Таблица 8 Проверка наличия гетероскедастичности с помощью критерия Уайта в

модели №1.

White Heteroskedasticity Test:

F-statistic

0.252074

Probability

0.777437

Obs*R-squared

0.510519

Probability

0.774715

Таким образом, серьезных оснований для пересмотра значимости оценок параметров линейной регрессии нет.

Модель №2

Добавим в модель переменную Удой_М, которая имеет следующий по величине коэффициент корреляции с зависимой переменной и остановились на модели Удой = a0 + a1 * Вес + a2 *Удой_ М +υ . Для нахождения МНК – оценки

параметров линейной регрессии можно воспользоваться следующей командой

EVies: equation a.ls yield c weight yield_m. Здесь объект типа “equation” назван

a’. Таблица результатов оценивания имеет вид: Таблица 9 Результаты оценивания модели № 2

Variable

Coefficient

Std. Error

t-Statistic

Prob.

C

-7698.121

1059.752

-7.264080

0.0000

WEIGHT

18.62842

2.013703

9.250826

0.0000

YIELD_M

0.416029

0.076128

5.464898

0.0000

R-squared

0.467707

Mean dependent var

4627.630

Adjusted R-squared

0.462303

S.D. dependent var

1265.533

S.E. of regression

927.9878

Akaike info criterion

16.51880

Sum squared resid

1.70E+08

Schwarz criterion

16.56828

Log likelihood

-1648.880

F-statistic

 

86.54859

Durbin-Watson stat

1.884421

Prob(F-statistic)

0.000000

Вычисленные р – значения позволяют при выполнении нормальной гипотезы отклонить гипотезу о не значимости и принять альтернативную о том,

что все коэффициенты значимы с вероятность ошибки первого рода менее 5%. Подставив оценки для коэффициентов в модель, получим

Удой = −7698,18+ 18,63 * Вес+ 0,42 *Удой_ М +υ

( p<0,05) ( p<0,05) ( p<0,05)

Общее представление о качестве модели дает следующий график EViews:

 

 

 

 

 

 

 

 

 

10000

 

 

 

 

 

 

 

 

 

 

8000

 

 

 

 

 

 

 

 

 

 

6000

 

6000

 

 

 

 

 

 

 

 

4000

Пример

4000

 

 

 

 

 

 

 

 

2000

 

 

 

 

 

 

 

 

 

2000

 

 

 

 

 

 

 

 

0

 

0

 

 

 

 

 

 

 

 

 

 

-2000

 

 

 

 

 

 

 

 

 

 

-4000

 

 

 

 

 

 

 

 

 

 

20

40

60

80

100

120

140

160

180

200

 

 

 

Residual

Actual

 

Fitted

 

 

Рисунок 7. Визуальный анализ качества модели №2.

Поскольку подогнанные значения (Fitted) расположены достаточно близко к истинным (Actual), можно предположить, что модель в целом соответствует данным. Тем не менее, видно, что есть ряд измерений, которые плохо описываются нашей моделью (резко выделяющиеся значения, выбросы).

Дадим краткую экономическую интерпретацию полученным результатам. Коэффициенты линейной регрессии определяют приращение удоя при положительном изменении значения независимой переменной на одну единицу. Таким образом, на один килограмм привеса коровы удой увеличивается в год в среднем на 18 – 19 литров. Наследственный фактор оказывает меньшее влияние

– дополнительный литр удоя матери увеличивает удой коровы на 0.4 – 0.5 литра в год. Тем не менее, не следует забывать, что удой матери оказывает косвенное влияние на удой коровы через положительное влияние на ее вес, как это следует из результатов корреляционного анализа. Несколько сложнее дать интерпретацию константе. Прежде всего, необходимо помнить, что наша

модель достаточно примитивна и не учитывает громадного числа других, возможно критических факторов. Тем не менее, попытаемся проанализировать ситуацию. Отметим, что переменная «Вес», по сути, не является относительной, поскольку для нее не определено значение «0». Не существует коровы с нулевым весом. В то же время «Удой_М» теоретически может принимать значение «0». В этом случае соответствующий теленок находился на искусственном вскармливании, но трудно представить себе подобную ситуацию в племенном стаде. Таким образом, обе переменные, скорее всего, имеют некоторые минимальные допустимые с биологической точки зрения положительные значения. Следовательно, константу нельзя связать с ситуацией, когда независимые переменные принимают значение «0».

С другой стороны, можно предположить существование взрослых коров с критически низкой, практически нулевой продуктивностью, которой сопутствуют определенные «неблагоприятные» сочетания веса коровы и удоя ее матери. Можно даже предположить, что они являются причиной низких надоев. Таким образом, константа может определять множество таких «неблагоприятные» сочетаний, в данном случае:

7698,18 = 18,63 * Вес+ 0,42 *Удой_ М . Отметим, что приведенные

( p<0,05)

( p<0,05)

( p<0,05)

соображения в практической ситуации, безусловно, нуждаются в обсуждении со специалистом зоотехником.

Проанализируем апостериорные остаточные разности. Прежде всего, отметим, что статистика Дарбина – Уотсона достаточно близка к 2. Поскольку таблиц для такого, как в нашем случае, числа измерений не существует, то экспертно мы приходим к заключению, что наличие корреляции ближайших по номеру случайных составляющих маловероятно. Построим график нормальной кривой, в EViews он носит название Quantile-Quantile:

Normal Quantile

4

Model #1

2

0

-2

-4 -4000 -2000 0 2000 4000 6000

RESID

Рисунок 8. Анализ вида распределения с помощью нормальной кривой в модели №2

На графике угадывается асимметрия распределения вправо. Таким образом, наша модель недооценивает истинные значения удоя. Проанализируем наличие гетероскедастичности. Тест Уайта с учетом взаимодействий (приведена основная часть таблицы) не позволяет отвергнуть гипотезу об ее отсутствии.

Таблица 10 Проверка наличия гетероскедастичности с помощью критерия Уайта в

модели №2.

White Heteroskedasticity Test:

F-statistic

0.126456

Probability

0.986290

Obs*R-squared

0.649718

Probability

0.985614

Таким образом, серьезных оснований для пересмотра значимости оценок параметров линейной регрессии нет.

Построенная модель превосходит Модель №1 по качеству с точки зрения соотношения точность/простота. Статистики Акаики и Шварца имеют здесь