Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Методичка Построение линейной регрессионной модели .pdf
Скачиваний:
58
Добавлен:
20.05.2014
Размер:
2.86 Mб
Скачать

Видно, что как в варианте Вальда (Chi-square), так и в варианте Фишера (F- statistic) основная гипотеза об отсутствии влияния породы не отвергается, поскольку соответствующие p-уровни больше 0.05.

Обнаружение выбросов

Вернемся к модели №1. Заново оценим ее и сохраним апостериорные остаточные разности командой series res_1=resid.

40

 

 

 

 

 

 

Series: RES_1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Sample 1 200

 

30

 

 

 

 

 

 

Observations 200

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Mean

-2.61E-12

 

 

 

 

 

 

 

Median

-57.46805

20

 

 

 

 

 

 

Maximum

4886.546

 

 

 

 

 

 

Minimum

-2207.482

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Std. Dev.

923.3128

 

 

 

 

 

 

 

Skewness

1.378177

10

 

 

 

 

 

 

Kurtosis

7.938256

 

 

 

 

 

 

 

Jarque-Bera

266.5322

0

 

 

 

 

 

 

Probability

0.000000

 

 

 

 

 

 

 

 

-2000

-1000

0

1000

2000

3000

4000

5000

 

Рисунок 15. Описательная статистика апостериорной остаточной разности модели №1.

Если использовать «правило 3σ », вариантом правила для обнаружения выбросов здесь будет проверка соотношения |res_1|> 2769,93. В этом случае для выборки объема 200 среднее количество выбросов не должно превышать десяти. Командой series out_1=@recode(abs(res_1)>2769.93,1,0) создаем переменную, идентифицирующую выбросы. Далее проводим переоценку модели №1 без выбросов, используя механизм формирования подвыборок

Eviews.

Таблица 18 Результаты оценивания модели №1 без выбросов по «правилу 3σ ».

Dependent Variable: YIELD

Method: Least Squares

Date: 06/05/05 Time: 23:24

Sample: 1 200 IF OUT_1=0

Included observations: 196

Variable

Coefficient

Std. Error

t-Statistic

Prob.

C

-7744.635

880.7185

-8.793542

0.0000

WEIGHT

18.73628

1.667712

11.23472

0.0000

YIELD_M

0.396393

0.063169

6.275077

0.0000

R-squared

0.557153

Mean dependent var

4547.311

Adjusted R-squared

0.552564

S.D. dependent var

1144.380

S.E. of regression

765.4832

Akaike info criterion

16.13408

Sum squared resid

1.13E+08

Schwarz criterion

16.18425

Log likelihood

-1578.140

F-statistic

 

121.4083

Durbin-Watson stat

1.976268

Prob(F-statistic)

0.000000

Результаты поразительны, что удивительно, поскольку выбросов всего четыре. Видно, что сильно уменьшились значения статистик Акаики и Шварца, возросли коэффициенты детерминации. Что касается оценок коэффициентов, то следует отметить возросшее влияние удоев матери.

Normal Quantile

4

2

0

-2

-4 -3000 -2000 -1000 0 1000 2000 3000

RESID

Рисунок 16. Анализ вида распределения с помощью нормальной кривой в модели №1 без выбросов.

Видно, что распределение стало существенно ближе к нормальному. Проанализируем записи в базе данных, которые были идентифицированы

как «выбросы». Таблица 19

«Выбросы» относительно модели №1

OUT_1

YIELD

WEIGHT

YIELD_M

RID

1.000000

8283.000

516.0000

3563.000

1.000000

1.000000

8564.000

579.0000

4713.000

0.000000

1.000000

8672.000

595.0000

5727.000

1.000000

1.000000

8734.000

583.0000

5513.000

1.000000

Для этого оценим основные статистические характеристики переменных, участвующих в анализе.

Таблица 20 Статистические характеристики переменных в Модели №1

Date: 06/07/05

Time: 15:34

Sample: 1 200

 

 

 

 

 

YIELD

WEIGHT

YIELD_M

 

 

 

 

Mean

4627.630

560.9700

4508.740

Median

4511.500

564.0000

4512.500

Maximum

8734.000

632.0000

6724.000

Minimum

1760.000

460.0000

1760.000

Std. Dev.

1265.533

34.94042

924.2331

Skewness

0.658854

-0.324139

-0.034389

Kurtosis

3.940949

2.719193

2.769377

 

 

 

 

Jarque-Bera

21.84784

4.159307

0.482646

Probability

0.000018

0.124973

0.785588

Визуальный анализ говорит о том, что к аномальным измерениям отнесены коровы с очень большим удоем, близким к максимальному. В основном это чистопородные животные, но не все. Вес животных этой группы и материнский

удой укладывается в интервал x ±3σ , что не дает нам оснований считать их аномальными.

Построение доверительного интервала для нового значения зависимой переменной

Напоминаем, что данный пункт не является обязательным, поскольку потребует использования специальных средств EViews. В основу вычислений положим модель №1. В качестве новых значений независимых переменных возьмем вектор, образованный их средними значениями и средними плюс стандартное отклонение.

vector(3) x x(1)=1

x(2)=@mean(weight) x(3)=@mean(yield_m) vector(3) z

z(1)=1

z(2)=@mean(weight)+@stdev(weight) z(3)=@mean(yield_m)+ @stdev(yield_m)

Оценим модель №1 и сохраним оценки коэффициентов и ковариационную матрицу оценок.

vector(3) c1=model_1.@coefs sym(3,3) cv=model_1.@coefcov

Подсчитаем оценку среднего удоя для новых значений независимых переменных.

vector(2) y y(1)=@inner(c1,x) y(2)=@inner(c1,z)

Подсчитаем дисперсию отклонения оценки от истинного значения удоя для каждого значения независимых переменных.

vector(2) var vector(2) w=cv*x

var(1)=@inner(x,w)+model_1.@se^2 w=cv*z var(2)=@inner(z,w)+model_1.@se^2

Будем исходить из справедливости нормальной гипотезы. Как показано в предыдущем пункте, после удаления выбросов распределение апостериорной остаточной разности близко к нормальному. Пусть уровень доверия α = 0.95 , т.е. в 95% случаев интервал накрывает истинное значение. Найдем квантиль

распределения Стьюдента порядка 1+2α = 0.975 с n=200-3=197 степенями

свободы. scalar qt=@qtdist(0.95,197)

Подсчитаем теперь по приведенной выше формуле границы доверительных интервалов сначала для «усредненной» коровы, а затем для второго варианта значений независимых переменных.

matrix(2,2) cbnd cbdn(1,1)=y(1)-qt*@sqrt(var(1))