- •Кафедра математической экономики
- •Методические указания
- •ОБЩАЯ ПОСТАНОВКА ЗАДАЧИ
- •ОПИСАНИЕ ИСХОДНОГО НАБОРА ДАННЫХ
- •Минимальные требования
- •Описание данных в примере
- •ПРЕДВАРИТЕЛЬНЫЕ ГИПОТЕЗЫ
- •ДОМАШНЯЯ РАБОТА «ПОСТРОЕНИЕ ЛИНЕЙНОЙ РЕГРЕССИОННОЙ МОДЕЛИ»
- •Разведочный анализ данных
- •Теоретические основания
- •Анализ диаграмм рассеяния
- •Анализ значимости оценок коэффициентов корреляции Пирсона
- •Интерпретация результатов
- •Построение линейной регрессионной модели
- •Числовые характеристики для сравнения линейных регрессионных моделей
- •Нечисловые методы сравнения моделей. Нормальная кривая
- •Нарушение основных предположений регрессионного анализа
- •Анализ наличия мультиколлинеарности
- •Корреляция случайных составляющих. Критерий Дарбина – Уотсона.
- •Гетероскедастичность. Критерий Уайта.
- •Минимальные требования
- •Организация вычислений
- •Модель №1
- •Модель №2
- •Модель №3
- •Модель №4
- •ДОМАШНЯЯ РАБОТА «УСОВЕРШЕНСТВОВАНИЕ ЛИНЕЙНОЙ РЕГРЕССИОННОЙ МОДЕЛИ. ОРГАНИЗАЦИЯ ПРОГНОЗИРОВАНИЯ»
- •Критерий Чоу
- •Вариант на основе критерия Вальда
- •Вариант на основе нормальной гипотезы
- •Минимальные требования
- •Минимальные требования
- •Минимальные требования
- •Критерий Чоу
- •Обнаружение выбросов
- •Построение доверительного интервала для нового значения зависимой переменной
- •Приложение
- •Пример модели с использованием взаимодействия.
- •Пример значимого влияния фиктивной переменной
Видно, что как в варианте Вальда (Chi-square), так и в варианте Фишера (F- statistic) основная гипотеза об отсутствии влияния породы не отвергается, поскольку соответствующие p-уровни больше 0.05.
Обнаружение выбросов
Вернемся к модели №1. Заново оценим ее и сохраним апостериорные остаточные разности командой series res_1=resid.
40 |
|
|
|
|
|
|
Series: RES_1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Sample 1 200 |
|
30 |
|
|
|
|
|
|
Observations 200 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Mean |
-2.61E-12 |
|
|
|
|
|
|
|
Median |
-57.46805 |
20 |
|
|
|
|
|
|
Maximum |
4886.546 |
|
|
|
|
|
|
Minimum |
-2207.482 |
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
Std. Dev. |
923.3128 |
|
|
|
|
|
|
|
Skewness |
1.378177 |
10 |
|
|
|
|
|
|
Kurtosis |
7.938256 |
|
|
|
|
|
|
|
Jarque-Bera |
266.5322 |
0 |
|
|
|
|
|
|
Probability |
0.000000 |
|
|
|
|
|
|
|
|
|
-2000 |
-1000 |
0 |
1000 |
2000 |
3000 |
4000 |
5000 |
|
Рисунок 15. Описательная статистика апостериорной остаточной разности модели №1.
Если использовать «правило 3σ », вариантом правила для обнаружения выбросов здесь будет проверка соотношения |res_1|> 2769,93. В этом случае для выборки объема 200 среднее количество выбросов не должно превышать десяти. Командой series out_1=@recode(abs(res_1)>2769.93,1,0) создаем переменную, идентифицирующую выбросы. Далее проводим переоценку модели №1 без выбросов, используя механизм формирования подвыборок
Eviews.
Таблица 18 Результаты оценивания модели №1 без выбросов по «правилу 3σ ».
Dependent Variable: YIELD
Method: Least Squares
Date: 06/05/05 Time: 23:24
Sample: 1 200 IF OUT_1=0
Included observations: 196
Variable |
Coefficient |
Std. Error |
t-Statistic |
Prob. |
C |
-7744.635 |
880.7185 |
-8.793542 |
0.0000 |
WEIGHT |
18.73628 |
1.667712 |
11.23472 |
0.0000 |
YIELD_M |
0.396393 |
0.063169 |
6.275077 |
0.0000 |
R-squared |
0.557153 |
Mean dependent var |
4547.311 |
|
Adjusted R-squared |
0.552564 |
S.D. dependent var |
1144.380 |
|
S.E. of regression |
765.4832 |
Akaike info criterion |
16.13408 |
|
Sum squared resid |
1.13E+08 |
Schwarz criterion |
16.18425 |
|
Log likelihood |
-1578.140 |
F-statistic |
|
121.4083 |
Durbin-Watson stat |
1.976268 |
Prob(F-statistic) |
0.000000 |
Результаты поразительны, что удивительно, поскольку выбросов всего четыре. Видно, что сильно уменьшились значения статистик Акаики и Шварца, возросли коэффициенты детерминации. Что касается оценок коэффициентов, то следует отметить возросшее влияние удоев матери.
Normal Quantile
4
2
0
-2
-4 -3000 -2000 -1000 0 1000 2000 3000
RESID
Рисунок 16. Анализ вида распределения с помощью нормальной кривой в модели №1 без выбросов.
Видно, что распределение стало существенно ближе к нормальному. Проанализируем записи в базе данных, которые были идентифицированы
как «выбросы». Таблица 19
«Выбросы» относительно модели №1
OUT_1 |
YIELD |
WEIGHT |
YIELD_M |
RID |
1.000000 |
8283.000 |
516.0000 |
3563.000 |
1.000000 |
1.000000 |
8564.000 |
579.0000 |
4713.000 |
0.000000 |
1.000000 |
8672.000 |
595.0000 |
5727.000 |
1.000000 |
1.000000 |
8734.000 |
583.0000 |
5513.000 |
1.000000 |
Для этого оценим основные статистические характеристики переменных, участвующих в анализе.
Таблица 20 Статистические характеристики переменных в Модели №1
Date: 06/07/05
Time: 15:34
Sample: 1 200
|
|
|
|
|
YIELD |
WEIGHT |
YIELD_M |
|
|
|
|
Mean |
4627.630 |
560.9700 |
4508.740 |
Median |
4511.500 |
564.0000 |
4512.500 |
Maximum |
8734.000 |
632.0000 |
6724.000 |
Minimum |
1760.000 |
460.0000 |
1760.000 |
Std. Dev. |
1265.533 |
34.94042 |
924.2331 |
Skewness |
0.658854 |
-0.324139 |
-0.034389 |
Kurtosis |
3.940949 |
2.719193 |
2.769377 |
|
|
|
|
Jarque-Bera |
21.84784 |
4.159307 |
0.482646 |
Probability |
0.000018 |
0.124973 |
0.785588 |
Визуальный анализ говорит о том, что к аномальным измерениям отнесены коровы с очень большим удоем, близким к максимальному. В основном это чистопородные животные, но не все. Вес животных этой группы и материнский
удой укладывается в интервал x ±3σ , что не дает нам оснований считать их аномальными.
Построение доверительного интервала для нового значения зависимой переменной
Напоминаем, что данный пункт не является обязательным, поскольку потребует использования специальных средств EViews. В основу вычислений положим модель №1. В качестве новых значений независимых переменных возьмем вектор, образованный их средними значениями и средними плюс стандартное отклонение.
vector(3) x x(1)=1
x(2)=@mean(weight) x(3)=@mean(yield_m) vector(3) z
z(1)=1
z(2)=@mean(weight)+@stdev(weight) z(3)=@mean(yield_m)+ @stdev(yield_m)
Оценим модель №1 и сохраним оценки коэффициентов и ковариационную матрицу оценок.
vector(3) c1=model_1.@coefs sym(3,3) cv=model_1.@coefcov
Подсчитаем оценку среднего удоя для новых значений независимых переменных.
vector(2) y y(1)=@inner(c1,x) y(2)=@inner(c1,z)
Подсчитаем дисперсию отклонения оценки от истинного значения удоя для каждого значения независимых переменных.
vector(2) var vector(2) w=cv*x
var(1)=@inner(x,w)+model_1.@se^2 w=cv*z var(2)=@inner(z,w)+model_1.@se^2
Будем исходить из справедливости нормальной гипотезы. Как показано в предыдущем пункте, после удаления выбросов распределение апостериорной остаточной разности близко к нормальному. Пусть уровень доверия α = 0.95 , т.е. в 95% случаев интервал накрывает истинное значение. Найдем квантиль
распределения Стьюдента порядка 1+2α = 0.975 с n=200-3=197 степенями
свободы. scalar qt=@qtdist(0.95,197)
Подсчитаем теперь по приведенной выше формуле границы доверительных интервалов сначала для «усредненной» коровы, а затем для второго варианта значений независимых переменных.
matrix(2,2) cbnd cbdn(1,1)=y(1)-qt*@sqrt(var(1))