- •Кафедра математической экономики
 - •Методические указания
 - •ОБЩАЯ ПОСТАНОВКА ЗАДАЧИ
 - •ОПИСАНИЕ ИСХОДНОГО НАБОРА ДАННЫХ
 - •Минимальные требования
 - •Описание данных в примере
 - •ПРЕДВАРИТЕЛЬНЫЕ ГИПОТЕЗЫ
 - •ДОМАШНЯЯ РАБОТА «ПОСТРОЕНИЕ ЛИНЕЙНОЙ РЕГРЕССИОННОЙ МОДЕЛИ»
 - •Разведочный анализ данных
 - •Теоретические основания
 - •Анализ диаграмм рассеяния
 - •Анализ значимости оценок коэффициентов корреляции Пирсона
 - •Интерпретация результатов
 - •Построение линейной регрессионной модели
 - •Числовые характеристики для сравнения линейных регрессионных моделей
 - •Нечисловые методы сравнения моделей. Нормальная кривая
 - •Нарушение основных предположений регрессионного анализа
 - •Анализ наличия мультиколлинеарности
 - •Корреляция случайных составляющих. Критерий Дарбина – Уотсона.
 - •Гетероскедастичность. Критерий Уайта.
 - •Минимальные требования
 - •Организация вычислений
 - •Модель №1
 - •Модель №2
 - •Модель №3
 - •Модель №4
 - •ДОМАШНЯЯ РАБОТА «УСОВЕРШЕНСТВОВАНИЕ ЛИНЕЙНОЙ РЕГРЕССИОННОЙ МОДЕЛИ. ОРГАНИЗАЦИЯ ПРОГНОЗИРОВАНИЯ»
 - •Критерий Чоу
 - •Вариант на основе критерия Вальда
 - •Вариант на основе нормальной гипотезы
 - •Минимальные требования
 - •Минимальные требования
 - •Минимальные требования
 - •Критерий Чоу
 - •Обнаружение выбросов
 - •Построение доверительного интервала для нового значения зависимой переменной
 - •Приложение
 - •Пример модели с использованием взаимодействия.
 - •Пример значимого влияния фиктивной переменной
 
Видно, что как в варианте Вальда (Chi-square), так и в варианте Фишера (F- statistic) основная гипотеза об отсутствии влияния породы не отвергается, поскольку соответствующие p-уровни больше 0.05.
Обнаружение выбросов
Вернемся к модели №1. Заново оценим ее и сохраним апостериорные остаточные разности командой series res_1=resid.
40  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	Series: RES_1  | 
	
  | 
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
|
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	Sample 1 200  | 
	
  | 
30  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	Observations 200  | 
	
  | 
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
|
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	Mean  | 
	-2.61E-12  | 
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	Median  | 
	-57.46805  | 
20  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	Maximum  | 
	4886.546  | 
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	Minimum  | 
	-2207.482  | 
|
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
||
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	Std. Dev.  | 
	923.3128  | 
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	Skewness  | 
	1.378177  | 
10  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	Kurtosis  | 
	7.938256  | 
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	Jarque-Bera  | 
	266.5322  | 
0  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	Probability  | 
	0.000000  | 
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
|
-2000  | 
	-1000  | 
	0  | 
	1000  | 
	2000  | 
	3000  | 
	4000  | 
	5000  | 
	
  | 
Рисунок 15. Описательная статистика апостериорной остаточной разности модели №1.
Если использовать «правило 3σ », вариантом правила для обнаружения выбросов здесь будет проверка соотношения |res_1|> 2769,93. В этом случае для выборки объема 200 среднее количество выбросов не должно превышать десяти. Командой series out_1=@recode(abs(res_1)>2769.93,1,0) создаем переменную, идентифицирующую выбросы. Далее проводим переоценку модели №1 без выбросов, используя механизм формирования подвыборок
Eviews.
Таблица 18 Результаты оценивания модели №1 без выбросов по «правилу 3σ ».
Dependent Variable: YIELD
Method: Least Squares
Date: 06/05/05 Time: 23:24
Sample: 1 200 IF OUT_1=0
Included observations: 196
Variable  | 
	Coefficient  | 
	Std. Error  | 
	t-Statistic  | 
	Prob.  | 
C  | 
	-7744.635  | 
	880.7185  | 
	-8.793542  | 
	0.0000  | 
WEIGHT  | 
	18.73628  | 
	1.667712  | 
	11.23472  | 
	0.0000  | 
YIELD_M  | 
	0.396393  | 
	0.063169  | 
	6.275077  | 
	0.0000  | 
R-squared  | 
	0.557153  | 
	Mean dependent var  | 
	4547.311  | 
|
Adjusted R-squared  | 
	0.552564  | 
	S.D. dependent var  | 
	1144.380  | 
|
S.E. of regression  | 
	765.4832  | 
	Akaike info criterion  | 
	16.13408  | 
|
Sum squared resid  | 
	1.13E+08  | 
	Schwarz criterion  | 
	16.18425  | 
|
Log likelihood  | 
	-1578.140  | 
	F-statistic  | 
	
  | 
	121.4083  | 
Durbin-Watson stat  | 
	1.976268  | 
	Prob(F-statistic)  | 
	0.000000  | 
|
Результаты поразительны, что удивительно, поскольку выбросов всего четыре. Видно, что сильно уменьшились значения статистик Акаики и Шварца, возросли коэффициенты детерминации. Что касается оценок коэффициентов, то следует отметить возросшее влияние удоев матери.
Normal Quantile
4
2
0
-2
-4 -3000 -2000 -1000 0 1000 2000 3000
RESID
Рисунок 16. Анализ вида распределения с помощью нормальной кривой в модели №1 без выбросов.
Видно, что распределение стало существенно ближе к нормальному. Проанализируем записи в базе данных, которые были идентифицированы
как «выбросы». Таблица 19
«Выбросы» относительно модели №1
OUT_1  | 
	YIELD  | 
	WEIGHT  | 
	YIELD_M  | 
	RID  | 
1.000000  | 
	8283.000  | 
	516.0000  | 
	3563.000  | 
	1.000000  | 
1.000000  | 
	8564.000  | 
	579.0000  | 
	4713.000  | 
	0.000000  | 
1.000000  | 
	8672.000  | 
	595.0000  | 
	5727.000  | 
	1.000000  | 
1.000000  | 
	8734.000  | 
	583.0000  | 
	5513.000  | 
	1.000000  | 
Для этого оценим основные статистические характеристики переменных, участвующих в анализе.
Таблица 20 Статистические характеристики переменных в Модели №1
Date: 06/07/05
Time: 15:34
Sample: 1 200
  | 
	
  | 
	
  | 
	
  | 
  | 
	YIELD  | 
	WEIGHT  | 
	YIELD_M  | 
  | 
	
  | 
	
  | 
	
  | 
Mean  | 
	4627.630  | 
	560.9700  | 
	4508.740  | 
Median  | 
	4511.500  | 
	564.0000  | 
	4512.500  | 
Maximum  | 
	8734.000  | 
	632.0000  | 
	6724.000  | 
Minimum  | 
	1760.000  | 
	460.0000  | 
	1760.000  | 
Std. Dev.  | 
	1265.533  | 
	34.94042  | 
	924.2331  | 
Skewness  | 
	0.658854  | 
	-0.324139  | 
	-0.034389  | 
Kurtosis  | 
	3.940949  | 
	2.719193  | 
	2.769377  | 
  | 
	
  | 
	
  | 
	
  | 
Jarque-Bera  | 
	21.84784  | 
	4.159307  | 
	0.482646  | 
Probability  | 
	0.000018  | 
	0.124973  | 
	0.785588  | 
Визуальный анализ говорит о том, что к аномальным измерениям отнесены коровы с очень большим удоем, близким к максимальному. В основном это чистопородные животные, но не все. Вес животных этой группы и материнский
удой укладывается в интервал x ±3σ , что не дает нам оснований считать их аномальными.
Построение доверительного интервала для нового значения зависимой переменной
Напоминаем, что данный пункт не является обязательным, поскольку потребует использования специальных средств EViews. В основу вычислений положим модель №1. В качестве новых значений независимых переменных возьмем вектор, образованный их средними значениями и средними плюс стандартное отклонение.
vector(3) x x(1)=1
x(2)=@mean(weight) x(3)=@mean(yield_m) vector(3) z
z(1)=1
z(2)=@mean(weight)+@stdev(weight) z(3)=@mean(yield_m)+ @stdev(yield_m)
Оценим модель №1 и сохраним оценки коэффициентов и ковариационную матрицу оценок.
vector(3) c1=model_1.@coefs sym(3,3) cv=model_1.@coefcov
Подсчитаем оценку среднего удоя для новых значений независимых переменных.
vector(2) y y(1)=@inner(c1,x) y(2)=@inner(c1,z)
Подсчитаем дисперсию отклонения оценки от истинного значения удоя для каждого значения независимых переменных.
vector(2) var vector(2) w=cv*x
var(1)=@inner(x,w)+model_1.@se^2 w=cv*z var(2)=@inner(z,w)+model_1.@se^2
Будем исходить из справедливости нормальной гипотезы. Как показано в предыдущем пункте, после удаления выбросов распределение апостериорной остаточной разности близко к нормальному. Пусть уровень доверия α = 0.95 , т.е. в 95% случаев интервал накрывает истинное значение. Найдем квантиль
распределения Стьюдента порядка 1+2α = 0.975 с n=200-3=197 степенями
свободы. scalar qt=@qtdist(0.95,197)
Подсчитаем теперь по приведенной выше формуле границы доверительных интервалов сначала для «усредненной» коровы, а затем для второго варианта значений независимых переменных.
matrix(2,2) cbnd cbdn(1,1)=y(1)-qt*@sqrt(var(1))
