- •4.1 Цели и задачи лабораторной работы
- •4.2 Понятие мультиколлениарности и гетероскедостичности, методы выявления и устранения
- •4.2.1 Мультиколлениарность, выявление и устранение
- •4.2.2 Гетероскедостичность, выявление и устранение
- •4.3 Рекомендуемая литература
- •4.4 Мультиколлениарность, выявление и устранение
- •4.4.1 Методы выявления мультиколлениарности
- •4.4.2 Устранение мультиколлениарности
- •4.5 Гетероскедостичность выявление и устранение
- •4.5.1 Графический анализ отклонений
- •4.5.2 Тест ранговой корреляции Спирмена
- •4.5.3 Тест Гольфельда-Квандта
- •4.5.4 Методы устранения гетероскедостичности
- •4.6 Анализ нормальности распределения случайного члена уравнения
- •4.7 Тесты для самоконтроля
- •4.8 Задание для самостоятельного выполнения
Лабораторная работа 4 - Выявление и устранение мультиколлениарности и гетероскедостичности
4.1 Цели и задачи лабораторной работы
В данной лабораторной работе рассмотрим основные алгоритмы выявления и устранения нарушений условий Гаусса-Маркова, при этом будут решаться следующие задачи:
Построение регрессионной модели на основе выборочной совокупности;
Тестирование наличия мультиколлениарности и построение статистически значимой модели;
Тестирование наличия гетероскедостичности и построение статистически значимой модели.
4.2 Понятие мультиколлениарности и гетероскедостичности, методы выявления и устранения
Для того чтобы регрессионный анализ, основанный на обычном методе наименьших квадратов, давал наилучшие из всех возможных результаты, случайный член должен удовлетворять четырем условиям, известным как условия Гаусса-Маркова.
Математическое ожидание случайного члена в любом наблюдении должно быть равно нулю.
Дисперсия случайного члена должна быть постоянна для всех наблюдений.
Отсутствие систематической связи между значениями случайного члена в любых двух наблюдениях.
Случайный член должен быть распределен независимо от объясняющих переменных.
Зависимая переменная yi (или εi) есть нормально распределенная величина.
4.2.1 Мультиколлениарность, выявление и устранение
Мультиколлениарность – это понятие, которое используется для описания проблемы, когда нестрогая линейная зависимость между объясняющими переменными приводит к получению ненадежных оценок регрессии.
Выделим некоторые наиболее характерные признаки мультиколлинеарности.
В первую очередь анализируют матрицу R парных коэффициентов корреляции, точнее, ту ее часть, которая относится к объясняющим переменным. Считается, что наличие значений коэффициентов корреляции, по абсолютной величине превосходящих 0,75-0,80, свидетельствует о присутствии мультиколлинеарности.
Анализ корреляционной матрицы R позволяет лишь в первом приближении судить о наличии или отсутствии мультиколлинеарности в исходных данных. Более внимательное изучение этого вопроса достигается с помощью расчета значений коэффициентов детерминации R2 каждой из объясняющих переменных хi по всем остальным предикторам X = (х1 ,..., хn)
Небольшое изменение исходных данных (например, добавление новых наблюдений) приводит к существенному изменению оценок коэффициентов модели.
Оценки имеют большие стандартные ошибки, малую значимость, в то время как модель в целом является значимой (высокое значение коэффициента детерминации R2 и соответствующей F-статистики Фишера).
Оценки коэффициентов имеют неправильные с точки зрения теории знаки или неоправданно большие значения.
Существует несколько способов борьбы с мультиколлениарностью:
1) Отбор наиболее существенных объясняющих переменных заключается в возможности перехода от исходного числа k анализируемых показателей x1, x2, …, xk к существенно меньшему числу k’ наиболее информативных переменных.
Существует несколько подходов к решению задачи отбора наиболее существенных регрессоров в модель. Остановимся на одном из распространенных, на процедуре последовательного наращивания числа объясняющих переменных, реализуемой в двух версиях: версия «всех возможных регрессий» и версия «пошагового отбора переменных».
а) метод всех возможных регрессий – это самая громоздкая процедура. Она вообще не реализуема без соответствующих пакетов программ. Данный метод требует построения каждого из всех возможных регрессионных уравнений, которые содержат x0 (фиктивная переменная x0=0) и некоторое число переменных x1,…, xk . Поскольку для каждой переменной xi есть всего две возможности: либо входить, либо не входить в уравнение, и это относится ко всем xi то всего будет 2k (для k=10 получаем 210=1024) уравнений. Каждое регрессионное уравнение оценивается с помощью ряда критериев.
б) метод пошагового отбора переменных более экономичен, чем метод всех возможных регрессий, поскольку в нем делается попытка исследовать только наилучшие регрессионные уравнения, содержащие определенное число переменных. Основные шаги этого метода сводятся к следующему:
Рассчитывается регрессионное уравнение, включающее все переменные.
Вычисляется величина F-критерия для каждой объясняющей переменной в предположении как будто бы она была последней переменной, введенной в регрессионное уравнение.
Наименьшая величина частного F-критерия, обозначаемая, как – сравнивается с заранее выбранным критерием значимости F0.
Если FL < F0 то переменная xL которая обеспечила достижение только уровня FL, исключается из рассмотрения и производится перерасчет уравнения регрессии с учетом оставшихся переменных, затем переходят к следующему шагу.
Если FL > F0 то регрессионное уравнение оставляют таким, как оно было рассчитано.
2) Переход к смещенным методам оценивания.
