Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лабораторная 4.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
338.43 Кб
Скачать

Лабораторная работа 4 - Выявление и устранение мультиколлениарности и гетероскедостичности

4.1 Цели и задачи лабораторной работы

В данной лабораторной работе рассмотрим основные алгоритмы выявления и устранения нарушений условий Гаусса-Маркова, при этом будут решаться следующие задачи:

  1. Построение регрессионной модели на основе выборочной совокупности;

  2. Тестирование наличия мультиколлениарности и построение статистически значимой модели;

  3. Тестирование наличия гетероскедостичности и построение статистически значимой модели.

4.2 Понятие мультиколлениарности и гетероскедостичности, методы выявления и устранения

Для того чтобы регрессионный анализ, основанный на обычном методе наименьших квадратов, давал наилучшие из всех возможных результаты, случайный член должен удовлетворять четырем условиям, известным как условия Гаусса-Маркова.

  1. Математическое ожидание случайного члена в любом наблюдении должно быть равно нулю.

  2. Дисперсия случайного члена должна быть постоянна для всех наблюдений.

  3. Отсутствие систематической связи между значени­ями случайного члена в любых двух наблюдениях.

  4. Случайный член должен быть распределен независимо от объясняющих переменных.

  5. Зависимая переменная yi (или εi) есть нормально распределенная величина.

4.2.1 Мультиколлениарность, выявление и устранение

Мультиколлениарность – это понятие, которое используется для описания проблемы, когда нестрогая линейная зависимость между объясняющими переменными приводит к получению ненадежных оценок регрессии.

Выделим некоторые наиболее характерные признаки мультиколлинеарности.

  1. В первую очередь анализируют матрицу R парных коэффициентов корреляции, точнее, ту ее часть, которая относится к объясняющим пе­ременным. Считается, что наличие значений коэффициентов корреляции, по абсолютной величине превосходящих 0,75-0,80, свидетельствует о при­сутствии мультиколлинеарности.

  2. Анализ корреляционной матрицы R позволяет лишь в первом при­ближении судить о наличии или отсутствии мультиколлинеарности в исходных данных. Более внима­тельное изучение этого вопроса достигается с помощью расчета значений коэффициентов детерминации R2 каждой из объясняющих перемен­ных хi по всем остальным предикторам X = (х1 ,..., хn)

  3. Небольшое изменение исходных данных (например, добавление новых наблюдений) приводит к существенному из­менению оценок коэффициентов модели.

  4. Оценки имеют большие стандартные ошибки, малую значимость, в то время как модель в целом является значимой (высокое значение коэффициента детерминации R2 и соответствующей F-статистики Фишера).

  5. Оценки коэффициентов имеют неправильные с точки зрения теории знаки или неоправданно большие значения.

Существует несколько способов борьбы с мультиколлениарностью:

1) Отбор наиболее существенных объясняющих перемен­ных заключается в возможности перехода от исходного числа k анализируемых показателей x1, x2, …, xk к существенно меньшему числу kнаиболее информативных переменных.

Существует несколько подходов к решению задачи отбора наиболее существенных регрессоров в модель. Остановимся на одном из распространенных, на процедуре последовательного наращивания числа объясняющих переменных, реализуемой в двух версиях: версия «всех возможных регрессий» и версия «пошагового отбора переменных».

а) метод всех возможных регрессий – это самая громоздкая процедура. Она вообще не реализуема без соответствующих пакетов программ. Данный метод требует построения каждого из всех возможных регрессионных уравнений, которые содержат x0 (фиктивная переменная x0=0) и некоторое число переменных x1,…, xk . Поскольку для каждой переменной xi есть всего две возможности: либо входить, либо не входить в уравнение, и это относится ко всем xi то всего будет 2k (для k=10 получаем 210=1024) уравнений. Каждое регрессионное уравнение оценивается с помощью ряда критериев.

б) метод пошагового отбора переменных более экономичен, чем метод всех возможных регрессий, поскольку в нем делается попытка исследовать только наилучшие регрессионные уравнения, содержащие определенное число переменных. Основные шаги этого метода сводятся к следующему:

  1. Рассчитывается регрессионное уравнение, включающее все переменные.

  2. Вычисляется величина F-критерия для каждой объясняющей переменной в предположении как будто бы она была последней переменной, введенной в регрессионное уравнение.

  3. Наименьшая величина частного F-критерия, обозначаемая, как – сравнивается с заранее выбранным критерием значимости F0.

Если FL < F0 то переменная xL которая обеспечила достижение только уровня FL, исключается из рассмотрения и производится перерасчет уравнения регрессии с учетом оставшихся переменных, затем переходят к следующему шагу.

Если FL > F0 то регрессионное уравнение оставляют таким, как оно было рассчитано.

2) Переход к смещенным методам оценивания.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]