
- •(Технический университет)
- •Введение
- •Лабораторная работа 7. Множественная регрессия
- •7.1. Теоретические сведения. Базовые понятия
- •7.2. Множественная корреляция
- •7.2. Оценка надежности уравнения множественной регрессии
- •(7.14) (7.15) . (7.16)
- •7.4. Скорректированный индекс множественной детерминации
- •7.5. Частная корреляция
- •7.6. Геометрическая интерпретация
- •7.7. Матричная форма записи
- •7.8. Мультиколлинеарность факторов
- •7.9. Свойства регрессионных остатков
- •7.10. Отбор факторов при построении уравнения множественной регрессии
- •Задание
- •Лабораторная работа 8. Фиктивные переменные в множественной регрессии
- •Теоретические сведения
- •Задание.
- •Список литературы
7.7. Матричная форма записи
Матричная форма записи для определения коэффициентов множественной линейной регрессии полностью аналогична таковой для парной регрессии (5.28) , т.е.
(7.28)
где Xматрица размерности,
B– вектор коэффициентов
размерности
7.8. Мультиколлинеарность факторов
При построении уравнения множественной регрессии может возникнуть проблема мультиколлинеарностифакторов.
Одним
из условий построения корректной
регрессионной модели является условие
линейной независимости факторов. Если
это условие нарушается, т.е. если один
из факторов может быть выражен через
несколько других, то говорят что,
существует полная коллинеарность.
Это порождает множество проблем.
Например, применение формулы (7.18)
невозможно, поскольку матрицане
может быть вычислена (определитель
).
На
практике полная коллинеарность
встречается редко, гораздо чаще
встречается ситуация, когда между
факторами наблюдается высокая степень
корреляции, и тогда говорят о наличии
мультиколлинеарностифакторов. В
этом случае применение формулы (7.18)
формально возможно, поскольку матрицаможет быть вычислена (определитель
,
но близок к нулю), поэтому полученные
значения найденных коэффициентов будут
обладать «плохими свойствами». Это
можно объяснить, используя геометрическую
интерпретацию МНК. Как показано выше,
регрессия может быть рассмотрена как
проекция в пространстве Rnвектораyна
подпространство, порожденное столбцами
матрицыX (рис.7.1).
Если
два фактора сильно коррелированны, то
между векторами существует приблизительная
линейная зависимость и угол между
векторами (факторами) x1иx2мал (рис.7.2). В этом случае операция
проектирования становитьсянеустойчивой,
т.е. небольшое изменение в исходных
данных может привести к существенному
изменению оценок (значений) коэффициентов
регрессии. Пусть векторыи
это результаты двух различных серий
наблюдений отклика при исследовании
одной и той же проблемы. Эти результаты
могут быть близки, но не обязательно
совпадают. На рис.7.2 показано, что хотя
векторы
и
мало
отличаются друг от друга, но проекции
и
разнонаправлены
, т.е. отличаются друг от друга существенно.
При разложении вектора
по векторамx1иx2оба коэффициента будут положительны.
При разложении вектора
по векторамx1иx2коэффициент приx1
принимает отрицательное значение.
В силу этого интерпретация коэффициентов
регрессии становится противоречивой,
поскольку при использовании наблюдений,
соответствующих вектору
,
приходим к выводу об увеличении отклика
при увеличении фактораx1, а при использовании наблюдений,
соответствующих вектору
к противоположному результату.
Рис.7.2 Геометрическая интерпретация построения уравнения регрессии при условии коллинеарности векторов (факторов) x1иx2
Основные отрицательные проявления мультиколлинеарности заключаются в следующем:
Значения найденных коэффициентов модели имеют неправильные с точки зрения теории знаки или неоправданно большие (маленькие) значения.
Небольшие изменения исходных данных приводит к существенному изменению найденных коэффициентов модели
Оценки имеют большие стандартные ошибки, малую значимость (хотя вся модель в целом является значимой).
Невозможно оценить воздействие на отклик каждого фактора в отдельности.
Когда два фактора сильно коррелированы, говорят о коллинеарности факторов.
Считается,
что два фактора явноколлинеарны,
т.е. находятся между собой в линейной
зависимости, еслиИз двух явно коллинеарных факторов
уравнения регрессии рекомендуется один
исключить. Предпочтение при этом отдается
тому фактору, который при достаточно
тесной связи с результатом имеет
наименьшую тесноту связи с другими
факторами.