
- •4.Гетероскедастичность
- •Для всех наблюдений.
- •Обнаружение гетероскедастичности
- •Тест ранговой корреляции Спирмена
- •Тест Голдфелда—Квандта
- •Тест Уайта
- •Взвешенный метод наименьших квадратов
- •5. Автокоррелироавнность случайного члена. Автокорреляция и связанные с ней факторы
- •Обнаружение автокорреляции первого порядка. Критерий Дарбина—Уотсона
- •1, Модель парной регрессии
- •2. Многомерная линейная регрессия.
- •Мультиколлинеарность
- •Разный масштаб признаков
- •Частная корреляция
- •3. Фиктивные переменные
- •6.Оценивание систем одновременных уравнений
2. Многомерная линейная регрессия.
Имеется
множество объектов
и
множество ответов
.
Также имеется набор
вещественнозначных
признаков
.
Введём матричные обозначения: матрицу
информации
,
целевой вектор
,
вектор параметров
и
диагональную матрицу весов:
Алгоритм:
.
Оценим
качество его работы на выборке
методом
наименьших квадратов:
,
или, в матричных обозначениях,
.
Задача
с произвольной матрицей весов легко
приводится к единичной матрице весов
заменой
:
.
Таким образом, в дальнейшем будем рассматривать только задачу с единичными весами.
Найдём
минимум
по
α:
.
Если
,
то можно обращать матрицу
,
где введено обозначение
.
В таком случае функционал качества записывается в более удобной форме:
,
где
—
проекционная матрица:
—
вектор,
являющийся проекцией
на
.
Теперь рассмотрим сингулярное разложение матрицы F:
.
В таких обозначениях:
,
а так как
,
то
в
силу диагональности матрицы D.
А решение метода наименьших квадратов запишется в следующем виде:
А
так как
,
то
Мультиколлинеарность
Основной проблемой многомерной линейной регресии является вырожденность, или, в более общем случае, мультиколлинеарность матрицы FTF, которую приходится обращать. Подобные проблемы возникают, когда среди признаков fj(x) есть почти линейно зависимые. Мультиколлинеарность матрицы определяется её числом обусловленности:
,
где λ — собственные значения матрицы
FTF.
Чем больше число обусловленности, тем ближе матрица FTF к вырожденной и тем неустойчивее обратная к ней матрица. Плохая обусловленность матрицы: λmin << λmax. Матрицу принято считать плохо обусловленной, если её число обусловленности превышает 103...106.
Последствия:
Разброс значений αj. Появляются большие положительные и большие отрицательные коэффициенты αj. По абсолютной величине коэффициента становится невозможно судить о степени важности признака fj . Коэффициенты утрачивают интерпретируемость.
Неустойчивость решения α* при (кажущейся) устойчивости Fα*. Малые изменения данных, например, шум или добавление нового объекта, могут сильно изменить вектор коэффициентов.
Отсюда следует опасность переобучения, так как снижается обобщающая способность алгоритма.
Для борьбы с мультиколлинеарностью применяются существуют методы:
Регуляризация. Накладываются дополнительные ограничения на норму вектора коэффициентов α. Примером могут служить гребневая регрессия или L1-регуляризация)
Преобразование признаков. Исходные n признаков с помощью некоторых преобразований переводятся в меньшее число m новых признаков. В частности, линейные преобразования приводят к методу главных компонент.
Отбор признаков. Производится явный перебор всевозможных подмножеств признаков. Для линейной регрессии удаётся строить эффективные методы, совмещающие перебор подмножеств с оптимизацией коэффициентов. К таким методам относятся, опять-таки, лассо Тибширани и ортогонализация Грама–Шмидта.