Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Методичка Построение линейной регрессионной модели .pdf
Скачиваний:
58
Добавлен:
20.05.2014
Размер:
2.86 Mб
Скачать

числе наблюдений n → ∞. Тогда F 1(F (X )) X

. Отсюда следует, что, если

n

 

 

 

 

 

F(). - функция произвольного нормального распределения, а F0 (). - функция

стандартного нормального распределения, то

G(X )= F 1

(F

(X ))

X μ

.

 

 

0

n

 

σ

 

 

 

 

Таким образом, если наблюдаются реализации нормально распределенной

случайной

величины,

то точки графика G(X) лежат вблизи прямой

Y (X )=

X μ

X ) μ)

.

Интерпретация вида конкретного графика подробно

 

 

σ

 

 

σ

 

разбирается в . Следует ориентироваться на те модели, которые обеспечивают максимальную близость закона распределения апостериорной остаточной разности к нормальному.

Нарушение основных предположений регрессионного анализа

При построении линейной регрессионной модели следует обращать внимание на выполнение основных гипотез. Рассмотрим подробнее наиболее распространенные их нарушений.

Анализ наличия мультиколлинеарности

Мультиколлинеарностью называют ситуацию, когда «независимые» переменные линейно зависимы между собой. Математически это выражается в том, что ранг матрицы ‘X’ становится меньше размерности регрессии. Как правило, это свидетельствует о просчетах в планировании исследований. Определить наличие мультиколлинеарности можно, проанализировав ранг матрицы Q=X’X, который совпадает с рангом матрицы ‘X’. При наличии подобной ситуации реализация МНК невозможна. На практике чаще встречается ситуация «почти мультиколлинеарности», когда матрица ‘Q’ имеет полный ранг, но как минимум одно ее собственное число существенно меньше других по модулю и близко к нулю, т.е. матрица близка к вырождению. В этом случае ощутимо возрастает дисперсия МНК - оценок значений одного или нескольких параметров линейной регрессии. При обнаружении такой ситуации необходимо изменить состав независимых переменных. Например, можно построить регрессию каждой из них на остальные и отбросить те, регрессия которых имеет наибольший коэффициент детерминации. В случае «почти мультиколлинеарности» решение носит экспертный характер.

Корреляция случайных составляющих. Критерий Дарбина – Уотсона.

Еще одной важной проблемой, возникающей при построении линейных регрессионных моделей является анализ наличия корреляции между случайными составляющими. Это нарушение основных предположений регрессионного анализа негативно отражается на свойствах МНК – оценок, в частности становится невозможной интерпретация их значимости. Также s2 становится смещенной оценкой дисперсии случайной составляющей. Критерий Дарбина – Уотсона позволяет обнаружить некоторые формы этого отклонения. Наличие корреляции эквивалентно отличию от нуля величины коэффициента корреляции ρ(v(t),v(t-k)) хотя бы для одного ‘k’. Величина ‘k’ называется лагом.

Проверим гипотезу о наличии корреляции по времени в остатках модели, а именно - H0: ρ(v(t),v(t-1)) = 0, H1: ρ(v(t),v(t-1)) 0. Зафиксируем вероятность ошибки первого рода - α. Критерий Дарбина – Уотсона основан на статистике

 

T

 

 

 

DW =

(υt υt 1)2

 

t =

2

 

2(1ρ(υt ,υt 1))

 

 

T

 

 

 

υt2

 

t =2

Как следует из вида статистики критерия, если величина DW близка к 2, то это означает отсутствие корреляции между υt и υt-1. Дарбин и Уотсон доказали, что существуют две границы du (верхняя) и dl (нижняя), которые определены для каждой тройки (α, k, T) и обладают следующими свойствами: если du <DW < 4- dl, то гипотеза H0 не отвергается, если DW < dl, то мы отвергаем основную гипотезу в пользу положительной корреляции. В случае dl < DW < du и 4-dl < DW < 4-du ситуация неопределенна, то есть нельзя высказаться в пользу той или иной гипотезы. Если DW > 4-du, то мы отвергаем основную гипотезу в пользу отрицательной корреляции. [4]

Гетероскедастичность. Критерий Уайта.

Еще одним распространенным вариантом нарушений основных предположений регрессионного анализа является явление гетероскедастичности. Этим термином обозначают неоднородность дисперсий случайных составляющих линейной регрессионной модели. Иными словами матрица ковариаций вектора случайных составляющих является диагональной, но элементы главной диагонали различны. Часто эта ситуация обусловлена зависимостью указанных дисперсий от регрессоров. Воспользуемся этим для того, чтобы проверить наличие гетероскедастичности. Как и в критерии Дарбина – Ватсона, мы имеем возможность проанализировать только апостериорные остаточные разности, а не сами случайные составляющие. Процедура проверки критерия Уайта состоит из:

Построения обычной линейной регрессионной модели и нахождения остатков Построения дополнительной модели, где в качестве независимых

переменных используются те же регрессоры, что и в п. 1, а так же их квадраты, попарные произведения и константа. В качестве зависимой – квадраты остатков исходной модели

Подсчета статистики критерия: W = TR2, где T – объем выборки, а R2 – коэффициент детерминации вспомогательной модели.

Если гипотеза H0: σ1 =σ2 =... =σT верна, то статистика W имеет распределение

χ2 с l–1 степенями свободы (l – число регрессоров во второй модели). При наличии гетероскедастичности следует заново определить значимость полученных оценок параметров линейной регрессии с использованием

состоятельных оценок их дисперсий в форме Уайта и Невье – Веста. Первая оценка используется при отсутствии корреляции между случайными составляющими модели, вторая, если корреляция имеется до некоторого лага.