Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Регрессии и корреляции

.pdf
Скачиваний:
20
Добавлен:
12.04.2015
Размер:
884.32 Кб
Скачать

Выбор формы кривой регрессии в вычислительном эксперименте

 

 

 

линейная функция

 

 

 

 

кубическая функция

 

 

25

 

y = 0,775 x + 6,25

 

 

 

 

y = -0,0091x3 + 0,2958x2 - 1,91x + 11,924

 

 

 

R2 = 0,9066

 

 

 

 

25

 

R2 = 0,9697

 

 

20

 

 

 

 

 

 

20

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

15

 

 

 

 

 

 

 

 

 

15

 

 

 

 

у

 

 

 

 

 

 

 

 

 

у

 

 

 

 

10

 

 

 

 

 

 

 

 

 

10

 

 

 

 

5

 

 

 

 

 

 

 

 

 

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

0

5

10

15

20

0

2

4

6

8

10

12

14

16

18

20

 

 

 

 

 

 

 

 

 

х

 

 

 

 

 

 

х

 

 

 

 

логарифмическая функция

 

 

 

25

 

y = 5,0596Ln(x) + 3,56

 

 

 

25

 

 

R2

= 0,7303

 

 

 

 

 

 

 

 

 

 

 

20

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

20

 

 

 

 

 

 

 

 

 

 

15

 

 

 

 

 

 

 

 

 

15

у

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

у

10

 

 

 

 

 

 

 

 

 

10

5

 

 

 

 

 

 

 

 

 

5

0

 

 

 

 

 

 

 

 

 

0

0

2

4

6

8

10

12

14

16

18

20

 

 

 

 

 

х

 

 

 

 

 

 

 

экспоненциальная функция

 

 

 

 

y = 7,5781e0,056x

 

 

 

 

 

 

 

 

R2 = 0,9316

 

 

 

 

 

 

0

2

4

6

8

10

12

14

16

18

20

 

 

 

 

 

х

 

 

 

 

 

Исследование статистических свойств остатков

Свойства оценок коэффициентов регрессии, т.е качество уравнения регрессии напрямую зависит от свойств случайной составляющей Е(Х).

Теорема Гаусса-Маркова. Полученные по МНК оценки b0 и b1 являются наилучшими (BLUE), т.е. несмещенными (M(b0)=β0, M(b1)=β1), состоятельными (D(b0)→0, D(b1)→0 при n→∞) и

эффективными (обеспечивают Dmin при конечных n), если

1.M(ei)=0, i=1,..n. Это значит, что случайные отклонения в среднем не оказывают влияния на зависимую переменную. Выполняется автоматически при использовании МНК.

2.D(ei) = D(ek) = σ2 для любых i и k. То есть дисперсия (разброс) отклонений не меняется вдоль линии регрессии

(гомоскедастичность).

3.Между случайными отклонениями ei и ej в различных наблюдениях нет систематической связи (отсутствие автокорреляции ошибок).

Исследование статистических свойств остатков

4.Между случайными отклонениями ei и значениями независимой переменной xi нет систематической связи (для неслучайных xi выполняется автоматически).

5.Уравнение регрессии линейно относительно параметров.

Нарушение условий Гаусса-Маркова приводит к тому, что полученные по МНК оценки коэффициентов уравнения регрессии теряют свойство эффективности - применение других методов может обеспечить более маленькую дисперсию оценок, сохраняя при этом их несмещенность.

В рассматриваемом случае линейной регрессии с оценками коэффициентов по МНК (требования 1, 4, 5 выполнены) проверке подлежат свойства 2 и 3.

Представление об автокорреляции отклонений

Автокорреляция заключается в том, что ошибки регрессии в разных наблюдениях зависят друг от друга:

cov(εij) = σ(εij) ≠0 при i ≠ j

Если знаки соседних отклонений совпадают, т.е. σ(εi i-1 ) > 0,

автокорреляция положительна

Если для двух соседних наблюдений i и i-1 имеет место смена знака в отклонениях, т. е. σ(εi i-1 ) < 0, автокорреляция

отрицательна.

По порядку: если связаны ближайшие соседи (εi i-1 ), имеет место

автокорреляция первого порядка, через одного (то есть связаны εi i-2 ) – второго порядка и т.д.

основные причины автокорреляции

Неучет в модели какой-либо важной объясняющей переменной либо неправильный выбор формы регрессионной зависимости. И то и другое приводит к системным отклонениям точек наблюдений от линии регрессии и может служить возможной причиной автокорреляции.

Цикличность в изменении значений физических показателей, свойственная им по своей природе (сменить модель!).

Следствие усреднения данных по интервалам при их компактном представлении в виде статистических рядов.

Эффект паутины: запаздывание изменения физического показателя (результативного признака) по отношению к изменению условий наблюдения (факторных признаков) .

способы обнаружения автокорреляции

1. В методе рядов знаки отклонений e i = y i y i , i = 1, 2 , ... , n перечисляются для всех наблюдений, например (- - - - -)(+ + + + + + +)(- - -)(+ + + +)

Пусть n1 – общее количество положительных, а n2 – отрицательных отклонений ei при объеме выборки n и общем количестве рядов, равном k .

Для достаточно большого числа наблюдений (n1, n2 > 10) и в отсутствии

автокорреляции случайная величина k имеет асимптотически нормальное распределение с математическим ожиданием и дисперсией:

 

 

 

 

 

 

2n1n2 (2n1n2 n1n2 )

 

M (k) =

2n1n2

+1

 

D(k ) =

 

 

 

(n

+ n

 

)

2 (n + n

 

1)

 

n +n

2

 

 

 

2

2

 

1

 

 

 

1

 

 

1

 

 

Автокорреляция отсутствует, если

M (k ) uα / 2 D(k ) < k < M (k ) + uα / 2 D(k )

2. Метод Дарбина-Уотсона

Способ определения автокорреляции первого порядка с использованием специальной статистики Дарбина-Уотсона:

 

 

 

DW =

(ei ei 1 ) 2

= 2(1 r )

 

ei2

ei ,ei 1

Здесь ei и ei-1 остатки, а rei,ei-1 – коэффициент корреляции для любых соседних точек с номерами i и i-1.

Приближенная оценка: автокорреляция остатков отсутствует, если

1,5 < DW < 2,5 .

Замечание: автокорреляция остатков в регрессионном анализе перекрёстных данных встречается довольно редко

Исследование дисперсии отклонений

Оценка значимости коэффициентов регрессии будет неверной, если дисперсия отклонений вдоль регрессионной кривой заметно меняется.

Гетероскедастичность в перекрестных данных связана, как правило, с эффектом масштаба (значения переменных в уравнении регрессии существенно отличаются для разных наблюдений).

Для анализа дисперсии отклонений необходимо знать распределение СВ Y для каждого выбранного значения Х = xi. На практике, однако, для каждого xi определено единственное значение yi, что не позволяет оценить дисперсию еi. Поэтому в реальности для обнаружения гетероскедастичности используют различные тесты и критерии.