
Регрессии и корреляции
.pdf
Выбор формы кривой регрессии в вычислительном эксперименте


|
|
|
линейная функция |
|
|
|
|
кубическая функция |
|
|
|||||
25 |
|
y = 0,775 x + 6,25 |
|
|
|
|
y = -0,0091x3 + 0,2958x2 - 1,91x + 11,924 |
|
|||||||
|
|
R2 = 0,9066 |
|
|
|
|
25 |
|
R2 = 0,9697 |
|
|
||||
20 |
|
|
|
|
|
|
20 |
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
15 |
|
|
|
|
|
|
|
|
|
15 |
|
|
|
|
|
у |
|
|
|
|
|
|
|
|
|
у |
|
|
|
|
|
10 |
|
|
|
|
|
|
|
|
|
10 |
|
|
|
|
|
5 |
|
|
|
|
|
|
|
|
|
5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
0 |
|
|
|
|
|
|
|
|
|
0 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0 |
5 |
10 |
15 |
20 |
||
0 |
2 |
4 |
6 |
8 |
10 |
12 |
14 |
16 |
18 |
||||||
20 |
|
|
|
|
|||||||||||
|
|
|
|
|
х |
|
|
|
|
|
|
х |
|
|
|
|
логарифмическая функция |
|
|
|
|||||
25 |
|
y = 5,0596Ln(x) + 3,56 |
|
|
|
25 |
||||
|
|
R2 |
= 0,7303 |
|
|
|
|
|||
|
|
|
|
|
|
|
||||
20 |
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
20 |
|
|
|
|
|
|
|
|
|
|
|
|
15 |
|
|
|
|
|
|
|
|
|
15 |
у |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
у |
|
10 |
|
|
|
|
|
|
|
|
|
10 |
5 |
|
|
|
|
|
|
|
|
|
5 |
0 |
|
|
|
|
|
|
|
|
|
0 |
0 |
2 |
4 |
6 |
8 |
10 |
12 |
14 |
16 |
18 |
20 |
|
|
|
|
|
х |
|
|
|
|
|
|
|
экспоненциальная функция |
|
|
||||||
|
|
y = 7,5781e0,056x |
|
|
|
|
|
|||
|
|
|
R2 = 0,9316 |
|
|
|
|
|
|
|
0 |
2 |
4 |
6 |
8 |
10 |
12 |
14 |
16 |
18 |
20 |
|
|
|
|
|
х |
|
|
|
|
|
Исследование статистических свойств остатков
Свойства оценок коэффициентов регрессии, т.е качество уравнения регрессии напрямую зависит от свойств случайной составляющей Е(Х).
Теорема Гаусса-Маркова. Полученные по МНК оценки b0 и b1 являются наилучшими (BLUE), т.е. несмещенными (M(b0)=β0, M(b1)=β1), состоятельными (D(b0)→0, D(b1)→0 при n→∞) и
эффективными (обеспечивают Dmin при конечных n), если
1.M(ei)=0, i=1,..n. Это значит, что случайные отклонения в среднем не оказывают влияния на зависимую переменную. Выполняется автоматически при использовании МНК.
2.D(ei) = D(ek) = σ2 для любых i и k. То есть дисперсия (разброс) отклонений не меняется вдоль линии регрессии
(гомоскедастичность).
3.Между случайными отклонениями ei и ej в различных наблюдениях нет систематической связи (отсутствие автокорреляции ошибок).
Исследование статистических свойств остатков
4.Между случайными отклонениями ei и значениями независимой переменной xi нет систематической связи (для неслучайных xi выполняется автоматически).
5.Уравнение регрессии линейно относительно параметров.
Нарушение условий Гаусса-Маркова приводит к тому, что полученные по МНК оценки коэффициентов уравнения регрессии теряют свойство эффективности - применение других методов может обеспечить более маленькую дисперсию оценок, сохраняя при этом их несмещенность.
В рассматриваемом случае линейной регрессии с оценками коэффициентов по МНК (требования 1, 4, 5 выполнены) проверке подлежат свойства 2 и 3.

Представление об автокорреляции отклонений
Автокорреляция заключается в том, что ошибки регрессии в разных наблюдениях зависят друг от друга:
cov(εi,εj) = σ(εi,εj) ≠0 при i ≠ j
Если знаки соседних отклонений совпадают, т.е. σ(εi ,εi-1 ) > 0,
автокорреляция положительна
Если для двух соседних наблюдений i и i-1 имеет место смена знака в отклонениях, т. е. σ(εi ,εi-1 ) < 0, автокорреляция
отрицательна.
По порядку: если связаны ближайшие соседи (εi ,εi-1 ), имеет место
автокорреляция первого порядка, через одного (то есть связаны εi ,εi-2 ) – второго порядка и т.д.
основные причины автокорреляции
•Неучет в модели какой-либо важной объясняющей переменной либо неправильный выбор формы регрессионной зависимости. И то и другое приводит к системным отклонениям точек наблюдений от линии регрессии и может служить возможной причиной автокорреляции.
•Цикличность в изменении значений физических показателей, свойственная им по своей природе (сменить модель!).
•Следствие усреднения данных по интервалам при их компактном представлении в виде статистических рядов.
•Эффект паутины: запаздывание изменения физического показателя (результативного признака) по отношению к изменению условий наблюдения (факторных признаков) .

способы обнаружения автокорреляции
1. В методе рядов знаки отклонений e i = y i − y i , i = 1, 2 , ... , n перечисляются для всех наблюдений, например (- - - - -)(+ + + + + + +)(- - -)(+ + + +)
Пусть n1 – общее количество положительных, а n2 – отрицательных отклонений ei при объеме выборки n и общем количестве рядов, равном k .
Для достаточно большого числа наблюдений (n1, n2 > 10) и в отсутствии
автокорреляции случайная величина k имеет асимптотически нормальное распределение с математическим ожиданием и дисперсией:
|
|
|
|
|
|
2n1n2 (2n1n2 − n1n2 ) |
|
||||||
M (k) = |
2n1n2 |
+1 |
|
D(k ) = |
|||||||||
|
|
||||||||||||
|
(n |
+ n |
|
) |
2 (n + n |
|
−1) |
||||||
|
n +n |
2 |
|
|
|
2 |
2 |
||||||
|
1 |
|
|
|
1 |
|
|
1 |
|
|
Автокорреляция отсутствует, если
M (k ) −uα / 2 D(k ) < k < M (k ) + uα / 2 D(k )
2. Метод Дарбина-Уотсона
Способ определения автокорреляции первого порядка с использованием специальной статистики Дарбина-Уотсона:
|
|
|
DW = |
∑(ei − ei −1 ) 2 |
= 2(1 − r ) |
|
∑ei2 |
ei ,ei −1 |
Здесь ei и ei-1 остатки, а rei,ei-1 – коэффициент корреляции для любых соседних точек с номерами i и i-1.
Приближенная оценка: автокорреляция остатков отсутствует, если
1,5 < DW < 2,5 .
Замечание: автокорреляция остатков в регрессионном анализе перекрёстных данных встречается довольно редко

Исследование дисперсии отклонений
Оценка значимости коэффициентов регрессии будет неверной, если дисперсия отклонений вдоль регрессионной кривой заметно меняется.
Гетероскедастичность в перекрестных данных связана, как правило, с эффектом масштаба (значения переменных в уравнении регрессии существенно отличаются для разных наблюдений).
Для анализа дисперсии отклонений необходимо знать распределение СВ Y для каждого выбранного значения Х = xi. На практике, однако, для каждого xi определено единственное значение yi, что не позволяет оценить дисперсию еi. Поэтому в реальности для обнаружения гетероскедастичности используют различные тесты и критерии.