
- •Регрессионный анализ
- •Основные виды уравнений парной регрессии и методы определения их параметров
- •Алгоритм применения мнк
- •Линейная зависимость
- •Гиперболическая зависимость
- •Степенная зависимость
- •Логарифмическая зависимость
- •Параболическая зависимость
- •Тригонометрическая зависимость
- •Корреляционное отношение всегда положительно 0 1.
- •Оценка значимости коэффициента корреляции и коэффициентов уравнений регрессии. Оценка значимости коэффициента корреляции
- •Оценка значимости коэффициента детерминации (значимость уравнения регрессии в целом)
- •Автокорреляция остатков. Критерий Дарбина – Уотсона
- •Выбор формы уравнения регрессии
- •Множественная регрессия
- •Частные коэффициенты корреляции
- •Множественная линейная регрессия
- •Оценка параметров уравнения линейной регрессии
- •Множественная нелинейная регрессия. Алгоритм метода Брандона
- •Спецификация множественной регрессии
- •Приложение 2. Распределение Дарбина—Уотсона
Корреляционное отношение всегда положительно 0 1.
Чем
теснее связь между y
и х,
тем меньше величина
,
,
тем больше .
Точность
аппроксимации
определяется как средняя относительная
ошибка аппроксимации
.
Величина определяется в процентах. Чаще применяется при оценке нелинейной зависимости. Если менее 3-5%, то точность высокая, если 5-10% - умеренная, 10% и более – низкая.
Оценка значимости коэффициента корреляции и коэффициентов уравнений регрессии. Оценка значимости коэффициента корреляции
Поскольку коэффициент корреляции r определяется по данным случайной выборки, то он может отличаться от коэффициента корреляции , который соответствует генеральной совокупности.
В случае, когда объем выборки N 20, то предполагают, что коэффициент корреляции является случайной величиной, распределенной по нормальному закону.
Пусть r – среднеквадратичное отклонение выборочного коэффициента корреляции r. Тогда при N 20 доверительный интервал для r будет равен ( - xpr, + xpr), где хр – параметр нормального распределения вероятностей:
.
Значение хр определяется по таблице функции распределения Ф(х) в зависимости от вероятности Р. Для оперативного определения значения хр при Р 0,9, можно использовать таблицу 2.
Таблица 2.
Ф(хp) |
0,9 |
0,95 |
0,99 |
хр |
1,653 |
1,96 |
2,576 |
Значение
среднеквадратичного отклонения r
можно
определить по формуле
.
Подставим в доверительный интервал вместо неизвестной величины его оценку по выборке r и r . Тогда
. Для
проверки значимости выборочного
коэффициента корреляции r
чаще используется так называемая нулевая
гипотеза: H0:
= 0 (H1:
0).
Суть
нулевой гипотезы состоит в том, что в
случае, когда для случайных величин х
и y
на основании выборок
и
полученоr>0,
т.е. между ними имеется корреляционная
связь, предполагается, что в генеральной
совокупности этой связи нет (H0:
= 0).
При = 0, получим:
.
При
проверке нулевой гипотезы достаточно
использовать только левый (нижний)
предел доверительного интервала
.
Так как
= 0, то
.
Данное условие означает, что нулевая гипотеза с вероятностью Ф(хр) подтверждается.
Если
,
то нулевая гипотеза с вероятностью
Ф(хр)
отвергается, а, следовательно, связь
между х
и y
имеет место.
В тех случаях, когда размер выборки N<30, для проверки нулевой гипотезы ( = 0) используется t – критерий Стьюдента.
Алгоритм использования t – критерия Стьюдента
-
а) Для анализа значимости коэффициента корреляции
определяется расчетное значение
по формуле
(если N<30)
(если
N>30)
б)
Для анализа значимости частного
коэффициента корреляции
определяется расчетное значение tрасч.
по формуле:
,
где
- частный коэффициент корреляции, k
– номер частного коэффициента корреляции
(k
– число исключенных факторов).
в)
Для анализа значимости корреляционного
отношения
определяется
расчетное значение tрасч.
по формуле:
-
По таблице критических точек распределения Стьюдента по значению числа степеней свободы k = N - n (n – число параметров) и уровню значимости (уровень значимости - это вероятность совершить ошибку первого рода, т.е. отвергнуть правильную нулевую гипотезу) определяется теоретическое значение tтеор. (критическая точка).
Таблица 3.
Таблица критических точек для =5%
k |
1 |
3 |
5 |
10 |
15 |
20 |
30 |
40 |
50 |
75 |
100 |
150 |
200 |
t |
12,7 |
3,18 |
2,57 |
2,23 |
2,13 |
2,09 |
2,04 |
2,02 |
2,01 |
1,99 |
1,98 |
1,98 |
1,97 |
Рис.1.
Если tрасч tтеор., то нулевая гипотеза Н0 принимается ( = 0), если tрасч > tтеор., то Н0 – отвергается ( 0), следовательно, случайные величины х и y коррелированы, то есть между ними существует линейная связь, следовательно:
-
коэффициент корреляции r значим;
-
частный коэффициент корреляции
значим;
-
корреляционное отношение
значимо.
Оценка значимости коэффициентов уравнений регрессии
В общем случае значимость коэффициентов уравнений регрессии определяется с помощью t – критерия Стьюдента.
Линейная
зависимость:
.
Для коэффициентов уравнения регрессии ак (k = 1,2):
,
Теоретическое значение t – критерия Стьюдента tтеор находится аналогично коэффициенту корреляции r.
По той же схеме проверяется нулевая гипотеза: H0 : ak = 0 (H1 : ak 0). Гипотеза в такой постановке называется гипотезой о статистической значимости коэффициента регрессии. Если гипотеза Н0 принимается, то полагают, что у не зависит от х, а коэффициент ak считается статистически незначимым. При отклонении гипотезы Н0 коэффициент ak считается статистически значимым, что указывает на наличие определенной линейной зависимости между y и х. В данном случае рассматривают двустороннюю критическую область, так как коэффициент регрессии может быть как положительным, так и отрицательным (ак > 0 или ак < 0).
Если tрасч tтеор., то Н0 принимается и ак = 0, если tрасч > tтеор, то Н0 отвергается и ак 0.
Для парной регрессии более важным является анализ статистической значимости коэффициента а2 , так как именно в нем скрыто влияние независимой переменной х на зависимую y.
При оценке значимости коэффициента линейной регрессии на начальном этапе можно использовать «грубое» правило, позволяющее не прибегать к таблицам:
-
Если tрасч 1, то ак = 0, т.е. коэффициент ак незначим, так как доверительная вероятность при двусторонней альтернативной гипотезе составит менее, чем 0,7.
-
Если 1<tрасч 2, то ак относительно (слабо) значим, доверительная вероятность лежит между значениями 0,7 и 0,95.
-
Если 2<tрасч. 3, то коэффициент ак значим и связь между х и у имеет линейный характер. В этом случае доверительная вероятность колеблется от 0,95 до 0,99.
-
Если tрасч > 3, то это почти гарантия наличия линейной связи.
Для N > 10 предложенное «грубое» правило практически всегда работает.
Степенная
зависимость:
.
Линеаризуя данную зависимость, получим
lnỹ = lna1 + а2 lnx
или
,
где
,
.
Для полученного линейного уравнения имеем:
,
где b1 = a1*, b2 = a2.
Рис.2.
Значение tтеор. находится аналогично линейной зависимости (Рис.2.).
Если tрасч tтеор., то bк = 0, коэффициент bк незначим.
Если tрасч > tтеор, то bк 0, коэффициент bк значим.
Если
b1
= a1*=
lna1
= 0, то а1
= 1 и
,
Если
b2
= a2
= 0, то
.
Гиперболическая
зависимость:
Значимость
коэффициентов по нулевой гипотезе
определяется так же, как и при линейной
зависимости, с одной разницей: при
вычислении tрасч
в формуле вместо xi
и
берутся:
и
.
Логарифмическая
зависимость:
.
Значимость
а1
и а2
определяется по той же схеме. Вместо хi
и
берутся
и
.
Параболическая
зависимость:
Для проверки значимости коэффициента ак (k = 1,2..n), значение tрасч определяется по формуле:
,
где n – число коэффициентов регрессии.
При
определении значимости коэффициента
а0
в формуле
tрасч
показатели степени к
при хi
и
берутся равными единице (k=
1).
Тригонометрическая зависимость:
представляется
в виде линейной зависимости:
,
где
,
.
Значимость
коэффициента ак,()
оценивают
по формуле:
.
Значимость
коэффициента bк
()
определяют
по формуле:
.
Значимость
коэффициента а0
()
рассчитывают
по формуле: