- •Регрессионный анализ
- •Основные виды уравнений парной регрессии и методы определения их параметров
- •Алгоритм применения мнк
- •Линейная зависимость
- •Гиперболическая зависимость
- •Степенная зависимость
- •Логарифмическая зависимость
- •Параболическая зависимость
- •Тригонометрическая зависимость
- •Корреляционное отношение всегда положительно 0 1.
- •Оценка значимости коэффициента корреляции и коэффициентов уравнений регрессии. Оценка значимости коэффициента корреляции
- •Оценка значимости коэффициента детерминации (значимость уравнения регрессии в целом)
- •Автокорреляция остатков. Критерий Дарбина – Уотсона
- •Выбор формы уравнения регрессии
- •Множественная регрессия
- •Частные коэффициенты корреляции
- •Множественная линейная регрессия
- •Оценка параметров уравнения линейной регрессии
- •Множественная нелинейная регрессия. Алгоритм метода Брандона
- •Спецификация множественной регрессии
- •Приложение 2. Распределение Дарбина—Уотсона
Корреляционное отношение всегда положительно 0 1.
Чем теснее связь между y и х, тем меньше величина , , тем больше .
Точность аппроксимации определяется как средняя относительная ошибка аппроксимации .
Величина определяется в процентах. Чаще применяется при оценке нелинейной зависимости. Если менее 3-5%, то точность высокая, если 5-10% - умеренная, 10% и более – низкая.
Оценка значимости коэффициента корреляции и коэффициентов уравнений регрессии. Оценка значимости коэффициента корреляции
Поскольку коэффициент корреляции r определяется по данным случайной выборки, то он может отличаться от коэффициента корреляции , который соответствует генеральной совокупности.
В случае, когда объем выборки N 20, то предполагают, что коэффициент корреляции является случайной величиной, распределенной по нормальному закону.
Пусть r – среднеквадратичное отклонение выборочного коэффициента корреляции r. Тогда при N 20 доверительный интервал для r будет равен ( - xpr, + xpr), где хр – параметр нормального распределения вероятностей:
.
Значение хр определяется по таблице функции распределения Ф(х) в зависимости от вероятности Р. Для оперативного определения значения хр при Р 0,9, можно использовать таблицу 2.
Таблица 2.
Ф(хp) |
0,9 |
0,95 |
0,99 |
хр |
1,653 |
1,96 |
2,576 |
Значение среднеквадратичного отклонения r можно определить по формуле .
Подставим в доверительный интервал вместо неизвестной величины его оценку по выборке r и r . Тогда
. Для проверки значимости выборочного коэффициента корреляции r чаще используется так называемая нулевая гипотеза: H0: = 0 (H1: 0).
Суть нулевой гипотезы состоит в том, что в случае, когда для случайных величин х и y на основании выборок и полученоr>0, т.е. между ними имеется корреляционная связь, предполагается, что в генеральной совокупности этой связи нет (H0: = 0).
При = 0, получим:
.
При проверке нулевой гипотезы достаточно использовать только левый (нижний) предел доверительного интервала . Так как = 0, то .
Данное условие означает, что нулевая гипотеза с вероятностью Ф(хр) подтверждается.
Если , то нулевая гипотеза с вероятностью Ф(хр) отвергается, а, следовательно, связь между х и y имеет место.
В тех случаях, когда размер выборки N<30, для проверки нулевой гипотезы ( = 0) используется t – критерий Стьюдента.
Алгоритм использования t – критерия Стьюдента
-
а) Для анализа значимости коэффициента корреляции определяется расчетное значение по формуле (если N<30)
(если N>30)
б) Для анализа значимости частного коэффициента корреляции определяется расчетное значение tрасч. по формуле: , где - частный коэффициент корреляции, k – номер частного коэффициента корреляции (k – число исключенных факторов).
в) Для анализа значимости корреляционного отношения определяется расчетное значение tрасч. по формуле:
-
По таблице критических точек распределения Стьюдента по значению числа степеней свободы k = N - n (n – число параметров) и уровню значимости (уровень значимости - это вероятность совершить ошибку первого рода, т.е. отвергнуть правильную нулевую гипотезу) определяется теоретическое значение tтеор. (критическая точка).
Таблица 3.
Таблица критических точек для =5%
k |
1 |
3 |
5 |
10 |
15 |
20 |
30 |
40 |
50 |
75 |
100 |
150 |
200 |
t |
12,7 |
3,18 |
2,57 |
2,23 |
2,13 |
2,09 |
2,04 |
2,02 |
2,01 |
1,99 |
1,98 |
1,98 |
1,97 |
Рис.1.
Если tрасч tтеор., то нулевая гипотеза Н0 принимается ( = 0), если tрасч > tтеор., то Н0 – отвергается ( 0), следовательно, случайные величины х и y коррелированы, то есть между ними существует линейная связь, следовательно:
-
коэффициент корреляции r значим;
-
частный коэффициент корреляции значим;
-
корреляционное отношение значимо.
Оценка значимости коэффициентов уравнений регрессии
В общем случае значимость коэффициентов уравнений регрессии определяется с помощью t – критерия Стьюдента.
Линейная зависимость: .
Для коэффициентов уравнения регрессии ак (k = 1,2):
,
Теоретическое значение t – критерия Стьюдента tтеор находится аналогично коэффициенту корреляции r.
По той же схеме проверяется нулевая гипотеза: H0 : ak = 0 (H1 : ak 0). Гипотеза в такой постановке называется гипотезой о статистической значимости коэффициента регрессии. Если гипотеза Н0 принимается, то полагают, что у не зависит от х, а коэффициент ak считается статистически незначимым. При отклонении гипотезы Н0 коэффициент ak считается статистически значимым, что указывает на наличие определенной линейной зависимости между y и х. В данном случае рассматривают двустороннюю критическую область, так как коэффициент регрессии может быть как положительным, так и отрицательным (ак > 0 или ак < 0).
Если tрасч tтеор., то Н0 принимается и ак = 0, если tрасч > tтеор, то Н0 отвергается и ак 0.
Для парной регрессии более важным является анализ статистической значимости коэффициента а2 , так как именно в нем скрыто влияние независимой переменной х на зависимую y.
При оценке значимости коэффициента линейной регрессии на начальном этапе можно использовать «грубое» правило, позволяющее не прибегать к таблицам:
-
Если tрасч 1, то ак = 0, т.е. коэффициент ак незначим, так как доверительная вероятность при двусторонней альтернативной гипотезе составит менее, чем 0,7.
-
Если 1<tрасч 2, то ак относительно (слабо) значим, доверительная вероятность лежит между значениями 0,7 и 0,95.
-
Если 2<tрасч. 3, то коэффициент ак значим и связь между х и у имеет линейный характер. В этом случае доверительная вероятность колеблется от 0,95 до 0,99.
-
Если tрасч > 3, то это почти гарантия наличия линейной связи.
Для N > 10 предложенное «грубое» правило практически всегда работает.
Степенная зависимость: .
Линеаризуя данную зависимость, получим
lnỹ = lna1 + а2 lnx или , где , .
Для полученного линейного уравнения имеем:
,
где b1 = a1*, b2 = a2.
Рис.2.
Значение tтеор. находится аналогично линейной зависимости (Рис.2.).
Если tрасч tтеор., то bк = 0, коэффициент bк незначим.
Если tрасч > tтеор, то bк 0, коэффициент bк значим.
Если b1 = a1*= lna1 = 0, то а1 = 1 и ,
Если b2 = a2 = 0, то .
Гиперболическая зависимость:
Значимость коэффициентов по нулевой гипотезе определяется так же, как и при линейной зависимости, с одной разницей: при вычислении tрасч в формуле вместо xi и берутся:
и .
Логарифмическая зависимость: .
Значимость а1 и а2 определяется по той же схеме. Вместо хi и берутся и .
Параболическая зависимость:
Для проверки значимости коэффициента ак (k = 1,2..n), значение tрасч определяется по формуле:
,
где n – число коэффициентов регрессии.
При определении значимости коэффициента а0 в формуле tрасч показатели степени к при хi и берутся равными единице (k= 1).
Тригонометрическая зависимость:
представляется в виде линейной зависимости: ,
где , .
Значимость коэффициента ак,() оценивают по формуле:
.
Значимость коэффициента bк () определяют по формуле:
.
Значимость коэффициента а0 () рассчитывают по формуле: