Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Регрессионный анализ.doc
Скачиваний:
20
Добавлен:
27.11.2018
Размер:
1.41 Mб
Скачать

Корреляционное отношение  всегда положительно 0   1.

Чем теснее связь между y и х, тем меньше величина , , тем больше .

Точность аппроксимации определяется как средняя относительная ошибка аппроксимации .

Величина определяется в процентах. Чаще применяется при оценке нелинейной зависимости. Если менее 3-5%, то точность высокая, если 5-10% - умеренная, 10% и более – низкая.

Оценка значимости коэффициента корреляции и коэффициентов уравнений регрессии. Оценка значимости коэффициента корреляции

Поскольку коэффициент корреляции r определяется по данным случайной выборки, то он может отличаться от коэффициента корреляции , который соответствует генеральной совокупности.

В случае, когда объем выборки N  20, то предполагают, что коэффициент корреляции является случайной величиной, распределенной по нормальному закону.

Пусть r – среднеквадратичное отклонение выборочного коэффициента корреляции r. Тогда при N  20 доверительный интервал для r будет равен ( - xpr, + xpr), где хр – параметр нормального распределения вероятностей:

.

Значение хр определяется по таблице функции распределения Ф(х) в зависимости от вероятности Р. Для оперативного определения значения хр при Р 0,9, можно использовать таблицу 2.

Таблица 2.

Ф(хp)

0,9

0,95

0,99

хр

1,653

1,96

2,576

Значение среднеквадратичного отклонения r можно определить по формуле .

Подставим в доверительный интервал вместо неизвестной величины его оценку по выборке r и r . Тогда

. Для проверки значимости выборочного коэффициента корреляции r чаще используется так называемая нулевая гипотеза: H0: = 0 (H1: 0).

Суть нулевой гипотезы состоит в том, что в случае, когда для случайных величин х и y на основании выборок и полученоr>0, т.е. между ними имеется корреляционная связь, предполагается, что в генеральной совокупности этой связи нет (H0: = 0).

При = 0, получим:

.

При проверке нулевой гипотезы достаточно использовать только левый (нижний) предел доверительного интервала . Так как = 0, то .

Данное условие означает, что нулевая гипотеза с вероятностью Ф(хр) подтверждается.

Если , то нулевая гипотеза с вероятностью Ф(хр) отвергается, а, следовательно, связь между х и y имеет место.

В тех случаях, когда размер выборки N<30, для проверки нулевой гипотезы ( = 0) используется t – критерий Стьюдента.

Алгоритм использования t – критерия Стьюдента

  1. а) Для анализа значимости коэффициента корреляции определяется расчетное значение по формуле (если N<30)

(если N>30)

б) Для анализа значимости частного коэффициента корреляции определяется расчетное значение tрасч. по формуле: , где - частный коэффициент корреляции, k – номер частного коэффициента корреляции (k – число исключенных факторов).

в) Для анализа значимости корреляционного отношения определяется расчетное значение tрасч. по формуле:

  1. По таблице критических точек распределения Стьюдента по значению числа степеней свободы k = N - n (nчисло параметров) и уровню значимости (уровень значимости - это вероятность совершить ошибку первого рода, т.е. отвергнуть правильную нулевую гипотезу) определяется теоретическое значение tтеор. (критическая точка).

Таблица 3.

Таблица критических точек для =5%

k

1

3

5

10

15

20

30

40

50

75

100

150

200

t

12,7

3,18

2,57

2,23

2,13

2,09

2,04

2,02

2,01

1,99

1,98

1,98

1,97

Рис.1.

Если tрасч  tтеор., то нулевая гипотеза Н0 принимается ( = 0), если tрасч > tтеор., то Н0 – отвергается (  0), следовательно, случайные величины х и y коррелированы, то есть между ними существует линейная связь, следовательно:

  1. коэффициент корреляции r значим;

  2. частный коэффициент корреляции значим;

  1. корреляционное отношение значимо.

Оценка значимости коэффициентов уравнений регрессии

В общем случае значимость коэффициентов уравнений регрессии определяется с помощью t – критерия Стьюдента.

Линейная зависимость: .

Для коэффициентов уравнения регрессии ак (k = 1,2):

,

Теоретическое значение t – критерия Стьюдента tтеор находится аналогично коэффициенту корреляции r.

По той же схеме проверяется нулевая гипотеза: H0 : ak = 0 (H1 : ak 0). Гипотеза в такой постановке называется гипотезой о статистической значимости коэффициента регрессии. Если гипотеза Н0 принимается, то полагают, что у не зависит от х, а коэффициент ak считается статистически незначимым. При отклонении гипотезы Н0 коэффициент ak считается статистически значимым, что указывает на наличие определенной линейной зависимости между y и х. В данном случае рассматривают двустороннюю критическую область, так как коэффициент регрессии может быть как положительным, так и отрицательным (ак > 0 или ак < 0).

Если tрасч  tтеор., то Н0 принимается и ак = 0, если tрасч > tтеор, то Н0 отвергается и ак  0.

Для парной регрессии более важным является анализ статистической значимости коэффициента а2 , так как именно в нем скрыто влияние независимой переменной х на зависимую y.

При оценке значимости коэффициента линейной регрессии на начальном этапе можно использовать «грубое» правило, позволяющее не прибегать к таблицам:

  1. Если tрасч  1, то ак = 0, т.е. коэффициент ак незначим, так как доверительная вероятность при двусторонней альтернативной гипотезе составит менее, чем 0,7.

  2. Если 1<tрасч  2, то ак относительно (слабо) значим, доверительная вероятность лежит между значениями 0,7 и 0,95.

  3. Если 2<tрасч.  3, то коэффициент ак значим и связь между х и у имеет линейный характер. В этом случае доверительная вероятность колеблется от 0,95 до 0,99.

  4. Если tрасч > 3, то это почти гарантия наличия линейной связи.

Для N > 10 предложенное «грубое» правило практически всегда работает.

Степенная зависимость: .

Линеаризуя данную зависимость, получим

lnỹ = lna1 + а2  lnx или , где , .

Для полученного линейного уравнения имеем:

,

где b1 = a1*, b2 = a2.

Рис.2.

Значение tтеор. находится аналогично линейной зависимости (Рис.2.).

Если tрасч  tтеор., то bк = 0, коэффициент bк незначим.

Если tрасч > tтеор, то bк  0, коэффициент bк значим.

Если b1 = a1*= lna1 = 0, то а1 = 1 и ,

Если b2 = a2 = 0, то .

Гиперболическая зависимость:

Значимость коэффициентов по нулевой гипотезе определяется так же, как и при линейной зависимости, с одной разницей: при вычислении tрасч в формуле вместо xi и берутся:

и .

Логарифмическая зависимость: .

Значимость а1 и а2 определяется по той же схеме. Вместо хi и берутся и .

Параболическая зависимость:

Для проверки значимости коэффициента ак (k = 1,2..n), значение tрасч определяется по формуле:

,

где n – число коэффициентов регрессии.

При определении значимости коэффициента а0 в формуле tрасч показатели степени к при хi и берутся равными единице (k= 1).

Тригонометрическая зависимость:

представляется в виде линейной зависимости: ,

где , .

Значимость коэффициента ак,() оценивают по формуле:

.

Значимость коэффициента bк () определяют по формуле:

.

Значимость коэффициента а0 () рассчитывают по формуле: