Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лабораторные работы / Апухтин (2 вариант) / Лабораторная работа 8.docx
Скачиваний:
38
Добавлен:
28.06.2014
Размер:
686.21 Кб
Скачать

Сравнение различных регрессий. Пошаговый отбор переменных.

На 1-м шаге (k = 1) найдем один наиболее информативную переменную. При k = 1 величина R2 совпадает с квадратом обычного (парного) коэффициента корреляции

R2= r2 (y, x) ,

из матрицы корреляций находим:

r2 (y, xj) = r2 (y, x4) = (0.577)2 = 0.333

Так что в классе однофакторных регрессионных моделей наиболее информативным предиктором (предсказателем) является x4- количество удобрений. Вычисление скорректированного (adjusted) коэффициента детерминации по (20) дает

R2adj= 0.296.

2-й шаг (k = 2). Среди всевозможных пар (х4 , хj), j = 1, 2, 3, 5, выбирается наиболее информативная (в смысле R2 или, что то же самое, в смысле R2adj) пара:

возврат в окно Selectdep. Andindep.Var. и перебор различных пар; результат:

  1. (х4 , х1)

(х4 , х1) = 0.406,

  1. (х4 , х2)

(х4 , х2) = 0.399

  1. (х4 , х3)

(х4 , х3) = 0.421

  1. (х4 , х5)

(х4 , х5) = 0.255

откуда видно, что наиболее информативной парой является (х4 , х3), которая дает

= (х4 , хj) = 0.421

Оценка уравнения регрессии урожайности по факторам х3и х4 имеет вид

(х3, х4) = 7.29 + 0.28 х3 + 3.47 х4 (27)

(0.66) (0.13) (1.07 )

Внизу в скобках указаны стандартные ошибки, взятые из столбца Std. Err. Of B таблицы RegressionResults для варианта независимых переменных (х3, х4) Все три коэффициента статистически значимо отличаются от нуля при уровне значимости  = 0.05, что видно из столбца p-level той же таблицы.

3-й шаг (k = 3). Среди всевозможных троек (х4, х3j), j = 1, 2, 5, выбираем аналогично наиболее информативную:

  1. (х4, х31)

  2. (х4, х32)

  3. (х4, х35)

(х4, х35) дает = 0.404,

что меньше, чем на предыдущем шаге = 0.421; это означает, что третью переменную в модель включать нецелесообразно, т.к. она не повышает значение(более того, уменьшает). Итак, результатом анализа является (27).

3. Нелинейная зависимость

Связь между признаком x и y может быть нелинейной, например, в виде полинома:

y = Pk (x) + , (28)

где Pk (x) = о + 1 x + ...+ k xk, k - степень полинома,  - случайная составляющая, М = 0, D = 2 .

Для имеющихся данных (xi ,yi), i = 1, ..., n, можно записать

yi = о + 1 xi + 2 + ...+k + i , i =1, ..., n (29)

или, как и (12), в матричной форме:

Y = X + , (30)

где .

Имеем задачу (13), и потому все формулы п.2. оказываются справедливыми и в этом случае (28) . Слово “линейный” в названии “линейный регрессионный анализ” означает линейность относительно параметров j , но не относительно факторов xj . Широко используется, кроме полиномиальной, например, следующие модели:

1) логарифмическая; если зависимость y = a0, то после логарифмирования получаем

ln y = ln ao + a1 ln x = о + 1 ln x;

2) гиперболическая (при обратной зависимости, т.е. при увеличении х признак y уменьшается):

y = о + ;

3) тригонометрическая:

y = о + 1 sinx + 2 cos x и другие.

Пример. Имеются эмпирические данные о зависимости y - выработки на одного работника доменного производства от x - температуры дутья; данные приведены в табл. 3 в условных единицах.

X

Y

X

Y

1

1.01

8.8

11

5.80

11.8

2

1.15

9.2

12

6.14

12.2

3

1.91

8.7

13

6.64

13.1

4

2.47

10.2

14

6.85

14.4

5

2.66

9.3

15

8.11

17.5

6

2.74

9.4

16

8.47

18.6

7

2.93

10.7

17

9.09

18.6

8

4.04

8.5

18

9.23

18.0

9

4.50

8.9

19

9.59

23.8

10

4.64

8.0

20

9.96

18.4

Сначала оценим имеющиеся данные визуально, с помощью процедуры Scatterplot(диаграмма рассеяния). Видим, что зависимость, возможно, нелинейная.

Построим несколько регрессий.

  1. Регрессия первой степени: y = о + 1 x; получим (в скобках указаны стандартные ошибки оценок):

y = 5.37 + 1.40 x

(0.98) (0.16)

= 0.798, s = 2.09.

  1. Регрессия второй степени: y = о + 1 x + 2 x2 ; получим:

y = 9.95 - 0.90 x + 0.21 x2, (31)

(1.33) (0.57) (0.05)

= 0.890, s = 1.53,

коэффициент 1 = -0.88 незначимо отличается от 0. Эта регрессия лучше предыдущей в смысле иs. Однако, возможно, регрессия третьей степени окажется лучше?

  1. Построим регрессию третьей степени: y = о + 1 x + 2 x2 + 3 x3; получим:

y = 11.6 - 2.35 х + 0.53 х2 - 0.02 х3

(2.33) (1.74) (0.36) (0.02)

= 0.890,s = 1.53,

незначимо отличаются от 0. Поскольку степень увеличилась без увеличения, от регрессии третьей степени отказываемся в пользу (31) второй степени. Однако, гипотеза о нулевом значении 1 в (31) не отклоняется (p-level = 0.1), и потому построим

  1. регрессию y = о + 2 x2 без линейного члена ; получим

y = 8.02 + 0.13 x2 (32)

(0.54) (0.01)

= 0.881,s = 1.6,

Сравнивая ее по иs с (31) , отдаем предпочтение (31), поскольку ошибка прогноза s меньше.