ЛАБОРАТОРНАЯ РАБОТА РЕГРЕССИО
.docЛАБОРАТОРНАЯ РАБОТА
Регрессионный анализ парных наблюдений
Цель работы:
Оценка параметров уравнения регрессии.
Задание.
Имеется выборка значений совместно наблюдаемых величин и (Приложение 2).
Требуется:
-
Отобразить графически поле наблюдаемых значений величин и .
-
Методом наименьших квадратов найти оценки параметров уравнения линейной и квадратичной регрессии на . Изобразить полученные зависимости на фоне корреляционного поля.
-
Проверить значимость коэффициентов уравнения регрессии (используя достигнутый уровень значимости), в предположении, что остатки независимые нормальные случайные величины с одинаковой дисперсией.
-
Сравнить модели, используя значения оценок остаточной дисперсии и коэффициента детерминации, а также полученные (достигнутые) уровни значимости коэффициентов моделей, выбрать одну из них (обосновать выбор).
-
Определить границы доверительного интервала для средних значений при каждом наблюдаемом значении (отобразить графически) (в предположении, что остатки независимые нормальные случайные величины с одинаковой дисперсией).
-
Исследовать подробно свойства остатков, проверить что остатки: а) независимы; б) имеют нормальное распределение; в) гомоскедастичны (имеют одинаковую дисперсию). По результатам исследования сделать выводы о том, какие из ранее полученных оценок нельзя считать достоверными.
Приложение 1. Оценка параметров уравнения линейной регрессии
Рассмотрим линейную по коэффициентам модель регрессии:
, (1)
где - случайная величина с математическим ожиданием равным нулю и дисперсией .
Полагая, перейдем к модели множественной линейной регрессии:
. (2)
Пусть для оценки неизвестных параметров уравнения регрессии (2) взята выборка объемом из значений величин . Тогда
,
где - вектор значений переменной ;
- вектор параметров модели;
– вектор ошибок, где и независимы;
- матрица исходных данных переменных размерами . Первый столбец матрицы содержит единицы (значения фиктивной переменной ), остальные столбцы значения переменных :
.
Для нахождения оценки вектора параметров используем метод наименьших квадратов, согласно которому в качестве оценок берутся такие, которые минимизируют сумму квадратов отклонений значений от :
. (3)
Оценка метода наименьших квадратов имеет вид:
. (4)
Качество регрессионной модели можно оценить, используя оценку дисперсии предсказания :
, где . Также качество модели можно оценить используя оценку коэффициента детерминации: .
Чем ближе значения к 1, тем большую долю дисперсии величины объясняет модель регрессии.
Оценка дисперсии коэффициента находится по формуле: , где соответствующий диагональный элемент матрицы .
Доверительные интервал для находится, используя статистику , которая при нормальном распределении имеет распределение хи-квадрат с степенью свободы.
Для проверки значимости коэффициентов уравнения регрессии используем статистику , которая при истинности гипотезы : , имеет распределение Стьюдента с степенью свободы. Если для заданного уровня значимости значение больше критического , то нулевая гипотеза отвергается и коэффициент признается значимым. В противном случае коэффициент признается незначимым, и соответствующее слагаемое исключается из модели. Доверительные интервалы для коэффициентов находятся используя статистики , имеющие распределение Стьюдента с степенью свободы.
Доверительный интервал для в многомерной точке определяется по формуле: , где квантиль распределение Стьюдента с степенью свободы. Соответственно доверительный интервал для значений в точке будет иметь вид: .
Замечание: Вообще говоря, прежде чем проверять значимость модели, значимость коэффициентов, и строить доверительные интервалы по приведенным выше формулам, следует убедиться в том, что остатки а) независимы; б) имеют нормальное распределение; в) гомоскедастичны (имеют одинаковую дисперсию).
Для проверки независимости остатков временного ряда (или любой другой последовательности случайных величин) можно использовать, например, критерий Спирмена, основанный на статистике, называемой коэффициентом ранговой корелляции Спирмена:
,
где - порядковый номер наблюдения (т.е., в данном случае соответствующего, остатка), - порядковый номер того же наблюдения в вариационном ряду.
Для чисто случайных процессов имеет нулевое математическое ожидание и дисперсию, равную . В больших выборках величина приближенно имеет нормальнее распределение . Для малых выборок предпочтительнее использовать в качестве статистики величину , которая приближенно имеет распределение Стьюдента с степенями свободы. Если искомая расчетная величина по модулю меньше двусторонней критической точки распределения Стьюдента, то нулевая гипотеза о том, что процесс является случайным принимается. И наоборот, если наблюдаемая величина статистики по модулю превосходит табличное значение, то есть значение коэффициента существенно отлично от нуля, то нулевая гипотеза о случайности ряда наблюдений отвергается.
Если наблюдаемая выборка не является последовательностью случайных величин (упорядоченной по времени, либо по какому либо другому фактору), то в этом случае проверка на независимость сводится к проверке независимости остатков от результирующего признака. Для этого можно использовать, например, критерий хи-квадрат Пирсона.
Для проверки нормальности остатков можно использовать критерий хи-квадрат или критерий Харке-Берра, основанный на статистике Харке-Берра: , где - оценки коэффициентов асимметрии и эксцесса. При условии нормальности исходных данных статистика Харке-Берра имеет распределение хи-квадрат с двумя степенями свободы.
Если гипотеза о нормальности остатков принята, то проверку на гомоскедастичность можно провести, например, следующим образом. Разбиваем всю выборку остатков на две последовательные выборки и сравниваем по критерию Фишера выборочные дисперсии обоих выборок. Если они различаются незначимо, то гипотеза о равенстве дисперсий принимается. Данный подход применим для временных рядов и других последовательностей случайных величин. Если наблюдаемая выборка не является последовательностью случайных величин, то ее следует предварительно упорядочить, например, по результирующему признаку, а затем уже разбить на две выборки и применить критерий Фишера. Если гипотеза о нормальности остатков отвергнута, то проверку на гомоскедастичность следует проводить аналогичным образом, но, вместо критерия Фишера, использовать один из непараметрических критериев, например, критерий Клотца.
Приложение 2
Таблица 1.
ВАРИАНТ |
|||||||||
1 |
2 |
3 |
4 |
5 |
|||||
X |
Y |
X |
Y |
X |
Y |
X |
Y |
X |
Y |
8,50 |
17,76 |
7,82 |
28,38 |
9,50 |
5,14 |
15,20 |
28,06 |
8,58 |
20,09 |
3,61 |
9,47 |
7,88 |
36,00 |
7,77 |
6,02 |
12,57 |
27,42 |
3,86 |
17,36 |
11,22 |
22,25 |
10,86 |
50,64 |
17,02 |
25,27 |
18,36 |
36,48 |
6,89 |
25,53 |
16,38 |
27,00 |
9,96 |
38,82 |
4,03 |
2,74 |
10,00 |
23,25 |
8,17 |
19,23 |
15,99 |
23,06 |
12,85 |
67,10 |
7,35 |
3,05 |
17,35 |
29,80 |
12,13 |
22,24 |
18,67 |
36,17 |
9,59 |
49,28 |
11,86 |
9,22 |
16,99 |
27,58 |
10,04 |
19,29 |
-0,92 |
2,49 |
10,40 |
53,10 |
16,34 |
26,41 |
11,60 |
29,25 |
17,35 |
27,51 |
8,83 |
20,42 |
9,20 |
39,09 |
6,04 |
-1,02 |
4,51 |
14,34 |
11,06 |
19,79 |
15,48 |
32,47 |
12,12 |
64,05 |
7,11 |
-6,67 |
11,85 |
23,83 |
16,79 |
21,71 |
4,57 |
2,48 |
8,97 |
41,16 |
7,87 |
1,77 |
18,11 |
32,97 |
7,68 |
22,70 |
6,55 |
16,25 |
13,07 |
61,67 |
6,21 |
1,36 |
16,00 |
30,76 |
14,77 |
25,00 |
1,55 |
7,60 |
12,39 |
51,49 |
13,73 |
15,88 |
9,91 |
28,28 |
12,17 |
26,34 |
0,77 |
9,70 |
9,76 |
39,36 |
3,72 |
3,06 |
25,16 |
35,38 |
0,13 |
1,26 |
5,11 |
13,19 |
9,77 |
36,01 |
11,83 |
7,00 |
17,49 |
34,53 |
17,47 |
28,71 |
6,13 |
11,54 |
7,52 |
33,42 |
6,68 |
7,29 |
26,61 |
37,05 |
6,89 |
22,39 |
-0,59 |
5,72 |
11,41 |
52,89 |
9,35 |
1,85 |
12,48 |
27,16 |
8,98 |
21,40 |
7,16 |
18,96 |
1,83 |
12,69 |
8,05 |
5,14 |
17,01 |
27,13 |
17,64 |
21,65 |
7,98 |
12,82 |
13,42 |
66,79 |
11,40 |
6,88 |
13,44 |
32,74 |
18,94 |
29,96 |
10,67 |
21,25 |
15,35 |
82,95 |
5,37 |
-3,96 |
13,62 |
25,96 |
6,85 |
17,97 |
8,17 |
18,27 |
9,93 |
48,95 |
14,91 |
9,45 |
20,40 |
35,24 |
16,60 |
27,63 |
8,37 |
12,39 |
8,73 |
23,07 |
12,05 |
10,13 |
12,37 |
25,66 |
10,28 |
20,65 |
8,15 |
17,77 |
10,30 |
47,83 |
11,95 |
10,87 |
19,70 |
29,69 |
0,49 |
4,82 |
16,71 |
30,98 |
6,46 |
21,66 |
11,29 |
7,86 |
7,26 |
21,10 |
5,86 |
18,61 |
9,57 |
22,84 |
5,62 |
16,31 |
9,56 |
4,98 |
13,12 |
30,52 |
2,41 |
17,69 |
9,07 |
21,15 |
13,25 |
74,47 |
8,51 |
2,58 |
17,15 |
36,15 |
2,93 |
21,61 |
7,43 |
14,48 |
13,63 |
71,93 |
6,29 |
5,55 |
9,27 |
23,57 |
16,35 |
23,77 |
19,86 |
30,30 |
6,61 |
18,16 |
5,17 |
4,89 |
9,73 |
26,00 |
4,55 |
19,33 |
14,33 |
18,81 |
9,56 |
40,17 |
4,46 |
4,49 |
16,30 |
25,83 |
4,40 |
13,83 |
21,88 |
41,50 |
13,52 |
70,45 |
11,07 |
5,47 |
6,32 |
17,00 |
11,99 |
19,49 |
6,73 |
16,72 |
9,67 |
40,07 |
11,80 |
11,23 |
18,03 |
35,51 |
16,36 |
29,06 |
18,31 |
34,50 |
10,15 |
45,16 |
11,04 |
6,49 |
20,63 |
33,10 |
6,33 |
20,56 |
1,94 |
9,18 |
5,52 |
17,41 |
7,77 |
2,68 |
17,61 |
27,13 |
3,68 |
13,46 |
12,69 |
23,46 |
8,83 |
38,48 |
9,98 |
15,59 |
13,16 |
20,68 |
10,18 |
15,01 |
14,51 |
25,02 |
12,57 |
54,62 |
2,98 |
6,26 |
17,84 |
31,57 |
4,00 |
18,19 |
19,59 |
28,66 |
12,94 |
60,58 |
10,87 |
9,43 |
20,27 |
38,24 |
5,68 |
25,34 |
9,58 |
20,53 |
6,86 |
30,85 |
10,58 |
5,99 |
17,35 |
25,76 |
11,97 |
18,14 |
7,38 |
15,75 |
11,25 |
65,14 |
8,16 |
6,43 |
12,53 |
28,53 |
6,76 |
21,30 |
13,38 |
25,25 |
8,23 |
28,68 |
7,64 |
2,54 |
7,37 |
21,13 |
8,38 |
20,29 |
8,09 |
9,75 |
15,32 |
82,95 |
9,93 |
9,52 |
14,37 |
33,50 |
14,73 |
28,80 |
13,79 |
25,05 |
12,37 |
58,89 |
8,19 |
6,33 |
9,69 |
24,15 |
4,53 |
17,50 |