- •Министерство общего и профессионального
- •1. Введение
- •2. Модель парной регрессии
- •3. Модель множественной регрессии
- •4. Порядок выполнения лабораторной работы
- •4.1. Определение коэффициентов регрессии При определении коэффициентов уравнения регрессии будем использовать следующие функции для транспонирования, перемножения и обращения матриц:
- •4.2. Определение коэффициента детерминации
- •4.3. Оценка значений дисперсии
- •6. Литература
3. Модель множественной регрессии
Рассматривается следующее уравнение модели:
y = 1x1 + 2x2 + ... + kxk + , (28)
где - вектор коэффициентов модели,
х1 , х2 , ... , хk - регрессоры (независимые переменные),
- случайная компонента, N(0, ), где 2 - дисперсия ошибок.
Будем рассматривать модель, где в качестве регрессоров выступают степени аргумента х:
y = 0 + 1x + 2x2 + ... + kxk + . (29)
По результатам экспериментов (xi ; yi ), i = 1, ... , n надо определить значения коэффициентов i .
Пусть:
. (30)
Здесь Х - матрица размера n(k+1) наблюдаемых значений регрессоров.
Пусть y* = 0 + 1x + 2x2 + ... + kxk - уравнение регрессии.
Тогда - прогноз значений объясняемой переменной.
Обозначим:
- вектор прогнозируемых значений. (31)
Тогда - вектор разности между выборочными и прогнозируемыми значениямиy.
Будем находить вектор из условия минимизации длины вектора(или ее квадрата):. Из линейной алгебры известно соотношение:
. (32)
Можно показать, что для оценки коэффициентов множественной регрессии необходимо использовать формулу, совпадающую со случаем парной регрессии:
. (33)
Для оценки дисперсии ошибок 2 используется формула:
. (34)
На основании теоремы Гаусса-Маркова можно утверждать, что эти оценки являются несмещенными и эффективными в классе линейных несмещенных оценок.
Коэффициент детерминации определяется так же, как и для парной регрессии:
. (35)
Для определения дисперсий оценок коэффициентов регрессии вычисляется матрица ковариаций:
. (36)
В качестве дисперсий оценок:
(37)
берутся диагональные элементы qii матрицы :.
Для построения доверительных интервалов для коэффициентов регрессии i используют статистику:
, (38)
имеющую распределение Стьюдента с n - (k + 1) степенями свободы. Таким образом, доверительный интервал имеет вид:
, (39)
где t - квантиль распределения Стьюдента, соответствующий надежности и n - (k + 1) степеням свободы.
Для проверки значимости коэффициентов регрессии i можно использовать эту же статистику. А именно, при проверке гипотезы:
H0: i = 0 (40)
H1: i 0
двусторонняя критическая область формируется из условия:
, (41)
где tкр(; n - (k + 1)) - критическая точка распределения Стьюдента, соответствующая уровню значимости и числу степеней свободы n - (k + 1) .
Для оценки значимости уравнения регрессии, то есть проверки факта улучшения прогноза значения у по сравнению с тривиальным: используется критерий Фишера. Гипотеза:
H0: 1 = 2 = ... = k = 0 (42)
(свободный член 0 - не учитывается) проверяется с использованием статистики:
, (43)
имеющей распределение Фишера F(k; n - (k + 1)). Если наблюдаемое значение Fнабл больше критического Fкр(; k; n - (k + 1)), то гипотеза Н0 - отвергается.
4. Порядок выполнения лабораторной работы
Файл с лабораторной работой “Множественная регрессия ...” представляет из себя рабочую книгу табличного процессора Excel и содержит 4 рабочих листа. На листе «Исходный» расположены две управляющие кнопки “Генерация наблюдений варианта” и “Расчет контрольного результата”. Лист «Исходный» защищен от несанкционированного ввода информации, то есть открытой для ввода значений остается только одна ячейка, о назначении которой будет сказано ниже.
Для генерации наблюдений выборки значений случайной величины необходимо ввести номер варианта в отведенную для этой цели ячейку. Номер варианта nвар обязательно находится в пределах интервала 1 £ nвар £ 200. После этого при нажатии кнопки “Генерация наблюдений варианта” с помощью Visual Basic программы генерируется выборка значений случайной величины, причем объем выборки n также определяется случайным образом с помощью датчика случайных чисел в диапазоне 100 £ n £ 200 наблюдений. Выборка выводится в виде вектор-столбца, в котором для удобства работы пронумерованы его компоненты.
Для обработки выборки необходимо перенести на рабочий лист «Матрицы» информацию по генерации наблюдений X и Y в столбцы D и B соответственно. Для формирования матрицы наблюдений X вводится три дополнительных столбца, в столбце С - единицы (30), в столбце E определяются квадраты независимого параметра X выборки, в столбце F определяются кубы независимого параметра X выборки. Вид рабочего листа «Матрицы», содержащий эти данные имеет следующий вид:
Таблица 1.
-
A
B
C
D
E
F
1
№
Yi
Xi
Xi2
Xi3
2
1
59.85421
1
2.693549
7.255205
19.54225
3
2
73.42408
1
2.977038
8.862755
26.38476
4
3
269.7803
1
5.989416
35.87311
214.859
5
4
131.2636
1
4.038138
16.30656
65.84812
6
5
392.1122
1
7.357075
54.12655
398.2131
7
6
21.71743
1
1.400174
1.960488
2.745025
8
7
96.6892
1
3.430948
11.7714
40.38708
9
8
261.8975
1
5.924651
35.10149
207.9641
156
155
294.7429
1
6.310662
39.82445
251.3187
157
156
70.77115
1
2.880912
8.299652
23.91057
В столбцы C и F перенесена выборка из листа Исходный объемом n = 156. Для этого в ячейки D2 и B2 вводятся формулы “=Исходный!В10” и “=Исходный!С10” соответственно и распространяются на соответствующие области D2:D157 и B2:B157. Чтобы в столбец E занести квадраты параметра X варианта выборки, необходимо в ячейку E2 ввести формулу “=D2^2” и распространить на область E2:E157. Аналогично в в ячейку F2 ввести формулу “=D2^3” и распространить на область F2:F157.*
Для упрощения работы и облегчения выполнения действий с матрицами воспользуемся технологией присвоения имен диапазонам ячеек. Для этого выделите диапазон ячеек B2:B157 , затем выберите в меню ВставкаÞИмяÞПрисвоить. В появившемся диалоговом окне в поле Имя введите имя Y. Присвоенное имя можно использовать в качестве ссылки на поименованные данные, т.е. на диапазон ячеек B2:B157 .
Аналогичным способом необходимо присвоить имена следующим диапазонам ячеек:
С2:D157 имя X_1 (матрица X для уравнения регрессии вида y = b0+b1x);
С2:E157 имя X_2 (матрица X для уравнения регрессии вида y = b0+b1*x+b2x2);
С2:F157 имя X_3 (матрица X для уравнения регрессии вида y = b0+b1x+b2x2+b3x3).
Регрессионный анализ выборки наблюдений будем проводить в рабочем «Расчет». В указанном рабочем листе необходимо провести определение трех уравнений регрессии и заполнить таблицу в соответствии с методической разработкой (пп.2-3 и табл. 2).