Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
14
Добавлен:
19.03.2015
Размер:
663.04 Кб
Скачать

3. Модель множественной регрессии

Рассматривается следующее уравнение модели:

y = 1x1 + 2x2 + ... + kxk + , (28)

где - вектор коэффициентов модели,

х1 , х2 , ... , хk - регрессоры (независимые переменные),

- случайная компонента, N(0, ), где 2 - дисперсия ошибок.

Будем рассматривать модель, где в качестве регрессоров выступают степени аргумента х:

y = 0 + 1x + 2x2 + ... + kxk + . (29)

По результатам экспериментов (xi ; yi ), i = 1, ... , n надо определить значения коэффициентов i .

Пусть:

. (30)

Здесь Х - матрица размера n(k+1) наблюдаемых значений регрессоров.

Пусть y* = 0 + 1x + 2x2 + ... + kxk - уравнение регрессии.

Тогда - прогноз значений объясняемой переменной.

Обозначим:

- вектор прогнозируемых значений. (31)

Тогда - вектор разности между выборочными и прогнозируемыми значениямиy.

Будем находить вектор из условия минимизации длины вектора(или ее квадрата):. Из линейной алгебры известно соотношение:

. (32)

Можно показать, что для оценки коэффициентов множественной регрессии необходимо использовать формулу, совпадающую со случаем парной регрессии:

. (33)

Для оценки дисперсии ошибок 2 используется формула:

. (34)

На основании теоремы Гаусса-Маркова можно утверждать, что эти оценки являются несмещенными и эффективными в классе линейных несмещенных оценок.

Коэффициент детерминации определяется так же, как и для парной регрессии:

. (35)

Для определения дисперсий оценок коэффициентов регрессии вычисляется матрица ковариаций:

. (36)

В качестве дисперсий оценок:

(37)

берутся диагональные элементы qii матрицы :.

Для построения доверительных интервалов для коэффициентов регрессии i используют статистику:

, (38)

имеющую распределение Стьюдента с n - (k + 1) степенями свободы. Таким образом, доверительный интервал имеет вид:

, (39)

где t - квантиль распределения Стьюдента, соответствующий надежности и n - (k + 1) степеням свободы.

Для проверки значимости коэффициентов регрессии i можно использовать эту же статистику. А именно, при проверке гипотезы:

H0: i = 0 (40)

H1: i 0

двусторонняя критическая область формируется из условия:

, (41)

где tкр(; n - (k + 1)) - критическая точка распределения Стьюдента, соответствующая уровню значимости и числу степеней свободы n - (k + 1) .

Для оценки значимости уравнения регрессии, то есть проверки факта улучшения прогноза значения у по сравнению с тривиальным: используется критерий Фишера. Гипотеза:

H0: 1 = 2 = ... = k = 0 (42)

(свободный член 0 - не учитывается) проверяется с использованием статистики:

, (43)

имеющей распределение Фишера F(k; n - (k + 1)). Если наблюдаемое значение Fнабл больше критического Fкр(; k; n - (k + 1)), то гипотеза Н0 - отвергается.

4. Порядок выполнения лабораторной работы

Файл с лабораторной работой “Множественная регрессия ...” представляет из себя рабочую книгу табличного процессора Excel и содержит 4 рабочих листа. На листе «Исходный» расположены две управляющие кнопки “Генерация наблюдений варианта” и “Расчет контрольного результата”. Лист «Исходный» защищен от несанкционированного ввода информации, то есть открытой для ввода значений остается только одна ячейка, о назначении которой будет сказано ниже.

Для генерации наблюдений выборки значений случайной величины необходимо ввести номер варианта в отведенную для этой цели ячейку. Номер варианта nвар обязательно находится в пределах интервала 1 £ nвар £ 200. После этого при нажатии кнопки “Генерация наблюдений варианта” с помощью Visual Basic программы генерируется выборка значений случайной величины, причем объем выборки n также определяется случайным образом с помощью датчика случайных чисел в диапазоне 100 £ n £ 200 наблюдений. Выборка выводится в виде вектор-столбца, в котором для удобства работы пронумерованы его компоненты.

Для обработки выборки необходимо перенести на рабочий лист «Матрицы» информацию по генерации наблюдений X и Y в столбцы D и B соответственно. Для формирования матрицы наблюдений X вводится три дополнительных столбца, в столбце С - единицы (30), в столбце E определяются квадраты независимого параметра X выборки, в столбце F определяются кубы независимого параметра X выборки. Вид рабочего листа «Матрицы», содержащий эти данные имеет следующий вид:

Таблица 1.

A

B

C

D

E

F

1

Yi

Xi

Xi2

Xi3

2

1

59.85421

1

2.693549

7.255205

19.54225

3

2

73.42408

1

2.977038

8.862755

26.38476

4

3

269.7803

1

5.989416

35.87311

214.859

5

4

131.2636

1

4.038138

16.30656

65.84812

6

5

392.1122

1

7.357075

54.12655

398.2131

7

6

21.71743

1

1.400174

1.960488

2.745025

8

7

96.6892

1

3.430948

11.7714

40.38708

9

8

261.8975

1

5.924651

35.10149

207.9641

156

155

294.7429

1

6.310662

39.82445

251.3187

157

156

70.77115

1

2.880912

8.299652

23.91057

В столбцы C и F перенесена выборка из листа Исходный объемом n = 156. Для этого в ячейки D2 и B2 вводятся формулы “=Исходный!В10” и “=Исходный!С10” соответственно и распространяются на соответствующие области D2:D157 и B2:B157. Чтобы в столбец E занести квадраты параметра X варианта выборки, необходимо в ячейку E2 ввести формулу “=D2^2” и распространить на область E2:E157. Аналогично в в ячейку F2 ввести формулу “=D2^3” и распространить на область F2:F157.*

Для упрощения работы и облегчения выполнения действий с матрицами воспользуемся технологией присвоения имен диапазонам ячеек. Для этого выделите диапазон ячеек B2:B157 , затем выберите в меню ВставкаÞИмяÞПрисвоить. В появившемся диалоговом окне в поле Имя введите имя Y. Присвоенное имя можно использовать в качестве ссылки на поименованные данные, т.е. на диапазон ячеек B2:B157 .

Аналогичным способом необходимо присвоить имена следующим диапазонам ячеек:

С2:D157 имя X_1 (матрица X для уравнения регрессии вида y = b0+b1x);

С2:E157 имя X_2 (матрица X для уравнения регрессии вида y = b0+b1*x+b2x2);

С2:F157 имя X_3 (матрица X для уравнения регрессии вида y = b0+b1x+b2x2+b3x3).

Регрессионный анализ выборки наблюдений будем проводить в рабочем «Расчет». В указанном рабочем листе необходимо провести определение трех уравнений регрессии и заполнить таблицу в соответствии с методической разработкой (пп.2-3 и табл. 2).

Соседние файлы в папке Lab2