- •Министерство общего и профессионального
- •1. Введение
- •2. Модель парной регрессии
- •3. Модель множественной регрессии
- •4. Порядок выполнения лабораторной работы
- •4.1. Определение коэффициентов регрессии При определении коэффициентов уравнения регрессии будем использовать следующие функции для транспонирования, перемножения и обращения матриц:
- •4.2. Определение коэффициента детерминации
- •4.3. Оценка значений дисперсии
- •6. Литература
Министерство общего и профессионального
ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
______________________________
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ОТКРЫТЫЙ УНИВЕРСИТЕТ
КОЛОМЕНСКИЙ ИНСТИТУТ
|
«УТВЕРЖДЕНО» Учебно-методическим Советом КИ МГОУ Председатель совета
______________________
А. М. Липатов
«____»___________ 2003 г. |
Трушков А. С.
Родионов К.А.
ВЫСШАЯ МАТЕМАТИКА
И Н С Т Р У К Ц И Я
для выполнения лабораторной работы
Множественная линейная и нелинейная
корреляция и регрессия
2003 г.
СОДЕРЖАНИЕ
1. |
Введение |
3 |
2. |
Модель парной регрессии |
3 |
3. |
Модель множественной регрессии |
7 |
4. |
Порядок выполнения лабораторной работы |
10 |
4.1. |
Определение коэффициентов регрессии |
11 |
4.2. |
Определение коэффициента детерминации |
11 |
4.3. |
Оценка значений дисперсии |
15 |
4.4. |
Определение дисперсии оценок i |
15 |
4.5. |
Проверка значимости коэффициентовi |
15 |
4.6. |
Построение доверительных интервалов для коэффициентов регрессии |
15 |
4.7. |
Проверка значимости уравнения регрессии |
15 |
4.8. |
Построение диаграммы |
16 |
5. |
Задание к лабораторной работе |
16 |
6. |
Литература |
17 |
1. Введение
Лабораторная работа выполняется с помощью электронных таблиц Microsoft Excel в операционной среде Windows 95. В рабочей книге Excel используется программный код, написанный на алгоритмическом языке Visual Basic for Application (VBA), с помощью которого по заданному номеру варианта генерируется выборка со случайным объемом наблюдений на основе розыгрыша двумерной случайной величины (X, Y) по заданному уравнению регрессии Y = f(X) и дисперсии ошибки. C помощью программы производится линейный и нелинейный регрессионный анализ. Целью лабораторной работы является освоение алгоритмов статистических методов обработки наблюдений: вычисление коэффициентов регрессии, построение линейной и нелинейной регрессии, определение значимости коэффициентов регрессии, анализ дисперсий, расчет коэффициента детерминации, определение доверительных интервалов для коэффициентов регрессии и построение диаграммы наблюдений случайной величины.
2. Модель парной регрессии
Пусть есть результаты некоторого эксперимента ( xi , yi ), i = 1, ... , n. Надо подобрать (“подогнать”) функцию , зависящую от параметра , наилучшим образом описывающую экспериментальные точки( xi , yi ).
Сначала рассмотрим линейную функцию y = f(x) = ax + b. Здесь надо подобрать числа a и b. Критерием качества “подгонки” кривой выберем минимум функционала:
. (1)
Данный принцип называется методом наименьших квадратов и является одним из самых распространенных методов подбора функциональной зависимости, наилучшим образом описывающим эмпирические данные.
Используя необходимые условия экстремума:
, (2)
получим следующие значения оптимальных параметров функции “подгонки”:
, (3)
.
Очевидно, что , то есть график полученной прямой проходит через точку, где:
- выборочное среднее переменной Х,
- выборочное среднее переменной Y.
Если обозначить: ,- отклонения случайных величин от своих средних выборочных значений, то:.
В этом случае: . (4)
Введем обозначения:
, (5)
Тогда - вектор “подогнанных” с помощью регрессионного уравнения значенийу, лежащий в плоскости (гиперплоскости) векторов и;- вектор разности между выборочными значениямиу и “подогнанными” с помощью функции y = f(x). Наилучшее приближение кбудет, если длина векторабудет минимальной. Это условие выполняется, если векторперпендикулярен обоим векторами, то есть:
, . (6)
Условие (6) эквивалентно равенству нулю двух скалярных произведений:
= 0 и = 0. (7)
Символ “ т ” - означает, что соответствующий вектор или матрица транспонированы.
Обозначим
- матрица размера n2, (8)
- вектор-строка размера 21. (9)
Тогда . (10)
Условие ортогональности вектора к плоскости векторовив данных обозначениях примет вид:
. (11)
Проведем преобразование этого уравнения:
(12)
Можно показать, что уравнение (12) для коэффициентов регрессионного уравнения a и b совпадает с полученными ранее по методу наименьших квадратов формулами (3).
Пусть реальное (теоретическое) уравнение зависимости y от х имеет вид:
y = a + bx + , (13)
где х - неслучайная (детерминированная) величина,
у и - случайные величины.
Величина у называется объясняемой (зависимой) переменной, х - объясняющей (независимой) переменной или регрессором, - случайной компонентой, уравнение (13) - регрессионным уравнением. Будем считать, что случайная компонента распределена по нормальному закону N(0, ), где 2 - дисперсия ошибок.
По данным наблюдений следует найти оценки a* и b* для коэффициентов уравнения регрессии и s2 - для дисперсии ошибок 2.
Имеет место теорема Гаусса-Маркова, утверждающая, что при использовании метода наименьших квадратов для определения оценок a* и b* коэффициентов уравнения регрессии по формуле , полученные оценки являются несмещенными и эффективными в классе всех несмещенных оценок (то есть имеют наименьшую дисперсию).
В соответствии с теоремой Гаусса-Маркова оценки a* и b* распределены по нормальному закону: a* N(a, a), b* N(b, b), при этом имеют место следующие формулы для дисперсий оценок a* и b*:
, (14)
. (15)
Корреляционный момент (ковариация) коэффициентов регрессии равна:
. (16)
Для оценки дисперсий используются следующие формулы:
(17)
, (18)
. (19)
В соответствии с теоремой Гаусса-Маркова принимается, что случайная величина имеет распределение2 с (n - 2) степенями свободы.
При проверке гипотезы:
H0: b = b0 (20)
H1: b b0
используется статистика , имеющая распределение Стьюдента с(n - 2) степенями свободы.
Доверительный интервал для коэффициента b с надежностью имеет вид:
, (21)
где t - квантиль распределения Стьюдента, определяемый из условия:
P( | t | < t ) = . (22)
Аналогично доверительный интервал для коэффициента а с надежностью имеет вид:
. (23)
Рассмотрим вариацию (дисперсию) значенийyi вокруг среднего значения. Можно показать, что:
(24)
или
TSS = ESS + RSS, (25)
где TSS - вся дисперсия - total sum of squares,
ESS - необъясненная часть дисперсии - errors sum of squares,
RSS - объясненная часть дисперсии - regression sum of squares.
Коэффициентом детерминации (или долей объясненной дисперсии) называется величина:
(26)
Очевидно, что 0 R2 1. Если, R2 = 0, то регрессия не улучшает качество прогноза у по сравнению с тривиальным: . ЕслиR2 = 1, то это означает точную “подгонку”: все наблюдаемые точки лежат на регрессионной кривой.
Проверку значимости коэффициента b уравнения регрессии можно проверить с использованием критерия Фишера. Проверяется гипотеза:
H0: b = b0 (27)
H1: b b0
Тогда статистика имеет распределение ФишераF(1; n - 2). Здесь k1 = 1 и k2 = n - 2 - степени свободы распределения.
Если при заданном уровне значимости критическое значение Fкр(; 1; n - 2) меньше наблюдаемого значения Fнабл , то гипотеза Н0 - отвергается и имеет место зависимость у от х, то есть использование уравнения регрессии улучшает точность прогноза по сравнению с тривиальным: .