- •Раздел IV. Модель линейной парной регрессии 83
- •Раздел V. Множественная линейная регрессия 95 раздел I. Основные понятия теории вероятностей § 1. Элементы комбинаторики
- •§ 2. Классическое определение вероятности
- •§ 3. Теоремы сложения и произведения вероятностей
- •§ 4. Формулы полной вероятности и Байеса
- •§ 5. Схема испытаний Бернулли
- •Раздел II. Случайные величины § 1. Дискретные случайные величины
- •§ 2 Числовые характеристики дискретной случайной величины
- •§ 3. Непрерывные случайные величины
- •Из определения следует, что
- •Раздел III. Элементы математической статистики § 1. Генеральная и выборочная совокупности
- •§ 2. Выборочные характеристики
- •Точечные оценки
- •Генерирование случайных значений в Excel
- •Получение числовых характеристик средствами Excel
- •Проверка статистических гипотез
- •Испытание гипотез на основе выборочной средней
- •Испытание гипотез о двух генеральных дисперсиях
- •Ковариация и корреляция
- •Раздел IV. Модель линейной парной регрессии
- •Анализ вариации зависимой переменной
- •Предсказания и прогнозы на основе линейной модели регрессии
- •Испытание гипотезы для оценки линейности связи
- •Раздел V. Множественная линейная регрессия
Раздел IV. Модель линейной парной регрессии
В модели парной линейной регрессии зависимость между переменными в генеральной совокупности представляется в виде
где X — неслучайная величина, а Y и — случайные величины.
Величина Y называется объясняемой (зависимой) переменной, а X — объясняющей (независимой) переменной. Постоянные , — параметры уравнения.
Наличие случайного члена (ошибки регрессии) связано с воздействием на зависимую переменную других неучтенных в уравнении факторов, с возможной нелинейностью модели и ошибками измерения.
На основе выборочного наблюдения оценивается выборочное уравнение регрессии (линия регрессии):
где (а, b) — оценки параметров (, ).
Коэффициенты a и b вычисляются по формулам:
Для вычисления этих коэффициентов можно воспользоваться функциями Excel:
коэффициент a вычисляется с помощью функции ОТРЕЗОК(изв_значение_y; изв_значение_x);
коэффициент b вычисляется с помощью функции НАКЛОН(изв_значение_y; изв_значение_x).
Линия регрессии (расчетное значение зависимой переменной) имеет вид:
или
Линия
регрессии проходит через точку
и выполняются равенства:
,
.
Коэффициент b есть угловой коэффициент регрессии, он показывает, на сколько единиц в среднем изменяется переменная y при увеличении независимой переменной х на единицу. Постоянная a дает прогнозируемое значение зависимой переменной при x = 0. Это может иметь смысл в зависимости от того, как далеко находится x = 0 от выборочных значений x.
После
построения уравнения регрессии
наблюдаемые значения y
можно представить как
,
где
остатки ei,
как и ошибки i,
являются
случайными величинами, однако они, в
отличие от ошибок i,
наблюдаемы.
Выборочные
дисперсии величин y,
,
e
вычисляются по формулам:
дисперсия
наблюдаемых
значений y;
дисперсия
расчетных
значений y;
дисперсия
остатков.
Анализ вариации зависимой переменной
Цель регрессионного анализа состоит в объяснении поведения зависимой переменной у.
Пусть
на основе выборочных наблюдений построено
уравнение регрессии
,
тогда
значение зависимой переменной у
в
каждом наблюдении можно разложить на
две составляющие
,
где
остаток ei
есть та
часть зависимой переменной у,
которую
невозможно объяснить с помощью уравнения
регрессии.
Разброс
значений зависимой переменной
характеризуется выборочной дисперсией
.
Разложим дисперсию
:
.
Поскольку
,
Замечание. Такое разложение дисперсии верно лишь в том случае, когда константа а включена в уравнение регрессии.
Таким образом, дисперсия разложена на две части:
—
часть,
объясненную регрессионным уравнением;
—
необъясненную
часть.
Коэффициентом детерминации R2 называется отношение
причем 0 R 2 1, характеризующее долю вариации (разброса) зависимой переменной, объясненную с помощью уравнения регрессии.
Для
вычисления коэффициента детерминации
можно воспользоваться функцией Excel
КВПИРСОН(изв_значение_y;
изв_значение_x).
Отношение
представляет собой долю необъясненной
дисперсии.
Если
R
2
= 1, то подгонка точная:
,
,
,
i
= 1,…,n,
т.е. все точки наблюдения лежат на регрессионной прямой.
Если
R
2
= 0, то регрессия ничего не дает:
,
,
,
i
= 1,…,n,
т.е. переменная х не улучшает качества предсказания у по сравнению с горизонтальной прямой.
Чем ближе к единице R 2, тем лучше качество подгонки, т.е. более точно аппроксимирует y.
Замечание. Вычисление R 2 корректно, если константа а включена в уравнение регрессии.
Коэффициент детерминации не указывает причины и следствия. Он просто является математическим выражением взаимосвязи между переменными и показывает степень их взаимосвязанных изменений.
Еще
одним показателем взаимосвязи является
коэффициент
корреляции Пирсона,
который вычисляется по формуле
,
где
коэффициент детерминации.
Для
вычисления коэффициента корреляции
Пирсона
можно воспользоваться функциями
ПИРСОН(массив 1; массив 2) или КОРРЕЛ(массив
1; массив 2), где Массив 1 и 2
это значения x
и y,
причем порядок роли не играет. (В
Excel
2007 этой функции нет и вместо нее нужно
использовать КОРРЕЛ(массив1;
массив2)).
Коэффициент
корреляции Пирсона содержит информацию
о поведении у
с
ростом х.
Знак
коэффициента Пирсона совпадает со
знаком коэффициента b.
Чем ближе r
к 1, тем ближе связь между х
и у
к линейной. При
линейной взаимосвязи между х
и у
не существует, но, возможно, есть другая
зависимость.
