- •Простая модель линейной регрессии. Расчет коэффициентов в модели парной линейной регрессии.
- •Коэффициент корреляции Пирсона г. Объясненная, необъясненная и общая вариации переменной у. Коэффициент детерминации. Ошибки и остатки.
- •Доверительный интервал для индивидуальных значений у при заданном значении х.
- •Множественная линейная регрессия. Основные предпосылки модели множественной линейной регрессии.
- •Расчет коэффициентов множественной линейной регрессии методом наименьших квадратов (мнк).
- •15. Дисперсионный анализ. Межгрупповая вариация. Внутри групповая вариация. Однофакторный дисперсионный анализ.
- •16. Временные ряды. Элементы временного ряда (тренд, сезонная вариация, ошибки mad и mse).
Простая модель линейной регрессии. Расчет коэффициентов в модели парной линейной регрессии.
Если между показателями X и Y нет функциональной зависимости, то предполагается, что связь между X и Y выражается стохастической моделью вида:
,
(1.1)
Где f
(x)
-
некоторая
функция, выражающая зависимость
переменной Y
от
фактора X,
а Ut
-
случайная функция, характеризующая
влияние неучтенных факторов, t
-
время наблюдения.
Обычно считают, что Ut, нормально распределенная случайная величина с нулевым математическим ожиданием M(Ut)=0, постоянной дисперсией D(Ut)=const и ковариацией cov(Ut,Ut+s)=0, s>0. В этом случае уравнение называется уравнением простой регрессии, а функция f(X) - функцией регрессии.
=
(1.2)
Если f(X) - линейная функция то уравнение (1.2) примет вид:
(1.3)
и
называется уравнением
простой
(однофакторной) линейной регрессии.
Коэффициенты а0 и а1 называются коэффициентами простой линейной регрессии.
При рассмотрении модели ( ) коэффициенты а0 и а1 выбирают так, чтобы функция ( ) наилучшим (в некотором смысле) образом приближала значения из табл. 1
№ |
1 |
2 |
3 |
… |
n |
Показатель X |
X1 |
X2 |
X3 |
… |
Xn |
Показатель Y |
Y1 |
Y2 |
Y3 |
… |
Yn |
Коэффициент корреляции Пирсона г. Объясненная, необъясненная и общая вариации переменной у. Коэффициент детерминации. Ошибки и остатки.
Коэффициент
корреляции Пирсона - это
коэффициент параметрической статистики,
позволяющий определить наличие или
отсутствие линейной связи между двумя
количественными показателями, а также
оценить ее тесноту и статистическую
значимость. Коэффициент корреляции
Пирсона обычно обозначается как rxy.
.
Коэффициент
корреляции
-
используется для оценки тесноты связи
между показателями X
и
Y:
(1.4)
Известно,
что
При этом, чем ближе
к
1, тем сильнее статистическая
связь между X
и
Y,
если
rxy=0,
то связь между X
и
Y
отсутствует.
Если rxy
> 0,
то имеется положительная корреляция,
т.е. при возрастании X
статистически
возрастает Y;
если rxy
< 0,
то имеется отрицательная - при возрастании
X
показатель
Y
статистически
убывает.
Считается, что если |rxy|>0,7 то связь между показателями X и Y высокая и можно строить простую регрессию, если rxy<0,5 то связь между показателями слабая и вместо X необходимо выбрать другой фактор для построения простой регрессии показателя Y, или увеличить количество наблюдений.
Объясненная, необъясненная и общая вариация переменной у
Цель регрессионного анализа состоит в том, чтобы объяснить поведение переменной Ув зависимости от изменения выбранных факторов X1, Х2,…, Хn. В парном регрессионном анализе мы пытаемся объяснить поведение Упутем определения регрессионной зависимости У от фактораX. Для этой цели используется метод дисперсионного анализа.
Согласно основной идеи дисперсионного анализа общую сумму квадратов отклонений переменной у от среднего значения ӯ можно разложить на 2 части: объясненную и необъясненную:
-
общая сумма квадратов отклонений (TSS ),
-
объясненная или регрессионная сумма
квадратов (ESS ),
-
необъясненная или остаточная сумма
квадратов (RSS ).
TSS(общая сумма квадратов отклонений)=ESS(объясненная сумма квадратов) +RSS(необъясненная сумма квадратов).
Общая сумма квадратов отклонений значения результативного показателя от среднего значения вызвано множеством причин. Условно разделим всю совокупность на 2 группы: влияние изучаемого фактораX и влияние прочих факторов. Если фактор X не влияет наУ, то линия регрессии параллельна оси ОХ (ŷ=ӯ), тогда вся дисперсия результативного показателя обусловлена воздействием прочих факторов. TSS= RSS.
Если же прочие факторы не влияют на результат, тоУ связан с X функционально и остаточная сумма квадратов отклонений отсутствует.
TSS(общая сумма квадратов отклонений)=ESS(объясненная сумма квадратов)
Коэффициент детерминации R2 (R-квадрат) служит для оценки степени соответствия модели фактическим данным.
(1.6)
Величина
называется
вариацией регрессии,
а
- вариацией наблюдений относительно
среднего.
Здесь имеет место неравенство 0<R2<1. Коэффициент детерминации R2 показывает, какую часть фактической вариации переменной Y составляет вариация регрессии. Если R2=0,85, то модель объясняет наблюдаемые значения переменных на 85%.
Чем ближе R2 к 1, тем точнее модель линейной регрессии; если R2>0,8 то модель линейной регрессии считается точной; если R2<0,5, то модель является неудовлетворительной, надо строить нелинейную регрессию или выбирать другой фактор X.
Ошибки и остатки
Стандартная ошибка регрессии (стандартная ошибка оценки) рассматривается в качестве меры разброса данных наблюдений от смоделированных значений:
Вычислить стандартную ошибку регрессии:
Стандартные ошибки коэффициентов определяются формулами:
Остатки регрессии - это разности между наблюдаемыми значениями и значениями, предсказанными изучаемой регрессионной моделью.
Чем
лучше регрессионная модель согласуется
с данными, тем меньше величина
остатков. i-ый
остаток (
)
вычисляется как:
где
- наблюдаемое
значение;
-
соответствующее предсказанное значение.
Предсказания и прогнозы на основе модели линейной регрессии.
Построенная
модель используется для определения
значений y в
точках x,
которых нет в исходной таблице. Поиск
значения y для x из
исходного интервала
называется предсказанием,
а поиск значения y для xвне
исходного интервала
называется прогнозом.
Чем дальше расположен x от
интервала
,
тем менее точным будет прогноз.
Для
прогноза значений переменной можно
воспользоваться статистической функцией
ТЕНДЕНЦИЯ(изв_значение_y; изв_значение_x;
нов_значение_x; константа), где нов_значение_x
¾ ссылка на ячейки, содержащие значения
переменной x,
для которых делается прогноз.
Аргумент константа является
необязательным. Если он равен 0, то
коэффициент в уравнении линейной
регрессии
.
Функция сама подбирает уравнение прямой
линии и дает прогноз.
Можно использовать функцию ПРЕДСКАЗ(x; изв_значение_y; изв_значение_x), где x ¾ это значение переменной x, для которой делается прогноз.
