
- •МинИстерство сельского хозяйства рф
- •Методические указания
- •Методические указания
- •Раздел 1
- •1.1.Условия применения корреляционно-регрессионного анализа
- •1.2.Вычисление описательных статистик с помощью ппп ms Excel и Statistica 6.1
- •Раздел 2
- •2.1. Методические указания
- •2.2.Построение типовой модели
- •2.3.Решение типовых задач с помощью ппп ms Excel и Statistica 6.1
- •2.4. Варианты заданий лабараторной работы №1
- •Множественная регрессия и корреляция
- •Методические указания
- •Построение типовой модели
- •2.3.Решение типовых задач с помощью ппп ms Excel и Statistica 6.1
- •3.4 Варианты заданий лабараторной работы №2
- •4. Врменные ряды в эконометрике
- •4.1. Методические указания
- •4.2. Моделирование временных рядов: оценка адекватности уравнения тренда
- •4.3. Решение типовых задач с помощью ппп ms Excel и Statistica 6.1
- •4.4 Варианты заданий для лабораторной работы №3
- •5. Список рекомендуемой литературы:
- •6. Приложения: основные значения статистик
Раздел 2
ПАРНАЯ РЕГРЕССИЯ И КОРРЕЛЯЦИЯ
2.1. Методические указания
Регрессионная модель – это функция, описывающая зависимость между количественными характеристиками социально-экономических систем. Они строятся в тех случаях, когда известно, что зависимость между факторами существует и требуется получить ее математическое описание.
Однофакторная (парная) регрессия представляет собой регрессию между двумя переменными – у и х, т.е. модель, вида:
y
=
(x),
где у – зависимая переменная (результативный признак);
х – независимая, или объясняющая, переменная (признак-фактор).
Различают линейные и нелинейные регрессии.
Линейная регрессия: y = a+bx+.
Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам:
полиномы разных степеней y = a+b1·x+b2·x2+b3·x3+e
равносторонняя гипербола y = a+b/x+e и регрессии, нелинейные по оцениваемым параметрам:
степенная y = axb ·e
показательная y = a·bx ·e
экспоненциальная y = e a+b·x ·e
Спецификация модели – формулировки вида модели (выбор вида математической функции, выбор существенных для модели факторов), исходя из соответствующей теории связи между переменными.
В парной регрессии выбор вида математической функции y = (x) может быть осуществлен тремя методами:
-графический,
-аналитический,
- экспериментальный.
Простейшей системой связи является линейная связь между двумя признаками – парная линейная регрессия. Уравнение парной линейной корреляционной связи называется уравнением парной регрессии и имеет вид:
Ŷ = a+bx,
где ŷ – среднее значение результативного признака у при определенном значении факторного признака х;
а – свободный член уравнения;
b – коэффициент регрессии, измеряющий среднее отношение отклонения результативного признака от его средней величины к отклонению факторного признака от его средней величины на одну единицу его измерения – вариация у, приходящаяся на единицу вариации х.
Построение уравнения регрессии сводится к оценке ее параметров. Для оценки параметров регрессий, линейных по параметрам, используют Метод наименьших квадратов (МНК) МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических ŷ минимальна, т.е.
(y
– ŷ)2
min
Так как оценка параметров уравнения парной регрессии производится с помощью МНК (метод наименьших квадратов), а данный метод применим только при построении линейной модели, построению нелинейных регрессий предшествует процедура ЛИНЕАРИЗАЦИИ.
Т.е процедура приведения нелинейной модели в линейный вид. В зависимости от вида нелинейной функции модели, существуют два способа линеаризации (анаморфоза):
- способ подстановки (линеаризуются нелинейные регрессии по включенным переменным);
- способ логарифмирования обеих частей уравнения (линеаризуются нелинейные регрессии по оцениваемым параметрам).
Система нормальных уравнений:
n
a
+ b
x
=
y
a x + b x2 = xy
Можно решить эту систему уравнений по исходным данным или использовать формулы, вытекающие из этой системы:
a
=
b=
,
Тесноту
связи изучаемых явлений
оценивает линейный коэффициент парной
корреляции
rxy
для линейной регрессии
(-1
rxy
1);
ИЛИ
Индекс корреляции ρxy характеризует силу связи в нелинейной регрессии . (0 ρxy 1):
ρxy=
.
Оценку качества построенной модели даст коэффициент (индекс) детерминации, а также средняя ошибка аппроксимации.
Средняя ошибка аппроксимации – среднее отклонение расчетных значений результативного признака от фактических:
Допустимый
предел значений
– не более 8 – 10%.
Средний
коэффициент эластичности
показывает, на сколько процентов в
среднем по совокупности изменится
результат y
от своей средней величины при изменении
фактора x
на 1% от своего среднего значения:
.
Для линейной регрессии
Задача дисперсионного анализа состоит в анализе дисперсии зависимой переменной:
Правило сложения дисперсий:
å(
yi
-
)2
= å(ŷx
-
)2
+ å(yi
- ŷx)2
где å(yi - )2 – общая сумма квадратов отклонений – общая дисперсия («общая»);
å(ŷx - )2 – сумма квадратов отклонений, обусловленная регрессией (это объясненная или факторная дисперсия, «регрессия»)
å(yi - ŷx)2 – остаточная сумма квадратов отклонений («остаточная»).
Долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака y характеризует коэффициент (индекс) детерминации R2;
ИЛИ
F-критерий – оценивание качества уравнения регрессии – состоит в проверке гипотезы Но о статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического Fфакт и критического (табличного) Fтабл значений F-критерия Фишера.
Любая сумма квадратов отклонений связана с числом степеней свободы, которое зависит от числа единиц совокупности n и числом определяемых по ней констант (переменных при х )(m).
Dобщ= å( yi - )2 / (n-1)
Dфакт= å(ŷx - )2 / m
Dост= å(yi - ŷx)2 /n-m-1
Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F-критерия:
F
= Dфакт/Dост
=
где F-критерий для проверки нулевой гипотезы Но: Dфакт = Dост.
Табличное значение F-критерия – это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности () наличия нулевой гипотезы (уровень значимости - вероятность отвергнуть правильную гипотезу при условии, что она верна). Вычисленное значение F-отношения признается достоверным (отличным от единицы), если оно больше табличного. В этом случае нулевая гипотеза об отсутствии связи признаков отклоняется и делается вывод о существенности этой связи: Fфакт Fтабл – Но отклоняется.
Если эта величина окажется меньше табличного, то вероятность нулевой гипотезы выше заданного уровня (например, 0, 05) и она не может быть отклонена без серьезного риска сделать неправильный вывод о наличии связи. В этом случае уравнение регрессии считается статистически незначимым. Но не отклоняется.
Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей, т.е. о незначимом их отличии от нуля. Оценка значимости коэффициентов регрессии и корреляции с помощью t-критерия Стьюдента проводится путем сопоставления их значений с величиной ошибки:
;
;
Случайные ошибки параметров линейной регрессии и коэффициента корреляции определяются по формулам:
где S2ост – остаточная дисперсия на одну степень свободы.
сравнивая фактическое и критическое (табличное) значения t-статистики принимаем или отвергаем гипотезу Но.
Если tтабл tфакт, то Но отклоняется, т.е. a, b, r не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора x. Если tтабл tфакт, то гипотеза Но не отклоняется и признается случайная природа формирования a, b, r.
Для расчета доверительного интервала определяем предельную ошибку ∆ для каждого показателя:
∆a = tтабл ma,
∆b = tтабл mb
Доверительные интервалы рассчитываются следующим образом:
=a
± Da
=b
± Db;
Если в границы доверительного интервала попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значение.
Прогнозное значение результативного признака yp определяется путем подстановки в уравнение регрессии соответствующего прогнозного значения xp. Вычисляется средняя стандартная ошибка прогноза
=
,
где
.
Далее строится доверительный интервал прогноза:
;
где