- •Классификация эконометрических моделей
- •5) Классификация эконометрических моделей по способам отражения фактора времени. При этом выделяют:
- •Основные этапы эконометрического моделирования:
- •§ 3. Методы отбора факторов.
- •Функциональные и статистические связи
- •Предпосылки регрессионного анализа
- •Пределение параметров парной линейной регрессии
- •Кривые е Энгеля
Предпосылки регрессионного анализа
В ходе статистического изучения функциональных связей достаточно часто возникает задача аппроксимации результатов наблюдений аналитической зависимостью. Один из подходов к ее решению основывается на теореме Вейерштрасса, гласящей, что любая непрерывная функция с точностью до сколь угодно малого δ> 0 может быть аппроксимирована многочленом. Например:
Для построения подобных полиномиальных моделей наряду с другими методами используют регрессионный анализ. Выбор вида (степени) многочлена при этом предоставлен интуиции исследователя. Из рассмотренной задачи непосредственно следуют две другие задачи: 1) определение коэффициентов βs выбранного многочлена и статистическая оценка их значимости; 2) проверка (оценка) адекватности выбранной математической модели. Решение перечисленных задач возможно лишь при выполнении ряда допущений, или предпосылок, регрессионного анализа: 1. Результаты измерений (y1, y2, ...,yn) - попарно независимые случайные величины, т.е. корреляционный момент связи Куiуj =0, i,j = 1, 2, ..., n. 2. Случайные величины (y1, y2, ...,yn) имеют нормальное распределение (при нормальном распределении отсутствие корреляции свидетельствует о независимости случайных величин). 3. Дисперсия воспроизводимости σy2, однородна по всему факторному пространству. 4.
Управляемые переменные (факторы)
являются неслучайными переменами,
т.е. 5. Управляемые переменные линейно независимы, т.е. ни одна из переменных не может быть представлена в виде линейных комбинаций других. 6. В выражении Ү =η(x)+ε(x), где х (х1, х2,..., хn), предполагается М[ε(х)]=0, т.е.M[Y]=η(х). 7. Функция отклика (уравнение регрессии) линейна по параметрам, т.е. Наиболее распространенными примерами линейных по параметрам функций являются полиномы различных степеней. |
Пределение параметров парной линейной регрессии
Рассмотрим методику построения уравнения парной регрессии в случае, когда функция отклика y предполагается линейно зависящей от фактора x. Если случайные величины X и Y представлены выборочными совокупностями (x1,x2,…, xn), и (y1, y2,…, yn) их опытных значений, объема n каждая, то для наглядности рекомендуется построить точки Mi (i=1,2,…,n) с координатами (xi,yi), на плоскости xy. Расположение этих точек даёт представление о виде искомой зависимости y=f(x). Если коэффициент детерминации близок к единице, то расположение точек должно подтвердить предположение о линейной зависимости случайных величин X и Y, и уравнение регрессии следует искать в виде уравнения прямой: y=kx+b, (1) параметры k и b которой подлежат определению. Подбор параметров k и bосуществляется, как обычно, на основе так называемого «метода наименьших квадратов» (МНК). Суть метода наименьших квадратов состоит в отыскании таких значений параметров k и b уравнения (1), которые будут минимизировать функцию
Необходимое условие экстремума функции многих переменных – это равенство нулю её частных производных по переменным k и b в точке экстремума. Дифференцируя функцию S (k,b) по k и по b, и приравнивая полученные частные производные к нулю, получим следующую систему для нахождения неизвестныхa и b:
Решив систему (2), находим значения неизвестных k и b, которые минимизируют функцию S(k,b) и могут быть представлены в следующем виде:
Напомним, что черта над каждой из переменных означает ее среднее выборочное. Подставляя найденные значения k и b в выражение (1), получаем искомое уравнение регрессии. |
Метод
наименьших квадратов является одним
из наиболее распространенных и наиболее
разработанных вследствие своей простоты
и эффективности методов оценки параметров
линейных эконометрических
моделей.
Вместе с тем, при его применении следует
соблюдать определенную осторожность,
поскольку построенные с его использованием
модели могут не удовлетворять целому
ряду требований к качеству их параметров
и, вследствие этого, недостаточно
“хорошо” отображать закономерности
развития процесса
.
Рассмотрим процедуру оценки параметров линейной эконометрической модели с помощью метода наименьших квадратов более подробно. Такая модель в общем виде может быть представлена уравнением (1.2):
yt = a0 + a1 х1t +...+ an хnt + εt .
Исходными данными при оценке параметров a0 , a1 ,..., an является вектор значений зависимой переменной y = (y1 , y2, ... , yT )' и матрица значений независимых переменных
в
которой первый столбец, состоящий из
единиц, соответствует коэффициенту
модели
.
Название свое метод наименьших квадратов получил, исходя из основного принципа, которому должны удовлетворять полученные на его основе оценки параметров: сумма квадратов ошибки модели должна быть минимальной.
Коэффициент детерминации (R2{\displaystyle R^{2}} — R-квадрат) — это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью зависимости, то есть объясняющими переменными. Более точно — это единица минус доля необъяснённой дисперсии (дисперсии случайной ошибки модели, или условной по факторам дисперсии зависимой переменной) в дисперсии зависимой переменной. Его рассматривают как универсальную меру зависимости одной случайной величины от множества других. В частном случае линейной зависимости R2{\displaystyle R^{2}} является квадратом так называемого множественного коэффициента корреляциимежду зависимой переменной и объясняющими переменными. В частности, для модели парной линейной регрессии коэффициент детерминации равен квадрату обычного коэффициента корреляции между y и x. Истинный коэффициент детерминации модели зависимости случайной величины y от факторов x определяется следующим образом:
R2=1−V(y|x)V(y)=1−σ2σy2,{\displaystyle R^{2}=1-{\frac {V(y|x)}{V(y)}}=1-{\frac {\sigma ^{2}}{\sigma _{y}^{2}}},}
где V(y|x)=σ2{\displaystyle V(y|x)=\sigma ^{2}} — условная (по факторам x) дисперсия зависимой переменной (дисперсия случайной ошибки модели).
В данном определении используются истинные параметры, характеризующие распределение случайных величин. Если использовать выборочную оценку значений соответствующих дисперсий, то получим формулу для выборочного коэффициента детерминации (который обычно и подразумевается под коэффициентом детерминации):
R2=1−σ^2σ^y2=1−SSres/nSStot/n=1−SSresSStot,{\displaystyle R^{2}=1-{\frac {{\hat {\sigma }}^{2}}{{\hat {\sigma }}_{y}^{2}}}=1-{\frac {SS_{res}/n}{SS_{tot}/n}}=1-{\frac {SS_{res}}{SS_{tot}}},}
где SSres=∑t=1net2=∑t=1n(yt−y^t)2{\displaystyle SS_{res}=\sum _{t=1}^{n}e_{t}^{2}=\sum _{t=1}^{n}(y_{t}-{\hat {y}}_{t})^{2}} — сумма квадратов остатков регрессии, yt,y^t{\displaystyle y_{t},{\hat {y}}_{t}} — фактические и расчётные значения объясняемой переменной.
SStot=∑t=1n(yt−y¯)2=nσ^y2{\displaystyle SS_{tot}=\sum _{t=1}^{n}(y_{t}-{\overline {y}})^{2}=n{\hat {\sigma }}_{y}^{2}} — общая сумма квадратов.
y¯=1n∑i=1nyi{\displaystyle {\bar {y}}={\frac {1}{n}}\sum _{i=1}^{n}y_{i}}
В случае линейной регрессии с константой SStot=SSreg+SSres{\displaystyle SS_{tot}=SS_{reg}+SS_{res}}, где SSreg=∑t=1n(y^t−y¯)2{\displaystyle SS_{reg}=\sum _{t=1}^{n}({\hat {y}}_{t}-{\overline {y}})^{2}} — объяснённая сумма квадратов, поэтому получаем более простое определение в этом случае —коэффициент детерминации — это доля объяснённой суммы квадратов в общей:
R2=SSregSStot{\displaystyle R^{2}={\frac {SS_{reg}}{SS_{tot}}}}
Необходимо подчеркнуть, что эта формула справедлива только для модели с константой, в общем случае необходимо использовать предыдущую формулу.
Оценка статистической значимости параметров уравнения регрессии
С
помощью МНК мы получили лишь оценки параметров
уравнения регрессии, которые характерны
для конкретного статистического
наблюдения (конкретного набора
значений x и y).
Если оценку параметров произвести по
данным другого статистического наблюдения
(другому набору значений x и y),
то получим другие численные значения
,
.
Мы предполагаем, что все эти наборы
значений x и y извлечены
из одной и той же генеральной совокупности.
Чтобы проверить, значимы ли параметры,
т.е. значимо ли они отличаются от нуля
для генеральной совокупности используют
статистические методы проверки
гипотез.
В
качестве основной (нулевой) гипотезы
выдвигают гипотезу о незначимом отличии
от нуля параметра или статистической
характеристики в генеральной совокупности.
Наряду с основной (проверяемой) гипотезой
выдвигают альтернативную (конкурирующую)
гипотезу о неравенстве нулю параметра
или статистической характеристики в
генеральной совокупности. В случае если
основная гипотеза окажется неверной,
мы принимаем альтернативную. Для
проверки этой гипотезы используется t-критерий
Стьюдента.
Найденное
по данным наблюдений значение t-критерия
(его еще называют наблюдаемым или
фактическим) сравнивается с табличным
(критическим) значением, определяемым
по таблицам распределения Стьюдента
(которые обычно приводятся в конце
учебников и практикумов по статистике
или эконометрике). Табличное значение
определяется в зависимости от уровня
значимости (a) и числа степеней свободы,
которое в случае линейной парной
регрессии равно (n-2), n-число
наблюдений.
Если
фактическое значение t-критерия
больше табличного (по модулю), то основную
гипотезу отвергают и считают,
что с вероятностью (1-a) параметр или
статистическая характеристика в
генеральной совокупности значимо
отличается от нуля.
Если
фактическое значение t-критерия
меньше табличного (по модулю), то нет
оснований отвергать основную гипотезу,
т.е. параметр или статистическая
характеристика в генеральной совокупности
незначимо отличается от нуля при уровне
значимости a.
Для
параметра b критерий
проверки имеет вид:
,
где
-
оценка коэффициента регрессии, полученная
по наблюдаемым данным;
–
стандартная ошибка коэффициента
регрессии.
Для
линейного парного уравнения регрессии
стандартная ошибка коэффициента
вычисляется по формуле:
.
Числитель
в этой формуле может быть рассчитан
через коэффициент
детерминации и
общую дисперсию признака-результата:
.
Для
параметра a критерий
проверки гипотезы о незначимом отличии
его от нуля имеет вид:
,
где
-
оценка параметра регрессии, полученная
по наблюдаемым данным;
–
стандартная ошибка параметра a.
Для
линейного парного уравнения
регрессии:
.
Для
проверки гипотезы о незначимом отличии
от нуля коэффициента линейной парной
корреляции в генеральной совокупности
используют следующий критерий:
,
где ryx -
оценка коэффициента корреляции,
полученная по наблюдаемым данным; mr –
стандартная ошибка коэффициента
корреляции ryx.
Для
линейного парного уравнения
регрессии:
.
В
парной линейной регрессии между
наблюдаемыми значениями критериев
существует взаимосвязь: t ( b =0) = t (r=0).
дной из центральных задач эконометрики является прогнозирование значений зависимой переменной при определенных значениях объясняющих переменных. Различают точечное и интервальное прогнозирование. При этом возможно предсказать условное математическое ожидание зависимой переменной (т.е. ср. значение), либо прогнозировать некоторое конкретное значение (т.е. индивидуальное).
Пусть
имеется уравнение регрессии
.
Точечной оценкой М(У│Х=хр) =
р
=
.
Так как
и
имеют
нормальное распределение ( в силу
нормальности
),
то
р
является случайной величиной с нормальным
распределением.
,
М(
р)
= М(
)
=
D(
р)
= D(
)
+ D(
)
+ xp2D(
)
+ 2cov(
,
)xp
=
+
+
xp2
-2xp
=
(
+
xp2 - 2 xp
)│
=
=
(
+
-
2 xp
+
xp2) =
.
-
стандартная ошибка положения линии
регрессии. Так как она минимальна при
хр =
,
то наилучший прогноз находится в центре
области наблюдений и ухудшается по мере
удаления от центра.
Случайная
величина
имеет
распределение Стьюдента с (n-2) степенями
свободы. Поэтому, задавая
=
Р(
<tкр(
,
n-2)), можно построить доверительный
интервал для М(У│Х = хр), то есть положения
линии регрессии (рис. 1.): (
)
Рис. 1. Доверительные интервалы положения линии регрессии – сплошная линия и индивидуального значения – пунктирная линия.
Фактические
значения у варьируются
около среднего значения
р.
Индивидуальные значения у могут
отклоняться от
р
на величину случайной ошибки
.
Пусть yi - некоторое возможное
значение у при
хр. Если рассматривать yi как случайную
величину У, а
р
– как случайную величину Ур, то можно
отметить, что:
Y
~ N(
,
Yp ~ N(
).
Y и Yp независимы и, следовательно, U = Y - Yp ~ N с параметрами
M(U)
= 0;
D(U) =
.
Значит
случайная
величина, имеющая распределение Стьюдента
с (n-2) степенями свободы. Аналогично
строится доверительный интервал
индивидуального значения.
Пример. Стандартная ошибка среднего расчетного значения
.
При
,
.
При
,
.
Следовательно,
и,
т.к.
,
то
и
.
Стандартная ошибка индивидуального расчетного значения
,
и
.
Фактические
значения результативного признака
отличаются от теоретических, рассчитанных
по уравнению регрессии. Для сравнения
используются величины отклонений,
выраженные в процентах к фактическим
значениям. Поскольку
может
быть как положительной, так и отрицательной
величиной, ошибки аппроксимации для
каждого наблюдения принято определять
в процентах по модулю.
Для того чтобы иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению, находят среднюю ошибку аппроксимации как среднюю арифметическую простую.
.
Допустимый предел 8 – 10 %, при котором подбор модели к исходным данным считается хорошим.
Возможно и другое определение средней ошибки аппроксимации:
.
Рассчитаем среднюю ошибку аппроксимации для нашего примера.
№ |
y |
|
|
|
|
1 |
30 |
31,053 |
1,053 |
0,035 |
|
2 |
70 |
67,895 |
2,105 |
0,030 |
|
3 |
150 |
141,579 |
8,421 |
0,056 |
|
4 |
100 |
104,737 |
4,737 |
0,047 |
|
5 |
170 |
178,421 |
8,421 |
0,049 |
|
6 |
100 |
104,737 |
4,737 |
0,047 |
|
7 |
150 |
141,579 |
8,421 |
0,056 |
|
|
0,322 |
||||
Окончательно
получим:
,
что говорит о хорошем качестве уравнения.
Выборочный коэффициент вариации определяется отношением выборочного среднего квадратического отклонения к выборочной средней, выраженным в процентах:
и
.
Коэффициент вариации – безразмерная величина, удобная для сравнения величин рассеивания двух и более выборок, имеющих разные размерности. Совокупность данных считается однородной и пригодной для использования МНК и вероятностных методов оценок статистических гипотез, если значение коэффициента вариации не превосходит 35 %.
Для нашего примера:
,
.
Различают два класса нелинейных регрессий:
1. Регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, например
полиномы различных степеней –
,
;равносторонняя гипербола –
;полулогарифмическая функция –
.
2. Регрессии, нелинейные по оцениваемым параметрам, например
степенная –
;показательная –
;экспоненциальная –
.
Регрессии нелинейные по включенным переменным приводятся к линейному виду простой заменой переменных (линеаризация), а дальнейшая оценка параметров производится с помощью метода наименьших квадратов. Рассмотрим некоторые функции.
Парабола
второй степени
приводится
к линейному виду с помощью замены:
.
В результате приходим к двухфакторному
уравнению
,
оценка параметров которого при помощи
МНК, приводит к системе следующих
нормальных уравнений:
А после обратной замены переменных получим
(1.17)
Парабола второй степени обычно применяется в случаях, когда для определенного интервала значений фактора меняется характер связи рассматриваемых признаков: прямая связь меняется на обратную или обратная на прямую.
Равносторонняя
гипербола
приводится
к линейному уравнению простой заменой:
.
Система линейных уравнений при применении
МНК будет выглядеть следующим образом:
(1.18)
Аналогичным
образом приводятся к линейному виду
зависимости
,
и
другие.
Несколько иначе обстоит дело с регрессиями нелинейными по оцениваемым параметрам, которые делятся на два типа: нелинейные модели внутренне линейные (приводятся к линейному виду с помощью соответствующих преобразований, например, логарифмированием) и нелинейные модели внутренне нелинейные (к линейному виду не приводятся).
К
внутренне линейным моделям относятся,
например, степенная функция –
,
показательная –
,
экспоненциальная –
,
логистическая –
,
обратная –
.
К
внутренне нелинейным моделям можно,
например, отнести следующие модели:
,
.
Среди
нелинейных моделей наиболее часто
используется степенная функция
,
которая приводится к линейному виду
логарифмированием:
,
где
.
Т.е. МНК мы применяем для преобразованных
данных:
а затем потенцированием находим искомое уравнение.
Широкое
использование степенной функции связано
с тем, что параметр
в
ней имеет четкое экономическое
истолкование – он является коэффициентом
эластичности.
Коэффициент эластичности показывает, на сколько процентов измениться в среднем результат, если фактор изменится на 1%. Формула для расчета коэффициента эластичности имеет вид:
.
(1.19)
Так
как для остальных функций коэффициент
эластичности не является постоянной
величиной, а зависит от соответствующего
значения фактора
,
то обычно рассчитывается средний
коэффициент эластичности:
.
(1.20)
Приведем формулы для расчета средних коэффициентов эластичности для наиболее часто используемых типов уравнений регрессии:
Австралийский экономист А В Филлипс в 1958 году доказал, что между инфляцией и безработицей существует обратная связь При высоком безработице инфляция низкая и наоборот Эта взаимосвязь в общем виде и он отразил в кривиивих.
А В Филипс выяснил, что \"в Великобритании существует зависимость между скоростью изменения номинальной заработной платы и доли безработных в общей численности рабочей силы, такая зависимость оставалась сти ийкою на протяжении 1861-1957 лет \"-1957 років":
щ = ^( Л = ^ ^ ^
И ^)
где ю - скорость изменения ставок заработной платы си и 5 - спрос и предложение и - доля безработных в общей численности рабочей силы, / - форма функции
Если учесть изменения стоимости жизни (в процентах) и обозначить его P, то зависимость будет иметь вид:
ю = f (u) kP
где k - положительная постоянная величина
Если k = 1, то формуле выражается зависимость между изменением реальной заработной платы ю, выраженной в процентах, и долей безработных u если k 1, это означает, что увеличение заработной платы не полностью компенсирует повышение цен и реальная заработная плата снижается

(2)
(3)