- •Запорожский институт экономики и
- •Тема № 1. Предмет, методы и задачи курса “эконометрия”.
- •Задачи курса –
- •2. Обобщенной эконометрической модели.
- •Этапы эконометрического анализа:
- •Тема №3. Простая эконометрическая модель.
- •3.2.1 Определение параметров при степенной зависимости
- •3.2..2 Определение параметров гиперболы
- •3.2.3. Определение параметров показательной регрессии
- •3.2.4. Определение параметров параболы
- •Решение:
- •Алгоритм фаррара –глоберАсостоит из следующих шагов:
- •Пространственная корреляция возмущений (Гетероскедастичность остатков).
- •Автокорреляция остатков
- •Области принятия решений при d-тесте нулевой гипотезы с тремя альтернативными гипотезами.
- •При подозрении на автокорреляцию оценка по методу Эйткена может быть проведена только с использованием вспомогательной модели следую- щим образом:
- •Точечные и интервальные прогнозы регрессанда
Решение:
Построим искомую модель в виде уравнения ( 3.1).Используя расчетные значения
( таблица 1 ) и соответствующие формулы (3.3 ) найдем параметры уравнения:
а1 = ( 45,1 – 40,15 ) / ( 38,5 – 30,25 ) = 0,6;
а0 = 7,3 – 0,6 * 5.5 = 4.0.
Таким образом, эконометрическая модель распределения выработки по стажу работы для данного примера может быть записана в виде следующего уравнения регрессии:
Ŷ= 4,0 + 0,6х
Правильность расчета параметров уравнения может быть проверена сравнением сумм ∑У = ∑ Ŷ ( при этом возможно некоторое расхождение вследствие округления расчетов ).
Для практического использования моделей регрессии большое значение имеет их адекватность – соответствие фактическим статистическим данным. Достоверность построенной эконометрической модели можно прове-
рить, используя элементы дисперсионного анализа
Вычислив линейный коэффициент парной корреляции (для линейной регрессии) или индекс корреляции ( для нелинейной регрессии ) , оценим тесноту связи изучаемых явлений:
r xy = (yx – y. x )/σxσy, ρxy = √1 - σост.2/ σу2 ( 3. 7 )
Значение линейного коэффициента (индекса) парной корреляции лежит в пределах от -1 до 1. ( от 0 до 1 )
Коэффициент ( индекс ) детерминации равен квадрату коэффициента (индекса) корреляции и показывает сколько процентов вариации резуль
тативного признака у объясняется вариацией фактора х .
Средняя ошибка аппроксимации Ā оценивает точность модели и вычис-
ляется по формуле:
Ā =Σ Ai/n , Ai = │( уi – уx )/ yi│. 100% ( 3. 8 )
Допустимый предел значенияĀ – не более 8 - 10 %.
Средний коэффициент эластичности Э yxi показывает, на сколько про-
центов в среднем по совокупности изменится результат у от своей сред
ней величины у и вычисляется по формуле:
Э yxi = ai xi / y. ( 3. 9 )
Так как корреляционный и регрессионный анализ, особенно в условиях малого и среднего бизнеса, проводится для ограниченной по объему совокупности, то параметры уравнения регрессии, коэффициенты корреляции и детерминации могут быть искажены действием случайных факторов.
Для проверки статистической значимости коэффициентов регрессии и корреляции используют t – критерий Стьюдента Оценка проводится путем сопоставления оценок соответствующих параметров с величиной их случайной ошибки ( первая и вторая строки при использовании функции ЛИНЕЙН ).Эта величина имеет t - распределение Стьюдента с n–2 степенями свободы и называется t- статистикой:
t а1.факт. = а1 / Sа1; t а0.факт. = а 0 /Sа0; t r.факт. = r/Sr, ( 3. 10 )
где
S а1=S ост. / σx√n - 2, Sa0=S ост/√п - 2 , Sr =√ (1-r2 )/(n-2) ( 3. 11 )
S2ост. = Σ( Y – Ŷ)2/ n
Для t- статистики проверяется нулевая гипотеза H0 т.е. утверждение о том, что величина y не зависит от х , то есть а1 = 0. Альтернативная гипотеза Ha заключается в том,что а1≠ 0, иными словами, что значение х влияет на величину
у.
Если t факт. > t табл., то гипотеза Н0 отклоняется , т.е. коэффициен-
ты регрессии и корреляции значимы.
Если t факт. < t табл., то гипотеза Н0 принимается , т.е. коэффициен-
ты регрессии и корреляции незначимы.
Однако, если нулевая гипотеза определяет некоторое ненулевое значение величины а1 , то необходимо использовать более общее выражение :
t = (а1 – а0) / σа1 , ( 3.12 )
где а0 некоторое ненулевое значение величины а1, принимаемое в качестве нулевой гипотезы.
Для проверки адекватности уравнения в целом применяют F-тест , с помощью которого оценивают статистическую значимость и надежность оцениваемых характеристик уравнения регрессии. При этом рассчитывается
F факт. как отношение значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы.
( df 1 = m = p - 1 и df 2 = n – m - 1 = n – p ):
F факт. = r2xy * (n-2) ; F факт = n - p * S 2факт.
1 - r2xy p - 1 S2ост.
, ( 3. 13 )
где p - число параметров модели.
Так как 1 ≤ F ≤ ∞ , то при F факт < 1, следует рассматривать величину 1/F факт .
Примечание: Если использовать m - число факторов модели, то p = m + 1 и, тогда, необходимо умножить на * (n – m - 1 )/ m ).
F факт. можно также найти с помощью статистической функции ЛИНЕЙН - элемент ( 4, 1 ) в матрице результатов.F факт. сравнивается с
F табл. - табличное значение F - критерия Фишера при выбранном уров-
не значимостиα и df1 = p – 1,( ) df2 = n – p ( ) - степенях свободы.
Если F факт. < F табл. ,то гипотеза H0 принимается и признается статистическая незначимость, ненадежность уравнения регрессии.
Если F факт. > F табл,то оцениваемые характеристики уравнения регрессии статистически значимы и надежны.
Для расчета доверительного интервала определяем предельную ошибку ∆ для каждого показателя:
∆ а0 = tтабл.· Sа0 ; ∆ а1 = tтабл. · Sа1 , ( 3. 14 )
где
Sа1=S ост. / σx√n - 2, Sa0=S ост/√п - 2 , Sr =√ (1-r2 )/(n-2)
S2ост. = Σ( Y – Ŷ)2/ n
Формулы для расчета доверительных интервалов имеют следующий вид:
а0 ± ∆ а0 ; а1 ± ∆ а1 ( 3. 15 )
Если в границы доверительного интервала попадает 0 ,т.е. нижняя граница отрицательная, а верхняя положительная, то оцениваемый параметр прини -
мается нулевым, так как он не может одновременно принимать и положительные и отрицательные значения.
Прогнозное значение yp найдем, подставив в уравнение регрессии
ух = а 0+а1 ·х
соответствующее ( прогнозное ) значение хр.
Вычислим среднюю ошибку прогноза myp:
myp = σост. . √1 + 1/ n +((xp – x )2 / Σ( xi – x )2) ( 3. 16 )
где
σост. = √Σ( y – y x)2/(n – (m – 1)); ( 3. 17 )
тогда доверительный интервал прогноза:
ур ± ∆ ур; где ∆ ур = tтабл. mур. ( 3. 18 )
Пример2. Вернемся к предыдущему примеру1 и проверим адекватность пос-
троенной модели.Для этого найдем, используя вспомогательную таблицу 2:
Таблица 2.
у-у |
(у- у )2 |
Ŷ- у |
(Ŷ- у)2 |
у - ŷ |
(у-Ŷ)2 |
-3.3 |
10.89 |
-2.7 |
7.29 |
-0.6 |
0.36 |
-2.3 |
5.29 |
-2.1 |
4.41 |
-0.2 |
0.04 |
-1.3 |
1.69 |
-1.5 |
2.25 |
0.2 |
0.04 |
-0.3 |
0.09 |
-0.9 |
0.81 |
0.6 |
0.36 |
-0.3 |
0.09 |
-0.3 |
0.09 |
0 |
0 |
0.7 |
0.49 |
0.3 |
0.09 |
0.4 |
0.16 |
0.7 |
0.49 |
0.9 |
0.81 |
-0.2 |
0.04 |
1.7 |
2.89 |
1.5 |
2.25 |
0.2 |
0.04 |
2.7 |
7.29 |
2.1 |
4.41 |
0.6 |
0.36 |
1.7 |
2.89 |
2.7 |
7.29 |
-1 |
1 |
Σ |
32.1 |
- |
29.7 |
- |
2.4 |
Sост. =√Σ(у – ŷ)²/ n = √ 2.4/10 =0.49
σx = √ 38.5 – (5.5)2 = 2.87
Тогда расчетные значения t - критерия равны:
t β 0= 4* √(10 – 2 ) / 0.49 = 23.1; t β 1 = 0.6* (√(10 – 2 ) /0.49)* 2.87= 9.94
По таблице распределения Стьюдента для 10 – 2 = 8 степеней свободы и уровне значимости α = 0.05, найдем критическое значение t– критерия: t табличное равно 2.31.
Так как t расчетное больше t табличного, для каждого параметра, то оба параметра β0 и β1 значимы.
Вычислим коэффициент корреляции:
r xy =(yx – y. x )/σxσy = (45.1 – 5.5*7.3 )/2.87* 1.792 = =0.962.
так как σy = у2 – ( у )2 = 56.5 – 7.32 =1.7917
Вывод: существует достаточно тесная связь между производительностью труда и стажем работы.
и коэффициент детерминации:
R2 = 0,962*0,962 = 0,925
Вывод: 92,5% вариации у объясняется вариацией х.
Проверим значимость коэффициента корреляции используя критерий Стьюдента:
t= r * (n-2)/(1-r2 ) = 0,962 * (10 – 2 )/ ( 1 – 0,925 ) = 9,93.
Вывод:Так как расчетное значение больше критического значения, то коэффициент корреляции значим.
Таким образом, построенная модель в целом адекватна, и выводы, полученные по результатам малой выборки, можно с достаточной вероятностью распространить на всю гипотетическую генеральную совокупность.
Из модели , следует, что возрастание на 1 год стажа рабочего приводит к увеличению им дневной выработкм в среднем на 0.6 изделия.
Вычислив коэффициент эластичности
Э = β1 х / у = 0,6*5,5/ 7.3 = 0,45 сделаем вывод: с возрастанием стажа работы на 1% следует ожидать повышение производительности труда в среднем на 0,45%.
Анализируя остатки модели можно сделать ряд практических выводов, в частности определить наиболее передовых ( наибольшие положительные остатки ) и отстающих ( наибольшие отрицательные остатки ) рабочих.
ТЕМА № 4. МНОГОФАКТОРНАЯ ЭКОНОМЕТРИЧЕСКАЯ МОДЕЛЬ.
Как известно, все явления складываются под воздействием не одного, а нескольких факторов. Между факторами существуют сложные взаимосвязи, поэтому их влияние комплексное и его нельзя рассматривать как простую сумму изолированных влияний. В этом случае используют многофакторную економетрическую модель. Ее анализ удобно проводить используя элементы матричной алгебры. При этом объект исследования представляют регрессионной функцией:
, (4.1)
где Y – регрессанд, X1, X2, …, Xm – регрессоры, U – случайные переменные.
Для реализации случайных переменных Yt и Ut уравнение (4.1) примет вид:
(4.2)
Чтобы статистически оценить параметры регрессионной модели, необходимы ряды данных длиной п для регрессандов (Y) и для каждого из К регрессоров (переменных Х). При этом длина рядов наблюдений должна быть больше количества регрессоров (п>m). Длина временных рядов образует опорный (базовый) период. Для наблюдаемых в моменты времени t =1, 2, …, п значений можно записать п уравнений регрессии:
, (4.3)
где
(4.4)
Вектор наблюдений Y и матрица наблюдений Х образуют матрицу данных D.
(4.5)
Она содержит все данные, необходимые для статистической оценки вектора коэффициентов регрессии и прочих параметров модели.
Метод оценки регрессионных коэффициентов βm, в котором применяется сумма квадратов ошибок как мера качества адаптации эмпирической функции к наблюдаемым данным, называется одношаговым методом наименьших квадратов (1-МНК). Ошибка уравнения для t-го наблюдения равна:
(4.6)
Тогда сумма квадратов ошибок для Т наблюдений имеет вид:
(4.7)
или
Дифференцируя по , получим, с учетом необходимого условия существования минимума ():
, (4.8)
где - вектор коэффициентов регрессии минимизирующий ; выражение (4.8) называется системой нормальных уравнений. Домножив слева равенство (4.8) на обратную матрицу , получим формулу для вычисления вектора 1-МНК оценок для :
(4.9)
Порядок расчетов по формуле (4.9) может быть следующим:
Вычислить ;
Определить вектор ;
Найти матрицу обратную матрице ;
Рассчитать как результат произведения на .
Подставив в оцениваемое уравнение, получим оцененную с помощью 1-МНК эмпирическую регрессионную функцию:
(4.10)
Эмпирический коэффициент βi определяет количество единиц, на которое изменится при изменении Xi на единицу при прочих равных условиях.
Все n значений – прогноз величины Y (величины ее математического ожидания) образуют вектор Ŷ:
Ŷ (4.11)
Тогда 1-МНК оценщик вектора возмущений u имеет вид:
(4.12)
Важной характеристикой регрессионной модели является дисперсия возмущений . Ее величина должна быть как можно меньше. 1-МНК оценщик для можно вычислить по одной из формул:
(4.13)
(4.14)
где - сумма квадратов ошибок; - количество степеней свободы; - сумма общих квадратов.
Для t – тестирования гипотез по отдельным коэффициентам регрессии и их линейным комбинациям необходимо знать элементы ковариационной матрицы. Ковариационная матрица для , оцененная методом 1-МНК, может быть представлена следующим образом:
(4.15)
На главной диагонали оцененной ковариационной матрицы , i-ый элемент является 1-МНК оценщиком дисперсии i-го коэффициента βi, а элемент , расположенный вне диагонали, является 1-МНК оценщиком ковариации между и . Наиболее желательными являются, по возможности, узкие доверительные и прогнозные интервалы. И, как следствие, меньшие оцененные дисперсии и ковариации.
Средние коэффициенты эластичности ,для линейной регрессии, расчитыва-
ются по формуле:
Э yxj = аj xj / y (4.16)
Для измерения тесноты связи между двумя из рассматриваемых переменных
( без учета их взаимодействия с другими переменными ) применяются парные коэффициенты корреляции:
r y x1 = ( x1y –x1 y ) /σ x1 σy ; r y x2 = ( x2y – x2 y ) /σ x2 σy ;
r x1 x2 = ( x1 x2 – x1 x2 ) /σ x1 σ x2 . (4.17)
где
σ x1 = x1 2 - ( x1)2
σ x2 = x2 2 – ( x2) 2
σy = y 2 – ( y )2
Так как в реальных условиях все переменные, как правило,взаимосвязаны, то на значение коэффициента корреляции частично влияют другие переменные .В связи с этим возникает необходимость исследовать частную корреляцию между переменными при исключении ( элиминировании ) влияния одной или нескольких переменных. Теснота этой связи определяется частными коэффициентами корреляции.между переменными Xi и Xj при фиксированных значениях остальных m - 2 переменных по формуле:
r xixj ( x 1,x 2 , …, x m ) = - Аij / A ii * Ajj ,
где A ii и Ajj -алгебраические дополнения элементов rii и rjj матрицы парных коэффициентов корреляции ∆ r 11 или по рекуррентной формуле:
r xixj ( x 1,x 2,…,x i-1 ,x i+1 , …, x j-1, x j+1, … ,x m ) =
rxixj, x 1,x 2,x i-1 ,x i+1 , …, x m -1 - rxixm (x 1,x 2, …, x m –1) rxj x m(x 1,x2,…,xm -1)
( 1 – r2xixm( x 1,x 2, …, x m –1) ) ( 1 – r2xj x m(x 1,x2,…,xm -1) ) (4.18)
Частные коэффициенты ( индексы ) корреляции, измеряющие степень и влияние на у фактора хi при неизменом уровне других факторов, можно определить по рекуррентной формуле :
r yxi ( x 1,x 2,x i-1 ,x i+1 , …, x m ) =
ryxi,x1,x2,x i-1 ,x i+1 ,…, xm -1 - ryxm (x 1,x 2, …, x m –1) rxi x m(x1,x2,…,xm-1)
( 1 – r2yxm( x 1,x 2, …, x m –1) ) ( 1 – r2xi x m(x 1,x2,…,xm -1) )
В зависимости от количества переменных, влияние которых исключается, частные коэффициенты корреляции могут быть различного порядка: при исключе-
нии влияния одной переменной получим частный коэффициент корреляции первого порядка; при исключении влияния двух переменных - частный коэф-
фициент корреляции второго порядка и т. д.
Для двухфакторной модели частный коэффициент корреляции первого порядка между признаками х1 и у при исключении признака х2 вычисляют по формуле:
ry x 1 - ryx 2 rx 1x2
r yx1 ( x 2 ) = _______________________
( 1 – r2yx 2 ) ( 1 – r2x1x2 )
Для двухфакторной модели частный коэффициент корреляции первого порядка между признаками х2 и у при исключении признака х1 вычисляют по формуле:
ry x 2 - ryx 1 rx 1x2
r yx2 ( x 1 ) = ________________________
( 1 – r2yx 1 ) ( 1 – r2x1x2 )
Для двухфакторной модели частный коэффициент корреляции первого порядка между признаками х1 и х2 при исключении влияния результативного признака у вычисляют по формуле:
rх1 x 2 - ryx 1 rуx
r х2x1 ( у ) = _______________________
( 1 – r2yx 1 ) ( 1 – r2уx2 ) ,
где ryxi – парные коэффициенты корреляции между соответствующими признаками.Очевидно, что коэффициент корреляции r между остатками будет отражать тесноту частной корреляции между переменными хi и хj при исключении влияния остальных переменных. Можно показать, что коэффициент корреляции r между остатками равен частному коэффициенту корреляции rxixj. Частный коэффициент корреляции , как и парный коэффициент rij , может принимать значения от –1 до 1 и его значимость оценивают так же, как и обычного коэффициента корреляции r, но при этом полагают df = n – m –2.
Изучение парных и частных коэффициентов корреляции позволяет отобрать наиболее существенные, значимые факторы. Тесноту совместного влияния фак
торов на результат оценивает коэффициент (индекс )множественной корреля-
ции R yx1x2,…,xm :
R yx1x2,…,xm = 1-σ2y ост. /σ2y
Значение коэффициента (индекса) множественной корреляции лежит в пределах от 0 до 1 и должно быть больше или равно максимальному парному индексу корреляции r yxi .
В случае линейной двухфакторной связи совокупный коэффициент множественной корреляции можно найти следующим образом:
Ryx1x2 = ( r2y x1+ r2y x2 – 2 r y x1 ry x2 rx1 x2 ) / ( 1 – r2x1 x2 )
Индекс множественной корреляции для уравнения в стандартизованном виде можно записать следующим образом:
R yx1x2,…,xm = Σ βι ryxι
При линейной зависимости коэффициент множественной корреляции можно, также, определить через матрицу парных коэффициентов корреляции:
R yx1x2,…,xm = 1- ∆ґ /∆ґ11 ,
где
1ry x1 ry x2 … ry x m
∆ r = ry x1 1 rx1x2 … rx1 x m
ry x 2 rx2x1 1 … rx2 x m
--------------------------------------------------------
ry x m rxm x1 rxm x2 … 1
- определитель матрицы парных коэффициентов корреляции;
1 rx1 x2 rx1x3 … rx1x m
∆ r 11 = rx2 x1 1 rx2x3 … rx2 x m
rx3 x 1 rx3x2 1 … rx3 x m
--------------------------------------------------------
rx m x1 rxm x2 rxm x3 … 1
определитель матрицы межфакторной корреляции.
Регрессионное уравнение оценено тем лучше, чем больше при прочих равных условиях R2.При вычислении R2 наблюдается следующая тенденция:R2 (c m+1 регрессорами) > R2 (c m регрессорами).Следовательно, уравнение с относительно большим числом регрессоров, как правило, будут давать лучшие результаты, чем с малым их количеством. Однако с каждым дополнительным регрессором теряется одна степень свободы, поэтому в статистическом отношении наличие дополнительного регрессора может быть не всегда желательным. Для того, чтобы определить на какую величину уменьшается R2 если i-й регрессор будет исключен, используют частный коэффициент детерминации .
[2.5]
где ti- t – статистика для i-го коэффициента. Используя скорректированные коэффициенты детерминации можно определить изменение R2, вызванное дополнительным регрессором. Наиболее часто используются скорректированные коэффициенты по Тэйлу:
[2.6]
и по Амемии:
[2.7]
Совокупный коэффициент ( индекс ) множественной детерминации опреде
ляет только качество выравнивания по уравнению регрессии. Так как многофакторный регрессионный анализ оперирует случайными наблюдениями, и необязательно распределенными по многомерному нормальному закону ( этому закону должны подчиняться отклонения фактических значений регрессанда от расчетных ), то показатели множественной регрессии и корреляции сами могут оказаться подверженными действию случайных факторов. Поэтому только после проверки адекватности уравнения в целом, оно может использоваться для дальнейшего экономического анализа.
Общая оценка адекватности уравнения может быть получена с помощью дисперсионного F– критерия Фишера:
F = R²(n-m-1) / (1- R²). m, или F = σ ²у .(n-m-1) / σ ²ост.. m
где m -число факторов.( число параметров р = m + 1 )
Полученное значение F– критерия ( Fрасч. ) сравнивают с табличным для принятого уровня значимости и чисел степеней свободы k1 = m и k2 = n-m-1.
Если Fрасч. > Fтабл. , то уравнение регрессии статистически значимо, т.е.
доля вариации, обусловленная регрессией, намного превышает случайную ошибку.
Принято считать, что уравнение регрессии пригодно для практического использования в том случае, если Fрасч. > Fтабл не менее чем в 4 раза.
Частный F– критерий Фишера оценивает статистическую значимость присутствия каждого из факторов в уравнении регрессии и определяется по формуле:
R2 yx1x2,…,xm - r 2yxi (x 1,x 2,x i-1 ,x i+1 , …, x m) .(n-m-1)
Fi част. = -------------------------------------------------------------------------,
R2 yx1x2,…,xm
Или
Fi =, где
Сii - i –ый диагональный элемент матрицы С обратной к корреляционной матрице R:
C = R-1 , где R = (XT.X)/(n –1)
Для оценки значимости коэффициентов регрессии при линейной зависимости используют t - критерий Стьюдента при n – (m + 1 ) степенях свободы :
ta1 = a1σx1 * √1-r2x1x2 * √n-m-1 / σy √1-R2yx1x2
ta2= a2σx2 * √1-r2x1x2 * √n-m-1 / σy√1-R2yx1x2
tRyx1x2 = Ryx1x2 * √n-m-1 / √1-R2yx1x2
Если в уравнении все коэффициенты регрессии значимы, то данное урав -
нение признают окончательным и применяют в качестве модели изучаемого показателя для последующего анализа.
Оценку значимости коеффициентов регрессии с помощью t – критерия
используют, также, для отбора существенных ( информативных ) факторов при многошаговом регрессионном анализе.Он заключается в том, что после оценки значимости всех коэффициентов регрессии из модели исключают тот фактор, коэффициент при котором незначим и имеет наименьшее значение критерия. Затем строится уравнение регрессии без исключенного фактора, и снова проводится оценка адекватности уравнения и значимости коэфициентов регрессии. Процесс длится до тех пор, пока все коэффициенты регрессии не окажутся значимыми, что свидетельствует о наличии в регрессионной модели только существенных факторов.В некоторых случаях расчетное значение t расч. находится вблизи tтабл., поэтому с точки зрения содержательности модели такой фактор можно оставить для последующей проверки его значимости в сочетании с другим набором факторов.
При построении уравнения множественной регрессии может возникнуть проблемма мультиколлинеарности факторов, их тесной линейной связи.
Наиболее полно исследовать мультиколлинеарность можно с помощью алгоритма ФАРРАРА-ГЛОБЕРА.Он содержит три вида статистических критериев с помощью которых проверяется мультиколлинеарность соответственно: 1). всего массива объясняющих переменных (хи-квадрат);2). каждой объясняющей переменной с остальными объясняющими переменными ( F- критерий); 3).каждой пары объясняющих переменных ( t -критерий ).