1.1.1. Спецификация эконометрических моделей
Разработка модели начинается со спецификации модели, т.е. подробного описания объекта исследования с последующим представлением процесса его функционирования в виде математических формул. Важно четко сформулировать и обозначить проблему, стоящую перед исследователем, а также выявить все значащие факторы и закономерности, характеризующие функционирование системы.
При составлении спецификации математической модели, как правило, руководствуются четырьмя принципами.
Первый принцип спецификации эконометрической модели1 заключается в том, что спецификация модели возникает в результате
В.А. Бывшев. Эконометрика. М.: Финансы и статистика, 2008 стр. 10
11
перевода на математический язык экономических утверждений, причем привлекаются, по возможности, линейные алгебраические функции.
Второй принцип требует, чтобы количество уравнений, составляющих спецификацию модели, в точности совпадало с количеством эндогенных (внутренних) переменных, включённых в модель.
Третий принцип состоит в датировании переменных, т.е. учете зависимости факторов модели от времени. Включение в модель времени приводит к созданию динамической модели.
Четвертый принцип – включение в модель случайных переменных. Модель, возникающая на этапе спецификации, как правило, имеет
структурную форму, отражающую заложенные в модель экономические утверждения. В такой форме эндогенные переменные модели не выражены явно через ее экзогенные (внешние) переменные. При помощи алгебраических преобразований модель от структурной формы может быть трансформирована к приведённой форме, где каждая эндогенная переменная представляется в виде явной функции только экзогенных переменных модели. Приведённая форма модели непосредственно предназначена для прогноза (объяснения) эндогенных переменных при помощи экзогенных переменных. Более подробно с вопросами спецификации моделей можно познакомиться в книгах [1,2]
1.1.2. Оценивание коэффициентов моделей методом наименьших квадратов.
Для того чтобы построенная на первом этапе эконометрическая модель была пригодна для прогнозирования экономических показателей конкретной экономической системы, необходима статистическая информация об исследуемом объекте. Таким образом, для построения модели производится сбор данных о системе. В дальнейшем эти
12
статистические данные подвергают обработке при помощи корреляционного анализа, позволяющего определить тесноту и направление связи между изучаемыми величинами и/или регрессионного анализа, который заключается в определении аналитического выражения связи зависимой случайной величины Y (называемой также результативным признаком или эндогенной переменной) с независимыми случайными величинами Х1 Х2,..., Хт (называемыми также факторами или экзогенными переменными)
Форма связи результативного признака Y с факторами Х1 Х2,...,Хт получила название уравнения регрессии. В зависимости от типа выбранного уравнения различают линейную и нелинейную регрессию (в последнем случае возможно дальнейшее уточнение: квадратичная, экспоненциальная, логарифмическая и т. д.).
зависимости от числа взаимосвязанных признаков различают парную и множественную регрессию. Если исследуется связь между двумя признаками (результативным и факторным), то регрессия называется парной, если между тремя и более признаками — множественной (многофакторной) регрессией. При изучении поведения системы, необходимо, в первую очередь, определить экзогенные и эндогенные переменные, после этого, следует придерживаться определенной последовательности этапов:
1. Задание аналитической формы уравнения регрессии и оценка параметров регрессии.
2. Определение в регрессии степени стохастической взаимосвязи результативного признака и факторов, проверка общего качества уравнения регрессии.
3. Проверка статистической значимости каждого коэффициента уравнения регрессии и определение их доверительных интервалов.
Существует несколько методов оценивания параметров
13
эконометрических моделей, с которыми можно познакомиться в [1,2]. В данной книге будет изложена методика нахождения оценок коэффициентов модели с применением пакета MS Office Excel. Основное содержание этапов рассмотрим на примере множественной линейной регрессии, реализованной в режиме «Регрессия» надстройки Пакет анализа.
Этап 1. Уравнение линейной множественной регрессии имеет вид
a0 a1 ⋅ x1 a2 ⋅ x2 ... am ⋅ xm ,
где y - оцененные при помощи модели значения результативного признака, полученные путем подстановки соответствующих значений факторных признаков в уравнение регрессии;
х1,..., хm - значения факторных признаков; а0,…,ат — параметры уравнения (коэффициенты регрессии)
Параметры уравнения регрессии могут быть оценены с помощью метода наименьших квадратов (именно этот метод и используется в Microsoft Excel). Сущность данного метода заключается в нахождении параметров модели (аi), при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по выбранному уравнению регрессии, т. е.
-
n
2
n
2
∑yi − a0 − a1 ⋅ x1
→ min.
S ∑yi − yi
i
− ... − am ⋅ xm
i1
i1
i
Рассматривая
S
в качестве функции
параметров аi, и проводя
математические преобразования (дифференцирование), получаем систему нормальных уравнений с т неизвестными (по числу параметров аi)
14
-
n ⋅ a0 a1 ⋅ ∑ x1 ... am ⋅ ∑ xm ∑ y
⋅ ∑ x1 a1 ⋅ ∑ x12 ... am ⋅ ∑ x1 ⋅ xm ∑ y ⋅ x1
a0
,
..........................................................................
⋅ ∑ xm a1 ⋅ ∑ x1 ⋅ xm
2
a0
am ⋅ ∑ xm ∑ y ⋅ xm
где n – число наблюдений, т – число факторов в уравнении регрессии. Решив систему уравнений, находим значения параметров ai являющихся коэффициентами искомого теоретического уравнения
регрессии.
Этап 2. Для определения величины степени стохастической взаимосвязи результативного признака Y и факторов X необходимо знать следующие дисперсии:
общую дисперсию результативного признака Y, отображающую влияние как основных, так и остаточных факторов
∑n
yi
−
y2
σ 2 i1
y n
где y¯ — среднее значение результативного признака Y
факторную дисперсию результативного признака Y, отображающую влияние только основных факторов
-
n
2
σ 2
∑yi −
y
i1
f
n
•
остаточную дисперсию результативного признака Y,
15
отображающую влияние только остаточных факторов
∑n yi − yˆi 2
σ o2 in1 − (m 1)
При корреляционной связи результативного признака и факторов выполняется соотношение
σ 2f σ y2 при этом σ y2 σ 2f σ o2
Для анализа общего качества уравнения линейной многофакторной регрессии используют обычно множественный коэффициент детерминации R2, называемый также квадратом коэффициента множественной корреляции R. Множественный коэффициент детерминации рассчитывается по формуле
σ 2
R2 f
σ 2
y
и определяет долю вариации результативного признака, обусловленную изменением факторных признаков, входящих в многофакторную регрессионную модель.
Так как в большинстве случаев уравнение регрессии приходится строить на основе выборочных данных, то возникает вопрос об адекватности построенного уравнения эмпирическим данным. Для этого проводится проверка статистической значимости коэффициента детерминации R2 на основе F- критерия Фишера
16
-
F
R2
⋅
n − m −1
1− R2
m
где п - число наблюдений, т - число факторов в уравнении регрессии.
Примечание. Если в уравнении регрессии свободный член а0 = 0, то числитель п-т-1 следует увеличить на единицу, т.е. он будет равен n-т.
математической статистике доказывается, что если гипотеза H0:
R2=0 выполняется, то величина F имеет F-распределение с k = т и l=п-т-1 числом степеней свободы, т.е.
-
R2
⋅
n − m −1
Fk m,l n − m −1
1− R2
m
Гипотеза Н0: R2=0 о незначимости коэффициента детерминации R2 отвергается, если F>Fкр
При значениях R2> 0,7 считается, что вариация результативного признака обусловлена в основном влиянием включенных в регрессионную модель факторов X.
Для оценки адекватности уравнения регрессии часто также используют показатель средней ошибки аппроксимации
-
1
n
yi − yi
ε
∑
⋅100%
yi
n i1
Этап 3. Возможна ситуация, когда часть вычисленных коэффициентов регрессии не обладает необходимой степенью значимости, т.е. значения данных коэффициентов будут меньше их стандартной ошибки. В этом случае такие коэффициенты должны быть исключены из уравнения
17
регрессии. Поэтому проверка адекватности построенного уравнения регрессии наряду с проверкой значимости коэффициента детерминации R2 включает в себя также и проверку значимости каждого коэффициента регрессии.
Значимость коэффициентов регрессии проверяется с помощью t-критерия Стьюдента:
t ai
σ ai
где σ ai - стандартное значение ошибки для коэффициента регрессии.
математической статистике доказывается, что если гипотеза Н0: ai=0 выполняется, то величина t имеет распределение Стьюдента с k = n-m-1 числом степеней свободы.
Гипотеза H0: аi=0 о незначимости коэффициента регрессии отвергается, если |tp| > |tкp|.
Кроме того, зная значение tкр, можно найти границы доверительных интервалов для коэффициентов регрессии
-
aimin ai − tкр ⋅σ a ,
aimax ai tкр ⋅σ a
i
i
При экономической интерпретации уравнения регрессии также широко используются частные коэффициенты эластичности, показывающие, на сколько процентов в среднем изменится значение результативного признака при изменении значения соответствующего факторного признака на 1%, и определяемые по формуле
ЭXi
ai
xyi
18
где x
- среднее значение соответствующего
факторного признака; y
- среднее значение результативного
признака; аi
- коэффициент регрессии при соответствующем
факторном признаке,
Алгоритм работы в надстройке Анализ данных Регрессия
Режим работы «Регрессия» служит для расчета параметров уравнения линейной регрессии и проверки его адекватности исследуемому процессу.
диалоговом окне данного режима (рис.1) задаются следующие параметры:
1. Input Y Range (Входной интервал Y) - вводится ссылка на ячейки, содержащие данные по результативному признаку. Диапазон должен состоять из одного столбца.
2. Input X Range (Входной интервал Х) - вводится ссылка на ячейки, содержащие факторные признаки. Максимальное число входных диапазонов (столбцов) равно 16.
3. Labels (Метки в первой строке/Метки в первом столбце) – ставится флажок, если диапазон данных в строке(столбце) пункта 1 и 2 содержит заголовки.
4. Confidence level (Уровень надежности) - установите данный флажок в активное состояние, если в поле, расположенное напротив флажка, необходимо ввести уровень надежности, отличный от уровня 95%, применяемого по умолчанию. Установленный уровень надежности
используется для проверки значимости коэффициента детерминации R2 и коэффициентов регрессии аi
Примечание. При неактивном флажке Уровень надежности в таблице параметров уравнения регрессии генерируются две одинаковые пары столбцов для границ доверительных интервалов.
5. Constant is Zero (Константа-ноль) - установите данный флажок в
19
активное состояние, если требуется, чтобы линия регрессии прошла через начало координат (т. е. а0 = 0).
Output Range/New Worksheet Ply/New Workbook (Выходной интервал/Новый рабочий лист/Новая рабочая книга) - флажок в активном состоянии напротив нужной позиции позволить вывести результаты в заданном выходном интервале активного рабочего листа/нового рабочего листа/новой рабочей книги.
Residuals (Остатки) - установите данный флажок в активное состояние, если требуется включить в выходной диапазон столбец остатков.
Standardized Residuals (Стандартизованные остатки) - установите данный флажок в активное состояние, если требуется включить в выходной диапазон столбец стандартизованных остатков.
Рис. 1. Вкладка Регрессия Пакета анализа данных.
Residuals Plots (График остатков) - установите данный флажок в активное состояние, если требуется вывести на рабочий лист точечные графики зависимости остатков от факторных признаков хi.
Line Fit Plots (График подбора) - установите данный флажок в
активное состояние, если требуется вывести на рабочий лист точечные
графики зависимости теоретических результативных значений у от факторных признаков хi.
Normal Probability Plots (График нормальной вероятности) -
установите данный флажок в активное состояние, если требуется вывести на рабочий лист точечный график зависимости наблюдаемых значений у от автоматически формируемых интервалов персентилей. График строится на основе генерируемой таблицы «Вывод вероятности».
Реализацию алгоритма построения регрессионной модели рассмотрим на примере прогнозирования объема рынка информационно-коммуникационных технологий (ИКТ).
Пример 1. Данные об объеме рынка ИКТ и динамика факторов, определяющих его, представлена в таблице 1.
Таблица 1.
-
Y
X1
X2
X3
X4
Кол-во
Объем
Кол-во
фиксированных
рынка
пользователей
Заработная
и
сотовых
ИКТ,
Интернетом
Рост
плата
номеров
млрд.
(на
100
населения
(млрд.
(на
100
год
руб.
человек)
(за год%)
US$)
человек)
2000
144,90
1,98
0,00
1,28
24,15
2001
194,20
2,95
-0,24
1,40
28,11
2002
273,20
4,13
-0,45
1,36
36,55
2003
608,60
8,30
-0,48
1,45
49,96
2004
796,70
12,86
-0,52
2,50
78,01
2005
968,20
15,23
-0,49
2,92
111,84
2006
1196,60
18,03
-0,46
3,09
136,54
2007
1216,69
21,18
-0,61
4,10
145,00
21
По представленным данным оценим параметры линейного уравнения регрессии
Yt = a0 + a1* X1t + a2* X2t + a3* X3t + a4* X4t + εt
и проведем его анализ, в уравнении εt – случайная величина.
Пакете анализа данных, Регрессия оболочки MS Office Excel внесем значения эндогенных и экзогенных переменных с 2000г. по 2006г. включительно в соответствующие окошки (см. Рис.1). Данные за 2007 г. оставим для проверки адекватности модели.
Результаты по регрессионной статистике представлены в таблицах 2 –
6. В таблице 2 приведены следующие статистические показатели:
Multiple R (Множественный R) - коэффициент корреляции R;
R Square (R-квадрат) - коэффициент детерминации R2;
Adjusted R Square - Нормированный R-квадрат;
Standard Error (Стандартная ошибка) - остаточное стандартное отклонение, вычисляемое по формуле
-
∑n yi − yˆi 2
σ o
i1
.
n
− (m 1)
5. Observations (Наблюдения) - число наблюдений п.
Таблица 2.
SUMMARY OUTPUT
Regression Statistics
-
Multiple R
0,999894464
R Square
0,999788938
22
-
Adjusted R Square
0,999366815
Standard Error
10,3179767
Observations
7
таблице 3 сгенерированы результаты дисперсионного анализа, которые используются для проверки значимости коэффициента детерминации R2.
Таблица 3.
ANOVA
|
df |
SS |
MS |
F |
Significance F |
|
|
|
|
|
|
Regression |
4 |
1008598,37 |
252149,59 |
2368,477 |
0,000422079 |
|
|
|
|
|
|
Residual |
2 |
212,921286 |
106,46064 |
|
|
|
|
|
|
|
|
Total |
6 |
1008811,29 |
|
|
|
|
|
|
|
|
|
Столбцы этой таблицы имеют следующую интерпретацию:
Столбец df - число степеней свободы.
Для строки Regression (Регрессия) число степеней свободы равно количеству т факторных признаков в уравнении регрессии.
Для строки Residuals (Остаток) число степеней свободы определяется числом наблюдений п и количеством переменных в уравнении регрессии т+1 и равно п-(m+1)
Для строки Total (Итого) число степеней свободы определяется суммой двух предыдущих строк
Столбец SS - сумма квадратов отклонений.
Для строки Regression (Регрессия) - это сумма квадратов отклонений теоретических данных от среднего - RSS.
Для строки Residual (Остаток) - это сумма квадратов отклонений эмпирических данных от теоретических - ESS.
Для строки Total (Итого) - это сумма квадратов отклонений эмпирических данных от среднего.
23
Столбец MS – дисперсии, рассчитываются по формуле MS=SS/df. Для строки Регрессия - это факторная дисперсия. Для строки Остаток - это остаточная дисперсия.
Столбец F - расчетное значение F-критерия Фишера.
Столбец Significance (Значимость) F - значение уровня значимости, соответствующее вычисленному значению F, определяется с помощью функции = FPACП(F; df(регрессия); df(остаток)).
таблице 4 сгенерированы значения коэффициентов регрессии аi и их статистические оценки. Столбцы таблицы имеют следующую интерпретацию:
1. Coefficients (Коэффициенты) - значения коэффициентов ai.
2. Standard Error (Стандартная ошибка) - Sai стандартные ошибки коэффициентов ai.
3. t Stat (t-статистика) - расчетные значения t-критерия,
вычисляемые по формуле t=ai/ Sai
P-value (Р-значение) - значения уровней значимости, соответствующие вычисленным значениям t определяются с помощью функции =СТЬЮДРАСП(t; n-m-1).
Lower 95% (Нижние 95 %) и Upper 95% (Верхние 95 %) -
соответственно нижние и верхние границы доверительных интервалов для коэффициентов регрессии аi. Для нахождения границ доверительных интервалов с помощью функции = СТЬДРАСПОБР(α;п-т-1) рассчитывается критическое значение t-критерия tкр, а затем по формулам
Нижние 95% = ai-Sai· tкр ;
Верхние 95% = ai+Sai· tкр
вычисляются соответственно нижние и верхние границы
24
доверительных интервалов.
Таблица 4.
|
|
Standard |
|
|
Lower |
Upper |
|
Coefficients |
Error |
t Stat |
P-value |
95% |
95% |
Intercept |
204,747 |
26,61961 |
7,691615 |
0,016486 |
90,21288 |
319,2828 |
X Variable 1 |
77,3163 |
4,684924 |
16,50321 |
0,003651 |
57,15870 |
97,47390 |
X Variable 2 |
95,4548 |
39,52798 |
2,414868 |
0,137084 |
-74,6203 |
265,5300 |
X Variable 3 |
-198,3198 |
24,95063 |
-7,948489 |
0,015462 |
-305,673 |
-90,96595 |
X Variable 4 |
1,86809 |
0,604182 |
3,091935 |
0,090609 |
-0,731494 |
4,467682 |
таблице 5 сгенерированы теоретические значения yˆi
результативного признака Y, рассчитанные по формуле регрессии, и значения остатков. Последние вычисляются как разность между
эмпирическими уi и теоретическими y i |
значениями результативного |
|
||||||
|
|
ˆ |
|
|
|
|
||
признака Y. |
|
|
|
|
|
|||
Таблица 5. |
|
|
|
|
|
|||
|
RESIDUAL OUTPUT |
|
|
|
|
|||
|
|
|
|
|
|
|
||
|
Observation |
Predicted Y |
|
Residuals |
|
|
||
|
|
|
|
|
|
|
||
1 |
149,869766 |
|
-4,969766015 |
|
|
|||
|
|
|
|
|
|
|
||
2 |
183,7245382 |
|
10,47546177 |
|
|
|||
|
|
|
|
|
|
|
||
3 |
280,1824183 |
|
-6,982418303 |
|
|
|||
|
|
|
|
|
|
|
||
4 |
605,4280567 |
|
3,171943323 |
|
|
|||
|
|
|
|
|
|
|
||
5 |
800,3627844 |
|
-3,662784369 |
|
|
|||
|
|
|
|
|
|
|
||
6 |
965,7464597 |
|
2,453540319 |
|
|
|||
|
|
|
|
|
|
|
||
7 |
1197,085977 |
|
-0,485976725 |
|
|
|||
|
|
|
|
|
|
|
||
таблице 6 сгенерированы интервалы персентилей и соответствующие им эмпирические значения у.
Таблица 6.
PROBABILITY OUTPUT
25
-
Percentile
Y
7,14
144,9
21,43
194,2
35,71
273,2
50,00
608,6
64,29
796,7
78,57
968,2
92,86
1196,6
Перейдем к анализу сгенерированных таблиц.
Рассчитанные в таблице 4 коэффициенты регрессии ai позволяют построить уравнение, выражающее зависимость объема рынка ИКТ от внешних факторов
Yt = 204,7 + 77,3·X1t + 95,5·X2t -198,3* X3t + 1,9·X4t + εt
где εt – случайная величина.
Значение множественного коэффициента детерминации R2 = 0,9999 показывает, что 99,99% общей вариации результативного признака объясняется вариацией факторных признаков Х. Значит, выбранные факторы существенно влияют на объем рынка ИТК, что подтверждает правильность их включения в построенную модель.
Рассчитанный уровень значимости α=0,000422079 < 0,05 (показатель Significance F в табл. 3) подтверждает значимость R2.
Другой подход к проверке значимости R2 основан на проверке попадания F (показатель F в табл. 3) в критическую область (Fкр,+∞).
Для рассматриваемого примера Fкр=FPACПOБP(0,05;4;2)=19,27, где 4
это число степеней свободы равное количеству регрессоров т=4, а в ячейке 2 - число степеней свободы, равное п-(т+1)=7-(4+1) =2.
Так как F=2368,477 попадает в критический интервал (19,27;+∞), то
26
гипотеза H0: R2 = 0 отвергается, т. е. коэффициент детерминации R2 является значимым.
Показатель средней ошибки аппроксимации
-
1
n
yi − yi
ε
∑
⋅100% 1,83%
yi
n i1
также подтверждает достаточно высокую адекватность построенного уравнения. Данный показатель в Excel может быть рассчитан по формуле =СУMM(ABS(D40:D46)/(С40:С46))/CЧET(С40:С46)*100, где в массиве D40:D46 таблица 5 рассчитаны разности (Residuals) между эмпирическими и теоретическими значениями результативного признака, а массив С40:С46 содержит предсказанные значения (Predicted Y). - не удалось.
Следующим этапом является проверка значимости коэффициентов регрессии аi. Сравнивая попарно элементы столбцов коэффициентов (Coefficients) и их ошибок (Standard Error) в таблице 4, видим, что абсолютное значение стандартных ошибок меньше соответствующих значений коэффициентов, следовательно, на первом этапе анализа все эти переменные должны остаться в модели.
Проверим значимость этих коэффициентов с использованием t-критерия Стьюдента, который заключается в проверке неравенства |t| ≤ tкр , где t – значение показателя t-статистики (t Stat в табл. 4). Если неравенство выполняется, то коэффициент и, соответственно, объясняющая переменная признается незначимой, в противном случае коэффициент и сам регрессор значимы.
рассматриваемом примере критическое значение можно вычислить
помощью функции СТЬЮДРАСПОБР(0,05;7-4-1), для рассматриваемого примера значение tкр=4,3, где 0,05 – заданный уровень значимости, 7 – число наблюдений, 4 – число факторов в уравнении регрессии, 1 – число
27
свободных членов в уравнении регрессии.
Значения показателя t-статистики в таблице 4 для свободного члена, первого и третьего регрессоров меньше tкр, следовательно эти коэффициенты регрессии являются значимыми. Для коэффициента при регрессоре X2 показатель t=2,41<tкр и для коэффициента при X4 аналогично показатель t=3,09<tкр, следовательно, можно сделать вывод о том, что факторы X2 и X4 незначимы.
Другой распространенный способ проверки значимости коэффициентов регрессии основан на применении показателя Р-значение (P-value в таблице 4). Можно заметить, что все p-значения, кроме третьего (равного 0,137084) и пятого (равного 0,09060975) меньше заданного уровня значимости α = 0,05. Таким образом, все коэффициенты, кроме третьего и пятого являются значимыми. Для улучшения модели факторы X2 и X4 следует исключить из модели.
Подводя итог предварительному анализу уравнения регрессии, можно сделать вывод, что его целесообразно пересчитать без учета влияния второго и четвертого факторов, которые не являются статистически значимыми для заданного уровня α = 0,05. Однако, анализируя задачу с экономической точки зрения, становится очевидным, что регрессор X4, (количество фиксированных и сотовых номеров на 100 человек) является основным показателем, характеризующим развитие рынка ИКТ, и исключать его из модели было бы неправильно. Кроме того видно, что при изменении уровня значимости α=0,1, соответствующее p-значение 0,09060975<0,1, т.е. коэффициент становится значимым с вероятностью 90%. Проверка значимости коэффициента при регрессоре X4 показывает, что при α=0,1 критическое значение tкр=2,9, таким образом, t=3,09>tкр и, следовательно, фактор - количество фиксированных и сотовых номеров на 100 человек становится значимым. А вот регрессор, связанный с ростом населения, действительно лучше исключить из модели, поскольку даже при
28
уровне значимости 0,1 для него t=2,41<tкр и Р-значение 0,137084>0,1. После пересчета уравнения на рабочем листе генерируют с таблицы,
аналогичные табл. 2-5. Для сравнения приведем только первые три из них.
Таблица 7.
-
SUMMARY OUTPUT
Regression Statistics
Multiple R
0,999586678
R Square
0,999173526
Adjusted R Square
0,998347052
Standard Error
16,67089409
Observations
7
Таблица 8.
ANOVA
-
Significance
df
SS
MS
F
F
Regression
3
1007977,532
335992,5108
1208,9597
4,0326E-05
Residual
3
833,7561296
277,9187099
Total
6
1008811,289
Таблица 9.
|
|
Standard |
|
|
Lower |
Upper |
|
Coefficients |
Error |
t Stat |
P-value |
90,0% |
90,0% |
|
|
|
|
|
|
|
Intercept |
164,781442 |
33,68663241 |
4,891597362 |
0,0163438 |
85,5046 |
244,0583 |
|
|
|
|
|
|
|
X Variable 1 |
69,3086881 |
5,347230195 |
12,96160547 |
0,0009914 |
56,7247 |
81,8926 |
|
|
|
|
|
|
|
X Variable 2 |
-177,75173 |
37,89149441 |
-4,69107209 |
0,018315 |
-266,9241 |
-88,5792 |
|
|
|
|
|
|
|
X Variable 3 |
2,40205419 |
0,908464436 |
2,644081698 |
0,0773848 |
0,2641 |
4,5400 |
|
|
|
|
|
|
|
таблице 9 строка X Variable 2 соответствует фактору X3, строка X Variable 3 соответствует фактору X4. Таким образом, получаем уравнение регрессии:
29
Yt= 164,78+69,31·X1t -177,75·X3t+2,4·X4t+εt,
где εt – случайная величина, со среднеквадратичным отклонением, σε =16,67 (см. таблицу 7, строка Standard Error).
Проводя процедуры проверки, описанные выше, можно прийти к выводу о хорошем качестве спецификации модели и значимости коэффициентов. Кроме того, показатель средней ошибки аппроксимации, вычисленный по формуле
-
1
n
yi − yi
ε
∑
yi
n i1
этом случае
точности модели.
⋅100%
равен ε =3,21%, что свидетельствует о хорошей
Экономическая сущность коэффициентов аi в полученном уравнении регрессии состоит в том, что они показывают степень влияния каждого фактора на результирующую переменную (в нашем случае на объем рынка Информационно Коммуникационных Технологий). Кроме того, дополнительно можно рассчитать и коэффициенты эластичности, которые показывают, какой фактор по абсолютному приросту оказывает наибольшее влияние на объем рынка.
Проверку адекватности модели проведем, используя данные за 2007 (см. таблицу 1). Для этого вычислим при помощи оценённой модели по значению X1 = 21,18, X3= 4,10, X4 =145,00 прогноз величины y2007 =1216,69
yˆ2007 164,78 69,31⋅ 21,18 −177,75 ⋅ 4,10 2,4 ⋅145,00 1252,26
Построим доверительные интервалы прогнозной величины с границами
30
-
−
− tкрит ⋅ S y2007 , y2007
tкрит ⋅ S y2007
y2007
y
2007
y
2007
где при α=0,1 для нашей модели критическое значение tкр=2,9, а величина Sy2007 , называемая среднеквадратичной ошибкой прогноза, вычисляется по формуле
-
ε ⋅
X 2007 ⋅ X
T
−1
T
14,41
S y2007 σ
⋅ X
⋅ X 2007
В этой формуле σε =16,67 – среднеквадратичное отклонение, X2007 – строка значений регрессоров в таблице 1 за 2007 год, X – матрица регрессоров в той же таблице. Таким образом, доверительные интервалы для прогнозируемой величины y2007 − 1210,19, y2007 1294,32. Наблюдаемое значение за 2007 год y2007=1216,69 попадает в доверительный интервал, следовательно, модель признается адекватной и пригодной для прогнозирования.
