- •Оглавление
- •Этап1 «Спецификация факторной регрессионной модели. Обоснование выбора идентификации параметров линейной регрессии»
- •Логический анализ взаимосвязи между результативной и факторными переменными.
- •Этап 2. «Оценка коэффициентов конкурирующих моделей»
- •Этап 3. «Верификация моделей и идентификация ошибок спецификации»
- •Этап 4. Обоснование выбора базовой модели генератора прогноза
- •Этап 5. Прогнозирование на основе факторной регрессионной модели.
Логический анализ взаимосвязи между результативной и факторными переменными.
Для проведения логического анализа взаимосвязи между объясняемой переменной и объясняющими переменными построим поля корреляции (графики приведены ниже).
График 1.
График 2.
График 3.
Объясняемая переменная: затраты на оплату труда (млн.).
Объясняющие переменные:
Продажи (млн.): из графика 1 мы можем предположить, что между результативным (затраты на оплату труда) и факторным (продажи) признаками есть слабая взаимосвязь, можно заметить, что характер связи прямой и может иметь линейную форму взаимосвязи. Продажи могут косвенно влиять на затраты на оплату труда.
Количество работников (тыс.): можно предположить, что количество работников имеет линейную связь с затратами на оплату труда. Из графика 2 мы видно, что связь между результативным (затраты на оплату труда) и факторным (количество работников) признаками имеет прямой характер.
Издержки по проданным товарам: из графика 3 можно предположить, что между результативным (затраты на оплату труда) и факторным (издержки по проданным товарам) признаками есть слабая прямая взаимосвязь.
На всех трех графиках можно наблюдать аномальное наблюдение, оно выбивается из всего множества наблюдений. Проведем анализ:
Оценим показатели вариации с этим наблюдением и без него.
Построим модели двух выборок (при наличии данного наблюдения и без него)
Оценим прогностическую пригодность моделей и, исходя из них, выберем, как данное наблюдение влияет на модели.
В приложении приведены таблицы расчетов. При сопоставлении таблиц показатели вариации без данного наблюдения лучше, чем с ним. Но при оценке прогностических характеристик, модели с данным наблюдением показали лучшие результаты. Таким образом, я решила оставить данное наблюдение (приложения 1, 2, 3).
Корреляционный анализ.
Построим корреляционную таблицу:
Корреляционная таблица.
|
Y |
X1 |
X2 |
X3 |
Y |
1 |
0,8709 |
0,7900 |
0,8977 |
X1 |
|
1 |
0,9047 |
0,9907 |
X2 |
|
|
1 |
0,8686 |
X3 |
|
|
|
1 |
Из корреляционной таблицы можно заметить,
что между всеми факторами сильные (так
как
)
положительно направленные связи (
)
Коэффициенты парной корреляции рассчитывались по следующей формуле:
Для зависимой переменной:
Проверим гипотезы о значимости коэффициентов парной корреляции:
Примем уровень значимости
.
Для каждой пары выборок осуществляем расчёт t-статистики по формуле:
Расчетные значения t-статистики.
|
Y |
X1 |
X2 |
X3 |
Y |
|
10,92375 |
7,942966 |
12,55947 |
X1 |
|
|
13,08991 |
44,8838 |
X2 |
|
|
|
10,80577 |
X3 |
|
|
|
|
Табличное значение t-критерия Стьюдента для n-2=38 степеней свободы и уровне доверия 95% равно 2,02. Все значения в таблице t-статистики больше табличного значения критерия Стьюдента, следовательно, гипотеза об отсутствии корреляционной связи отвергается и принимается альтернативная гипотеза. Таким образом, доказано, что все коэффициенты парной корреляции значимы.
Все коэффициенты парной корреляции больше 0,75, таким образом, можно говорить о тесной взаимосвязи между факторами, так как все коэффициенты в таблице больше 0, можно утверждать о прямом направлении связи между признаками.
Анализ признаков на мультиколлинеарность будет проведен на третьем этапе работы.
Выбор исходных форм уравнения регрессии факторной модели.
Линейная:
Корреляционная матрица:
|
Y |
X1 |
X2 |
X3 |
Y |
1 |
0,8709 |
0,7900 |
0,8977 |
X1 |
0,8709 |
1 |
0,9047 |
0,9907 |
X2 |
0,7900 |
0,9047 |
1 |
0,8686 |
X3 |
0,8977 |
0,9907 |
0,8686 |
1 |
Расчетные значения t-статистики:
|
Y |
X1 |
X2 |
X3 |
Y |
|
10,92375 |
7,942966 |
12,55947 |
X1 |
|
|
13,08991 |
44,8838 |
X2 |
|
|
|
10,80577 |
X3 |
|
|
|
|
Все расчетные значения t-статистики больше критического значения t-критерия Стьюдента (2,02), следовательно, гипотеза о не значимости корреляционной связи отвергается.
Для определения степени мультиколлинеарности фактора модели необходимо рассчитать VIF-коэффициент:
Где
-
коэффициент детерминации регрессии
j-ой переменной по оставшимся (m-1)
переменным.
Рассчитанные значения VIF-коэффициентов:
Х1:VIF=94,161
Х2: VIF= 7,133
Х3: VIF=69,573
Из VIF-коэффициентов видно, что наличие мультиколлинеарности в регрессионной модели (так как коэффициенты сильно отличаются от 1). Данный коэффициент особенно выделяется у первого и третьего признаков. Для ее устранения необходимо удалить один из признаков, скорее всего продажи (первый признак), так как его связь между вторым и третьим признаками больше, чем с результативным.
Таким образом, предположительная модель
регрессии:
(приложения 4, 5, 6)
Полиномиальная:
Линеаризованное преобразование:
,
где
;
;
Корреляционная матрица:
|
Y |
X1 |
X2^2 |
X3^3 |
Y |
|
0,8709 |
0,8109 |
0,9168 |
X1 |
0,8709 |
|
0,8161 |
0,8038 |
X2^2 |
0,8109 |
0,8161 |
|
0,8684 |
X3^3 |
0,9168 |
0,8038 |
0,8684 |
|
Расчетные значения t-статистики:
|
Y |
X1 |
X2^2 |
X3^3 |
Y |
|
10,92374819 |
8,542128 |
14,15195 |
X1 |
10,92374819 |
|
8,705113 |
8,329062 |
X2^2 |
8,542128493 |
8,705113387 |
|
10,79565 |
X3^3 |
14,15195176 |
8,329062239 |
10,79565 |
|
Все расчетные значения t-статистики больше критического значения t-критерия Стьюдента (2,02), следовательно, гипотеза о не значимости корреляционной связи отвергается
Значения VIF-коэффициентов:
Х1:VIF=3,017
Х2: VIF= 6,296
Х3: VIF=3,875
(Приложения 7, 8, 9)
Предположительная модель регрессии:
Степенная:
Линеаризованное преобразование:
Корреляционная матрица:
|
LNY |
LNX1 |
LNX2 |
LNX3 |
LNY |
|
0,6615 |
0,6327 |
0,6864 |
LNX1 |
0,6615 |
|
0,8009 |
0,9951 |
LNX2 |
0,6327 |
0,8009 |
|
0,7961 |
LNX3 |
0,6864 |
0,9951 |
0,7961 |
|
Расчетные значения t-статистики:
|
ln Y |
ln X1 |
ln X2 |
ln X3 |
ln Y |
|
5,4374107 |
5,036467 |
5,818362 |
ln X1 |
5,4374107 |
|
8,244981 |
62,04091 |
ln X2 |
5,036466762 |
8,244981071 |
|
8,109341 |
ln X3 |
5,81836215 |
62,0409087 |
8,109341 |
|
Все расчетные значения t-статистики больше критического значения t-критерия Стьюдента (2,02), следовательно, гипотеза о не значимости корреляционной связи отвергается.
Значения VIF-коэффициентов:
Х1:VIF=104,526
Х2: VIF= 2,789
Х3: VIF=102,353
Из VIF-коэффициентов видно, что наличие мультиколлинеарности в регрессионной модели (так как коэффициенты 1го и 3го признаков сильно отличаются от 1). Для ее устранения необходимо удалить один из признаков, скорее всего продажи (первый признак), так как его связь между вторым и третьим признаками больше, чем с результативным.
Приложения 10, 11, 12.
Предположительная модель регрессии:
Экспоненциальная:
Линеаризованное преобразование:
Корреляционная матрица:
|
LNY |
X1 |
X2 |
X3 |
LNY |
|
0,6805 |
0,5495 |
0,7281 |
X1 |
0,6805 |
|
0,9047 |
0,9907 |
X2 |
0,5495 |
0,9047 |
|
0,8686 |
X3 |
0,7281 |
0,9907 |
0,8686 |
|
Расчетные значения t-статистики:
|
ln Y |
X1 |
X2 |
X3 |
ln Y |
|
5,724864846 |
4,054304 |
6,547776 |
X1 |
5,724864846 |
|
13,08991 |
44,8838 |
X2 |
4,054303974 |
13,0899096 |
|
10,80577 |
X3 |
6,547775649 |
44,8837959 |
10,80577 |
|
Все расчетные значения t-статистики больше критического значения t-критерия Стьюдента (2,02), следовательно, гипотеза о не значимости корреляционной связи отвергается.
Рассчитанные значения VIF-коэффициентов:
Х1:VIF=94,161
Х2: VIF= 7,133
Х3: VIF=69,573
Из VIF-коэффициентов видно, что наличие мультиколлинеарности в регрессионной модели (так как коэффициенты сильно отличаются от 1). Данный коэффициент особенно выделяется у первого и третьего признаков. Для ее устранения необходимо удалить один из признаков, скорее всего продажи (первый признак), так как его связь между вторым и третьим признаками больше, чем с результативным.
Предположительная модель регрессии:
.
Предположим, что относительно всех этих моделей выполняются условия Гаусса-Маркова:
