Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЭКОНОМЕТРИКА кратко.docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
582.52 Кб
Скачать

5.2. Отбор наиболее существенных объясняющих переменных в регрессионной модели

Еще одним из возможных методов устранения или уменьшения мультиколлинеарности является использование пошаговых процедур отбора наиболее информативных переменных. Например, на первом шаге рассматривается лишь одна объясняющая переменная, имеющая с зависимой переменной Y наибольший коэффициент детерминации. На втором шаге включается в регрессию новая объясняющая переменная, которая вместе с первоначально отобранной образует пару объясняющих переменных, имеющую с Y наиболее высокий (скорректированный) коэффициент детерминации. На третьем шаге вводится в регрессию еще одна объясняющая переменная, которая вместе с двумя первоначально отобранными образует тройку объясняющих переменных, имеющую с Y наибольший (скорректированный) коэффициент детерминации, и т. д.

Процедура введения новых переменных продолжается до тех пор, пока будет увеличиваться соответствующий (скорректированный) коэффициент детерминации (более точно – минимальное значение ).

Пример 5.1. По данным n=20 сельскохозяйственных районов области исследуется зависимость переменной Y – урожайности зерновых культур (в ц/га) от ряда переменных – факторов сельскохозяйственного производства:

Х1 – число тракторов (приведенной мощности на 100 га);

Х2 – число зерноуборочных комбайнов на 100 га;

Х3 – число орудий поверхностной обработки почвы на 100 га;

Х4 – количество удобрений, расходуемых на 1 га (т/га);

X5 – количество химических средств защиты растений, расходуемых на 1 га (ц/га).

Исходные данные1 приведены в табл. 5.1.

Таблица 5.1

i (номер района)

yi

xi1

xi2

xi3

xi4

xi5

1

9,70

1,59

0,26

2,05

0,32

0,14

2

8,40

0,34

0,28

0,46

0,59

0,66

…………………………………………………………………………………………..

19

13,10

0,08

0,25

0,03

0,73

0,20

20

8,70

1,36

0,26

0,17

0,99

0,42

В случае обнаружения мультиколлинеарности принять меры по ее устранению (уменьшению), используя пошаговую процедуру отбора наиболее информативных переменных. Решение. По формуле (4.8) найдем вектор оценок параметров регрессионной модели , так что в соответствии с (4.9) выборочное уравнение множественной регрессии имеет вид:

.

(5,41) (0,60) (21,59) (0,85) (1,54) (3,09)

В скобках указаны средние квадратические отклонения (стандартные ошибки) коэффициентов регрессии bj, вычисленные по формуле (4.22). Сравнивая значения t-статистики (по абсолютной величине) каждого коэффициента регрессии βj по формуле , т.е. с критическим значением , определенным по табл. II приложений на уровне значимости α=0,05 при числе степеней свободы k = np – 1 = 20 – 5 – 1 = 14, мы видим, что значимым оказался только коэффициент регрессии b4 при переменной Х4 – количество удобрений, расходуемых на гектар земли.

Вычисленный по (4.33) множественный коэффициент детерминации урожайности зерновых культур Y по совокупности пяти факторов (X1 – X5) сельскохозяйственного производства оказался равным , т. е. 51,7% вариации зависимой переменной объясняется включенными в модель пятью объясняющими переменными. Так как вычисленное по (4.35) фактическое значение F=3,00 больше табличного F0,05;5;14=2,96, то уравнение регрессии значимо по F-критерию на уровне α=0,05.

По формуле (3.20) была рассчитана матрица парных коэффициентов корреляции:

Переменные

Y

X1

X2

X3

X4

X5

Y

1,00

0,43

0,37

0,40

0,58*

0,33

X1

0,43

1,00

0,85*

0,98*

0,11

0,34

X2

0,37

0,85*

1,00

0,88*

0,03

0,46*

X3

0,40

0,98*

0,88*

1,00

0,03

0,28

X4

0,58*

0,11

0,03

0,03

1,00

0,57*

X5

0,33

0,34

0,46*

0,28

0,57*

1,00

Знаком* отмечены коэффициенты корреляции, значимые по t-критерию (3.46) на 5%-ном уровне.

Анализируя матрицу парных коэффициентов корреляции, можно отметить тесную корреляционную связь между переменными Х1 и Х2 (r12= 0,85), Х1 и Х3 (r13= 0,98), X2 и Х3 (r23= 0,88), что, очевидно, свидетельствует о мультиколлинеарности объясняющих переменных.

Для устранения мультиколлинеарности применим процедуру пошагового отбора наиболее информативных переменных.

1-й шаг. Из объясняющих переменных Х1–Х5 выделяется переменная X4, имеющая с зависимой переменной Y наибольший коэффициент детерминации (равный для парной модели квадрату коэффициента корреляции ). Очевидно, это переменная X4, так как коэффициент детерминации – максимальный. С учетом поправки на несмещенность по формуле (4.34) скорректированный коэффициент детерминации .

2-й шаг. Среди всевозможных пар объясняющих переменных X4, Xj, j=1,2,3,5, выбирается пара (X4, Х3), имеющая с зависимой переменной Y наиболее высокий коэффициент детерминации и с учетом поправки по (4.34) .

3-й шаг. Среди всевозможных троек объясняющих переменных (X4, Х3, Xj) j=1,2,5 наиболее информативной оказалась тройка (X4, Х3, X5), имеющая максимальный коэффициент детерминации и соответственно скорректированный коэффициент .

Так как скорректированный коэффициент детерминации на 3-м шаге не увеличился, то в регрессионной модели достаточно ограничиться лишь двумя отобранными ранее объясняющими переменными X4 и X3.

Рассчитанное по формулам (4.8), (4.9) уравнение регрессии по этим переменным примет вид:

.

(0,66) (0,13) (1,07)

Нетрудно убедиться в том, что теперь все коэффициенты регрессии значимы, так как каждое из значений t-статистики

; ;

больше соответствующего табличного значения .

Замечание. Так как значения коэффициентов корреляции весьма высокие (больше 0,8): r12=0,85, r13=0,98, r23=0,88, то, очевидно, из соответствующих трех переменных X1, Х2, X3 две переменные можно было сразу исключить из регрессии и без проведения пошагового отбора, но какие именно переменные исключить – следовало решать, исходя из качественных соображений, основанных на знании предметной области (в данном случае влияния на урожайность факторов сельскохозяйственного производства).

Кроме рассмотренной выше пошаговой процедуры присоединения объясняющих переменных используются также пошаговые процедуры присоединения – удаления и процедура удаления объясняющих переменных, изложенные, например, в [1]. Следует отметить, что какая бы пошаговая процедура ни использовалась, она не гарантирует определения оптимального (в смысле получения максимального коэффициента детерминации ) набора объясняющих переменных. Однако в большинстве случаев получаемые с помощью пошаговых процедур наборы переменных оказываются оптимальными или близкими к оптимальным.