Добавил:
Надеюсь, кому-то пригодятся мои мучения за 3-4 курс Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

5.1 задача

.docx
Скачиваний:
8
Добавлен:
09.04.2021
Размер:
27.23 Кб
Скачать

Модуль IV. Множественная регрессия. Вариант 27

Задача 4.1. Отбор факторов при формировании модели множественной регрессии.

Условие: в приложении 1 представлена база данных – результаты выборочного наблюдения за производственно-экономическими характеристиками с.-х. предприятий. Число наблюдений равно 30. Представлена информация о значениях трех факторов и результативном признаке – выручка в расчете на 100 га с./х. угодий, тыс. руб.

Решение. В соответствии с правилами отбора факторов в уравнение регрессии, все факторы должны иметь количественное выражение. В базе данных все выражено числовым значением. Таким образом, мы имеем четыре количественные переменные: одна результативная и четыре факторных. Занесем их столбцами в таблицу Excel.

Табл. 4.1.1. Исходные данные

№ п/п

X1

X2

X3

Y

1

3,00

457,01

71

689,50

2

5,83

519,99

91

1082,37

3

21,67

908,33

142

2583,33

4

6,90

386,21

49

164,14

5

3,44

645,00

116

1385,26

6

4,72

545,02

96

1105,51

7

5,39

691,98

124

1461,75

8

6,72

722,98

126

1671,21

9

5,63

697,02

125

1526,15

10

4,39

619,98

114

1374,82

11

4,87

693,00

124

1467,51

12

8,68

808,96

138

2254,44

13

3,98

402,96

58

402,96

14

5,12

589,08

104

1177,99

15

1,78

412,01

59

395,02

16

18,17

889,98

150

3854,66

17

5,62

808,00

136

2191,60

18

4,77

725,00

127

1672,68

19

2,43

423,00

65

620,00

20

4,55

809,99

139

2309,67

21

3,49

581,00

101

1170,10

22

2,85

390,00

54

295,35

23

3,16

457,99

71

702,18

24

6,87

914,99

144

3151,10

25

4,79

500,00

80

860,33

26

2,35

401,00

60

415,26

27

2,78

398,00

57

362,48

28

2,17

451,00

69

654,34

29

3,12

411,99

61

554,93

30

3,64

513,02

89

1048,81

Где

X1 - трудообеспеченность, чел./100 га.;

X2 – энергообеспеченность, л.с./100 га.;

X3 - балл почвы;

Y - выручка в расчете на 100 га с./х. угодий, тыс. руб.

Если мы хотим включить все факторы в модель с целью получения максимального коэффициента детерминации, то необходимо проверить соблюдение прочих ограничений по отбору факторов. Требование по соотношению числа факторов и числа наблюдений выполняется: поскольку на каждый фактор в модели требуется минимум 6-7 наблюдений, то минимальное число наблюдений должно быть 18-21, а в базе данных представлено целых 30 наблюдений.

Следующие ограничения состоят в том, что ни один из факторов не может быть частью другого и факторы не должны быть интеркоррелированы. В нашем случае эти требования нарушаются: жилая площадь квартиры и площадь кухни являются частью общей площади, а число комнат тесно связано с жилой и общей площадью квартиры. Чтобы выяснить, какие факторы следует оставить в модели, а какие из них исключить, проверим их на мультиколлинеарность. Для этого используем встроенный в Excel инструмент «Пакет анализа», выбираем «Корреляция». Входной интервал охватывает весь массив данных без условных обозначений. Выводим результат анализа на экран: он будет представлять собой шахматную таблицу, где показаны коэффициенты парной корреляции каждой переменной с каждой (табл.4.1.2). Необходимо внимательно отнестись к последовательности столбцов во входном интервале, поскольку коэффициенты парной корреляции будут даны в такой же последовательности.

Табл 4.1.2. Коэффициенты парной корреляции

 

X1

X2

X3

Y

X1

1

X2

0,667743261

1

X3

0,583052281

0,979711495

1

Y

0,715695237

0,955542384

0,920304655

1

Шахматная таблица коэффициентов по диагонали имеет единицы, поскольку в этих ячейках измеряется корреляционная связь каждой переменной с самой собой. В других ячейках на пересечении столбца и строки показаны коэффициенты корреляции между соответствующими переменными. Серым фоном выделены значения коэффициентов более 0,7: мы видим очень тесную связь между факторами X2 и X3 (r2-3=0,98). Чтобы решить вопрос о том, какие из них следует оставить в модели, нужно измерить зависимость каждого фактора со всеми остальными.

Для этой цели мы будем использовать встроенный инструмент «регрессия». В базе данных каждый раз будет требоваться перестановка столбцов, поскольку в качестве зависимой переменной («входной интервал у») будут вводиться последовательно все факторы, ответственные за мультиколлинеарность, а «входной интервал х» должен охватывать все остальные факторные столбцы единым массивом. В Выводе итогов на экран нас интересует только один показатель – множественный коэффициент детерминации. Именно он покажет, как сильно данный фактор связан со всеми остальными. Из модели будем удалять факторы с максимальным множественным коэффициентом детерминации межфакторной связи (табл. 4.1.3.).

Анализируя мультиколлинеарность второго и третьего факторов, мы видим, что коэффициент детерминации второго фактора с остальными является максимальным (0,974>0,969). Следовательно, второй фактор (энергообеспеченность, л.с./100 га.) следует удалить из модели.

Табл. 4.1.3. Анализ межфакторной взаимосвязи

ВЫВОД ИТОГОВ

X2 от факторов X1 и X3

X3 от факторов X1 и X2

Регрессионная статистика

Регрессионная статистика

Множественный R

0,987

Множественный R

0,984

R-квадрат

0,974

R-квадрат

0,969

Нормированный R-квадрат

0,972

Нормированный R-квадрат

0,967

Наблюдения

30

Наблюдения

30

Таким образом, на этом этапе мы оставили два фактора – X1 и X3. Повторим процедуру выявления коллинеарности для оставшихся переменных (табл.4.1.4).

Табл. 4.1.4 Коэффициенты парной корреляции

 

X1

X3

Y

X1

1

X3

0,583052281

1

Y

0,715695237

0,920304655

1

Как видим, полностью избавиться от факторной взаимосвязи удалось.

Так как ни один из коэффициентов межфакторной связи по своей величине не превышает 0,7, мы получили оптимальный состав переменных для построения корректной модели множественной регрессии.

Вывод. Анализ состава переменных на предмет мультиколлинеарности позволил нам обнаружить и исключить из модели факторы с наибольшим коэффициентом межфакторной связи. В окончательном варианте в модель множественной регрессии рекомендуется включить следующие переменные:

Y - выручка в расчете на 100 га с./х. угодий, тыс. руб.;

X1 - трудообеспеченность, чел./100 га.;

X3 - балл почвы.

Соседние файлы в предмете Статистическая обработка кадастровой информации