Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
4_Инструкция по выполнению (З-ча 2) в St.docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
4.92 Mб
Скачать

Инструкция по выполнению ТР №2 «Множественная регрессия»

Общие рекомендации: Основная часть расчета выполняется в пакете Statistica. Промежуточные вычисления можно выполнять с помощью обычного калькулятора или в пакете MS Excel.

Подготовка данных:

Запустить программу Statistica.

Внести исследуемые показатели в таблицу можно двумя способами

  1. копированием

При копировании имена наблюдений будут вставлены в первый столбец таблицы (т.е. как 1-ая переменная – Var1. Для того, чтобы они стали именами наблюдений надо выбрать на панели инструментов команду Наблюдения (Cases)→Менеджер имен наблюдений (Cases meneger). В появившемся окне указать, что имена наблюдений будут браться из 1-го столбца (дважды щелкнуть мышкой и в появившемся списке выбрать переменную с именами) лил написать Var1.

  1. используя команду Файл(File)→Открыть (Open).

- В открывшемся диалоговом окне выбрать тип файла (например, Excel или Текстовый), найти файл с данными, выбрать его. →ОК.

- В диалоговом окне программы Statistica указать, что данные будут браться с конкретного выбранного листа (рис. А).

Рис. А

- В следующем окне указать конкретный лист, с которого необходимо взять данные (рис. Б).

Рис. Б.

- Далле – в следующем окне – указать номера импортируемых строк и столбцов (рис. В).

Рис. В.

И если Вы хотите, чтобы имена наблюдений (1-й столбец) и имена переменных (1-я строка) были взяты из файла с данными, то необходимо выставить соответствующие флажки (рис. В).. Можно вставить только имена наблюдений или только имена переменных.

Настройка приложения

Рекомендуется включить опцию составления отчета. Это упростит в дальнейшем составление отчета по типовому расчету. Для этого необходимо выполнить команду

Сервис (Tools) → Параметры(??????).

В отрывшемся окне выбрать вкладку Диспетчер вывода (Output manager) (рис. Г).

Рис. Г.

Выставить флажки и выбрать опции как на рисунке.

Далее выбрать вкладку Отчет (Report) (рис. Д).

Рис. Д.

Выставить флажки и выбрать опции как на рисунке.

В результате все таблицы и графики, которые Вы будете получать в результате решения задачи будут отражаться в отчете, который по окончании работы следует сохранить (файл с расширением rtf).

Перед сохранением просмотрите отчет, не выходя из программы Statistica. Если некоторые из таблиц не полностью отражаются (обрезаны), то пока Вы находитесь в программе Statistica, у Вас есть возможность растянуть таблицы и графики так, чтобы отражались все необходимые данные. После сохранения, открыв отчет в Word, вы не будете иметь такой возможности.

Полученный таким образом отчет, после вставки Ваших комментариев и некоторых дополнительных вычислений (можно от руки), после удаления ненужных комментариев программы Statistica, сдается преподавателю для проверки.

Выполнение типового расчета № 2

Для примера рассмотрим данные:

 

Обозначения признаков

X1

численность населения (в тыс. чел)

X2

рождаемость ( на 1000 чел.)

X3

смертность ( на 1000 чел.)

X4

младенческая смертность - число детей, умерших в возрасте до 1 г. (на 1000 чел.)

X5

среднее число детей в семье

Y

прирост населения (% в год)

Страна

X1

X2

X3

X4

X5

y

1

Австралия

17800

15

8

7,3

1,9

1,38

2

Австрия

8000

12

11

6,7

1,5

0,2

3

Аргентина

33900

20

9

25,6

2,8

1,3

4

Бангладеш

125000

35

11

106

4,7

2,4

5

Беларусь

10300

13

11

19

1,88

0,32

6

Бельгия

10100

12

11

7,2

1,7

0,2

7

Бразилия

156600

21

9

66

2,7

1,28

8

Буркина-Фасо

10000

47

18

118

6,94

2,81

9

Великобритания

58400

13

11

7,2

1,83

0,2

10

Вьетнам

73100

27

8

46

3,33

1,78

11

Гаити

6500

40

19

109

5,94

1,63

12

Германия

81200

11

11

6,5

1,47

0,36

13

Гондурас

5600

35

6

45

4,9

2,73

14

Гонконг

5800

13

6

5,8

1,4

-0,09

15

Египет

60000

29

9

76,4

3,77

1,95

16

Замбия

9100

46

18

85

6,68

2,8

17

Индия

911600

29

10

79

4,48

1,9

18

Ирландия

3600

14

9

7,4

1,99

0,3

19

Испания

39200

11

9

6,9

1,4

0,25

20

Италия

58100

11

10

7,6

1,3

0,21

21

Канада

29100

14

8

6,8

1,8

0,7

22

Китай

1205200

21

7

52

1,84

1,1

23

Колумбия

35600

24

6

28

2,47

2

24

Коста-Рика

3300

26

4

11

3,1

2,3

25

Куба

11100

17

7

10,2

1,9

0,95

26

Малайзия

19500

29

5

25,6

3,51

2,3

27

Марокко

28600

29

6

50

3,83

2,12

28

Мексика

91800

28

5

35

3,2

1,9

29

Нидерланды

15400

13

9

6,3

1,58

0,58

30

Новая Зеландия

3524

16

8

8,9

2,03

0,57

31

Норвегия

4300

13

10

6,3

2

0,4

32

ОАЭ

2800

28

3

22

4,5

4,8

33

Польша

38600

14

10

13,8

1,94

0,3

34

Португалия

10500

12

10

9,2

1,5

0,36

35

Россия

149200

13

11

27

1,83

0,2

36

Саудовская Аравия

18000

38

6

52

6,67

3,2

37

Северная Корея

23100

24

6

27,7

2,4

1,83

38

Сингапур

2900

16

6

5,7

1,8

1,2

39

США

260800

15

9

8,11

2,06

0,99

40

Тайланд

59400

19

6

37

2,1

1,4

41

Турция

62200

26

6

49

3,21

1,02

42

Украина

51800

12

13

20,7

1,82

0,05

43

Филиппины

69800

27

7

51

3,35

1,92

44

Финляндия

5100

13

10

5,3

1,8

0,3

45

Франция

58000

13

9

6,7

1,8

0,47

46

Чили

14000

23

6

14,6

2,5

1,7

47

Швейцария

7000

12

9

6,2

1,6

0,7

48

Швеция

8800

14

11

5,7

2,1

0,52

49

Эфиопия

55200

45

14

110

6,81

3,1

50

ЮАР

43900

34

8

47,1

4,37

2,6

51

Южная Корея

45000

16

6

21,7

1,65

1

52

Япония

125500

11

7

4,4

1,55

0,3

Для набора экономических или финансовых показателей выполнить:

Задание 1. Cпецификацию множественной зависимости. В ходе спецификации определить:

  • мультиколлинеарность факторов;

  • набор информативных факторов;

  • коэффициенты частной корреляции;

  • коэффициент детерминации;

Для выбора формы модели и анализа факторов, которые необходимо включить в модель, необходимо оценить корреляционные связи всех факторов. Это позволит выявить мультиколлинеарные факторы.

Сначала определим основные статистические показатели переменных. Для этого в программе Statistica необходимо выполнить команду: Анализ→Основные статистики и таблицы→Описательные статистики→ ОК

В диалоговом окне (рис. 1) нажать на кнопку Переменные и в появившемся окне (рис. 2) выбрать все переменные → ОК

Рис.1

Рис.2

Вернулись в стартовое окно. В нем необходимо отметить основные статистические характеристики: Число наблюдений, Среднее, Стандартное отклонение, Дисперсия.(рис.1) → ОК

В результате появится таблица, содержащая основные статистические характеристики переменных

Для вычисления парных и частных корреляций необходимо включить другой тип анализа: Анализ → Основные статистики и таблицы→ Парные и частные корреляции→ ОК

Рис.3

В появившемся окне (рис. 4) нажать кнопку Квадратная матрица, в диалоговом окне выбора переменных нажать кнопку Выбрать все или выделить все переменные → ОК.

Рис.4.

Вернулись в стартовое окно. Нажимаем кнопку Матрица парных корреляций. В результате получаем таблицу:

Значения парных корреляций показывают тесную связь результативного признака Y - прирост населения (% в год) – с признаками (последняя строка или последний столбец таблицы:

X2 - рождаемость ( на 1000 чел.)

X4 - младенческая смертность - число детей, умерших в возрасте до 1 г. (на 1000 чел.)

X5 - среднее число детей в семье

ryx2=0,85; ryx4=0,62; ryx5=0,82

Программа Statistica выделяет значимые на 95%-ном уровне корреляции красным цветом.

«Вручную» значимость корреляций можно подтвердить проверкой гипотезы:

H0: r=0

H1: r≠0 с помощью статистики , которая при выполнении нулевой гипотезы имеет распределение Стьюдента с k=(n-2) степенями свободы.

Для нашего примера n=52, тогда k=52-2=50.

Критическое значение показателя может быть вычислено с помищью вероятностного калькулятора в программе Statistica:

Анализ → Вероятностный калькулятор → Распределения (рис. 5)

Рис.5

После ввода всех необходимых параметров нажать кнопку Вычислить.

Критическое значение

Выборочные t-статистики, рассчитанные для парных коэффициентов корреляции (вычислены во вспомогательном файле MS Excel)

 

Значение

t-статистика

 

t кр

Вывод

ryx1

0,010

0,070906752

<

2,009

не значим

ryx2

0,851

11,46396252

>

2,009

значим

ryx3

-0,140

0,997809759

<

2,009

не значим

ryx4

0,615

5,518044665

>

2,009

значим

ryx5

0,820

10,13594613

>

2,009

значим

Оценка парных коэффициентов корреляции между факторами указывает на сильную корреляционную связь переменных X2 и X4 (rx2x4=0,87), X2 и X5 (rx2x5=0,97), X4 и X5 (rx4x5=0,85). Значимой также является корреляционная связь между переменными X3 и X4 (rx3x4=0,46). Анализируя матрицу корреляций можем отметить, что переменная X1 слабо связана как с остальными факторами, так и с результативным признаком. Скорее всего, в уравнении регрессии она не войдет.

Наличие мультиколлинеарности подтверждается также вычислением определителя матрицы корреляций для факторов X1 – X5: Δ=0,0063 (функция МОПРЕД(массив) Excel).

Близкое к нулю значение определителя матрицы корреляций говорит о мультиколлинеарности факторов. Это означает, что при пошаговой процедуре регрессии, какие-то из факторов X2, X4 и X5 будут исключены, как дублирующие.

Более тщательный анализ связи переменных можно провести, вычисляя частные коэффициенты корреляции. Они показывают чистую связь двух признаков, исключая опосредованное влияние других переменных.

В программе Statistica частные коэффициенты корреляции вычисляются с помощью того же модуля Парные и частные корреляции.

Теперь в основном окне модуля необходимо выбрать кнопку Прямоугольная матрица, и в появившемся окне (рис. 6, 7 ):

- в левой части выбрать переменные, для которых вычисляется частный коэффициент корреляции;

-в правой части – указать фиксируемые (исключаемые из рассмотрения) прерменные.

ОК .

Рис.6

Рис.7

Вернулись в стартовое окно. Выбрать кнопку Частные корреляции

В результате получаем таблицу, в которой указаны частные коэффициенты корреляции между двумя выбранными переменными (X1 и X2).

Аналогично можно рассчитать частные коэффициенты корреляций между всеми переменными. Интересно было бы отследить частные коэффициенты корреляции для предполагаемых мультиколлинеарных факторов:

X2 и X4

X2 и X5

X4 и X5

Оказывается переменные X4 и X5 очень слабо связаны, причем эта связь не подтверждается при проверке гипотезы о значимости частного коэффициента корреляции:

H0: r=0

H1: r≠0 с помощью статистики , которая при выполнении нулевой гипотезы имеет распределение Стьюдента с k=(n-l-1) степенями свободы, где l – число фиксируемых факторов.

Для нашего примера n=52, l=4, тогда k=52-4-2=46; с помощью вероятностного калькулятора вычисляем

Частные коэффициенты корреляции

 

Значение

t-статистика

 

t кр

Вывод

rx1x2/…

-0,140

0,969338168

<

2,012896

не значим

rx2x4/…

0,580

4,881167757

>

2,012896

значим

rx2x5/…

0,700

6,71988562

>

2,012896

значим

rx4x5/…

-0,090

0,619523084

<

2,012896

не значим

Большое значение парного коэффициента корреляции между переменными X4 и X5 – результат косвенного влияния переменной X2, которая действительно тесно связана и с X4, и с X5.

Вычисление множественных коэффициентов корреляции позволяет оценить тесноту связи каждой переменной со всеми остальными.

При этом в качестве исходной матрицы корреляций рассматривается матрица корреляций объясняющих факторов (у нас X1 – X5) (если, конечно, известно, какая переменная берется в качестве объясняемой).

Если же непонятно, какую переменную брать в качестве объясняемой (невозможно установить из смысла переменных или из экономической теории), то вычисление множественных коэффициентов корреляции позволяет определить эту переменную: в качестве объясняемой переменной выбирается та, для которой коэффициент множественной корреляции R (или коэффициент детерминации R2) будет максимальным.

Существуют формулы, основанные на матричном исчислении, которые позволяют найти R и R2. Мы воспользуемся возможностью пакета Statistica: построим уравнения регрессии каждого фактора на все остальные. Причем, нас будет интересовать только показатель R или R2.

Выполним команду Анализ→Множественная регрессия. (рис.8) В появившемся окне нажать кнопку Переменные. В окне «Списки зависимых и независимых переменных» слева указать ,например, переменную X1, а справа – все остальные факторные переменные X2, X3, X4, X5. → ОК

Рис. 8

Вы вернетесь в стартовое окно. Нажатие кнопки ОК приведет к построению уравнения регрессии X1 от всех остальных факторов. Появится окно «Результаты множественной регрессии» (рис. 9)

Рис.9

В нем в первой строчке прописан искомый параметр – множественный коэффициент корреляции – 0,496. Выпишем его отдельно на листок. Нажмем кнопку Отмена. Продолжим процедуру, взяв в качестве объясняемой переменной другой фактор – X2, а в качестве объясняющих – X1, X3, X4, X5. В результате получим следующие коэффициенты множественной корреляции:

Rx1

0,496

Rx2

0,981

Rx3

0,712

Rx4

0,934

Rx5

0,974

Замечание: Если бы у нас не была указана объясняемая переменная Y, то в результате сравнения множественных коэффициентов корреляции (или коэффициентов детерминации) мы выбрали бы переменную X2 в качестве объясняемой и переименовали бы ее в Y.

Для определения спецификации модели (линейные или нелинейные зависимости Y от Xi) воспользуемся возможностью программы Statistica: построим графики зависимости Y от всех факторов: Графика→Матричные графики

В появившемся окне выберем опцию Прямоуг. Матрица рассеяния (рис. 10) и нажмем кнопку Переменные.

Рис.10.

Появится окно выбора переменных, в котором следует указать независимые переменные (все Xi) – в левой части окна, и зависимую – Y – в правой. ОК. (рис. 11)

Рис.11

В стартовом окне нажать кнопку ОК. В результате получим графики, анализируя которые можно выдвинуть гипотезы о виде зависимости результата от каждого из факторов (рис. 12).

Рис. 12.

Вид графиков рассеяния точек наводит на мысль, что зависимость Y от X2, X4 и X5 – прямая, а от X3 – обратная. Причем, зависимость Y от X2 и X5 напоминает по виду логарифмическую кривую или параболу. Зависимость Y от X4 скорее всего линейная или гиперболическая. Относительно вида зависимости Y от X1 затруднительно что-либо предположить. Нам известно из предыдущих вычислений, что коэффициент корреляции для переменных Y и X1 – незначим, т.е. равен нулю.

Задание 2. Построение линейной формы с полным набором факторов и оценка качества построенной модели;

Строим линейную модель множественной регрессии со всеми переменными:

Выполним команду Анализ→Множественная регрессия. (рис.13) В появившемся окне нажать кнопку Переменные. В окне «Списки зависимых и независимых переменных» слева указать зависимую переменную Y, а справа – все остальные факторные переменные X1, X2, X3, X4, X5. → ОК

В стартовом окне, куда мы возвратились, нажать кнопку ОК.

Рис. 13

В результате появится окно итогов построения модели множественной регрессии (рис.14)

Рис. 14

Для анализа построенной модели выведем результаты – кнопка Итоговая таблица регрессии.

В результате Statistica выдает две таблицы: Итоговые статистики и Итоги регрессии

Таблица. Итоговые статистики

Таблица. Итоги регрессии

Уравнение регрессии имеет вид:

В последней таблице значимые коэффициенты при переменных выделены красным цветом.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]