- •Выполнение типового расчета № 2
- •Проверим значимость уравнения регрессии в целом. Проверяемая гипотеза:
- •Для проверки значимости коэффициентов используется t-статистика Стьюдента, которая вычисляется для каждого коэффициента:
- •Выполним задания 5, 6 и 7 для построенной линейной модели множественной регрессии.
- •Блоковые статистики→по столбцам→Среднее
- •Блоковые статистики→по столбцам→Сумма
Инструкция по выполнению ТР №2 «Множественная регрессия»
Общие рекомендации: Основная часть расчета выполняется в пакете Statistica. Промежуточные вычисления можно выполнять с помощью обычного калькулятора или в пакете MS Excel.
Подготовка данных:
Запустить программу Statistica.
Внести исследуемые показатели в таблицу можно двумя способами
копированием
При копировании имена наблюдений будут вставлены в первый столбец таблицы (т.е. как 1-ая переменная – Var1. Для того, чтобы они стали именами наблюдений надо выбрать на панели инструментов команду Наблюдения (Cases)→Менеджер имен наблюдений (Cases meneger). В появившемся окне указать, что имена наблюдений будут браться из 1-го столбца (дважды щелкнуть мышкой и в появившемся списке выбрать переменную с именами) лил написать Var1.
используя команду Файл(File)→Открыть (Open).
- В открывшемся диалоговом окне выбрать тип файла (например, Excel или Текстовый), найти файл с данными, выбрать его. →ОК.
- В диалоговом окне программы Statistica указать, что данные будут браться с конкретного выбранного листа (рис. А).
Рис. А
- В следующем окне указать конкретный лист, с которого необходимо взять данные (рис. Б).
Рис. Б.
- Далле – в следующем окне – указать номера импортируемых строк и столбцов (рис. В).
Рис. В.
И если Вы хотите, чтобы имена наблюдений (1-й столбец) и имена переменных (1-я строка) были взяты из файла с данными, то необходимо выставить соответствующие флажки (рис. В).. Можно вставить только имена наблюдений или только имена переменных.
Настройка приложения
Рекомендуется включить опцию составления отчета. Это упростит в дальнейшем составление отчета по типовому расчету. Для этого необходимо выполнить команду
Сервис (Tools) → Параметры(??????).
В отрывшемся окне выбрать вкладку Диспетчер вывода (Output manager) (рис. Г).
Рис. Г.
Выставить флажки и выбрать опции как на рисунке.
Далее выбрать вкладку Отчет (Report) (рис. Д).
Рис. Д.
Выставить флажки и выбрать опции как на рисунке.
В результате все таблицы и графики, которые Вы будете получать в результате решения задачи будут отражаться в отчете, который по окончании работы следует сохранить (файл с расширением rtf).
Перед сохранением просмотрите отчет, не выходя из программы Statistica. Если некоторые из таблиц не полностью отражаются (обрезаны), то пока Вы находитесь в программе Statistica, у Вас есть возможность растянуть таблицы и графики так, чтобы отражались все необходимые данные. После сохранения, открыв отчет в Word, вы не будете иметь такой возможности.
Полученный таким образом отчет, после вставки Ваших комментариев и некоторых дополнительных вычислений (можно от руки), после удаления ненужных комментариев программы Statistica, сдается преподавателю для проверки.
Выполнение типового расчета № 2
Для примера рассмотрим данные:
|
Обозначения признаков |
X1 |
численность населения (в тыс. чел) |
X2 |
рождаемость ( на 1000 чел.) |
X3 |
смертность ( на 1000 чел.) |
X4 |
младенческая смертность - число детей, умерших в возрасте до 1 г. (на 1000 чел.) |
X5 |
среднее число детей в семье |
Y |
прирост населения (% в год) |
№ |
Страна |
X1 |
X2 |
X3 |
X4 |
X5 |
y |
1 |
Австралия |
17800 |
15 |
8 |
7,3 |
1,9 |
1,38 |
2 |
Австрия |
8000 |
12 |
11 |
6,7 |
1,5 |
0,2 |
3 |
Аргентина |
33900 |
20 |
9 |
25,6 |
2,8 |
1,3 |
4 |
Бангладеш |
125000 |
35 |
11 |
106 |
4,7 |
2,4 |
5 |
Беларусь |
10300 |
13 |
11 |
19 |
1,88 |
0,32 |
6 |
Бельгия |
10100 |
12 |
11 |
7,2 |
1,7 |
0,2 |
7 |
Бразилия |
156600 |
21 |
9 |
66 |
2,7 |
1,28 |
8 |
Буркина-Фасо |
10000 |
47 |
18 |
118 |
6,94 |
2,81 |
9 |
Великобритания |
58400 |
13 |
11 |
7,2 |
1,83 |
0,2 |
10 |
Вьетнам |
73100 |
27 |
8 |
46 |
3,33 |
1,78 |
11 |
Гаити |
6500 |
40 |
19 |
109 |
5,94 |
1,63 |
12 |
Германия |
81200 |
11 |
11 |
6,5 |
1,47 |
0,36 |
13 |
Гондурас |
5600 |
35 |
6 |
45 |
4,9 |
2,73 |
14 |
Гонконг |
5800 |
13 |
6 |
5,8 |
1,4 |
-0,09 |
15 |
Египет |
60000 |
29 |
9 |
76,4 |
3,77 |
1,95 |
16 |
Замбия |
9100 |
46 |
18 |
85 |
6,68 |
2,8 |
17 |
Индия |
911600 |
29 |
10 |
79 |
4,48 |
1,9 |
18 |
Ирландия |
3600 |
14 |
9 |
7,4 |
1,99 |
0,3 |
19 |
Испания |
39200 |
11 |
9 |
6,9 |
1,4 |
0,25 |
20 |
Италия |
58100 |
11 |
10 |
7,6 |
1,3 |
0,21 |
21 |
Канада |
29100 |
14 |
8 |
6,8 |
1,8 |
0,7 |
22 |
Китай |
1205200 |
21 |
7 |
52 |
1,84 |
1,1 |
23 |
Колумбия |
35600 |
24 |
6 |
28 |
2,47 |
2 |
24 |
Коста-Рика |
3300 |
26 |
4 |
11 |
3,1 |
2,3 |
25 |
Куба |
11100 |
17 |
7 |
10,2 |
1,9 |
0,95 |
26 |
Малайзия |
19500 |
29 |
5 |
25,6 |
3,51 |
2,3 |
27 |
Марокко |
28600 |
29 |
6 |
50 |
3,83 |
2,12 |
28 |
Мексика |
91800 |
28 |
5 |
35 |
3,2 |
1,9 |
29 |
Нидерланды |
15400 |
13 |
9 |
6,3 |
1,58 |
0,58 |
30 |
Новая Зеландия |
3524 |
16 |
8 |
8,9 |
2,03 |
0,57 |
31 |
Норвегия |
4300 |
13 |
10 |
6,3 |
2 |
0,4 |
32 |
ОАЭ |
2800 |
28 |
3 |
22 |
4,5 |
4,8 |
33 |
Польша |
38600 |
14 |
10 |
13,8 |
1,94 |
0,3 |
34 |
Португалия |
10500 |
12 |
10 |
9,2 |
1,5 |
0,36 |
35 |
Россия |
149200 |
13 |
11 |
27 |
1,83 |
0,2 |
36 |
Саудовская Аравия |
18000 |
38 |
6 |
52 |
6,67 |
3,2 |
37 |
Северная Корея |
23100 |
24 |
6 |
27,7 |
2,4 |
1,83 |
38 |
Сингапур |
2900 |
16 |
6 |
5,7 |
1,8 |
1,2 |
39 |
США |
260800 |
15 |
9 |
8,11 |
2,06 |
0,99 |
40 |
Тайланд |
59400 |
19 |
6 |
37 |
2,1 |
1,4 |
41 |
Турция |
62200 |
26 |
6 |
49 |
3,21 |
1,02 |
42 |
Украина |
51800 |
12 |
13 |
20,7 |
1,82 |
0,05 |
43 |
Филиппины |
69800 |
27 |
7 |
51 |
3,35 |
1,92 |
44 |
Финляндия |
5100 |
13 |
10 |
5,3 |
1,8 |
0,3 |
45 |
Франция |
58000 |
13 |
9 |
6,7 |
1,8 |
0,47 |
46 |
Чили |
14000 |
23 |
6 |
14,6 |
2,5 |
1,7 |
47 |
Швейцария |
7000 |
12 |
9 |
6,2 |
1,6 |
0,7 |
48 |
Швеция |
8800 |
14 |
11 |
5,7 |
2,1 |
0,52 |
49 |
Эфиопия |
55200 |
45 |
14 |
110 |
6,81 |
3,1 |
50 |
ЮАР |
43900 |
34 |
8 |
47,1 |
4,37 |
2,6 |
51 |
Южная Корея |
45000 |
16 |
6 |
21,7 |
1,65 |
1 |
52 |
Япония |
125500 |
11 |
7 |
4,4 |
1,55 |
0,3 |
Для набора экономических или финансовых показателей выполнить:
Задание 1. Cпецификацию множественной зависимости. В ходе спецификации определить:
мультиколлинеарность факторов;
набор информативных факторов;
коэффициенты частной корреляции;
коэффициент детерминации;
Для выбора формы модели и анализа факторов, которые необходимо включить в модель, необходимо оценить корреляционные связи всех факторов. Это позволит выявить мультиколлинеарные факторы.
Сначала определим основные статистические показатели переменных. Для этого в программе Statistica необходимо выполнить команду: Анализ→Основные статистики и таблицы→Описательные статистики→ ОК
В диалоговом окне (рис. 1) нажать на кнопку Переменные и в появившемся окне (рис. 2) выбрать все переменные → ОК
Рис.1
Рис.2
Вернулись в стартовое окно. В нем необходимо отметить основные статистические характеристики: Число наблюдений, Среднее, Стандартное отклонение, Дисперсия.(рис.1) → ОК
В результате появится таблица, содержащая основные статистические характеристики переменных
Для вычисления парных и частных корреляций необходимо включить другой тип анализа: Анализ → Основные статистики и таблицы→ Парные и частные корреляции→ ОК
Рис.3
В появившемся окне (рис. 4) нажать кнопку Квадратная матрица, в диалоговом окне выбора переменных нажать кнопку Выбрать все или выделить все переменные → ОК.
Рис.4.
Вернулись в стартовое окно. Нажимаем кнопку Матрица парных корреляций. В результате получаем таблицу:
Значения парных корреляций показывают тесную связь результативного признака Y - прирост населения (% в год) – с признаками (последняя строка или последний столбец таблицы:
X2 - рождаемость ( на 1000 чел.)
X4 - младенческая смертность - число детей, умерших в возрасте до 1 г. (на 1000 чел.)
X5 - среднее число детей в семье
ryx2=0,85; ryx4=0,62; ryx5=0,82
Программа Statistica выделяет значимые на 95%-ном уровне корреляции красным цветом.
«Вручную» значимость корреляций можно подтвердить проверкой гипотезы:
H0: r=0
H1:
r≠0
с помощью статистики
, которая при выполнении нулевой гипотезы
имеет распределение Стьюдента с k=(n-2)
степенями свободы.
Для нашего примера n=52, тогда k=52-2=50.
Критическое
значение показателя
может быть вычислено с помищью
вероятностного калькулятора в программе
Statistica:
Анализ → Вероятностный калькулятор → Распределения (рис. 5)
Рис.5
После ввода всех необходимых параметров нажать кнопку Вычислить.
Критическое
значение
Выборочные t-статистики, рассчитанные для парных коэффициентов корреляции (вычислены во вспомогательном файле MS Excel)
|
Значение |
t-статистика |
|
t кр |
Вывод |
ryx1 |
0,010 |
0,070906752 |
< |
2,009 |
не значим |
ryx2 |
0,851 |
11,46396252 |
> |
2,009 |
значим |
ryx3 |
-0,140 |
0,997809759 |
< |
2,009 |
не значим |
ryx4 |
0,615 |
5,518044665 |
> |
2,009 |
значим |
ryx5 |
0,820 |
10,13594613 |
> |
2,009 |
значим |
Оценка парных коэффициентов корреляции между факторами указывает на сильную корреляционную связь переменных X2 и X4 (rx2x4=0,87), X2 и X5 (rx2x5=0,97), X4 и X5 (rx4x5=0,85). Значимой также является корреляционная связь между переменными X3 и X4 (rx3x4=0,46). Анализируя матрицу корреляций можем отметить, что переменная X1 слабо связана как с остальными факторами, так и с результативным признаком. Скорее всего, в уравнении регрессии она не войдет.
Наличие мультиколлинеарности подтверждается также вычислением определителя матрицы корреляций для факторов X1 – X5: Δ=0,0063 (функция МОПРЕД(массив) Excel).
Близкое к нулю значение определителя матрицы корреляций говорит о мультиколлинеарности факторов. Это означает, что при пошаговой процедуре регрессии, какие-то из факторов X2, X4 и X5 будут исключены, как дублирующие.
Более тщательный анализ связи переменных можно провести, вычисляя частные коэффициенты корреляции. Они показывают чистую связь двух признаков, исключая опосредованное влияние других переменных.
В программе Statistica частные коэффициенты корреляции вычисляются с помощью того же модуля Парные и частные корреляции.
Теперь в основном окне модуля необходимо выбрать кнопку Прямоугольная матрица, и в появившемся окне (рис. 6, 7 ):
- в левой части выбрать переменные, для которых вычисляется частный коэффициент корреляции;
-в правой части – указать фиксируемые (исключаемые из рассмотрения) прерменные.
ОК .
Рис.6
Рис.7
Вернулись в стартовое окно. Выбрать кнопку Частные корреляции
В результате получаем таблицу, в которой указаны частные коэффициенты корреляции между двумя выбранными переменными (X1 и X2).
Аналогично можно рассчитать частные коэффициенты корреляций между всеми переменными. Интересно было бы отследить частные коэффициенты корреляции для предполагаемых мультиколлинеарных факторов:
X2 и X4
X2 и X5
X4 и X5
Оказывается переменные X4 и X5 очень слабо связаны, причем эта связь не подтверждается при проверке гипотезы о значимости частного коэффициента корреляции:
H0: r=0
H1:
r≠0
с помощью статистики
, которая при выполнении нулевой гипотезы
имеет распределение Стьюдента с k=(n-l-1)
степенями свободы, где l
– число фиксируемых факторов.
Для нашего примера
n=52,
l=4,
тогда k=52-4-2=46;
с помощью
вероятностного калькулятора вычисляем
Частные коэффициенты корреляции
-
Значение
t-статистика
t кр
Вывод
rx1x2/…
-0,140
0,969338168
<
2,012896
не значим
rx2x4/…
0,580
4,881167757
>
2,012896
значим
rx2x5/…
0,700
6,71988562
>
2,012896
значим
rx4x5/…
-0,090
0,619523084
<
2,012896
не значим
Большое значение парного коэффициента корреляции между переменными X4 и X5 – результат косвенного влияния переменной X2, которая действительно тесно связана и с X4, и с X5.
Вычисление множественных коэффициентов корреляции позволяет оценить тесноту связи каждой переменной со всеми остальными.
При этом в качестве исходной матрицы корреляций рассматривается матрица корреляций объясняющих факторов (у нас X1 – X5) (если, конечно, известно, какая переменная берется в качестве объясняемой).
Если же непонятно, какую переменную брать в качестве объясняемой (невозможно установить из смысла переменных или из экономической теории), то вычисление множественных коэффициентов корреляции позволяет определить эту переменную: в качестве объясняемой переменной выбирается та, для которой коэффициент множественной корреляции R (или коэффициент детерминации R2) будет максимальным.
Существуют формулы, основанные на матричном исчислении, которые позволяют найти R и R2. Мы воспользуемся возможностью пакета Statistica: построим уравнения регрессии каждого фактора на все остальные. Причем, нас будет интересовать только показатель R или R2.
Выполним команду Анализ→Множественная регрессия. (рис.8) В появившемся окне нажать кнопку Переменные. В окне «Списки зависимых и независимых переменных» слева указать ,например, переменную X1, а справа – все остальные факторные переменные X2, X3, X4, X5. → ОК
Рис. 8
Вы вернетесь в стартовое окно. Нажатие кнопки ОК приведет к построению уравнения регрессии X1 от всех остальных факторов. Появится окно «Результаты множественной регрессии» (рис. 9)
Рис.9
В нем в первой строчке прописан искомый параметр – множественный коэффициент корреляции – 0,496. Выпишем его отдельно на листок. Нажмем кнопку Отмена. Продолжим процедуру, взяв в качестве объясняемой переменной другой фактор – X2, а в качестве объясняющих – X1, X3, X4, X5. В результате получим следующие коэффициенты множественной корреляции:
-
Rx1
0,496
Rx2
0,981
Rx3
0,712
Rx4
0,934
Rx5
0,974
Замечание: Если бы у нас не была указана объясняемая переменная Y, то в результате сравнения множественных коэффициентов корреляции (или коэффициентов детерминации) мы выбрали бы переменную X2 в качестве объясняемой и переименовали бы ее в Y.
Для определения спецификации модели (линейные или нелинейные зависимости Y от Xi) воспользуемся возможностью программы Statistica: построим графики зависимости Y от всех факторов: Графика→Матричные графики
В появившемся окне выберем опцию Прямоуг. Матрица рассеяния (рис. 10) и нажмем кнопку Переменные.
Рис.10.
Появится окно выбора переменных, в котором следует указать независимые переменные (все Xi) – в левой части окна, и зависимую – Y – в правой. ОК. (рис. 11)
Рис.11
В стартовом окне нажать кнопку ОК. В результате получим графики, анализируя которые можно выдвинуть гипотезы о виде зависимости результата от каждого из факторов (рис. 12).
Рис. 12.
Вид графиков рассеяния точек наводит на мысль, что зависимость Y от X2, X4 и X5 – прямая, а от X3 – обратная. Причем, зависимость Y от X2 и X5 напоминает по виду логарифмическую кривую или параболу. Зависимость Y от X4 скорее всего линейная или гиперболическая. Относительно вида зависимости Y от X1 затруднительно что-либо предположить. Нам известно из предыдущих вычислений, что коэффициент корреляции для переменных Y и X1 – незначим, т.е. равен нулю.
Задание 2. Построение линейной формы с полным набором факторов и оценка качества построенной модели;
Строим линейную модель множественной регрессии со всеми переменными:
Выполним команду Анализ→Множественная регрессия. (рис.13) В появившемся окне нажать кнопку Переменные. В окне «Списки зависимых и независимых переменных» слева указать зависимую переменную Y, а справа – все остальные факторные переменные X1, X2, X3, X4, X5. → ОК
В стартовом окне, куда мы возвратились, нажать кнопку ОК.
Рис. 13
В
результате появится окно итогов
построения модели множественной
регрессии (рис.14)
Рис. 14
Для анализа построенной модели выведем результаты – кнопка Итоговая таблица регрессии.
В результате Statistica выдает две таблицы: Итоговые статистики и Итоги регрессии
Таблица. Итоговые статистики
Таблица. Итоги регрессии
Уравнение регрессии имеет вид:
В последней таблице значимые коэффициенты при переменных выделены красным цветом.
