Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ек-ка студент.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
2.27 Mб
Скачать

Дослідження наявнoстi мультиколінеарності у масиві змінних

Завдання: Визначити вплив на ціну легкового автомобіля (Y) таких факторів як вік автомашини (Х1), об’єм двигуна (Х2) та пробіг (Х3).

Кількість пояснюючих змінних m>1, постає питання про те, щоб виконувалась передумова застосування методу найменших квадратів - відсутність зв’язку між регресорами. Тому перед побудовою моделі проведемо тест на наявність мультиколінеарності.

п/п

( i )

Ціна автомобіля

(Y),

тис.дол..США

Вік автомобіля (X1),

Роки

Об’єм двигуна автомобіля

(X2),

дм3

Пробіг

Автомобіля

(X3),

тис.км

1

11

6

3

129

2

3,2

10

1,3

150

3

8,7

10

1,8

137

4

1,6

16

1,8

201

5

17

2

2,4

60

6

18,9

4

4

112

7

15,8

3

2

74

8

18

6

3

165

9

19

3

4

62

10

6

6

1,6

100

11

13

6

2,6

44

12

22,7

5

2,1

101

13

13,9

3

2

100

14

10,9

3

1,5

57

15

9,5

8

2,6

167

16

28

3

2,2

53

17

6

8

1,8

120

18

5,8

9

1,6

89

19

2,8

11

1,6

30

20

26

1

2,2

16

21

10,5

6

2

117

22

16,9

7

2,3

149

23

3,4

9

1,5

100

24

14

1

1,4

8

25

23

1

1,8

30

Середнє

13,0240

5,8800

2,1640

94,8400

Дисперсія

55,9244

13,5267

0,5157

2606,2233

σ

7,4783

3,6779

0,7181

51,0512

Необхідно:

  1. нормалізувати статистичну інформацію;

  2. обчислити кореляційну матрицю та вектор коефіцієнтів парної кореляції;

  3. розрахувати визначник кореляційної матриці та перевірити його відмінність від нуля;

  4. знайти матрицю, обернену до кореляційної, і на основі її елементів:

    1. розрахувати часткові коефіцієнти парної кореляції та перевірити їх статистичну значущість за t-критерієм;

    2. за F-критерієм перевірити суттєвість зв’язку кожної пояснюючої змінної з рештою регресорів;

5) визначити змінні, між якими відсутній зв’язок і які можна включити до моделі в якості незалежних змінних.

І. Дослідження моделі на мультиколінеарність

  • Нормалізуємо вхідну інформацію: .

Нормалізовані дані записані в таблиці

№ п/п

Y*

X* 1

X*2

X*3

1

-0,2707

0,0326

1,1641

0,6691

2

-1,3137

1,1202

-1,2031

1,0805

3

-0,5782

1,1202

-0,5069

0,8258

4

-1,5276

2,7516

-0,5069

2,0795

5

0,5317

-1,0550

0,3286

-0,6825

6

0,7857

-0,5112

2,5566

0,3361

7

0,3712

-0,7831

-0,2284

-0,4082

8

0,6654

0,0326

1,1641

1,3743

9

0,7991

-0,7831

2,5566

-0,6433

10

-0,9393

0,0326

-0,7854

0,1011

11

-0,0032

0,0326

0,6071

-0,9959

12

1,2939

-0,2393

-0,0891

0,1207

13

0,1171

-0,7831

-0,2284

0,1011

14

-0,2840

-0,7831

-0,9246

-0,7412

15

-0,4712

0,5764

0,6071

1,4135

16

2,0026

-0,7831

0,0501

-0,8196

17

-0,9393

0,5764

-0,5069

0,4928

18

-0,9660

0,8483

-0,7854

-0,1144

19

-1,3672

1,3921

-0,7854

-1,2701

20

1,7352

-1,3269

0,0501

-1,5443

21

-0,3375

0,0326

-0,2284

0,4341

22

0,5183

0,3045

0,1894

1,0609

23

-1,2869

0,8483

-0,9246

0,1011

24

0,1305

-1,3269

-1,0639

-1,7010

25

1,3340

-1,3269

-0,5069

-1,2701

На основі нормалізованих даних обчислимо кореляційну матрицю r та вектор коефіцієнтів парної кореляції : .

Маємо: .

  • Перевіримо наявність мультиколінеарності серед пояснюючих змінних.

Спочатку обчислимо визначник кореляційної матриці det(r) :

det(r) =0,4344.

Визначник не дорівнює нулю, таким чином, між регресорами відсутній лінійний зв’язок. Переконаємося також у відсутності тісного кореляційного зв’язку між змінними .

Якщо визначник кореляційної матриці наближається до одиниці, можемо говорити про відсутність мультиколінеарності та незалежність факторів, включених до моделі. Статистична оцінка відсутності зв’язку між регресорами може бути перевірена за допомогою гіпотези про незалежність змінних, на основі яких розраховано кореляційну матрицю, . Доведено, що величина:

має приблизний розподіл 2 з ступенями свободи. Якщо статистичне значення менше за табличне (критичне) значення <2,k., то гіпотеза приймається.

Для визначника обчисленої кореляційної матриці 2=18,48. Порівняємо 2 із табличним значенням 2,k з ступенями свободи при рівні значущості  = 0,05. Так як m = 3, то 2,k = 7,81. Отже, 2>2,k. Це означає, що треба відхилити нульову гіпотезу , і визначник кореляційної матриці суттєво відрізняється від 1, що, в свою чергу, свідчить про наявность мультиколінеарності пояснюючих змінних.

  • Далі обчислимо матрицю, обернену до кореляційної матриці r:

.

За елементами матриці С розрахуємо часткові коефіцієнти парної кореляції: .

Перевіримо статистичну значущість часткових коефіцієнтів парної кореляції на основі t–критерію. .

.

Табличне значення критерію t/2,k. = 2,069 при рівні значущості = 0,05 та ступені свободи k = n-m =23: > t/2,k, > t/2,k,

що дозволяє відхилити нульову гіпотезу про рівність нулю часткових коефіцієнтів парної кореляції і ; < t/2,k,

у даному випадку приймаємо нульову гіпотезу про рівність нулю часткового коефіцієнта парної кореляції .

Таким чином, між змінними X1 і X2 та X1 і X3 існує тісний кореляційний зв’язок, що свідчить про наявність мультиколінеаності.

  • Якщо кореляційна матриця r відмінна від одиничної, то й обернена до неї матриця C також відмінна від одиничної. Розглянемо величину

,

де - діагональний елемент матриці C, n – кількість спостережень; m - число пояснюючих змінних. Ця величина має розподіл Фішера з k1 = m-1 та k2 = nm ступенями свободи. Обчислення величини аналогічне перевірці суттєвості зв’язку в моделі, в якій залежною змінною буде змінна , а пояснюючими змінними – решта (m - 1) факторів : . При рівні значущості = 0,05 F = 3,42.

> F,k1,.k2 > F,k1.k2, що означає суттєву залежність першої пояснюючої змінної від другої та третьої (віку автомобіля від об’єму двигуна та пробігу); третьої від першої та другої (пробігу від віку автомашини та об’єму двигуна).

< F,k1,.k2, тобто така змінна як об’єм двигуна не корелює із змінними, які визначають вік автомобіля та його пробіг. Змінну X2 включаємо до моделі.

  • Аналізуючи елементи вектора парних коефіцієнтів кореляції бачимо, що найбільший вплив на Y серед пояснюючих змінних мають змінні X1 та X2.

Змінна X3 найменше впливає на результативний фактор, крім того, корелює X1 та X2. Доцільно не включати як пояснюючий фактор X3 до моделі.

ІІ. Таким чином, можна записати наступну економетричну модель без фактора X3:

. (1)

Переконаємося в тому, що пояснюючі змінні цієї моделі не колінеарні між собою. Для цього сформуємо кореляційну матрицю: .

Визначимо детермінант кореляційної матриці та розрахуємо критерій 2:

det(r) = 0,9322; 2 = 1,5801.

Табличне значення 2,k = 3,84 при  = 0,05 та ступені свободи =1. Порівнявши дві величини, бачимо: 2<2,k,

що свідчить про несуттєву відмінність визначника кореляційної матриці від одиниці.

Можемо стверджувати, що пояснюючі змінні X1 та X2 є незалежними.

III. Порівняємо оцінки параметрів моделей, обчислених без та з урахуванням мультиколінеарності.

1. За методом найменших квадратів знайдемо статистичні оцінки параметрів моделі

(2)

без урахування зв’язків між пояснюючими змінними. Одержуємо наступне рівняння зв’язку:

2. Для цієї моделі:

* коефіцієнт множинної детермінації R2 = 0,6749;

* критерій Фішера: F = 14,5297, табличне значення F,k1,.k2 = 3,07 при рівні значущості = 0,05 та із ступенями свободи (n-m-1) = 21 та m = 3.

F >F,,k1,.k2, що підтверджує суттєвість зв’язку між залежною та пояснюючими змінними моделі

.

3. Для знайдених статистичних оцінок параметрів маємо такі середньоквадратичні похибки:

.

Перевіримо значущість оцінок параметрів за критерієм Стьюдента: ;

.

Табличне значення критерію t/2,k. = 2,080 при рівні значущості = 0,05 та ступені свободи n-m-1 = 21. Таким чином,

> t/2,k, > t/2,k, < t/2,k, < t/2,k.

Оцінки параметрів при змінних X2 та X3 несуттєво відрізняються від нуля, тобто, якщо не аналізувати дані на мультиколінеарність, ці змінні як такі, що не мають впливу на залежну змінну, слід виключити з моделі (2).

4. Розглянемо модель (1), з якої виключено змінну X3, яка корелює із змінною X1 та X2 .Знайдемо оцінки параметрів:

Для такої моделі

* коефіцієнт множинної детермінації R2=0,6736;

* критерій Фішера F = 22,7032, табличне значення F,k1,.k2 = 3,44 при рівні значущості = 0,05 та із ступенями свободи k1 = m = 2 та k2 = (nm -1) = 22.

F >F,k1,.k2, що підтверджує суттєвість впливу пояснюючих змінних моделі на залежний фактор.

Для знайдених статистичних оцінок параметрів маємо такі середньоквадратичні похибки:

.

Перевіримо значущість оцінок параметрів за критерієм Стьюдента:

табличне значення t/2.k=2,074 при рівні значущості = 0,05 та ступені свободи k = n-m- 1= 22.

> t/2.k, > t/2.k, > t/2.k,

Статистичні оцінки параметрів для моделі (1) суттєво відрізняються від нуля.

Крім того, порівняння двох моделей показує, що середні похибки, а, отже, і дисперсії оцінок параметрів першої моделі менші за аналогічні для другої моделі. Таким чином, можна зробити висновок, що перша модель надійніша в користуванні за другу.

Дослідження наявнoстi автокореляції у масиві змінних

Приклад 1. Вивчається залежність між кредитами Y, наданими комерційними банками, та залученими депозитними коштами X (млн. грн.):

1

2

3

4

5

6

7

8

Y

2997

3060

3331

4103

4126

4487

5095

5196

X

2762

2753

2891

3265

3734

4177

4433

4643

9

10

11

12

13

14

15

16

Y

2997

3060

3331

4103

4126

4487

5095

5196

X

4608

4879

4563

5017

5260

6327

6352

6784

17

18

19

20

21

22

23

24

Y

7245

8332

9392

10222

11976

13694

14538

15436

X

7865

9172

9597

11380

12339

14004

15010

17202

Перевірити наявність автокореляції залишків першого порядку за тестом Дарбіна-Уотсона.