
- •1. Основні теоретичні положення регресійного аналізу
- •1.1. Кореляційна залежність
- •1.2. Основні математичні поняття,
- •1.3. Передумови використання
- •2. Парний регресійний аналіз
- •2.1. Лінійна парна регресія
- •2.2. Властивості оцінок
- •2.3. Лінійний коефіцієнт кореляції
- •2.4. Коефіцієнт детермінації
- •2.5. Оцінка значущості рівняння регресії
- •2.6. Прогноз залежної змінної.
- •2.7. Приклад 1.
- •2.8. Нелінійна парна регресія
- •2.9. Дослідження нелінійних рівнянь
- •2.10. Приклад 2.
- •2.11. Побудова функції парної регресії
- •2.12. Побудова графіку функції
- •2.13. Питання для самоперевірки
- •3. Багатофакторний регресійний аналіз
- •3.1. Класична нормальна лінійна модель
- •3.2. Коефіцієнти детермінації і кореляції.
- •3.3. Перевірка значущості параметрів
- •3.4. Прогноз залежної змінної
- •3.5. Приклад 3. Знаходження двофакторної моделі
- •3.6. Використання пакету анализ данных
- •3.7. Використання Excel для розрахунку
- •Введення і підготовка даних
- •4. Мультиколінеарність
- •4.1. Поняття і наслідки мультиколінеарності
- •4.2. Алгоритм Фаррара – Глобера
- •4.3. Приклад 4.
- •4.5. Питання для самоперевірки
- •5. Гетероскедастичність
- •5.1. Поняття гетероскедастичності
- •5.2. Виявлення гетероскедастичності.
- •5.3. Приклад 5. Дослідження даних
- •5.4. Виявлення гетероскедастичності.
- •5.5. Приклад 6. Дослідження даних
- •5.6. Непараметричний тест Гольдфельда-Квандта
- •5.7. Питання для самоперевірки
- •6. Автокореляція
- •6.1. Поняття автокореляції.
- •6.2. Критерій Дарбіна-Уотсона
- •6.3. Приклад 7. Дослідження моделі на наявність
- •6.4. Питання для самоперевірки
- •7. Індивідуальні комплексні завдання
- •Завдання 2
- •Завдання 3
- •Завдання 4
- •Завдання 5
- •Предметний покажчик
- •Література
- •Коефіцієнтів автокореляції залишків
- •Критичні значення і для коефіцієнта автокореляції залишків критерія Дарбіна-Уотсона для
- •Критичні значення і для коефіцієнта автокореляції залишків критерія Дарбіна-Уотсона для
- •Значення критерія Пірсона
- •Квантилі розподілу Стьюдента
- •83050, М. Донецьк, вул. Щорса, 31.
- •83023, М. Донецьк, вул. Харитонова, 10
4.3. Приклад 4.
Перевірка на наявність мультиколінеарності
за алгоритмом Фаррара – Глобера
Приклад 4.
Відомо, що на середньомісячну заробітну
плату
,
впливають три фактори: рівень
рентабельності –
,
витрати капіталу -
,
фондовіддача -
.
Необхідні дані наведено в таблиці .
, % |
10,7 |
11,0 |
12,2 |
12,4 |
10,9 |
11,3 |
11,1 |
|
38 |
29 |
30 |
25 |
24 |
31 |
30 |
, ум. од. |
39 |
33 |
38 |
31 |
29 |
37 |
36 |
, ум. од. |
63 |
70 |
80 |
84 |
69 |
72 |
70 |
Перевірити фактори , , на наявність мультиколінеарності за допомогою алгоритму Фаррара – Глобера.
Розв’язання.
Кроки 1-2-й.
Для зручності числових обчислень
об’єднаємо кроки перший і другий в один
і розраховуємо кореляційну матрицю
.
Ця матриця симетрична. В нашому випадку
розмір матриці
.
Матриця
має вигляд:
,
де елементи матриці розраховуються за формулами:
,
,
,
,
.
Для розрахунку сформуємо допоміжну розрахункову таблицю 4.1.
Таблиця. 4.1
№ |
|
|
|
|
|
|
|
|
|
1 |
10,7 |
38 |
39 |
114,49 |
1444 |
1521 |
406,6 |
417,3 |
1482 |
2 |
11,0 |
30 |
33 |
121 |
900 |
1089 |
330 |
363 |
630 |
3 |
12,2 |
30 |
38 |
148,84 |
900 |
1444 |
336 |
463,6 |
1140 |
4 |
12,4 |
25 |
31 |
153,76 |
625 |
961 |
310 |
384,4 |
775 |
5 |
10,9 |
24 |
29 |
118,81 |
576 |
841 |
261,6 |
316,1 |
696 |
6 |
11,3 |
30 |
37 |
127,69 |
900 |
1369 |
339 |
418,1 |
1110 |
7 |
11,1 |
30 |
36 |
123,21 |
900 |
1296 |
333 |
399,6 |
1080 |
Середні значення |
11,37 |
29,57 |
34,71 |
129,69 |
892,43 |
1217,29 |
335,21 |
394,59 |
1039,57 |
|
0,38 |
17,96 |
12,20 |
|
|
|
|
|
|
|
0,61 |
4,24 |
3,49 |
|
|
|
|
|
|
Тоді
,
аналогічно
,
.
Кореляційна матриця має вигляд:
.
Елементами матриці
є
коефіцієнти парної кореляції незалежних
змінних. В нашому випадку
,
,
.
Отже, як бачимо між парами незалежних
змінних існує зв’язок різної тісноти.
Крок 3-й.
Знаходимо визначник матриці
.
Крок 4-й. Обчислюємо статистику за формулою
.
В нашому випадку число
спостережень
,
число пояснюючих змінних
тому
.
При рівні значущості
і числі ступенів свободи
за таблицею знаходимо критичне значення
.
Так, як
,
то мультиколінеарність в масиві
незалежних змінних присутня. Якби
виявилось, що
,
то це б означало, що мультиколінеарність
відсутня, тобто нею можна знехтувати,
і дальші дослідження за алгоритмом
можна не проводити.
Крок 5-й.
Знайдемо обернену матрицю
до матриці
за допомогою формули:
,
де
алгебраїчне доповнення до елементу
матриці
.
Крок 6-й.
Розраховуємо
-
критерій за формулою
де
діагональні елементи матриці
.
Таким чином отримуємо стільки фактичних
значень
скільки є пояснюючих змінних, тобто
три:
,
Отримані фактичні значення
статистики порівнюються з табличними
для
ступенів свободи знаменника,
ступенів свободи чисельника і рівня
значущості
.
В
нашому випадку за таблицями
.
Так як
,
то змінна
не корелює з масивом
і
.
Так як
і
,
то
корелює з масивом змінних
і
,
а
корелює з масивом змінних
і
.
Крок 7-й. Обчислюємо частинні коефіцієнти кореляції
,
де
,
,
– елементи матриці
.
В нашому випадку отримаємо:
,
,
.
Як бачимо між факторами
і
зв’язок найтісніший. Частинні коефіцієнти
кореляції
характеризують кореляцію між змінними
і
за умови, що інші змінні на зв’язок не
впливають.
Крок 8-й. Розраховуємо - статистику
,
,
,
.
Модулі отриманих фактичних
значень
-
статистики порівнюємо з табличним
,
яке знаходиться для
числа ступенів свободи і рівня значущості
.
В нашому випадку
Так як
,
то між змінними
і
існує взаємозалежність. Взаємозв’язку
між змінними
і
,
а також між змінними
і
нема, так як
,
і
.
Один із можливих методів
усунення мультиколінеарності – це
виключення однієї із змінних з моделі.
Із економічних міркувань в нашому
випадку при дослідженні залежності
рівня заробітної плати від факторів
краще виключити із розгляду фактор
– фондовіддача і залишити фактор
– затрати капіталу.
Після виключення цієї змінної повторимо перевірку на мультиколінеарність серед масиву змінних, що залишилися.
Кроки 1-2-й.
Так як
залишилися змінні, то кореляційна
матриця матиму вигляд
Крок 3-й. Знаходимо детермінант матриці
.
Крок 4-й.
Обчислюємо
статистику формулою
.
В нашому випадку число
спостережень
,
число пояснюючих змінних
,
тому
.
Так, як
,
то мультиколінеарність в масиві
незалежних змінних
відсутня або, ще кажуть, знаходиться в
допустимих межах.
4.4. Методи усунення мультиколінеарності.
Різні методи, які можуть бути використані для зменшення негативних наслідків мультиколінеарності, умовно класифікують на дві категорії: прямі способи покращити умови надійності регресійних оцінок і непрямі способи.
Прямі способи базуються на наступних міркуваннях і відповідних їм діях.
По-перше, дисперсії оцінок параметрів пропорційні залишковій дисперсії . Випадковий член відображає вплив на змінну всіх регресорів (пояснюючих змінних), які не включені в модель. Отже, якщо можна знайти важливу, з економічних міркувань, змінну і включити її в модель, то таким чином ми зменшимо і покращимо надійність оцінок. Разом з тим, нова чи нові змінні можуть бути зв'язані лінійною залежністю із змінними, які вже включені в модель, і, таким чином ми можемо, навіть, підсилити проблему мультиколінеарності.
По-друге, дисперсії оцінок параметрів обернено-пропорційні величині вибірки (числу спостережень) . Значить, збільшивши кількість спостережень, ми автоматично зменшимо дисперсії оцінок параметрів і покращимо їх надійність.
Якщо вивченню підлягають часові ряди, то збільшити обсяг вибірки можна, якщо використовувати квартальні дані замість річних. Разом з тим, треба мати на увазі, що таким чином ми можемо внести або підсилити автокореляцію даних, по-друге в цьому підході ми можемо внести або підсилити зміщення оцінок параметрів, викликане похибками вимірювання.
По-третє, так як дисперсії
оцінок параметрів
,
обернено пропорційні дисперсії
пояснювальних змінних
,
то дані необхідно підбирати таким чином,
щоб
були найбільшими. Наприклад, якщо ми
вивчаємо залежність товарообігу
магазинів від величини торгової площі,
то необхідно так сформувати вибірку,
щоб там були і невеликі магазини з малою
торговою площею і великі магазини.
По-четверте, при плануванні експерименту необхідно підбирати такі регресори, які були б якомога менше залежні один від одного.
Непрямі способи базуються на наступних міркуваннях і відповідних їм діях направлених на зменшення негативних наслідків мультиколінеарності.
По-перше, самий простий спосіб
зменшення мультиколінеарності полягає
в тому, щоб із двох пояснювальних змінних
,
які мають високий коефіцієнт кореляції
і для яких
одну виключити із розгляду. При цьому,
яку змінну залишити, а яку виключити із
аналізу, вирішують, в першу чергу,
виходячи із економічних міркувань,
тобто залишають в моделі більш важливу
з економічної точки зору змінну. Якщо
із економічних міркувань ні одній із
них не можна надати перевагу, то залишають
ту із змінних, яка має більший коефіцієнт
кореляції із залежною змінною.
По-друге, якщо корельовані змінні зв'язані між собою концептуально, то можливо, краще об'єднати їх в один сукупний індекс.
По-третє, для зменшення
мультиколінеарності можливий перехід
від вихідних пояснювальних змінних
між якими виявлена кореляція до нових
змінних, які виражаються через лінійні
комбінації вихідних. Нові змінні
,
які є лінійними комбінаціями змінних
називаються головними компонентами.
При цьому нові змінні підбираються
таким чином, щоб вони не корелювали між
собою, а потім знаходять рівняння зв'язку
.