- •Які задачі вирішує кореляційний аналіз?
- •Парні коефіцієнти кореляції
- •Часткові коефіцієнти кореляції
- •Що показує вибірковий коефіцієнт множинної кореляції?
- •Множинні коефіцієнти кореляції
- •Яким чином пов’язані вибірковий та генеральний коефіцієнт кореляції?
- •В чому полягає суть алгоритма Фаррара-Глобера, що використовується для виявлення мультиколінеарності?
- •Шаг 3. Критерий – х2.
- •Яким чином оцінюється тіснота нелінійного зв’язку?
Що показує вибірковий коефіцієнт множинної кореляції?
Множинні коефіцієнти кореляції
Для
визначення тісноти зв’язку між поточною
k-ю
змінною і змінними, що залишились,
використовується вибірковий множинний
коефіцієнт кореляції:
де
D
- визначник матриці парних коефіцієнтів
кореляції.
Для перевірки статистичної
значущості коефіцієнта множинної
кореляції використовується величина:
що
має F-розподіл
з L
і (n-L-2)
рівнями волі відповідно.
Якщо
розраховане F-значення
більше значення F-розподілу
на відповідному рівні імовірності (0.9
і вище), то гіпотеза про лінійний зв'язок
між k-ю
змінною і рештою змінних не заперечується.
У
програмі для кожного коефіцієнта
множинної кореляції виводиться F-значення
і процентна точка F-розподілу,
яка йому відповідає.
Яким чином пов’язані вибірковий та генеральний коефіцієнт кореляції?
Нехай X і Y мають нормальний розподіл. У цьому випадку при досить великому обсязі вибірки n коефіцієнт r наближено дорівнює генеральному коефіцієнту r. Проте оцінити похибку, яка виникає при цьому, дуже важко. Це і не обов’язково, оскільки точне значення r в розрахунках практично не використовується, а треба лише як показник наявності кореляції між Y і X. Вибірковий коефіцієнт кореляції r застосовується в основному для перевірки загальної гіпотези про наявність кореляції між спостережуваними величинами, не вдаючись у детальні оцінки сили цієї кореляції.
У зв'язку з випадковістю вибірки r може бути відмінно від нуля, навіть якщо між спостережуваними величинами немає кореляції. Отже, для перевірки гіпотези про відсутність кореляції, необхідно перевіряти, значимо чи r відрізняється від нуля. А для цього потрібно знати розподіл r як випадкової величини. Цей розподіл відомий, але, як і варто було очікувати, воно залежить від невідомого генерального коефіцієнта r. Однак, якщо ми як нульову візьмемо гіпотезу, що r= 0 (відсутність кореляції), то r-розподіл відповідний r= 0, сильно спрощується і буде залежати тільки від обсягу вибірки. Його щільність має вигляд
(2.10)
r-Розподіл називають розподілом Фішера-Іейтса. Видно, що це симетричний відносно нуля унімодальний розподіл. У статистичних таблицях наведені квантилі цього розподілу для деяких рівнів значимості та ступенів свободи.
У припущенні, що генеральна кореляція r= 0, інтервальна оцінка для r з довірчою ймовірністю р = 1 - a, очевидно, дорівнює
.
Отже, якщо виявиться, що знайдений за вибіркою коефіцієнт r задовольняє нерівності
(2.11)
то
його потрібно визнати значущим, тобто
потрібно вважати, що нульова гіпотеза
невірна. А це означає, що r
¹
0 і між величинами, що спостерігаються,
є кореляція. Вона буде тим сильніше, чим
значніше | r | перевищує
і наближається до 1.
Запишіть співвідношення між коефіцієнтами кореляції і детермінації.
Крім
відображення щільності зв'язку, коефіцієнт
кореляції відіграє ще одну важливу роль
– через коефіцієнт детермінації (D) він
характеризує розмір впливу факторів
на результативну ознаку:
.Це
означає, що у наведеному прикладі 36%
рівня продуктивності праці формується
під впливом озброєності працівників
основними засобами. Решту 64% становлять
інші фактори – матеріальна зацікавленість
робітників, інтенсивність використання
робочого часу тощо.
Як визначаються дисперсія залишків, загальна дисперсія і дисперсія регресії? Який між ними зв’язок?
Що показує і з якою метою вимірюється стандартна похибка величини?
оцінка дисперсії характеризує ступінь розкиду значень навколо їх середнього або варіабельність та визначається за формулою
. (2.9)
В
загальному випадку для отримання
незміщеної оцінки дисперсії суму
квадратів необхідно поділити на число
ступенів свободи. Так як вибірка вже
використовувалася один раз для визначення
середнього Х, то число накладених
зв’язків в даному випадку дорівнює
одиниці, а число ступенів свободи
.
Однак, більш природно вимірювати ступінь розкиду значень змінних навколо їх середньої або варіабельність в тих же одиницях, в яких вимірюється і сама змінна. Цю задачу вирішує показник, що називається середньоквадратичним відхиленням (стандартним відхиленням) або стандартною похибкою і визначається співвідношенням
.
Яким чином оцінюється значимість коефіцієнтів кореляції?
Оцінка значимості коефіцієнта корреляції при малих обсягах вибірки виконується з використанням t-критерію Стьюдента. При цьому фактичне (спостережне) значення цього критерію визначається за формулою
. (2.12)
Розраховане
за цією формулою значення порівнюється
з критичним значенням t-критерію Стьюдента
з урахуванням заданного рівня значущості
та числа ступенів свободи n-2.
Якщо
,
то отримане значення коефіцієнта
кореляції признається значущим і
робиться висновок про тісний статистичний
взаємозв’язок величин.
Що таке мультиколінеарність і які її наслідки?
Суть мультиколінеарності полягає в тому, щовба-гатофакторній регресійній моделі дві або більше незалежних змінних пов'язані між собою лінійною залежністю або, іншими словами, мають високий ступінь кореляції:
мультиколінеарність незалежних змінних (факторів) призводить до зміщення оцінок параметрів моделі. На основі цих оцінок неможливо зро-бити конкретні висновки про результати взаємозв’язку між показни-ком і факторами; збільшення дисперсії та коваріації оцінок параметрів, обчисле-них за методом найменших квадратів.
Охарактеризуйте основні методи усунення мультиколінеарності.
Основними серед них є наступні.
^ 1. Вилучення змінної (або змінних) з моделі. При цьому з моделі вилучається одна із змінних колінеарної пари. Слід зазначити, що таке вилучення змінних можливе тільки у випадку коли це не суперечить логіці економічних зв’язків. У протилежному випадку це може призвести до помилки специфікації.
^ 2. Зміна аналітичної форми економетричної моделі. Іноді заміна однієї функції регресії іншою (наприклад лінійної нелінійною) , якщо це не суперечить апріорній інформації, дає змогу уникнути явища мультиколінеарності.
^ 3. Збільшення спостережень. З точки зору теорії, мультиколінеарність та невелика кількість спостережень у вибірці – це одна і та ж проблема. Тому збільшення спостережень у статистичній вибірці або використання іншої статистичної вибірки може усунути, або принаймні зменшити вплив мультиколінеарності.
^ 4. Перетворення статистичних даних. Позбутися мультиколінеарності можна і шляхом наступних перетворень вихідних даних стосовно пояснюючих змінних :
а) замість самих даних узяти їхні відхилення від середніх;
б) замість абсолютних значень даних взяти відносні значення ;
в) стандартизувати змінні.
^ 5. Використання додаткової первинної інформації. Аналіз і використання первинної додаткової інформації інколи дозволяє зняти проблему мультиколінеарності.
