- •1. Основні теоретичні положення регресійного аналізу
- •1.1. Кореляційна залежність
- •1.2. Основні математичні поняття,
- •1.3. Передумови використання
- •2. Парний регресійний аналіз
- •2.1. Лінійна парна регресія
- •2.2. Властивості оцінок
- •2.3. Лінійний коефіцієнт кореляції
- •2.4. Коефіцієнт детермінації
- •2.5. Оцінка значущості рівняння регресії
- •2.6. Прогноз залежної змінної.
- •2.7. Приклад 1.
- •2.8. Нелінійна парна регресія
- •2.9. Дослідження нелінійних рівнянь
- •2.10. Приклад 2.
- •2.11. Побудова функції парної регресії
- •2.12. Побудова графіку функції
- •2.13. Питання для самоперевірки
- •3. Багатофакторний регресійний аналіз
- •3.1. Класична нормальна лінійна модель
- •3.2. Коефіцієнти детермінації і кореляції.
- •3.3. Перевірка значущості параметрів
- •3.4. Прогноз залежної змінної
- •3.5. Приклад 3. Знаходження двофакторної моделі
- •3.6. Використання пакету анализ данных
- •3.7. Використання Excel для розрахунку
- •Введення і підготовка даних
- •4. Мультиколінеарність
- •4.1. Поняття і наслідки мультиколінеарності
- •4.2. Алгоритм Фаррара – Глобера
- •4.3. Приклад 4.
- •4.5. Питання для самоперевірки
- •5. Гетероскедастичність
- •5.1. Поняття гетероскедастичності
- •5.2. Виявлення гетероскедастичності.
- •5.3. Приклад 5. Дослідження даних
- •5.4. Виявлення гетероскедастичності.
- •5.5. Приклад 6. Дослідження даних
- •5.6. Непараметричний тест Гольдфельда-Квандта
- •5.7. Питання для самоперевірки
- •6. Автокореляція
- •6.1. Поняття автокореляції.
- •6.2. Критерій Дарбіна-Уотсона
- •6.3. Приклад 7. Дослідження моделі на наявність
- •6.4. Питання для самоперевірки
- •7. Індивідуальні комплексні завдання
- •Завдання 2
- •Завдання 3
- •Завдання 4
- •Завдання 5
- •Предметний покажчик
- •Література
- •Коефіцієнтів автокореляції залишків
- •Критичні значення і для коефіцієнта автокореляції залишків критерія Дарбіна-Уотсона для
- •Критичні значення і для коефіцієнта автокореляції залишків критерія Дарбіна-Уотсона для
- •Значення критерія Пірсона
- •Квантилі розподілу Стьюдента
- •83050, М. Донецьк, вул. Щорса, 31.
- •83023, М. Донецьк, вул. Харитонова, 10
2.4. Коефіцієнт детермінації
Однією з найбільш ефективних оцінок адекватності регресійної моделі, характеристикою прогностичної сили моделі є коефіцієнт детермінації .
Розглянемо суму квадратів відхилень фактичних значень ознаки від середнього значення :
Переконаємось, що
.
Враховуючи, що і отримаємо
,
тоді
.
Отже рівність доведена.
Таким чином можна записати
або
,
де – загальна сума квадратів відхилень залежної змінної від середнього значення; – сума квадратів відхилень обумовлених регресією; – залишкова сума квадратів, яка не пояснюється регресією і характеризує вплив на пояснювальну змінну всіх неврахованих чинників.
Зауваження. |
Використовуються також позначення , , , а також TSS, RSS, ESS відповідно для TSS (total sum of squares), RSS (regression sum of squares), ESS (error sum of squares). |
Поділимо ліву і праву частину рівності на , отримаємо
.
Перший доданок називається коефіцієнтом детермінації і позначається
,
або
. (2.4.1)
Для лінійної моделі коефіцієнт детермінації може бути знайденим також і за формулою:
, (2.4.2)
де – коефіцієнт кореляції.
Зауважимо, що формула (2.4.1) є загальною і може бути застосованою і в лінійному випадку і в нелінійному випадку.
Величина показує, яка частка варіації регресанта пояснюється за допомогою регресії. Наприклад, якщо =0,90, то це означає, що на 90% зміна обумовлена зміною , тобто пояснюється моделлю, а на 10% іншими причинами.
Коефіцієнт змінюється в межах . Чим ближче до 1, тим краще рівняння регресії апроксимує емпіричні дані.
Ще одним показником якості моделі є середня похибка апроксимації , яка обчислюється за формулою
. (2.4.3)
Прийнятна межа значень не більше 8 – 10 %. Якщо , то модель вважається неадекватною.
2.5. Оцінка значущості рівняння регресії
Число ступенів свободи. При аналізі регресійної моделі і оцінці значущості моделі і її параметрів важливим поняттям є число ступенів свободи.
Число ступенів свободи (df або DF – Degree of Freedom) деякої характеристики – це число незалежних змінних, які необхідні для визначення даної характеристики.
Розглянемо як знаходиться число ступенів свободи для кожного із складових виразу
. (2.5.1)
Для знаходження використовуються величин: , , …, . Ці різниці задовільняють умові . Наявність такої умови означає, що одну із цих різниць можна визначити через інші різниці використовуючи умову . Отже, серед різниць, які необхідні для обчислення , незалежними є . Таким чином число ступенів свободи для дорівнює
.
Для знаходження необхідно розглядати різницю , тоді
,
.
В даному випадку незалежною величиною є параметр , так як за передумовами щодо застосування 1МНК, значення є невипадковими. Таким чином, число ступенів свободи для дорівнює одиниці: . В загальному випадку
,
де – число параметрів моделі.
Для знаходження розглядаються різниці , тоді
,
.
В даному випадку незалежними змінними будуть тільки , так як на величин накладено дві додаткові умови необхідні для знаходження двох параметрів.
Отже в загальному випадку
.
Середні квадрати. В дисперсійному аналізі і при перевірці адекватності моделей часто використовується поняття середнього квадрата.
Середній квадрат – це сума квадратів поділена на відповідне число ступенів свободи.
Тоді середній квадрат похибок дорівнює
. (2.5.2)
Середній квадрат похибок представляє собою незміщену оцінку дисперсії залишків. Дисперсії залишків характеризує ту частину загальної дисперсії, що спричинена неврахованими факторами, помилками формування вибіркової сукупності, похибками вимірювання.
.
Середній квадрат пояснюючий регресію
. (2.5.3)
Середній квадрат представляє собою незміщену оцінку дисперсії залежної змінної спричинену пояснюючою змінною :
.
Для загальної суми поняття середнього квадрата не вводиться. Оцінкою загальної дисперсії є величина;
.
Перевірка значущості рівняння регресії означає встановлення відповідності між математичною моделлю і експериментальними даними.
Така необхідність виникає у зв’язку з тим, що рівняння регресії було побудовано на основі вибіркових (тобто випадкових) даних, а отже і параметри його є випадковими величинами.
Оцінка значущості рівняння регресії проводиться на основі дисперсійного аналізу з використанням статистичних критеріїв: - критерію Фішера (Фішера – Снедекера) і - критерію Стьюдента.
-критерій Фішера служить для перевірки нульової гіпотези , що нахил прямої дорівнює нулю .
Якщо дана гіпотеза підтверджується то дані краще апроксимувати з допомогою середньої величини , а не використовувати для цього рівняння регресії.
Для цього обчислюють фактичне значення - критерію
, (2.5.4)
де – число параметрів рівняння регресії, – обсяг вибірки.
Рівняння регресії значуще на рівні , якщо
, (2.5.5)
де – табличне значення - критерію Фішера - Снедекора ( - критерію Фішера), визначене на рівні значущості при ступенях свободи чисельника та ступенях свободи знаменника.
Рівнем значущості називається ймовірність допустити помилку першого роду, тобто відкинути правильну гіпотезу .
Значущість рівняння парної лінійної регресії може бути перевірена також і через перевірку значущості коефіцієнтів регресії , і коефіцієнта лінійної кореляції за допомогою - критерію Стьюдента. Перевірка статистичної значущості цих показників полягає в тому, що висувається гіпотеза (нульова гіпотеза) про випадкову природу цих показників, тобто про незначну їх відмінність від нуля ( , , ).
Розраховуються фактичні значення критерію Стьюдента за формулами
, , , (2.5.6)
де , , – стандартні похибки (середні квадратичні відхилення) відповідних показників. Для парної регресії вказані стандартні похибки розраховуються за формулами
, , . (2.5.7)
Рівняння парної лінійної регресії, або коефіцієнт регресії значущі на рівні (тобто гіпотеза про рівність нулю відкидається), якщо
, (2.5.8)
де – табличне значення - критерію Стьюдента на рівні значущості , при числі ступенів свободи . Тут число ступенів свободи дорівнює , так як для парної регресії число параметрів дорівнює двом, тому .
Аналогічно перевіряється значущість параметра . Якщо
,
то коефіцієнт регресії значущий на рівні (тобто гіпотеза про рівність нулю відкидається).
Обидва способи перевірки значущості лінійного рівняння регресії за допомогою і критерію є рівносильними, так як в лінійному випадку вони пов’язані співвідношенням . Тому очевидно, що нема потреби проводити перевірку за обома критеріями.
Якщо встановлено, що рівняння регресії значуще, то це означатиме, що і коефіцієнт кореляції також значущий.
Оцінка значущості лінійного коефіцієнта кореляції може бути виконана незалежно від оцінки значущості рівняння і параметрів регресії. Лінійний коефіцієнт кореляції значущий на рівні (тобто гіпотеза про рівність нулю відкидається), якщо
, (2.5.9)
де – табличне значення - критерію Стьюдента на рівні значущості , при числі ступенів свободи .
Зауваження. |
Використовуються позначення і ; , , . Величину називають рівень значущості, а - рівень довіри. Рівні значущості найчастіше приймають рівними 0,05; 0,10; 0,01. |