
- •1. Основні теоретичні положення регресійного аналізу
- •1.1. Кореляційна залежність
- •1.2. Основні математичні поняття,
- •1.3. Передумови використання
- •2. Парний регресійний аналіз
- •2.1. Лінійна парна регресія
- •2.2. Властивості оцінок
- •2.3. Лінійний коефіцієнт кореляції
- •2.4. Коефіцієнт детермінації
- •2.5. Оцінка значущості рівняння регресії
- •2.6. Прогноз залежної змінної.
- •2.7. Приклад 1.
- •2.8. Нелінійна парна регресія
- •2.9. Дослідження нелінійних рівнянь
- •2.10. Приклад 2.
- •2.11. Побудова функції парної регресії
- •2.12. Побудова графіку функції
- •2.13. Питання для самоперевірки
- •3. Багатофакторний регресійний аналіз
- •3.1. Класична нормальна лінійна модель
- •3.2. Коефіцієнти детермінації і кореляції.
- •3.3. Перевірка значущості параметрів
- •3.4. Прогноз залежної змінної
- •3.5. Приклад 3. Знаходження двофакторної моделі
- •3.6. Використання пакету анализ данных
- •3.7. Використання Excel для розрахунку
- •Введення і підготовка даних
- •4. Мультиколінеарність
- •4.1. Поняття і наслідки мультиколінеарності
- •4.2. Алгоритм Фаррара – Глобера
- •4.3. Приклад 4.
- •4.5. Питання для самоперевірки
- •5. Гетероскедастичність
- •5.1. Поняття гетероскедастичності
- •5.2. Виявлення гетероскедастичності.
- •5.3. Приклад 5. Дослідження даних
- •5.4. Виявлення гетероскедастичності.
- •5.5. Приклад 6. Дослідження даних
- •5.6. Непараметричний тест Гольдфельда-Квандта
- •5.7. Питання для самоперевірки
- •6. Автокореляція
- •6.1. Поняття автокореляції.
- •6.2. Критерій Дарбіна-Уотсона
- •6.3. Приклад 7. Дослідження моделі на наявність
- •6.4. Питання для самоперевірки
- •7. Індивідуальні комплексні завдання
- •Завдання 2
- •Завдання 3
- •Завдання 4
- •Завдання 5
- •Предметний покажчик
- •Література
- •Коефіцієнтів автокореляції залишків
- •Критичні значення і для коефіцієнта автокореляції залишків критерія Дарбіна-Уотсона для
- •Критичні значення і для коефіцієнта автокореляції залишків критерія Дарбіна-Уотсона для
- •Значення критерія Пірсона
- •Квантилі розподілу Стьюдента
- •83050, М. Донецьк, вул. Щорса, 31.
- •83023, М. Донецьк, вул. Харитонова, 10
2.4. Коефіцієнт детермінації
Однією з найбільш ефективних
оцінок адекватності регресійної моделі,
характеристикою прогностичної сили
моделі є коефіцієнт детермінації
.
Розглянемо суму квадратів
відхилень фактичних значень ознаки
від середнього значення
:
Переконаємось, що
.
Враховуючи, що
і
отримаємо
,
тоді
.
Отже рівність
доведена.
Таким чином можна записати
або
,
де
–
загальна сума квадратів відхилень
залежної змінної від середнього значення;
– сума квадратів відхилень обумовлених
регресією;
– залишкова сума квадратів, яка не
пояснюється регресією і характеризує
вплив на пояснювальну змінну всіх
неврахованих чинників.
Зауваження. |
Використовуються також
позначення
|
Поділимо ліву і праву частину
рівності
на
,
отримаємо
.
Перший доданок називається коефіцієнтом детермінації і позначається
,
або
.
(2.4.1)
Для лінійної моделі коефіцієнт детермінації може бути знайденим також і за формулою:
,
(2.4.2)
де – коефіцієнт кореляції.
Зауважимо, що формула (2.4.1) є загальною і може бути застосованою і в лінійному випадку і в нелінійному випадку.
Величина показує, яка частка варіації регресанта пояснюється за допомогою регресії. Наприклад, якщо =0,90, то це означає, що на 90% зміна обумовлена зміною , тобто пояснюється моделлю, а на 10% іншими причинами.
Коефіцієнт
змінюється в межах
.
Чим ближче
до 1, тим краще рівняння регресії
апроксимує емпіричні дані.
Ще одним показником якості
моделі є середня похибка апроксимації
,
яка обчислюється за формулою
.
(2.4.3)
Прийнятна межа значень
не більше 8 – 10 %. Якщо
,
то модель вважається неадекватною.
2.5. Оцінка значущості рівняння регресії
Число ступенів свободи. При аналізі регресійної моделі і оцінці значущості моделі і її параметрів важливим поняттям є число ступенів свободи.
Число ступенів свободи (df або DF – Degree of Freedom) деякої характеристики – це число незалежних змінних, які необхідні для визначення даної характеристики.
Розглянемо як знаходиться число ступенів свободи для кожного із складових виразу
. (2.5.1)
Для знаходження
використовуються
величин:
,
,
…,
.
Ці різниці задовільняють умові
.
Наявність такої умови означає, що одну
із цих різниць можна визначити через
інші
різниці використовуючи умову
.
Отже, серед
різниць, які необхідні для обчислення
,
незалежними є
.
Таким чином число ступенів свободи для
дорівнює
.
Для знаходження
необхідно розглядати різницю
,
тоді
,
.
В даному випадку незалежною
величиною є параметр
,
так як за передумовами щодо застосування
1МНК, значення
є невипадковими. Таким чином, число
ступенів свободи для
дорівнює одиниці:
.
В загальному випадку
,
де – число параметрів моделі.
Для знаходження
розглядаються різниці
,
тоді
,
.
В даному випадку незалежними
змінними будуть тільки
,
так як на
величин
накладено дві додаткові умови необхідні
для знаходження двох параметрів.
Отже в загальному випадку
.
Середні квадрати. В дисперсійному аналізі і при перевірці адекватності моделей часто використовується поняття середнього квадрата.
Середній квадрат – це сума квадратів поділена на відповідне число ступенів свободи.
Тоді середній квадрат похибок
дорівнює
.
(2.5.2)
Середній квадрат похибок
представляє собою незміщену оцінку
дисперсії залишків. Дисперсії залишків
характеризує ту частину загальної
дисперсії, що спричинена неврахованими
факторами, помилками формування
вибіркової сукупності, похибками
вимірювання.
.
Середній квадрат пояснюючий
регресію
.
(2.5.3)
Середній квадрат
представляє собою незміщену оцінку
дисперсії залежної змінної спричинену
пояснюючою змінною
:
.
Для загальної суми поняття середнього квадрата не вводиться. Оцінкою загальної дисперсії є величина;
.
Перевірка значущості рівняння регресії означає встановлення відповідності між математичною моделлю і експериментальними даними.
Така необхідність виникає у зв’язку з тим, що рівняння регресії було побудовано на основі вибіркових (тобто випадкових) даних, а отже і параметри його є випадковими величинами.
Оцінка значущості рівняння
регресії проводиться на основі
дисперсійного аналізу з використанням
статистичних критеріїв:
-
критерію Фішера (Фішера – Снедекера) і
-
критерію Стьюдента.
-критерій
Фішера служить для перевірки нульової
гіпотези
,
що нахил прямої дорівнює нулю
.
Якщо дана гіпотеза підтверджується
то дані краще апроксимувати з допомогою
середньої величини
,
а не використовувати для цього рівняння
регресії.
Для цього обчислюють фактичне значення - критерію
,
(2.5.4)
де – число параметрів рівняння регресії, – обсяг вибірки.
Рівняння регресії значуще
на рівні
,
якщо
,
(2.5.5)
де
– табличне значення
-
критерію Фішера - Снедекора (
-
критерію Фішера), визначене на рівні
значущості
при
ступенях свободи чисельника та
ступенях свободи знаменника.
Рівнем
значущості
називається ймовірність допустити
помилку першого роду, тобто відкинути
правильну гіпотезу
.
Значущість рівняння парної
лінійної регресії може бути перевірена
також і через перевірку значущості
коефіцієнтів регресії
,
і коефіцієнта лінійної кореляції
за допомогою
-
критерію Стьюдента. Перевірка статистичної
значущості цих показників полягає в
тому, що висувається гіпотеза
(нульова гіпотеза) про випадкову природу
цих показників, тобто про незначну їх
відмінність від нуля (
,
,
).
Розраховуються фактичні значення критерію Стьюдента за формулами
,
,
,
(2.5.6)
де
,
,
– стандартні похибки (середні квадратичні
відхилення) відповідних показників.
Для парної регресії вказані стандартні
похибки розраховуються за формулами
,
,
.
(2.5.7)
Рівняння парної лінійної регресії, або коефіцієнт регресії значущі на рівні (тобто гіпотеза про рівність нулю відкидається), якщо
,
(2.5.8)
де
– табличне значення
-
критерію Стьюдента на рівні значущості
,
при числі ступенів свободи
.
Тут число ступенів свободи дорівнює
,
так як для парної регресії число
параметрів дорівнює двом, тому
.
Аналогічно перевіряється значущість параметра . Якщо
,
то коефіцієнт регресії значущий на рівні (тобто гіпотеза про рівність нулю відкидається).
Обидва способи перевірки
значущості лінійного рівняння регресії
за допомогою
і
критерію є рівносильними, так як в
лінійному випадку вони пов’язані
співвідношенням
.
Тому очевидно, що нема потреби проводити
перевірку за обома критеріями.
Якщо встановлено, що рівняння регресії значуще, то це означатиме, що і коефіцієнт кореляції також значущий.
Оцінка значущості лінійного коефіцієнта кореляції може бути виконана незалежно від оцінки значущості рівняння і параметрів регресії. Лінійний коефіцієнт кореляції значущий на рівні (тобто гіпотеза про рівність нулю відкидається), якщо
,
(2.5.9)
де
– табличне значення
-
критерію Стьюдента на рівні значущості
,
при числі ступенів свободи
.
Зауваження. |
Використовуються позначення
|