
- •7 Регресійний аналіз
- •7.1 Попередній аналіз даних
- •7.2 Припущення, які використовує регресійний аналіз
- •7.3 Вибір вигляду функції для монотонних процесів
- •7.4 Метод найменших квадратів для оцінки параметрів функції регресії
- •Властивості регресії
- •7.5 Оцінка якості моделі
- •7.6 Критерій Фішера для оцінки адекватності моделі
- •7.7 Перевірка значущості коефіцієнтів регресії
- •7.8 Функції Excel для побудови регресійних залежностей
- •Розв’язання
- •7.9 Парна регресія в матричній формі
- •7.10 Метод найменших квадратів при оцінюванні параметрів поліномів
- •Розв’язання
- •7.11 Множинний регресійний аналіз
- •7.11.1 Матричний спосіб оцінки параметрів множинної регресії
- •7.11.2 Перевірка значущості коефіцієнтів регресії
- •7.11.3 Перевірка якості моделі. Скоригований коефіцієнт детермінації
- •7.11.4 Парна й часткова кореляції
- •Розв’язання.
- •7.12 Методи побудови багатофакторної регресійної моделі
- •7.12.1 Вибір "найкращого" рівняння регресії
- •7.12.2 Метод усіх можливих регресій
- •7.12.3 Метод виключень
- •7.12.4 Кроковий регресійний метод
- •Питання і завдання до розділу 7
- •Лабораторна робота Тема. Парний регресійний аналіз
- •Лабораторна робота Тема. Множинний регресійний аналіз
- •8 Дисперсійний аналіз
- •8.1 Однофакторний дисперсійний аналіз
- •Розв’язання.
- •Питання і завдання до розділу 8
- •Лабораторна робота Тема. Однофакторний дисперсійний аналіз
- •9 Ранговий аналіз
- •9.1 Коефіцієнт рангової кореляції Кенделла (Кендалла)
- •9.2 Коефіцієнт рангової кореляції Спірмена
- •Розв’язок.
- •9.3 Коефіцієнт конкордації
- •Питання і завдання до розділу 9
7.11 Множинний регресійний аналіз
До цього часу ми розглядали регресійний зв'язок між двома ознаками. Якщо на досліджувану змінну впливає декілька факторів, то регресію називають множинною.
Нехай для визначення впливу факторів X1, X2, …,Xm на значення величини Y проведено n вимірювань. Отримані значення можна подати у вигляді таблиці.
X1 |
X2 |
Xm |
Y |
X11 |
X12 |
X1m |
Y1 |
X21 |
X22 |
X2m |
Y2 |
... |
... |
... |
... |
Xn1 |
Xn2 |
Xnm |
Yn |
Будемо виходити з того, що між пояснюваною (залежною) змінною (Y) та факторами, що на неї впливають (X1, X2, …,Xm) обрано лінійний зв'язок
,
тут
– фіктивна змінна, яка введена для
зручності;
U – відображає вплив на Y інших факторів, помилки вимірювань, помилки вибору моделі.
Виникають такі задачі:
1 Знайти за даними спостережень вибіркове рівняння зв'язку
,
тобто знайти коефіцієнти регресії.
2
Оцінити тісноту зв'язку між Y
і Xi,
,
а також між Xi
та
Xj
.
3
Оцінити тісноту зв'язку між Y
і Xi
при постійних Xj
().
Перша
задача розв’язується методом найменших
квадратів. Критерієм вибору оцінок
є умова мінімуму суми квадратів відхилень
.
.
Умовою досягнення екстремуму є рівність нулю часткових похідних
,
, ... ,
.
Одержуємо систему m+1 лінійних рівнянь із m+1 невідомими:
. (7.16)
Якщо n>
m-1 і визначник системи
знаходимо єдиний розв’язок системи
.
7.11.1 Матричний спосіб оцінки параметрів множинної регресії
Розглянемо вектори-стовпці
,
,
і
матрицю Х
розмірності n
(m+1):
.
Тоді відповідно до правил множення й додавання матриць матричний запис системи рівнянь (7.16) набуває вигляду
.
де
– транспонована матриця Х.
Добуток матриць ХТХ
дорівнює
.
Матриця
ХТХ
має розмірність (m+1)
(m+1).
Якщо n> m-1 і ранг матриці ХТХ дорівнює m+1 , система має єдиний розв’язок
.
7.11.2 Перевірка значущості коефіцієнтів регресії
Для цього застосовуємо t–критерій Стьюдента, за допомогою якого перевіряють, чи значуще ai відрізняється від нуля. Висуваємо гіпотези:
Н0:
;
Н1:
;
Обчислюємо критеріальне значення
.
Обчислюємо критичне значення
,
де
k – кількість параметрів
регресії. Якщо
– ai
статистично незначуще
відрізняється від нуля, а якщо
– ai
статистично значуще.
Якщо виникає ситуація, що ai статистично незначуще відрізняється від нуля, то це означає, що вплив i-го фактора на досліджувану змінну нестабільний.
7.11.3 Перевірка якості моделі. Скоригований коефіцієнт детермінації
Якість моделі характеризується коефіцієнтом детермінації
.
Коефіцієнт детермінації як критерій вибору функції регресії має суттєвий недолік, що полягає в тому, що з додаванням до регресії нових змінних він ніколи не зменшується, а, навпаки, збільшується. Це означає, що рівняння з більшим числом регресорів буде давати кращі результати, ніж з відносно малою їх кількістю. Але з додаванням нового фактора губиться один ступінь вільності, що не завжди бажано. Наприклад, довірчі інтервали будуть тим менші, чим більше число ступенів вільності L= n-m-1. При застосуванні критеріїв Стьюдента й Фішера також бажано мати можливо більше число ступенів вільності.
Скоригований коефіцієнт детермінації з виправленням на число ступенів вільності визначається
.
Для перевірки адекватності моделі розраховуємо критеріальне значення
та критичне значення
,
де
,
,
k – кількість параметрів моделі; n – кількість спостережень. Значення Fкр обчислюємо за допомогою функції FРАСПОБР(α; k-1; n-k). Якщо Fp>Fkp – модель адекватна.