- •7 Регресійний аналіз
- •7.1 Попередній аналіз даних
- •7.2 Припущення, які використовує регресійний аналіз
- •7.3 Вибір вигляду функції для монотонних процесів
- •7.4 Метод найменших квадратів для оцінки параметрів функції регресії
- •Властивості регресії
- •7.5 Оцінка якості моделі
- •7.6 Критерій Фішера для оцінки адекватності моделі
- •7.7 Перевірка значущості коефіцієнтів регресії
- •7.8 Функції Excel для побудови регресійних залежностей
- •Розв’язання
- •7.9 Парна регресія в матричній формі
- •7.10 Метод найменших квадратів при оцінюванні параметрів поліномів
- •Розв’язання
- •7.11 Множинний регресійний аналіз
- •7.11.1 Матричний спосіб оцінки параметрів множинної регресії
- •7.11.2 Перевірка значущості коефіцієнтів регресії
- •7.11.3 Перевірка якості моделі. Скоригований коефіцієнт детермінації
- •7.11.4 Парна й часткова кореляції
- •Розв’язання.
- •7.12 Методи побудови багатофакторної регресійної моделі
- •7.12.1 Вибір "найкращого" рівняння регресії
- •7.12.2 Метод усіх можливих регресій
- •7.12.3 Метод виключень
- •7.12.4 Кроковий регресійний метод
- •Питання і завдання до розділу 7
- •Лабораторна робота Тема. Парний регресійний аналіз
- •Лабораторна робота Тема. Множинний регресійний аналіз
- •8 Дисперсійний аналіз
- •8.1 Однофакторний дисперсійний аналіз
- •Розв’язання.
- •Питання і завдання до розділу 8
- •Лабораторна робота Тема. Однофакторний дисперсійний аналіз
- •9 Ранговий аналіз
- •9.1 Коефіцієнт рангової кореляції Кенделла (Кендалла)
- •9.2 Коефіцієнт рангової кореляції Спірмена
- •Розв’язок.
- •9.3 Коефіцієнт конкордації
- •Питання і завдання до розділу 9
7.12 Методи побудови багатофакторної регресійної моделі
7.12.1 Вибір "найкращого" рівняння регресії
Нехай відібрана множина факторів х1,х2,...,хр, які впливають на досліджуваний показник Y. Є два протилежних критерії для вибору кінцевої моделі регресійного аналізу.
1 Якщо ми хочемо зробити модель корисною для прогнозу, то ми повинні включити якнайбільше факторів для того, щоб значення прогнозованої величини було надійним.
2 Оскільки одержання інформації з послідовним контролем при збільшенні кількості змінних має потребу в більших витратах, варто прагнути, щоб модель включала по можливості менше факторів.
Компромісом між цими крайностями є те, що називають вибором "найкращого" рівняння регресії. Для реалізації такого вибору немає єдиної статистичної процедури. Взагалі ж існує досить велика кількість методів побудови регресійної моделі, найбільш відомими є:
1) метод всіх можливих регресій;
2) метод виключень;
3) кроковий регресійний аналіз;
4) деякі модифікації попередніх методів та ін.
Ми розглянемо лише найпоширеніші на практиці методи побудови лінійних регресійних моделей.
7.12.2 Метод усіх можливих регресій
Метод усіх можливих регресій був історично першим методом побудови регресійної моделі. Він дуже громіздкий і може бути реалізований лише на ЕОМ.
Метод вимагає побудови всіх можливих регресійних рівнянь, які обов'язково включають член β0. Оскільки для кожного фактора Хі є дві можливості – входити або не входити в регресію, то всього буде 2p рівнянь (де р - кількість факторів Xi, i=1,p). Розглянемо ідею цього методу на прикладі лінійної регресійної моделі з 4 факторами: X1, X2, X3, X4. При цьому будемо мати 24=16 всіх можливих рівнянь, які розіб'ємо на 5 серій:
І серія моделей включає тільки один випадок:
![]()
ІІ серія – всі можливі однофакторні рівняння, у нашому випадку їх чотири:
![]()
ІІІ серія – всі можливі двофакторні моделі.
ІV серія – всі трьохфакторні моделі.
V серія – всі чотирьохфакторні моделі. Це буде, як і в І серії, одна модель:
![]()
Після того як ми розбили всі моделі за серіями, проранжуємо їх усередині кожної серії за значенням R2 (обмежимося розглядом тільки критерію R2). Виявимо моделі, які мають найбільше значення коефіцієнта детермінації в кожній із серій, і проаналізуємо, чи є якась закономірність у змінних, які входять у кожне з "найкращих" рівнянь. Вибір остаточного рівняння – це деякою мірою суб'єктивна оцінка дослідника.
Якщо для певної задачі побудовані всі регресійні рівняння, то, розглядаючи залежність величини середнього квадрата залишків від числа змінних р, іноді можна найкращим способом вибрати кількість змінних, які необхідно зберегти в регресійній моделі. Якщо ми до такої моделі будемо додавати все нові й нові фактори, середній квадрат залишків буде стабілізуватися й наближатися до дисперсії залишків σε2 (за умови, що найважливіші змінні увійшли в модель, а кількість факторів у 5-6 разів перевищує кількість спостережень).
З одного боку, метод аналізу всіх можливих рівнянь регресії дає можливість розглянути й дослідити всі можливі рівняння, але, з іншого боку, при великій кількості факторів це призводить до більших витрат машинного часу, збільшення тривалості аналізу, можливих помилок і т. ін. Виходячи із цього, метод всіх можливих рівнянь краще використовувати при невеликій кількості факторів, які входять у модель.
