
Задачі регресійного аналізу
Розглянемо основні задачі регресійного аналізу: встановлення форми залежності, визначення функції регресії, оцінка невідомих значень залежної змінної.
Встановлення форми залежності.
Характер і форма залежності між змінними можуть утворювати наступні різновиди регресії:
позитивна лінійна регресія (виражається в рівномірному зростанні функції);
позитивна рівноприскорена зростаюча регресія;
позитивна рівносповільнена зростаюча регресія;
негативна лінійна регресія (виражається в рівномірному падінні функції);
негативна рівноприскорена спадаюча регресія;
негативна рівносповільнена спадаюча регресія.
Проте описані різновиди зазвичай зустрічаються не в чистому вигляді, а в поєднанні один з одним. В такому разі говорять про комбіновані форми регресії.
Визначення функції регресії.
Друга задача зводиться до з'ясування дії на залежну змінну головних чинників або причин, за незмінних інших рівних умов, і за умови виключення дії на залежну змінну випадкових елементів. Функція регресії визначається у вигляді математичного рівняння того або іншого типу.
Оцінка невідомих значень залежної змінної.
Вирішення цієї задачі зводиться до вирішення задачі одного з типів:
Оцінка значень залежної змінної усередині даного інтервалу вихідних даних, тобто пропущених значень; при цьому вирішується задача інтерполяції.
Оцінка майбутніх значень залежної змінної, тобто знаходження значень поза заданим інтервалом вихідних даних; при цьому вирішується задача екстраполяції.
Обидві задачі вирішуються шляхом підстановки в рівняння регресії знайдених оцінок параметрів значень незалежних змінних. Результат вирішення рівняння є оцінкою значення цільової (залежною) змінної.
Розглянемо деякі припущення, на які спирається регресійний аналіз.
Припущення лінійності, тобто передбачається, що зв'язок між даними змінними є лінійним. Так, в даному прикладі ми побудували діаграму розсіювання і змогли побачити явний лінійний зв'язок. Якщо ж на діаграмі розсіювання змінних ми бачимо явну відсутність лінійного зв'язку, тобто присутній нелінійний зв'язок, слід використовувати нелінійні методи аналізу.
Припущення про нормальність залишків. Воно допускає, що розподіл різниці передбачених і спостережуваних значень є нормальним. Для візуального визначення характеру розподілу можна скористатися гістограмами залишків.
При використанні регресійного аналізу слід враховувати його основне обмеження. Воно полягає в тому, що регресійний аналіз дозволяє виявити лише залежності, а не зв'язки, що лежать в основі цих залежностей.
Регресійний аналіз дає можливість оцінити міру зв'язку між змінними шляхом обчислення передбачуваного значення змінної на підставі декількох відомих значень.
Рівняння регресії.
Рівняння регресії виглядає таким чином: Y = a + b·x
За допомогою цього рівняння змінна Y виражається через константу а і кут нахилу прямої (або кутовий коефіцієнт) b, помножений на значення змінної X. Константу а також називають вільним членом, а кутовий коефіцієнт – коефіцієнтом регресії або B- коефіцієнтом.
У більшості випадків (якщо не завжди) спостерігається певний розкид спостережень відносно регресійної прямої.
Залишок – це відхилення окремої крапки (спостереження) від лінії регресії (передбаченого значення).
Для вирішення задачі регресійного аналізу в MS Excel вибираємо в меню Сервис "Пакет анализа" і інструмент аналізу "Регрессия". Задаємо вхідні інтервали X і Y. Вхідний інтервал Y – це діапазон залежних аналізованих даних, він повинен включати один стовпець. Вхідний інтервал X – це діапазон незалежних даних, які необхідно проаналізувати. Число вхідних діапазонів должно бути не більше 16.
На виході процедури у вихідному діапазоні отримуємо звіт, наведений в таблиці 8.3а, – 8.3в.
ПІДВЕДЕННЯ ПІДСУМКІВ
Таблиця 8.3а. Регресійна статистика
Регресійна статистика |
|
Множественный R |
0,998364 |
R-квадрат |
0,99673 |
Нормированный R-квадрат |
0,996321 |
Стандартная ошибка |
0,42405 |
Наблюдения |
10 |
Спочатку розглянемо верхню частину розрахунків, представлену в таблиці 8.3а, – регресійну статистику.
Величина R-квадрат, називається також мірою визначеності, характеризує якість отриманої регресійної прямої. Ця якість виражається мірою відповідності між вихідними даними і регресійною моделлю (розрахунковими даними). Міра визначеності завжди знаходиться в межах інтервалу [0;1].
В більшості випадків значення R-квадрат знаходиться між цими значеннями, називаються екстремальними, тобто між нулем і одиницею.
Якщо значення R-квадрата близьке до одиниці, це означає, що побудована модель пояснює майже всю мінливість відповідних змінних. І навпаки, значення R-квадрата, близьке до нуля, означає погану якість побудованої моделі.
У нашому прикладі міра визначеності дорівнює 0,99673, що говорить про дуже хорошу підгонку регресійної прямої до вихідних даних.
Множественный R – коефіцієнт множинної кореляції R – виражає міру залежності незалежних змінних (X) і залежної змінної (Y).
Множественный R дорівнює квадратному кореню з коефіцієнта детермінації, ця величина набуває значень в інтервалі від нуля до одиниці.
У простому лінійному регресійному аналізі множественный R дорівнює коефіцієнту кореляції Пірсона. Дійсно, множественный R в нашому випадку дорівнює коефіцієнту кореляції Пірсона з попереднього прикладу (0,998364).
Таблиця 8.3б. Коефіцієнти регресії
|
Коэффициенты |
Стандартная ошибка |
t-статистика |
Y-пересечение |
2,694545455 |
0,33176878 |
8,121757129 |
Переменная X 1 |
2,305454545 |
0,04668634 |
49,38177965 |
* Приведений усічений варіант розрахунків |
Тепер розглянемо середню частину розрахунків, представлену в таблиці 8.3б. Тут надано коефіцієнт регресії b (2,305454545) і зсув по осі ординат, тобто константа а (2,694545455).
Виходячи з розрахунків, можемо записати рівняння регресії таким чином:
Y = x·2,305454545 + 2,694545455
Напрям зв'язку між змінними визначається на підставі знаків (негативний або позитивний) коефіцієнтів регресії (коефіцієнта b).
Якщо знак при коефіцієнті регресії – позитивний, зв'язок залежної змінної з незалежною буде позитивним. У нашому випадку знак коефіцієнта регресії позитивний, отже, зв'язок також є позитивним.
Якщо знак при коефіцієнті регресії – негативний, зв'язок залежної змінної з незалежною є негативним (зворотною).
У таблиці 8.3в. представлені результати виведення залишків. Для того, щоб ці результати з'явилися в звіті, необхідно при запуску інструменту "Регрессия" активувати чекбокс "Остатки".
ВИВЕДЕННЯ ЗАЛИШКУ
Таблиця 8.3в. Залишки
Наблюдение |
Предсказанное Y |
Остатки |
Стандартные остатки |
1 |
9,610909091 |
– 0,610909091 |
– 1,528044662 |
2 |
7,305454545 |
– 0,305454545 |
– 0,764022331 |
3 |
11,91636364 |
0,083636364 |
0,209196591 |
4 |
14,22181818 |
0,778181818 |
1,946437843 |
5 |
16,52727273 |
0,472727273 |
1,182415512 |
6 |
18,83272727 |
0,167272727 |
0,418393181 |
7 |
21,13818182 |
– 0,138181818 |
– 0,34562915 |
8 |
23,44363636 |
– 0,043636364 |
– 0,109146047 |
9 |
25,74909091 |
– 0,149090909 |
– 0,372915662 |
10 |
28,05454545 |
– 0,254545455 |
– 0,636685276 |
За допомогою цієї частини звіту ми можемо бачити відхилення кожної крапки від побудованої лінії регресії. Найбільше абсолютне значення залишку в нашому випадку – 0,778, найменше – 0,043. Для кращої інтерпретації цих даних скористаємося графіком вихідних даних і побудованою лінією регресії, представленими на рис. 8.3. Як бачимо, лінія регресії досить точно "підігнана" під значення вихідних даних.
Слід враховувати, що даний приклад є досить простим і далеко не завжди можлива якісна побудова регресійної прямої лінійного вигляду.
Рис. 8.3. Вихідні дані і лінія регресії
Залишилося нерозглянутим задача оцінки невідомих майбутніх значень залежної змінної на підставі відомих значень незалежної змінної, тобто задача прогнозування.
Маючи рівняння регресії, задача прогнозування зводиться до вирішення рівняння Y = x·2,305454545 + 2,694545455 з відомими значеннями x. Результати прогнозування залежної змінної Y на шість кроків вперед представлені в таблиці 8.4.
Таблиця 8.4. Результати прогнозування змінної Y
х |
Y(прогнозоване) |
11 |
28,05455 |
12 |
30,36 |
13 |
32,66545 |
14 |
34,97091 |
15 |
37,27636 |
16 |
39,58182 |
Таким чином, в результаті використання регресійного аналізу в пакеті Microsoft Excel ми:
побудували рівняння регресії;
встановили форму залежності і напрям зв'язку між змінними – позитивна лінійна регресія, яка виражається в рівномірному зростанні функції;
встановили напрям зв'язку між змінними;
оцінили якість отриманої регресійної прямої;
змогли побачити відхилення розрахункових даних від даних вихідного набору;
передбачили майбутні значення залежної змінної.
Якщо функція регресії визначена, інтерпретована і обґрунтована, і оцінка точності регресійного аналізу відповідає вимогам, можна вважати, що побудована модель і прогнозні значення володіють достатньою надійністю.
Прогнозні значення, отримані в такий спосіб, є середніми значеннями, які можна чекати.