
- •Аналіз даних лабораторні роботи
- •Лабораторна робота 1. Дисперсійний аналіз
- •1.4.4 Розподіл станків за продуктивністю.
- •Лабораторна робота 2. Кореляційний аналіз
- •2.3.8 Розрахунок множинних коефіцієнтів кореляції. З’ясуємо наявність багатовимірних лінійних залежностей між перемінними. Розрахункова формула:
- •Лабораторна робота 3. Проста лінійна регресія
- •Лабораторна робота 4. Мультілінійна регресія
- •1) На практиці у таких випадках за залежні вважають такі перемінні, які важче вимірювати.
Лабораторна робота 4. Мультілінійна регресія
4.1 Мета роботи: створити мультілінійну регресійну модель складної системи, провести її дослідження, провести відбір можливих рівнянь.
4.2 Завдання та теоретична частина.
4.2.1 Завдання. Користуючись даними лабораторної роботи 2, побудувати лінійну регресійну модель. Як вихідну, обрати перемінну Х6 – концентрацію E. coli.
4.2.2 Теоретичний матеріал міститься у розділах 4 та 5 лекційного курсу. Студент повинен володіти поняттями мультілінійного регресійного аналізу, а також основами та чисельними методами факторного аналізу зокрема методом головних компонент для рішення задач мультілінійної регерсії.
4.3 Приклад виконання завдання
4.3.1 Перший етап – побудова та аналіз кореляційної матриці, розрахунок її власних значень.
а) Вилучаємо з матриці даних задачі (лабораторна робота 2) стовпець із значеннями Х6. Цей стовпець поміщуємо окремо і позначаємо, як Y (вихідна перемінна)
б) Вилучаємо з кореляційної матриці рядок та стовпець, що відповідають перемінної Х6. Одержуємо кореляційну матрицю розміром 88
в) Копіюємо одержану кореляційну матрицю у документ Word, призводимо заміну десятинних знаків – ком на точки:
1) Виділяємо матрицю-таблицю, натискуємо <Ctrl> + <F>, викликаємо вікно пошуку - заміни
2) Заносимо у віконце “Найти” знак коми, у віконце “Заменить” – знак точки.
3) Натискуємо кнопку “Заменить все”. Відбувається заміна у виділеному фрагменту.
4) Після появи повідомлення про проведення заміни і пропозиції продовжити заміну – обрати варіант “Нет” і вимикнути вікно пошуку-заміни.
г) Вмикаємо програму , вимикаємо вікно порад.
д) Уводимо у латинському регістрі: “А:=”. З’являється позначка:
е) На панелі інструментів
MathCad натискуємо клавішу
матричних операцій:
ж) У віконці матричніх операцій увести розмір матриці: 8 рядків та 8 стовпців. З’явиться зображення матриці:
з) Перейти у вікно Word, виділити таблицю з кореляційною матрицєю і
“запам’ятати” у буфері.
і) Повернутися у вікно MathCAD , виділити область матриці і вставити у неї вміст буферу. Замість чорних квадратиків з’являються значення компонентів кореляційної матриці.
к) Нижче увести у латинському регістрі: eigenvals(A)=. На екрані з’явиться вектор власних значень кореляційної матриці (рис.4.1).
Рисунок 4.1
л) Скопіювати вектор власних значень, перенести у документ Word, замінити десятинний знак з точки на кому, знов скопіювати і перенести на робочій аркуш Еxcel.
3.4.2 Виділення внеску перемінних у загальну дисперсію.
а) Впорядковуємо власні значення за зменшенням.
в) Розраховуємо відносний внесок перемінних у загальну дисперсію. Для цього ділимо кожне власне значення на їх суму (що дорівнює числу перемінних) і переводимо у відсотки.
г) Знаходимо накопичений внесок шляхом підсумовування.
Результати наведено на скриншоті (рис. 4.2)
3.4.3. З даних рис. 4.2 випливає, що з 8-ми перемінних 6 дають внесок у загальну дисперсію 99,12 %, а інші 2 – всього 0,88 %. Тому слід вважати, що модель повинна містити 6 вхідних перемінних, а дві є лінійно залежними від інших. Будемо вважати залежними перемінні Х8 та Х9.1)
Рисунок 4.2
3.4.4 Підбір рівняння регресії будемо робити за алгоритмом послідовного виключення.
3.4.4.1 На першому кроці одержуємо повне рівняння з усіма перемінними. Робимо це за допомогою функції ЛИНЕЙН(). Проводимо дослідження значимості коефіцієнтів регресії і виключаємо ті, що не є значимими.
3.4.4.2 Результати розрахунків коефіцієнтів наведені на скриншоті (рис. 4.3).
Рисунок 4.3
3.4.4.3 Як випливає з цих даних, коефіцієнти при перемінних Х2 та Х4 є не значимими. Тому виключаємо ці перемінні з рівняння ці перемінні, як несуттєві.
Результати розрахунків наведені на скришоті (рис.4.4). У результаті виключення маємо, що залишилися тільки значимі коефіцієнти. Це несуттєво вплинуло на коефіцієнт детермінації. У першому випадку він склав 0,9742, у іншому – 0,9736. Розбіжності не є значимими.
3.4.4.4 Спробуємо вилучати по черзі значимі коефіцієнти. При цьому дивимося на величину коефіцієнту детермінації. Одержуємо такі результати (табл..4.1
Рисунок 4.4
Таблиця 4.1
Вилуч. Х |
X1 |
X3 |
X5 |
X7 |
R2 |
0,962 |
0,889 |
0,967 |
0,965 |
Виходячи з табл. 4.1, робимо такі висновки:
а) Вилучення Х3 суттєво впливає на коефіцієнт детермінації ї суттєво погіршує.
б) Вилучення кожної з інших перемінних не оказує значного впливу на коефіцієнт детермінації.
3.4.4.5 Спираючись на це, вилучимо перемінну Х5, як таку, що несуттєво впливає ї дослідимо регресію на перемінних Х1,Х3,Х7. Внаслідок вилучення з описання цих перемінних по черзі, одержали такі результати:
Вилуч. Х |
- |
X1 |
X3 |
X7 |
R2 |
0,967 |
0,912 |
0,382 |
0,964 |
З цих даних випливає, що сильно впливає вилучення Х3. Менш сильно але суттєво впливає вилучення Х3. Вилучення Х7 практично не впливає на коефіцієнт детермінації. Тобто можна обрати модель, що містить всього дві перемінні: Х1 та Х3.
3.4.4.6 Якщо залишити у моделі тільки перемінну X3, то коефіцієнт детермінації зменшиться до 0,908, тобто суттєвою. Тому подальше спрощення моделі недоцільно. Розрахунки коефіцієнтів та їх дослідження наведено на скриншоті (рис.4.5)
Рисунок 4.5
4.3.4.7 Як виливає з рис. 4.5, вільний член рівняння регресії залишився не значимим. Тому вилучаємо його і кінцево одержуємо рівняння регресії без вільного члену (рис. 4.6) (у комірці формул показана формула масиву з врахуванням відсутності вільного члену)
Рисунок 4.6
Таким чином, оптимальне за складністю рівняння регресії має вид:
Y = 24,565X1 + 3,8443X3
4.4 Вхідні дані і вимоги до оформлення
4.4.1 Як вхідні, використовувати дані лабораторної роботи № 2.
4.4.2 У оформленій роботі повиннні бути:
а) Назва та мета роботи;
б) Вхідні дані – повна таблиця даних;
в) Стислі теоретичні положення багатовимірного регресійного аналізу;
г) Результати проміжних розрахунків. Розрахунки повинні бути наявними у вигляді додатків – аркушів робочої книги Excel.
д) Висновки по проміжним результатам.
е) Загальні висновки – кінцевий результат.
При оформленні керуватися методою, що описана у розділі 4.3
4.5 Контрольні запитання
1 Які проблеми виникають при проведенні багатовимірного регресійного аналізу, що відсутні для простій лінійної регресії?
2 У чому суть проблеми мультіколінеарності?
3 Сутність методу головних компонент.
4 Яким чином метод головних компонент можна використати у регресійному аналізі?
5 Яким чином можна проводити відбір оптимального за складністю рівняння регресії методом виключення?
6 Яким чином можна проводити розрахунки багатовимірної регресії у середовищі Excel?
7 Яким чином можна проводити перевірку значимості рівняння регресії?
8 Яким чином можна проводити перевірку значимості коефіцієнтів регресії?
9 Яку інформацію несе коефіцієнт детермінації? У яких межаі він змінюється?
10 Як розраховувати кількість ступенів волі для залишкової дисперсії?
Додаток А
Критичні точки розподілу Кохрена для рівня значимості 0,05
(k - кількість ступенів волі, l – кількість вибірок)
Таблиця А.1, частина 1
k l |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
2 |
0,9985 |
0,9750 |
0,9392 |
0,9057 |
0,8772 |
0,8534 |
0,8332 |
3 |
9669 |
8709 |
7977 |
7457 |
7071 |
6771 |
6530 |
4 |
9065 |
7679 |
6841 |
6287 |
5895 |
5598 |
5365 |
5 |
0,8412 |
0,6338 |
0,5981 |
0,5440 |
0,5063 |
0,4783 |
0,4564 |
6 |
7808 |
6161 |
5321 |
4803 |
4447 |
4184 |
3980 |
7 |
7271 |
5612 |
4800 |
4307 |
3974 |
3726 |
3535 |
8 |
0,6798 |
0,5157 |
0,4377 |
0,3910 |
0,3595 |
0,3362 |
0,3185 |
9 |
6385 |
4775 |
4027 |
3584 |
3286 |
3067 |
2901 |
10 |
6020 |
4450 |
3733 |
3311 |
3029 |
2823 |
2666 |
12 |
0,5410 |
0,3924 |
0,3624 |
0,2880 |
0,2624 |
0,2439 |
0,2299 |
15 |
4709 |
3346 |
2758 |
2419 |
2195 |
2034 |
1911 |
20 |
3894 |
2705 |
2205 |
1921 |
1735 |
1602 |
1501 |
24 |
0,3434 |
0,2354 |
0,1907 |
0,1656 |
0,1493 |
0,1374 |
0,1286 |
30 |
2929 |
1980 |
1593 |
1377 |
1237 |
1137 |
1061 |
40 |
2370 |
1576 |
1259 |
1087 |
0968 |
0887 |
0827 |
60 |
0,1737 |
0,1131 |
0,0895 |
0,0765 |
0,0682 |
0,0623 |
0,0583 |
120 |
0998 |
0632 |
0495 |
0419 |
0371 |
0337 |
0312 |
|
0000 |
0000 |
0000 |
0000 |
0000 |
0000 |
0000 |
Таблиця А.1, частина 2
k l |
8 |
9 |
10 |
16 |
36 |
144 |
|
2 |
0,8159 |
0,8010 |
0,7880 |
0,7341 |
0,6602 |
0,5813 |
0,5000 |
3 |
6333 |
6167 |
6025 |
5466 |
4748 |
4031 |
3333 |
4 |
5175 |
5017 |
4884 |
4366 |
3720 |
3093 |
2500 |
5 |
0,4387 |
0,4241 |
0,4118 |
0,3645 |
0,3066 |
0,2013 |
0,2000 |
6 |
3817 |
3682 |
3568 |
3135 |
2612 |
2119 |
1667 |
7 |
3384 |
3259 |
3154 |
2756 |
2278 |
1833 |
1429 |
8 |
0,3043 |
0,2926 |
0,2829 |
0,2462 |
0,2022 |
0,1616 |
0,1250 |
9 |
2768 |
2659 |
2568 |
2226 |
1820 |
1446 |
1111 |
10 |
2541 |
2439 |
2353 |
2032 |
1655 |
1308 |
1000 |
12 |
0,2187 |
0,2098 |
0,2020 |
0,1737 |
0,1403 |
0,1100 |
0,0833 |
15 |
1815 |
1736 |
1671 |
1429 |
1144 |
0889 |
0667 |
20 |
1422 |
1357 |
1303 |
1108 |
0879 |
0675 |
0500 |
24 |
0,1216 |
0,1160 |
0,1113 |
0,0942 |
0,0743 |
0,0567 |
0,0417 |
30 |
1002 |
0958 |
0921 |
0771 |
0604 |
0457 |
0333 |
40 |
0780 |
0745 |
0713 |
0595 |
0462 |
0347 |
0250 |
60 |
0,0552 |
0,0520 |
0,0497 |
0,0411 |
0,0316 |
0,0234 |
0,0167 |
120 |
0,292 |
0279 |
0266 |
0218 |
0165 |
0120 |
0083 |
|
0000 |
0000 |
0000 |
0000 |
0000 |
0000 |
0000 |
НАВЧАЛЬНЕ ВИДАННЯ
АНАЛІЗ ДАНИХ. ЛАБОРАТОРНІ РОБОТИ
Відповідальний за випуск: Кондратов С.О.
Підписано до друку “___”_________ 2004 р. Формат 608416
Друк. арк. 44
Тираж ___ пр.
Ротапринт РФ СНУ 93009, м.Рубіжне, вул. Леніна, 31