
Райцева И.Л.
Цель работы: исследовать зависимость признака – результата от нескольких
признаков - факторов, построить оптимальную модель линейной множественной регрессии и проанализировать ее.
Для того чтобы проследить существенность влияния на результат того или
иного признака – фактора, построим корреляционную матрицу c помощью ”Сервис” – ”Анализ данных”- ”Корреляция ”.
Корреляционная матрица *
Таблица 1
|
у |
х1 |
х2 |
х3 |
х4 |
х5 |
х6 |
х7 |
у |
1,000 |
0,572 |
0,352 |
-0,645 |
0,636 |
-0,499 |
0,705 |
-0,385 |
х1 |
0,572 |
1,000 |
0,537 |
-0,320 |
0,306 |
-0,452 |
0,314 |
-0,199 |
х2 |
0,352 |
0,537 |
1,000 |
-0,239 |
0,261 |
-0,219 |
0,206 |
-0,326 |
х3 |
-0,645 |
-0,320 |
-0,239 |
1,000 |
-0,480 |
0,286 |
-0,406 |
0,302 |
х4 |
0,636 |
0,306 |
0,261 |
-0,480 |
1,000 |
-0,274 |
0,653 |
-0,412 |
х5 |
-0,499 |
-0,452 |
-0,219 |
0,286 |
-0,274 |
1,000 |
-0,320 |
0,283 |
х6 |
0,705 |
0,314 |
0,206 |
-0,406 |
0,653 |
-0,320 |
1,000 |
-0,288 |
х7 |
-0,385 |
-0,199 |
-0,326 |
0,302 |
-0,412 |
0,283 |
-0,288 |
1,000 |
*
у – признак результат
х1-признак фактор
х2- признак фактор
х3- признак фактор
х4- признак фактор
х5- признак фактор
х6- признак фактор
х7- признак фактор
Мультиколлинеарность
между признаками-факторами отсутствует,
так как коэффициенты парной корреляции
между ними не превышают
.Поэтому
ни один из признаков не исключается из
модели.
Выбор оптимальной модели множественной регрессии
Сначала проанализируем данные корреляционной матрицы: из всех отобранных
факторов, наименьшее
влияние на уровень здоровья студентов
дневной формы обучения оказывают занятия
спортом (
)
и степень волнения при сдаче экзаменов
и зачетов (
).
Данные факторы слабо связаны с результатом
и, поэтому, не будут рассматриваться в
качестве факторов для выбора оптимальной
модели множественной регрессии.
Будем искать оптимальную модель методом пошаговой регрессии:
сначала составим двухфакторную модель, включающую признаки - факторы, имеющие наибольшую линейную связь с признаком – результатом, проверим значимость коэффициента множественной корреляции и значимость факторов, входящих в модель. Если данная модель, состоящая из факторов, которые в наибольшей степени влияют на результат, оказалась незначимой, то дальнейший анализ смысла не имеет.
Далее будем добавлять по одному фактору в исходную модель, двигаясь в сторону уменьшения значения линейного коэффициента парной корреляции между признаком – фактором и признаком – результатом, и проверять значимость параметров новой модели. Если признак – фактор является незначимым – он исключается из дальнейшего анализа. Если коэффициент множественной корреляции является незначимым – признаки - факторы, включенные в эту модель, исключаются из дальнейшего рассмотрения.
При выборе оптимальной модели будем учитывать ее точность (по коэффициенту множественной корреляции) и простоту.
Проверка гипотезы о значимости признака – фактора, входящего в модель,
осуществляется на основе t – критерия Стьюдента. Для этого необходимо сравнить расчётное значение критерия (”Сервис” – ”Анализ данных” - регрессия - t –статистика) и критическое tкр (0,05; 48)=2,01.
Если tр > tкр - фактор является значимым, в обратном случае фактор считается незначимым.
Проверка гипотезы о значимости коэффициента множественной корреляции
полученной модели, осуществляется на основе F – критерия Фишера.
Для этого необходимо
сравнить расчётное значение критерия
(”Сервис” – ”Анализ данных” -
регрессия - F) и
критическое Fкр
Где k – число признаков – факторов в модели
n – число элементов совокупности
Если Fр > Fкр - коэффициент множественной корреляции является значимым, в обратном случае данный параметр считается незначимым.
”Выбор оптимальной модели линейной множественной регрессии”
Таблица 2
Модель |
Множественный R |
Значимость R |
Значимость признака - фактора |
x3 |
0,80690544 |
значимый |
значимый |
x6 |
значимый |
||
x3 |
0,815147109 |
значимый |
значимый |
x6 |
значимый |
||
x4 |
незначимый |
||
x3 |
0,857190893 |
значимый |
значимый |
x6 |
значимый |
||
x1 |
значимый |
||
x3 |
0,866098824 |
значимый |
значимый |
x6 |
значимый |
||
x1 |
значимый |
||
x5 |
незначимый |
Вывод: наилучшей из моделей является двухфакторная модель, включающая 3-ий и 6-ой признаки-факторы, так как является простой и имеет высокое значение коэффициента множественной корреляции.