Райцева И.Л.
Цель работы: исследовать зависимость признака – результата от нескольких
признаков - факторов, построить оптимальную модель линейной множественной регрессии и проанализировать ее.
Для того чтобы проследить существенность влияния на результат того или
иного признака – фактора, построим корреляционную матрицу c помощью ”Сервис” – ”Анализ данных”- ”Корреляция ”.
Корреляционная матрица *
Таблица 1
  | 
			у  | 
			х1  | 
			х2  | 
			х3  | 
			х4  | 
			х5  | 
			х6  | 
			х7  | 
		
у  | 
			1,000  | 
			0,572  | 
			0,352  | 
			-0,645  | 
			0,636  | 
			-0,499  | 
			0,705  | 
			-0,385  | 
		
х1  | 
			0,572  | 
			1,000  | 
			0,537  | 
			-0,320  | 
			0,306  | 
			-0,452  | 
			0,314  | 
			-0,199  | 
		
х2  | 
			0,352  | 
			0,537  | 
			1,000  | 
			-0,239  | 
			0,261  | 
			-0,219  | 
			0,206  | 
			-0,326  | 
		
х3  | 
			-0,645  | 
			-0,320  | 
			-0,239  | 
			1,000  | 
			-0,480  | 
			0,286  | 
			-0,406  | 
			0,302  | 
		
х4  | 
			0,636  | 
			0,306  | 
			0,261  | 
			-0,480  | 
			1,000  | 
			-0,274  | 
			0,653  | 
			-0,412  | 
		
х5  | 
			-0,499  | 
			-0,452  | 
			-0,219  | 
			0,286  | 
			-0,274  | 
			1,000  | 
			-0,320  | 
			0,283  | 
		
х6  | 
			0,705  | 
			0,314  | 
			0,206  | 
			-0,406  | 
			0,653  | 
			-0,320  | 
			1,000  | 
			-0,288  | 
		
х7  | 
			-0,385  | 
			-0,199  | 
			-0,326  | 
			0,302  | 
			-0,412  | 
			0,283  | 
			-0,288  | 
			1,000  | 
		
*
у – признак результат
х1-признак фактор
х2- признак фактор
х3- признак фактор
х4- признак фактор
х5- признак фактор
х6- признак фактор
х7- признак фактор
Мультиколлинеарность
между признаками-факторами отсутствует,
так как коэффициенты парной корреляции
между ними не превышают
.Поэтому
ни один из признаков не исключается из
модели.
Выбор оптимальной модели множественной регрессии
Сначала проанализируем данные корреляционной матрицы: из всех отобранных
факторов, наименьшее
влияние на уровень здоровья студентов
дневной формы обучения оказывают занятия
спортом (
)
 и степень волнения при сдаче экзаменов
и зачетов (
).
Данные факторы слабо связаны с результатом
и, поэтому, не будут рассматриваться в
качестве факторов для  выбора оптимальной
модели множественной регрессии.
Будем искать оптимальную модель методом пошаговой регрессии:
сначала составим двухфакторную модель, включающую признаки - факторы, имеющие наибольшую линейную связь с признаком – результатом, проверим значимость коэффициента множественной корреляции и значимость факторов, входящих в модель. Если данная модель, состоящая из факторов, которые в наибольшей степени влияют на результат, оказалась незначимой, то дальнейший анализ смысла не имеет.
Далее будем добавлять по одному фактору в исходную модель, двигаясь в сторону уменьшения значения линейного коэффициента парной корреляции между признаком – фактором и признаком – результатом, и проверять значимость параметров новой модели. Если признак – фактор является незначимым – он исключается из дальнейшего анализа. Если коэффициент множественной корреляции является незначимым – признаки - факторы, включенные в эту модель, исключаются из дальнейшего рассмотрения.
При выборе оптимальной модели будем учитывать ее точность (по коэффициенту множественной корреляции) и простоту.
Проверка гипотезы о значимости признака – фактора, входящего в модель,
осуществляется на основе t – критерия Стьюдента. Для этого необходимо сравнить расчётное значение критерия (”Сервис” – ”Анализ данных” - регрессия - t –статистика) и критическое tкр (0,05; 48)=2,01.
Если tр > tкр - фактор является значимым, в обратном случае фактор считается незначимым.
Проверка гипотезы о значимости коэффициента множественной корреляции
полученной модели, осуществляется на основе F – критерия Фишера.
Для этого необходимо
сравнить расчётное значение критерия
(”Сервис” – ”Анализ данных”  -
регрессия -  F)  и
критическое Fкр
Где k – число признаков – факторов в модели
n – число элементов совокупности
Если Fр > Fкр - коэффициент множественной корреляции является значимым, в обратном случае данный параметр считается незначимым.
”Выбор оптимальной модели линейной множественной регрессии”
Таблица 2
Модель  | 
		Множественный R  | 
		Значимость R  | 
		Значимость признака - фактора  | 
	
x3  | 
		0,80690544  | 
		значимый  | 
		значимый  | 
	
x6  | 
		значимый  | 
	||
x3  | 
		0,815147109  | 
		значимый  | 
		значимый  | 
	
x6  | 
		значимый  | 
	||
x4  | 
		незначимый  | 
	||
x3  | 
		0,857190893  | 
		значимый  | 
		значимый  | 
	
x6  | 
		значимый  | 
	||
x1  | 
		значимый  | 
	||
x3  | 
		0,866098824  | 
		значимый  | 
		значимый  | 
	
x6  | 
		значимый  | 
	||
x1  | 
		значимый  | 
	||
x5  | 
		незначимый  | 
	
Вывод: наилучшей из моделей является двухфакторная модель, включающая 3-ий и 6-ой признаки-факторы, так как является простой и имеет высокое значение коэффициента множественной корреляции.
