Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
указания лабораторная №2.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
379.39 Кб
Скачать

Райцева И.Л.

Цель работы: исследовать зависимость признака – результата от нескольких

признаков - факторов, построить оптимальную модель линейной множественной регрессии и проанализировать ее.

Для того чтобы проследить существенность влияния на результат того или

иного признака – фактора, построим корреляционную матрицу c помощью ”Сервис” – ”Анализ данных”- ”Корреляция ”.

Корреляционная матрица *

Таблица 1

у

х1

х2

х3

х4

х5

х6

х7

у

1,000

0,572

0,352

-0,645

0,636

-0,499

0,705

-0,385

х1

0,572

1,000

0,537

-0,320

0,306

-0,452

0,314

-0,199

х2

0,352

0,537

1,000

-0,239

0,261

-0,219

0,206

-0,326

х3

-0,645

-0,320

-0,239

1,000

-0,480

0,286

-0,406

0,302

х4

0,636

0,306

0,261

-0,480

1,000

-0,274

0,653

-0,412

х5

-0,499

-0,452

-0,219

0,286

-0,274

1,000

-0,320

0,283

х6

0,705

0,314

0,206

-0,406

0,653

-0,320

1,000

-0,288

х7

-0,385

-0,199

-0,326

0,302

-0,412

0,283

-0,288

1,000


*

у – признак результат

х1-признак фактор

х2- признак фактор

х3- признак фактор

х4- признак фактор

х5- признак фактор

х6- признак фактор

х7- признак фактор

Мультиколлинеарность между признаками-факторами отсутствует, так как коэффициенты парной корреляции между ними не превышают .Поэтому ни один из признаков не исключается из модели.

Выбор оптимальной модели множественной регрессии

Сначала проанализируем данные корреляционной матрицы: из всех отобранных

факторов, наименьшее влияние на уровень здоровья студентов дневной формы обучения оказывают занятия спортом ( ) и степень волнения при сдаче экзаменов и зачетов ( ). Данные факторы слабо связаны с результатом и, поэтому, не будут рассматриваться в качестве факторов для выбора оптимальной модели множественной регрессии.

Будем искать оптимальную модель методом пошаговой регрессии:

сначала составим двухфакторную модель, включающую признаки - факторы, имеющие наибольшую линейную связь с признаком – результатом, проверим значимость коэффициента множественной корреляции и значимость факторов, входящих в модель. Если данная модель, состоящая из факторов, которые в наибольшей степени влияют на результат, оказалась незначимой, то дальнейший анализ смысла не имеет.

Далее будем добавлять по одному фактору в исходную модель, двигаясь в сторону уменьшения значения линейного коэффициента парной корреляции между признаком – фактором и признаком – результатом, и проверять значимость параметров новой модели. Если признак – фактор является незначимым – он исключается из дальнейшего анализа. Если коэффициент множественной корреляции является незначимым – признаки - факторы, включенные в эту модель, исключаются из дальнейшего рассмотрения.

При выборе оптимальной модели будем учитывать ее точность (по коэффициенту множественной корреляции) и простоту.

Проверка гипотезы о значимости признака – фактора, входящего в модель,

осуществляется на основе t – критерия Стьюдента. Для этого необходимо сравнить расчётное значение критерия (”Сервис” – ”Анализ данных” - регрессия - t –статистика) и критическое tкр (0,05; 48)=2,01.

Если tр > tкр - фактор является значимым, в обратном случае фактор считается незначимым.

Проверка гипотезы о значимости коэффициента множественной корреляции

полученной модели, осуществляется на основе F – критерия Фишера.

Для этого необходимо сравнить расчётное значение критерия (”Сервис” – ”Анализ данных” - регрессия - F) и критическое Fкр

Где k – число признаков – факторов в модели

n – число элементов совокупности

Если Fр > Fкр - коэффициент множественной корреляции является значимым, в обратном случае данный параметр считается незначимым.

Выбор оптимальной модели линейной множественной регрессии”

Таблица 2

Модель

Множественный

R

Значимость

R

Значимость признака - фактора

x3

0,80690544

значимый

значимый

x6

значимый

x3

0,815147109

значимый

значимый

x6

значимый

x4

незначимый

x3

0,857190893

значимый

значимый

x6

значимый

x1

значимый

x3

0,866098824

значимый

значимый

x6

значимый

x1

значимый

x5

незначимый

Вывод: наилучшей из моделей является двухфакторная модель, включающая 3-ий и 6-ой признаки-факторы, так как является простой и имеет высокое значение коэффициента множественной корреляции.