семестр 2 / БИК2205_ДЗ_3
.pdfМинистерство цифрового развития, связи и массовых
коммуникаций Российской Федерации
Ордена Трудового Красного Знамени федеральное государственное бюджетное образовательное учреждение высшего образования
Московский технический университет связи и информатики
___________________________________________________________________
Кафедра «Теория вероятностей и прикладная математика»
Отчёт по домашней работе №3 по дисциплине «ТВиМС»
на тему: «Регрессионный и корреляционный анализы»
Выполнил Студент группы БИК2205 _________________________
Проверил
_________________________ Владимиров
А.Л.
Москва 2024
1 ИСХОДНЫЕ ДАННЫЕ
В качестве исходных данных выступают значения случайных величин из корреляционной таблицы.
Вывод
X excel |
Y excel |
T |
|
“B1:I1” |
|||
“A2:A7” |
|
2 ВЫБОРОЧНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ
При вычислении выборочного коэффициента корреляции, для упрощения вычислений, можно перейти к условным вариантам, переход к которым не влияет на значение выборочного коэффициента корреляции. В качестве нулей для икса и игрека берутся значения с наибольшей частотой взаимной встречи (наибольшее число на пересечении икса и игрека). В рамках задачи это 14, тогда:
c1 |
X =520 |
|
|
|
2 |
|
|
c2 |
Y |
=7.8 |
– нули при расчёте условных вариант; |
|
|||
|
4 |
|
|
h1 |
X -X =160 |
– шаги при расчёте условных вариант. |
|
|
2 |
1 |
|
h2 |
Y -Y =1.4 |
|
|
|
4 |
3 |
|
Итоговые формулы для расчёта условных вариант имеют вид:
i 0,1 5 – количество вариантов X;
j 0,1 7 – количество вариантов Y;
|
X -c1 |
|
u |
i |
– формула для расчёта условных вариантов X; |
i |
h1 |
|
|
|
|
|
Y -c2 |
|
v |
j |
– формула для расчёта условных вариантов Y. |
j |
h2 |
|
|
|
После этого необходимо составить корреляционную таблицу в условных вариантах.
Ввод |
|
excel“A2” u |
excel“B1” vT |
|
|
|
|
|
mu excel |
mv excel |
T |
|
“B8:I8” |
||
Вывод |
“J2:J7” |
|
|
m excel |
|
|
|
|
“J8” |
|
|
Для нахождения выборочного коэффициента корреляции с помощью условных вариантов также необходимо вычислить следующие величины:
|
length u -1 |
|
|
|
|
length v -1 |
|
|
|
||
|
|
∑ mu u |
|
|
|
∑ mv v |
|
||||
uavg |
|
i=0 |
i |
i =0.32 |
vavg |
|
i=0 |
i |
i =-0.67 |
||
|
|
m |
|
|
|
|
|
m |
|
|
|
|
|
length u -1 |
|
u 2 |
|
|
|
length v -1 |
|
v 2 |
|
|
|
∑ mu |
|
|
|
∑ mv |
|
||||
u2avg |
i=0 |
i |
i |
=2.2 |
v2avg |
i=0 |
i |
i |
=3.67 |
||
|
|
m |
|
|
|
|
|
m |
|
|
|
Su |
u2avg-uavg |
2 =1.448 |
Sv |
v2avg-vavg |
2 =1.795 |
||||||
Величина ∑muv u v определяется по методу четырёх полей, который
схематично изображён ниже.
Итоговое значение равно:
Σmuvuv 40+39+32-8+12+44+54=213
Искомый выборочный коэффициент корреляции равен:
rv Σmuvuv-m uavg vavg =0.902
m Su Sv
3 РАССЧЁТ РЕСГРЕССИИ YНА X
Зная выборочный коэффициент корреляции, можно найти уравнение прямой линии регрессии.
Так как выборочный коэффициент корреляции вычислялся с помощью условных вариант, то необходимо перейти обратно к изначальным вариантам
X и Y:
xavg uavg h1+c1=571.2 |
– выборочное среднее для X; |
|
yavg vavg h2+c2=6.862 |
– выборочное среднее для Y; |
|
Sx h1 |
Su=231.729 |
– выборочная дисперсия для X; |
Sy h2 |
Sv=2.513 |
– выборочная дисперсия для Y. |
Уравнение прямой линии регрессии в общем виде имеет вид: |
||||||||||||
|
|
|
|
|
y-yavg rv |
Sy |
|
|
|
|
||
|
|
|
|
|
Sx |
x-xavg |
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
После подстановки необходимых значений и раскрытии скобок, получится |
||||||||||||
выражение вида: |
|
|
|
|
|
|
|
|||||
|
|
|
|
|
y x rv Sy x-rv Sy xavg+yavg |
|
||||||
|
|
|
|
|
|
|
Sx |
|
|
Sx |
|
|
где коэффициенты линии линейной регрессии равны: |
|
|||||||||||
θ0 |
-rv |
Sy |
xavg+yavg |
=1.276 |
|
|
|
|||||
Sx |
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
||
θ1 |
rv |
Sy |
=9.78 10 |
-3 |
|
|
|
|
|
|
||
Sx |
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
||
Итоговое уравнение линии регрессии Y на X будет выглядеть следующим |
||||||||||||
образом: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
y x θ0+θ1 x |
|
|
|||
График линии регрессии и диаграмма рассеивания представлены ниже, на |
||||||||||||
рисунке 3.1. |
|
|
|
|
|
|
|
|
|
|
||
13.4 |
|
|
|
|
|
|
|
|
|
|
|
|
12 |
|
|
|
|
|
|
|
|
|
|
|
|
10.6 |
|
|
|
|
|
|
|
|
|
|
|
|
9.2 |
|
|
|
|
|
|
|
|
|
|
|
|
7.8 |
|
|
|
|
|
|
|
|
|
|
|
y X |
6.4 |
|
|
|
|
|
|
|
|
|
|
|
|
5 |
|
|
|
|
|
|
|
|
|
|
|
|
3.6 |
|
|
|
|
|
|
|
|
|
|
|
Yd |
2.2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
200 |
|
|
|
360 |
|
520 |
|
|
680 |
840 |
1000 |
|
|
|
|
|
|
|
X |
|
|
|
|
|
|
|
|
|
|
|
|
Xd |
|
|
|
|
|
|
|
Рисунок 3.1 – диаграмма рассеивания и линия регрессии |
||||||||||
4 ОЦЕНКА ДИСПЕРСИИ ОШИБОК
Для нахождения оценки дисперсии ошибок необходимо по таблице корреляции найти значения искомой величины по таблице корреляции, а не с помощью линии регрессии.
|
5 2.2+3 3.6+4 5 |
|
|
|
|
|
|
|
|
|
|
12 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
7 3.6+8 5 |
|
|
|
|
|
|
|
|
|
|
15 |
|
|
3.483 |
|
|
|
3.232 |
|
|
|
9 5+10 6.4+14 7.8 |
|
|
4.347 |
|
|
|
4.797 |
|
|
|
|
|
||||||||
|
33 |
|
|
6.612 |
|
|
|
6.361 |
|
|
|
|
y X = |
|
|
||||||
Yavg |
= |
|||||||||
|
8 6.4+7 7.8+6 9.2 |
|
|
7.667 |
|
|
|
7.926 |
|
|
|
21 |
|
|
9.2 |
|
|
|
9.491 |
|
|
|
|
|
|
|
||||||
|
2 7.8+3 9.2+2 10.6 |
|
|
11.3 |
|
|
|
11.055 |
|
|
|
7 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
6 10.6+6 12 |
|
|
|
|
|
|
|
|
|
|
12 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Тогда несмещённую оценку дисперсии ошибок наблюдения можно рассчитать по формуле:
|
|
|
length Yavg -1 |
|
|
|
|
1 |
|
|
|
|
|
S2 |
|
∑ |
Yavg |
|
-y X 2 |
|
|
m-2 |
|
n=0 |
|
n |
n |
Численное значение несмещённой оценки дисперсии ошибок наблюдений равно:
S2=5.512 10-3
5 ИНТЕРВАЛЬНЫЕ ОЦЕНКИ РАЗЛИЧНЫХ ПАРАМЕТРОВ
α 0.05 – уровень значимости;
Вывод
tα excel |
tp excel |
– необходимые квантили. |
|
|
“A2” |
|
“B2” |
X1α |
excel |
Xα excel |
“D2” |
|
“C2” |
|
|
5.1 ИНТЕРВАЛЬНЫЕ ОЦЕНКИ ПАРАМЕТРОВ РЕГРЕССИИ
Границы доверительных интервалов для каждого из параметров линии регрессии рассчитываются по следующим формулам:
Qlθ0 |
θ0 |
-tα |
m-1 |
|
1 |
-rv |
2 |
|
Sy |
=1.059 |
|
|||
m |
-2 |
|
m |
– границы |
||||||||||
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
доверительного |
|
|
|
|
m-1 |
|
|
|
|
|
|
Sy |
|
|||
Qrθ0 |
θ0 |
+tα |
|
1 |
-rv |
2 |
|
=1.492 |
интервала для θ0; |
|||||
m |
-2 |
|
m |
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Qlθ1 |
θ1 |
-tα |
Sy |
|
1-rv |
2 |
=0.009 |
|
|
|||||
Sx |
|
m-2 |
|
|
||||||||||
|
|
|
|
|
|
|
|
|
– границы доверительного |
|||||
|
|
|
Sy |
|
1-rv |
2 |
|
|
|
|
||||
Qrθ1 |
θ1 |
+tα |
|
=0.011 |
интервала для θ1. |
|||||||||
Sx |
|
m-2 |
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
||||
Итоговый доверительный интервал для свободного члена линии регрессии.
1.059<θ0<1.492
Итоговый доверительный интервал для параметра θ1 линии регрессии.
0.009<θ1<0.011
5.2 ИНТЕРВАЛЬНАЯ ОЦЕНКА ДИСПЕРСИИ ОШИБОК НАБЛЮДЕНИЙ
Границы доверительного интервала для дисперсии ошибок наблюдения можно вычислить по следующим формулам:
QlS2 m-X2 S2 =4.244 10-3
1α
– границы доверительного интервала для
m-2 S2 -3 дисперсии ошибок наблюдений.
QrS2 Xα =7.45 10
Итоговый доверительный интервал для дисперсии ошибок наблюдений.
0.004<σ2 <0.007
5.3 ИНТЕРВАЛЬНАЯ ОЦЕНКА МАТОЖИДАНИЯ ПРОГНОЗА
Границы доверительного интервала для математического ожидания прогноза y x0 можно вычислить по следующим формулам:
|
|
|
|
1 |
|
X -xavg 2 |
|
|
|
Qly0 |
y X |
-tp |
S2 |
+ |
2 |
|
=5.866 |
– границы |
|
|
2 |
|
|
m |
|
|
Sx |
|
доверительного |
|
|
|
|
|
|
X -xavg 2 |
|
интервала для |
|
|
|
|
|
1 |
|
|
матожидания |
||
Qry0 |
y X |
+tp |
S2 |
+ |
2 |
|
=6.857 |
прогноза. |
|
|
2 |
|
|
m |
|
|
Sx |
|
|
Итоговый доверительный интервал для математического ожидания прогноза y x0 .
5.866<M y x0 <6.857
6 КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ
Коэффициент детерминации можно вычислить, как единица минус частное суммы квадратов ошибок регрессии и суммы квадратов отклонений точек от среднего значения.
Численное значение коэффициента детерминации равно:
|
|
|
-1 |
|
|
|
|
length Yavg |
-y X 2 |
||||
|
∑ |
|
Yavg |
|||
R2 1- |
i=0 |
|
|
i |
i =0.988 |
|
|
length |
|
-1 |
|
|
|
|
Yavg |
|
-yavg 2 |
|||
|
∑ |
|
Yavg |
|||
|
i=0 |
|
|
i |
|
|
Так как в рамках задачи рассматривается линейная регрессия между двумя величинами, то коэффициент детерминации равен квадрату коэффициента корреляции. Следовательно, для оценки коэффициента корреляции достаточно взять квадратный корень из коэффициента детерминации.
rXY R2=0.994 |
rv=0.902 rXY-rv=0.092 |
Как видно из сравнения, коэффициент корреляции, полученный из коэффициента детерминации, и выборочный коэффициент корреляции, рассчитанный по корреляционной таблице отличаются.
7 ПРОВЕРКА ЗНАЧИМОСТИ МОДЕЛИ РЕГРЕССИИ
Оценка значимости уравнения регрессии в целом производится на основе критерия Фишера. Для этого вычисляется эмпирическое значение критерия Фишера и сравнивается с критическим значением Фишера. Если эмпирическое больше критического, то при этом уровне значимости признаётся статистическая значимость уравнения регрессии.
k1 |
1 |
– первая степень свободы для критерия Фишера, |
|
|
которая определяется как количество переменных в |
|
|
уравнении регрессии; |
k2 |
m-1-1=98 – вторая степень свободы для критерия Фишера, |
|
которая определяется как разность общего количества точек, количества переменных в уравнении регрессии и единицы.
Fad |
rv2 |
|
|
k2 |
=427.358 |
– эмпирическое значение критерия |
|
2 |
k1 |
||||
1 |
-rv |
|
|
Фишера; |
||
Fcrit |
3.938 |
|
|
– критическое значение критерия Фишера, |
||
|
|
|
|
|
|
найденное по таблице. |
Так как эмпирическое значение критерия Фишера больше критического, то можно утверждать, что модель регрессии является значимой, с уровнем значимость α=0.05 .
8 ПРОВЕРКА ЗНАЧИМОСТИ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ
При проверке значимости теоретического коэффициента корреляции ρ используется гипотеза, что теоретический коэффициент корреляции равен нулю. Следовательно, если такая гипотеза не подтвердится, то коэффициент корреляции будет является значимым с определённым уровнем значимости.
Для проверки такой гипотезы используют наблюдаемое и критическое значения распределения Стьюдента. Если наблюдаемое значение больше, чем модуль критического значения Стьюдента, то нулевая гипотеза отвергается, а значит коэффициент корреляции значим.
rv m-2 |
=20.673 – эмпирическое значение критерия |
|
temp |
2 |
|
1-rv |
Стьюдента; |
|
kt m-1-1=98 |
– степени свободы для распределения Стьюдента, |
|
рассчитываются аналогично второй степени свободы |
|
критерия Фишера; |
tcrit 1.984 |
– критическое значение для критерия Стьюдента, |
|
найденное таблично. |
Так как эмпирическое значение критерия Стьюдента больше критического, то можно утверждать, что теоретический коэффициент корреляции является
значимым, с уровнем значимость α=0.05 .
