Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

семестр 2 / БИК2205_ДЗ_3

.pdf
Скачиваний:
0
Добавлен:
13.05.2026
Размер:
680.35 Кб
Скачать

Министерство цифрового развития, связи и массовых

коммуникаций Российской Федерации

Ордена Трудового Красного Знамени федеральное государственное бюджетное образовательное учреждение высшего образования

Московский технический университет связи и информатики

___________________________________________________________________

Кафедра «Теория вероятностей и прикладная математика»

Отчёт по домашней работе №3 по дисциплине «ТВиМС»

на тему: «Регрессионный и корреляционный анализы»

Выполнил Студент группы БИК2205 _________________________

Проверил

_________________________ Владимиров

А.Л.

Москва 2024

1 ИСХОДНЫЕ ДАННЫЕ

В качестве исходных данных выступают значения случайных величин из корреляционной таблицы.

Вывод

X excel

Y excel

T

“B1:I1”

“A2:A7”

 

2 ВЫБОРОЧНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ

При вычислении выборочного коэффициента корреляции, для упрощения вычислений, можно перейти к условным вариантам, переход к которым не влияет на значение выборочного коэффициента корреляции. В качестве нулей для икса и игрека берутся значения с наибольшей частотой взаимной встречи (наибольшее число на пересечении икса и игрека). В рамках задачи это 14, тогда:

c1

X =520

 

 

2

 

 

c2

Y

=7.8

– нули при расчёте условных вариант;

 

 

4

 

 

h1

X -X =160

– шаги при расчёте условных вариант.

 

2

1

h2

Y -Y =1.4

 

 

4

3

 

Итоговые формулы для расчёта условных вариант имеют вид:

i 0,1 5 – количество вариантов X;

j 0,1 7 – количество вариантов Y;

 

X -c1

 

u

i

– формула для расчёта условных вариантов X;

i

h1

 

 

 

 

Y -c2

 

v

j

– формула для расчёта условных вариантов Y.

j

h2

 

 

 

После этого необходимо составить корреляционную таблицу в условных вариантах.

Ввод

 

excel“A2” u

excel“B1” vT

 

 

 

 

 

mu excel

mv excel

T

 

“B8:I8”

Вывод

“J2:J7”

 

m excel

 

 

 

“J8”

 

 

Для нахождения выборочного коэффициента корреляции с помощью условных вариантов также необходимо вычислить следующие величины:

 

length u -1

 

 

 

 

length v -1

 

 

 

 

 

mu u

 

 

 

mv v

 

uavg

 

i=0

i

i =0.32

vavg

 

i=0

i

i =-0.67

 

 

m

 

 

 

 

 

m

 

 

 

 

 

length u -1

 

u 2

 

 

 

length v -1

 

v 2

 

 

 

mu

 

 

 

mv

 

u2avg

i=0

i

i

=2.2

v2avg

i=0

i

i

=3.67

 

 

m

 

 

 

 

 

m

 

 

 

Su

u2avg-uavg

2 =1.448

Sv

v2avg-vavg

2 =1.795

Величина ∑muv u v определяется по методу четырёх полей, который

схематично изображён ниже.

Итоговое значение равно:

Σmuvuv 40+39+32-8+12+44+54=213

Искомый выборочный коэффициент корреляции равен:

rv Σmuvuv-m uavg vavg =0.902

m Su Sv

3 РАССЧЁТ РЕСГРЕССИИ YНА X

Зная выборочный коэффициент корреляции, можно найти уравнение прямой линии регрессии.

Так как выборочный коэффициент корреляции вычислялся с помощью условных вариант, то необходимо перейти обратно к изначальным вариантам

X и Y:

xavg uavg h1+c1=571.2

– выборочное среднее для X;

yavg vavg h2+c2=6.862

– выборочное среднее для Y;

Sx h1

Su=231.729

– выборочная дисперсия для X;

Sy h2

Sv=2.513

– выборочная дисперсия для Y.

Уравнение прямой линии регрессии в общем виде имеет вид:

 

 

 

 

 

y-yavg rv

Sy

 

 

 

 

 

 

 

 

 

Sx

x-xavg

 

 

 

 

 

 

 

 

 

 

 

 

 

После подстановки необходимых значений и раскрытии скобок, получится

выражение вида:

 

 

 

 

 

 

 

 

 

 

 

 

y x rv Sy x-rv Sy xavg+yavg

 

 

 

 

 

 

 

 

Sx

 

 

Sx

 

 

где коэффициенты линии линейной регрессии равны:

 

θ0

-rv

Sy

xavg+yavg

=1.276

 

 

 

Sx

 

 

 

 

 

 

 

 

 

 

 

 

 

 

θ1

rv

Sy

=9.78 10

-3

 

 

 

 

 

 

Sx

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Итоговое уравнение линии регрессии Y на X будет выглядеть следующим

образом:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y x θ0+θ1 x

 

 

График линии регрессии и диаграмма рассеивания представлены ниже, на

рисунке 3.1.

 

 

 

 

 

 

 

 

 

 

13.4

 

 

 

 

 

 

 

 

 

 

 

 

12

 

 

 

 

 

 

 

 

 

 

 

 

10.6

 

 

 

 

 

 

 

 

 

 

 

 

9.2

 

 

 

 

 

 

 

 

 

 

 

 

7.8

 

 

 

 

 

 

 

 

 

 

 

y X

6.4

 

 

 

 

 

 

 

 

 

 

 

5

 

 

 

 

 

 

 

 

 

 

 

 

3.6

 

 

 

 

 

 

 

 

 

 

 

Yd

2.2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

200

 

 

 

360

 

520

 

 

680

840

1000

 

 

 

 

 

 

 

X

 

 

 

 

 

 

 

 

 

 

 

 

Xd

 

 

 

 

 

 

 

Рисунок 3.1 – диаграмма рассеивания и линия регрессии

4 ОЦЕНКА ДИСПЕРСИИ ОШИБОК

Для нахождения оценки дисперсии ошибок необходимо по таблице корреляции найти значения искомой величины по таблице корреляции, а не с помощью линии регрессии.

 

5 2.2+3 3.6+4 5

 

 

 

 

 

 

 

 

 

12

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

7 3.6+8 5

 

 

 

 

 

 

 

 

 

15

 

 

3.483

 

 

 

3.232

 

 

9 5+10 6.4+14 7.8

 

 

4.347

 

 

 

4.797

 

 

 

 

 

33

 

 

6.612

 

 

 

6.361

 

 

 

y X =

 

 

Yavg

=

 

8 6.4+7 7.8+6 9.2

 

 

7.667

 

 

 

7.926

 

 

21

 

 

9.2

 

 

 

9.491

 

 

 

 

 

 

 

2 7.8+3 9.2+2 10.6

 

 

11.3

 

 

 

11.055

 

 

7

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6 10.6+6 12

 

 

 

 

 

 

 

 

 

12

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Тогда несмещённую оценку дисперсии ошибок наблюдения можно рассчитать по формуле:

 

 

 

length Yavg -1

 

 

 

1

 

 

 

 

 

S2

 

Yavg

 

-y X 2

 

m-2

 

n=0

 

n

n

Численное значение несмещённой оценки дисперсии ошибок наблюдений равно:

S2=5.512 10-3

5 ИНТЕРВАЛЬНЫЕ ОЦЕНКИ РАЗЛИЧНЫХ ПАРАМЕТРОВ

α 0.05 – уровень значимости;

Вывод

tα excel

tp excel

– необходимые квантили.

 

“A2”

 

“B2”

X

excel

Xα excel

“D2”

 

“C2”

 

5.1 ИНТЕРВАЛЬНЫЕ ОЦЕНКИ ПАРАМЕТРОВ РЕГРЕССИИ

Границы доверительных интервалов для каждого из параметров линии регрессии рассчитываются по следующим формулам:

Qlθ0

θ0

-tα

m-1

 

1

-rv

2

 

Sy

=1.059

 

m

-2

 

m

– границы

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

доверительного

 

 

 

m-1

 

 

 

 

 

 

Sy

 

Qrθ0

θ0

+tα

 

1

-rv

2

 

=1.492

интервала для θ0;

m

-2

 

m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Qlθ1

θ1

-tα

Sy

 

1-rv

2

=0.009

 

 

Sx

 

m-2

 

 

 

 

 

 

 

 

 

 

 

– границы доверительного

 

 

 

Sy

 

1-rv

2

 

 

 

 

Qrθ1

θ1

+tα

 

=0.011

интервала для θ1.

Sx

 

m-2

 

 

 

 

 

 

 

 

 

 

 

 

 

Итоговый доверительный интервал для свободного члена линии регрессии.

1.059<θ0<1.492

Итоговый доверительный интервал для параметра θ1 линии регрессии.

0.009<θ1<0.011

5.2 ИНТЕРВАЛЬНАЯ ОЦЕНКА ДИСПЕРСИИ ОШИБОК НАБЛЮДЕНИЙ

Границы доверительного интервала для дисперсии ошибок наблюдения можно вычислить по следующим формулам:

QlS2 m-X2 S2 =4.244 10-3

– границы доверительного интервала для

m-2 S2 -3 дисперсии ошибок наблюдений.

QrS2 Xα =7.45 10

Итоговый доверительный интервал для дисперсии ошибок наблюдений.

0.004<σ2 <0.007

5.3 ИНТЕРВАЛЬНАЯ ОЦЕНКА МАТОЖИДАНИЯ ПРОГНОЗА

Границы доверительного интервала для математического ожидания прогноза y x0 можно вычислить по следующим формулам:

 

 

 

 

1

 

X -xavg 2

 

 

Qly0

y X

-tp

S2

+

2

 

=5.866

– границы

 

2

 

 

m

 

 

Sx

 

доверительного

 

 

 

 

 

 

X -xavg 2

 

интервала для

 

 

 

 

1

 

 

матожидания

Qry0

y X

+tp

S2

+

2

 

=6.857

прогноза.

 

2

 

 

m

 

 

Sx

 

 

Итоговый доверительный интервал для математического ожидания прогноза y x0 .

5.866<M y x0 <6.857

6 КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ

Коэффициент детерминации можно вычислить, как единица минус частное суммы квадратов ошибок регрессии и суммы квадратов отклонений точек от среднего значения.

Численное значение коэффициента детерминации равно:

 

 

 

-1

 

 

 

length Yavg

-y X 2

 

 

Yavg

R2 1-

i=0

 

 

i

i =0.988

 

length

 

-1

 

 

 

Yavg

 

-yavg 2

 

 

Yavg

 

i=0

 

 

i

 

Так как в рамках задачи рассматривается линейная регрессия между двумя величинами, то коэффициент детерминации равен квадрату коэффициента корреляции. Следовательно, для оценки коэффициента корреляции достаточно взять квадратный корень из коэффициента детерминации.

rXY R2=0.994

rv=0.902 rXY-rv=0.092

Как видно из сравнения, коэффициент корреляции, полученный из коэффициента детерминации, и выборочный коэффициент корреляции, рассчитанный по корреляционной таблице отличаются.

7 ПРОВЕРКА ЗНАЧИМОСТИ МОДЕЛИ РЕГРЕССИИ

Оценка значимости уравнения регрессии в целом производится на основе критерия Фишера. Для этого вычисляется эмпирическое значение критерия Фишера и сравнивается с критическим значением Фишера. Если эмпирическое больше критического, то при этом уровне значимости признаётся статистическая значимость уравнения регрессии.

k1

1

– первая степень свободы для критерия Фишера,

 

 

которая определяется как количество переменных в

 

 

уравнении регрессии;

k2

m-1-1=98 – вторая степень свободы для критерия Фишера,

которая определяется как разность общего количества точек, количества переменных в уравнении регрессии и единицы.

Fad

rv2

 

 

k2

=427.358

– эмпирическое значение критерия

 

2

k1

1

-rv

 

 

Фишера;

Fcrit

3.938

 

 

– критическое значение критерия Фишера,

 

 

 

 

 

 

найденное по таблице.

Так как эмпирическое значение критерия Фишера больше критического, то можно утверждать, что модель регрессии является значимой, с уровнем значимость α=0.05 .

8 ПРОВЕРКА ЗНАЧИМОСТИ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ

При проверке значимости теоретического коэффициента корреляции ρ используется гипотеза, что теоретический коэффициент корреляции равен нулю. Следовательно, если такая гипотеза не подтвердится, то коэффициент корреляции будет является значимым с определённым уровнем значимости.

Для проверки такой гипотезы используют наблюдаемое и критическое значения распределения Стьюдента. Если наблюдаемое значение больше, чем модуль критического значения Стьюдента, то нулевая гипотеза отвергается, а значит коэффициент корреляции значим.

rv m-2

=20.673 – эмпирическое значение критерия

temp

2

1-rv

Стьюдента;

kt m-1-1=98

– степени свободы для распределения Стьюдента,

 

рассчитываются аналогично второй степени свободы

 

критерия Фишера;

tcrit 1.984

– критическое значение для критерия Стьюдента,

 

найденное таблично.

Так как эмпирическое значение критерия Стьюдента больше критического, то можно утверждать, что теоретический коэффициент корреляции является

значимым, с уровнем значимость α=0.05 .

Соседние файлы в папке семестр 2