Добавил:
kostikboritski@gmail.com Выполнение курсовых, РГР технических предметов Механического факультета. Так же чертежи по инженерной графике для МФ, УПП. Писать на почту. Дипломы по кафедре Вагоны Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лабы / Лабы по ТВ и МС.doc
Скачиваний:
52
Добавлен:
13.10.2017
Размер:
1.78 Mб
Скачать

Лабораторная работа № 3 Построение регрессионной модели системы двух случайных величин

Цель работы: изучить основные методы регрессионного и корреляционного анализа; исследовать зависимость между двумя случайными величинами, заданными выборками.

Задание: по виду корреляционного поля сделать предположение о форме регрессионной зависимости между двумя случайными величинами; используя метод наименьших квадратов, найти параметры уравнения регрессии; оценить качество описания зависимости полученным уравнением регрессии.

Пример 3. По результатам пятнадцати совместных измерений средней участковой скорости поезда на участке Гомель-КалинковичиX, км/ч, и соответствующего времени нахождения поезда на участкеY, ч, представленных в таблице 1, следует исследовать зависимость между данными величинами. Необходимо определить коэффициенты уравнения регрессии методом наименьших квадратов, оценить тесноту связи между величинами, проверить значимость коэффициента корреляции и спрогнозировать время нахождения поезда на участке при заданной скорости движения поезда (30,5 км/ч).

Решение. На величину времени нахождения поезда на участке Y, помимо средней участковой скорости движенияX, влияние оказывает профиль и качество железнодорожного полотна, качество подвижного состава, направление и скорость ветра и другие факторы. Поэтому зависимость между величиной времени нахождения поезда на участкеYи средней участковой скоростью движения поездаXявляется статистической: на одной скорости движения при различных дополнительных условиях время нахождения поезда на участке может принимать различные значения. Для определения вида регрессионной зависимости построим корреляционное поле.

Рис.1. Корреляционное поле

Характер расположения точек на диаграмме рассеяния позволяет сделать предположение о линейной регрессионной зависимости .

Таблица 1 - Результаты промежуточных вычислений

Средняя участковая скорость, км/ч,

Время нахождения поезда на участке, час.,

30,3

4,1

-0,455

0,207

0,1209

0,0146

-0,055

31,2

4,054

0,4449

0,198

0,0749

0,0056

0,03331

30,3

3,9

-0,455

0,207

-0,079

0,0063

0,03601

31,2

4,05

0,4449

0,198

0,0709

0,005

0,03153

30,9

3,97

0,1449

0,021

-0,009

8

-0,0013

31,61

4,133

0,8549

0,731

0,1539

0,0237

0,13155

30,4

3,883

-0,355

0,126

-0,096

0,0092

0,03413

30,675

3,944

-0,08

0,006

-0,035

0,0012

0,00281

31,8

4,166

1,0449

1,092

0,1869

0,0349

0,19526

31,15

4,04

0,3949

0,156

0,0609

0,0037

0,02404

30,79

3,967

0,0349

0,001

-0,012

0,0001

-0,0004

29,8

3,761

-0,955

0,912

-0,218

0,0476

0,20833

30,623

3,934

-0,132

0,017

-0,045

0,002

0,00596

30,878

3,985

0,1229

0,015

0,0059

3

0,00072

29,7

3,8

-1,055

1,113

-0,179

0,0321

0,189

Итого 461,326

59,687

0

5,001

0

0,1862

0,83591

Найдем уравнение прямой линии методом наименьших квадратов .

Среднее значения участковой скорости =.

Среднее значение времени нахождения поезда на участке =

Уравнение регрессии имеет вид : .

Для линейной связи коэффициенты:

- постоянная регрессии, показывает точку пересечения прямой с осью ординат

- коэффициент регрессии, показывает меру зависимости переменных y от х, указывает среднюю величину изменения переменной у при изменении х на одну единицу, знак В1 определяет направление этого изменения .

Вычислим линейный коэффициент корреляции

= .

Коэффициент детерминации .

Таблица 2 - Результаты промежуточных вычислений

Средняя участковая скорость, км/ч,

Время нахождения поезда на участке, час.,

30,3

4,1

3,9071

31,2

4,054

4,0574

30,3

3,9

3,9071

31,2

4,05

4,0574

30,9

3,97

4,0073

31,61

4,133

4,1259

30,4

3,883

3,9238

30,675

3,944

3,9697

31,8

4,166

4,1576

31,15

4,04

4,0491

30,79

3,967

3,9889

29,8

3,761

3,8236

30,623

3,934

3,961

30,878

3,985

4,0036

29,7

3,8

3,8069

Итого 461,326

59,687

59,687

Рис.2. Корреляционное поле и линия регрессии

Спрогнозируем время нахождения поезда на участке при заданной скорости движения поезда (30,5 км/ч).

.

Качественная оценка тесноты связи между величинами выявляется по шкале Чеддока (таблица 1).

Таблица 3 - Шкала Чеддока

Теснота связи

Значение коэффициента корреляции

при наличии

прямой связи

обратной связи

Слабая

0,1–0,3

(-0,1)–(-0,3)

Умеренная

0,3–0,5

(-0,3)–(-0,5)

Заметная

0,5–0,7

(-0,5)–(-0,7)

Высокая

0,7–0,9

(-0,7)–(-0,9)

Весьма высокая

0,9–0,99

(-0,9)–(-0,99)

Вывод. Линейный коэффициент корреляции характеризует тесноту связи между двумя коррелируемыми признаками в случае наличия между ними линейной зависимости. Т.к. = 0,866, то можно говорить о том, что между величинамиXиYсуществует линейная прямая, высокая связь.

Чтобы сделать статистический вывод о значимости коэффициента корреляции (при проверке линейности регрессионной зависимости) выдвигается нулевая гипотеза об отсутствии линейной зависимости между исследуемыми с. в. против альтернативной гипотезы о наличии линейной связи.

,

.

Если гипотеза H0 отклоняется, то считается, что уравнение регрессии Y по X действительно имеет линейный вид .

Для проверки гипотезы H0 вычисляется t-статистика

= .

При условии справедливости гипотезы H0 рассчитанная t-статистика имеет распределение Стьюдента с n  2 степенями свободы. Найденное значение t = 6,247 сравнивается с критическим значением t, при  = n  2 = 15-2 = 13 степенях свободы . В нашем случае t, = t =0.05, =13 = 1,771. Так как расчетное значение 6,247 по абсолютной величине превосходит табличное 1,771 для заданного уровня значимости, то нулевая гипотеза H0 о линейной независимости двух с. в. отклоняется.

Характер расположения точек на диаграмме рассеяния позволяет сделать предположение о параболической регрессионной зависимости

.

Оценки параметров ,1и2найдем методом наименьших квадратов. Для этого составим функциюS(,,2), которая в случае параболической регрессии примет вид

.

Для отыскания оценок параметров ,1и2, минимизирующих функциюS(,,2) , составим и решим систему нормальных уравнений :

Разделим обе части уравнений (1,2,3) на (-2)

Для вычисления значений сумм, входящих в систему уравнений , составим расчетную таблицу 2.

Таблица 4 – Результаты промежуточных вычислений

N

Средняя участковая скорость, км/ч,

Время нахождения поезда на участке, час.,

1

30,3

4,1

918,09

27818,127

842889,2481

124,23

3764,169

2

31,2

4,054

973,44

30371,328

947585,4336

126,4848

3946,326

3

30,3

3,9

918,09

27818,127

842889,2481

118,17

3580,551

4

31,2

4,05

973,44

30371,328

947585,4336

126,36

3942,432

5

30,9

3,97

954,81

29503,629

911662,1361

122,673

3790,596

6

31,61

4,133

999,1921

31584,462

998384,8527

130,6441

4129,661

7

30,4

3,883

924,16

28094,464

854071,7056

118,0432

3588,513

8

30,675

3,944

940,9556

28863,814

885397,4882

120,9822

3711,129

9

31,8

4,166

1011,24

32157,432

1022606,338

132,4788

4212,826

10

31,15

4,04

970,3225

30225,546

941525,754

125,846

3920,103

11

30,79

3,967

948,0241

29189,662

898749,6942

122,1439

3760,812

12

29,8

3,761

888,04

26463,592

788615,0416

112,0778

3339,918

13

30,623

3,934

937,7681

28717,273

879409,0638

120,4709

3689,18

14

30,878

3,985

953,4509

29440,656

909068,5882

123,0488

3799,502

15

29,7

3,8

882,09

26198,073

778082,7681

112,86

3351,942

461,326

59,687

14193,11

436817,51

13448522,79

1836,514

56527,66

После подстановки значений система уравнений примет вид:

Решив систему уравнений известными методами (методом Крамера, методом Гаусса, методом обратной матрицы) или с помощью MAthCAD, получим следующее решение:;;, а уравнение регрессии примет вид

.

На рисунке представлена диаграмма рассеяния случайных величин XиYс нанесённой линией регрессии.

Рисунок 5 – Диаграмма рассеяния случайных величин X и Y с нанесённой линией регрессии

Оценим качество описания зависимости между величиной временем нахождения поезда на участке (Y) и средней участковой скоростью (Х) полученным уравнением регрессии с помощью коэффициента детерминации, где– значение времени нахождения поезда на участке, предсказываемое уравнением регрессии, при средней участковой скоростиxi.

Таблица 3 – Значения времени нахождения поезда на участке

N

Средняя участковая скорость, км/ч,

Время нахождения поезда на участке, час.,

Значение, предсказываемое уравнением регрессии

1

30,3

4,1

3,91794

0,014609

0,003744

2

31,2

4,054

4,06896

0,005605

0,00807

3

30,3

3,9

3,91794

0,006262

0,003744

4

31,2

4,05

4,06896

0,005022

0,00807

5

30,9

3,97

4,01888

8,34

0,001579

6

31,61

4,133

4,13701

0,023675

0,024925

7

30,4

3,883

3,93484

0,009242

0,001962

8

30,675

3,944

3,98114

0,001234

4,05

9

31,8

4,166

4,16838

0,034919

0,035816

10

31,15

4,04

4,06063

0,003705

0,006642

11

30,79

3,967

4,00045

0,000147

0,000454

12

29,8

3,761

3,83306

0,047582

0,021336

13

30,623

3,934

3,9724

0,002037

4,53

14

30,878

3,985

4,01519

3,44

0,0013

15

29,7

3,8

3,816

0,032089

0,026611

461,326

59,687

59,687

0,186246

0,144304

Расчётное значение коэффициента детерминации указывает на удовлетворительность описания зависимости между величиной средней участковой скорости (Х) и времени нахождения на участке (Y), выбранным уравнением регрессии. Проверим, однако, значимость оценки коэффициента детерминации с помощью статистики Фишера

Проверка значимости . При выполнении процедуры проверки значимости оценки коэффициента детерминации выдвигается нулевая гипотеза о том, что предложенное уравнение регрессии никак не отражает реальную зависимость между с. в., т. е. H0: R2 = 0. Альтернативная гипотеза заключается в том, что выбранная модель зависимости (уравнение регрессии) в достаточной степени объясняет действительную зависимость между случайными величинами, т. е.Ha: R2 > 0.

Для проверки значимости оценки коэффициента детерминации используется статистика

, (13)

имеющая F-распределение Фишера с = m  1 и = n  m степенями свободы. Здесь m – число неизвестных параметров предполагаемого уравнения регрессии ( ,  ,…, m–1 ). Значение статистики, вычисленное по формуле (13) сравнивается с критическим значением F1, 2, , найденным по таблицам квантилей распределения Фишера (приложение Д) при заданном уровне значимости и соответствующем числе степеней свободы. Если F > F1, 2, , то нулевая гипотеза отклоняется, вычисленный коэффициент детерминации значимо отличается от нуля, и с вероятностью ошибки  можно утверждать, что между исследуемыми величинами существует зависимость предложенного вида, и полученное уравнение регрессии может использоваться в дальнейших исследованиях.

.

Вывод.Критическое значение статистики Фишера для степеней свободы= 3 – 1 = 2 и= 15 – 3 = 12 и уровня значимости = 0,05 составляет. Поскольку расчётное значение статистики Фишера больше критического (), то вычисленный коэффициент детерминации значимо отличается от нуля, и выбранное уравнение регрессионной зависимости между величинами скорости и временем нахождения поезда на участке.

Например, при скорости поезда на участке 32 км/ч можно ожидать в среднем время нахождения поезда на участке час.

Соседние файлы в папке Лабы