Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Пособие по стат.Подлипенская РУС.doc
Скачиваний:
3
Добавлен:
01.05.2025
Размер:
3.72 Mб
Скачать

5.9 Оценка погрешности модели

Сравнение различных моделей производится по следующим позициям:

  • по коэффициентам детерминации (теоретическим) и сравнение их с эмпирическим коэффициентом детерминации. Чем больше коэффициент R2теор и чем ближе он к R2эмпир, тем представленное уравнение регрессии лучше описывает зависимость между признаками Х и У.

  • По средней относительной погрешности аппроксимации:

(11)

где yiтеор – индивидуальные значения результативного признака У, рассчитанные по уравнению регрессии: yiтеор=f(xi); уi – значения признака У из выборки. Чем меньше средняя относительная погрешность аппроксимации, тем модель лучше описывает зависимость между признаками. Для качественной оценки модели по относительной погрешности аппроксимации используют следующую шкалу:

< 10%

10 –20%

20– 50%

50%

Вывод

Высокая точность прогноза

Хорошая точность прогноза

Удовлетворительная точность прогноза

Неудовлетворительная точность прогноза

  • По средней квадратической погрешности уравнения:

(12)

Для расчета перечисленных характеристик нужно после того, как было получено уравнение регрессии (линейное или нелинейное), заполнить следующую таблицу:

i

xi

уi

yiтеор

δi=yiтеор – yi

δi2

δi / yi

1

2

. . .

n

Сумма

5.10 Задача 1. Установления корреляционной зависимости

Продолжим решение задачи 1. Выполним пункт 6.

Корреляционное поле имеет вид:

Для построения эмпирической ломаной регрессии сделаем расчет точек , где хj – середины интервалов разбиения признака Х; – средние групповые значения признака У в каждом интервале признака Х: = (Σ yi)/nj . Интервалы по признаку Х возьмем из п. 2.1.4. Заполним таблицу.

Интервал по Х

0,85-0,95

0,95-1,05

1,05-1,15

1,15-1,25

1,25-1,35

1,35-1,45

1,45-1,55

х j

0,9

1

1,1

1,2

1,3

1,4

1,5

nj

6

7

20

6

5

3

3

у i

4,8 5,6

3,2 3,7

4,1 6,2

5,6 6,8

6,9 6,1

6,4 3,4

7,8

6,9 9,6 5,1 5,8 7,9 4,9

6,8 10,1 7,6 7,7 8,4 8,5

8,7 7,1 8,2 6,1 6,2 6,4

6,5 9,8

6

8,3

3,5

7,1

5,5

6,2

6,4 6,1

8 8,2

10,7

9,5 12,5

13,5

9,2 11,4

10,9

4,6

6,14

7,42

6,1

7,88

11,83

10,5

Построим эмпирическую ломаную по точкам .

Анализ корреляционного поля и эмпирической ломаной позволяет предполагать наличие прямой положительной корреляционной зависимости между признаками Х и У.

Выполним пункт 7. Для расчета эмпирического коэффициента детерминации и эмпирического корреляционного отношения используем данные (рассчитаны в п. 2.2.4) и – средние групповые значения признака У .

Найдем межгрупповую дисперсию результативного признака У

Dмежгр = ((4,6–7,285)2 + (6,14–7,285)2 + (7,42–7,285)2 +

+ (6,1–7,285)2+(7,88–7,285)2+(11,83–7,285)2+(10,5–7,285)2) =3,119

Эмпирический коэффициент детерминации равен:

Следовательно, 62,7% вариации средней за месяц производительности рабочего объясняется вариацией мощности пласта.

Эмпирическое корреляционное отношение равно Оно указывает на значительную корреляционную связь между признаками Х и У.

Решим пункт 8. Определим параметры уравнения линейной регрессии по формулам (3), (5), пункт 2.5.4.

С этой целью, используя исходные данные (условие задачи, пункт 2.1.4), создадим таблицу. Ее заполнение и вычисление рекомендуется выполнять в Excel.

i

X

Y

X^2

Y^2

XY

i

X

Y

X^2

Y^2

XY

1

1.13

8.4

1.2769

70.56

9.492

26

1.15

6.2

1.3225

38.44

7.13

2

1.14

7.1

1.2996

50.41

8.094

27

1.12

4.9

1.2544

24.01

5.488

3

1.13

7.7

1.2769

59.29

8.701

28

1.15

6.4

1.3225

40.96

7.36

4

1.13

7.6

1.2769

57.76

8.588

29

1.15

6.1

1.3225

37.21

7.015

5

1.14

8.2

1.2996

67.24

9.348

30

0.88

5.6

0.7744

31.36

4.928

6

1.09

6.9

1.1881

47.61

7.521

31

1.28

6.4

1.6384

40.96

8.192

7

1.53

10.9

2.3409

118.81

16.68

32

1.12

6.8

1.2544

46.24

7.616

8

1.5

11.4

2.25

129.96

17.1

33

1.2

6

1.44

36

7.2

9

1.44

13.5

2.0736

182.25

19.44

34

1.24

5.5

1.5376

30.25

6.82

10

1.39

9.5

1.9321

90.25

13.21

35

0.85

4.8

0.7225

23.04

4.08

11

1.5

9.2

2.25

84.64

13.8

36

1.21

3.5

1.4641

12.25

4.235

12

1.35

10.7

1.8225

114.49

14.45

37

1.12

10.1

1.2544

102.01

11.31

13

1.4

12.5

1.96

156.25

17.5

38

1.24

6.2

1.5376

38.44

7.688

14

1.11

7.9

1.2321

62.41

8.769

39

0.91

3.2

0.8281

10.24

2.912

15

0.91

3.7

0.8281

13.69

3.367

40

1

7.8

1

60.84

7.8

16

0.96

5.6

0.9216

31.36

5.376

41

0.94

4.1

0.8836

16.81

3.854

17

0.96

6.8

0.9216

46.24

6.528

42

1.11

5.1

1.2321

26.01

5.661

18

0.96

6.9

0.9216

47.61

6.624

43

1.13

8.5

1.2769

72.25

9.605

19

1.23

7.1

1.5129

50.41

8.733

44

1.13

8.7

1.2769

75.69

9.831

20

0.97

6.1

0.9409

37.21

5.917

45

1.33

8

1.7689

64

10.64

21

1.11

5.8

1.2321

33.64

6.438

46

0.94

6.2

0.8836

38.44

5.828

22

0.99

6.4

0.9801

40.96

6.336

47

1.2

8.3

1.44

68.89

9.96

23

1

3.4

1

11.56

3.4

48

1.1

9.6

1.21

92.16

10.56

24

1.33

8.2

1.7689

67.24

10.91

49

1.15

9.8

1.3225

96.04

11.27

25

1.15

6.5

1.3225

42.25

7.475

50

1.29

6.1

1.6641

37.21

7.869

Сумма

57.49

361.9

67.462

2873.9

428.6

Средние

1.1498

7.238

1.3492

57.477

8.5727

Из последней строки получим:

Подставив в формулу (5) пункта 2.5.4, получим:

Сделаем проверку:

Следовательно, уравнение линейной регрессии имеет вид :

= 9,21х – 3,36

Пункт 9. Определим выборочный коэффициент корреляции по формуле

Проверим коэффициент корреляции на значимость.

Выдвинем гипотезы:

Основная гипотеза H 0 :, rг = 0

Конкурирующая гипотеза H 1 : rг  0.

Для проверки гипотезы H 0 вычислим наблюдаемое значение критерия:

Тнабл

По таблице критических точек распределения Стьюдента (Приложение 6) найдем критическое значение критерия при уровне значимости = 0,05 и числе степеней свободы k = n – 2 = 50 – 2 = 48

tкр = tкр (0,05; 48) = 2,01. Сравнивая, получим, что Тнабл > tкр .

Следовательно, нулевую гипотезу следует отвергнуть. Это значит, что коэффициент корреляции значимо отличается от нуля и признаки Х и У коррелированны. Таким образом, у нас нет оснований отбросить гипотезу о наличии линейной корреляционной зависимости между признаками Х и У.

Пункт 10. Исходя из вида корреляционного поля и эмпирической ломаной регрессии предположим, что признаки Х и У связаны параболической зависимостью . Для определения коэффициентов a, b, с заполним таблицу, используя Excel.

Для краткости записей расчетную таблицу приводим не полностью.

i

X

Y

X^2

X^3

X^4

XY

X^2Y

1

1.13

8.4

1.2769

1.443

1.6305

9.492

10.73

2

1.14

7.1

1.2996

1.482

1.689

8.094

9.227

3

1.13

7.7

1.2769

1.443

1.6305

8.701

9.832

4

1.13

7.6

1.2769

1.443

1.6305

8.588

9.704

5

1.14

8.2

1.2996

1.482

1.689

9.348

10.66

6

1.09

6.9

1.1881

1.295

1.4116

7.521

8.198

7

1.53

10.9

2.3409

3.582

5.4798

16.68

25.52

8

1.5

11.4

2.25

3.375

5.0625

17.1

25.65

9

1.44

13.5

2.0736

2.986

4.2998

19.44

27.99

10

1.39

9.5

1.9321

2.686

3.733

13.21

18.35

11

1.5

9.2

2.25

3.375

5.0625

13.8

20.7

49

1.15

9.8

1.3225

1.521

1.749

11.27

12.96

50

1.29

6.1

1.6641

2.147

2.7692

7.869

10.15

Сумма

57.49

361.9

67.4615

80.785

98.6948

428.634

518.2944

Используя формулу (9), пункт 2.5.7, составим линейную систему:

50a+

57,49b+

67,4615c

=

361,9

57,49a+

67,4615b+

80,7851c

=

428.634

67,4615a+

80,7851b+

98,6948c

=

518.2944

Решим систему по правилу Крамера. Вычислим главный и вспомогательные определители системы:

50

57.49

67.4615

D =

57.49

67.4615

80.7851

= 3.8868

67.4615

80.7851

98.6948

361.9

57.49

67.4615

D1 =

428.634

67.4615

80.7851

= 21.5367

518.2944

80.7851

98.6948

50

361.9

67.4615

D2 =

57.49

428.634

80.7851

= -23.8198

67.4615

518.2944

98.6948

50

57.49

361.9

D3 =

57.49

67.4615

428.634

= 25.1881

67.4615

80.7851

518.2944

Запишем решение системы по правилу Крамера:

a = D1/D=5,541; b = D2/D=–1,128; c = D3/D=6,48.

Следовательно, уравнение нелинейной параболической регрессии имеет вид :

= 5,541 –6,128х +6,48х2 .

Пункт 11. Построим полученные линии регрессии в одной системе координат.

Здесь сплошная линия представляет линейную регрессию, а пунктирная линия – параболическую регрессию.

Пункт 12. Для всех моделей рассчитаем теоретический коэффициент детерминации и теоретическое корреляционное отношение; среднюю квадратическую погрешность уравнения; среднюю относительную погрешность аппроксимации.

Используем уравнение линейной регрессии = 9,21х – 3,36

и параболической регрессии = 5,541 –6,128х +6,48х2, вычислим теоретические значения признака У. Заполним таблицы.

Для краткости записей расчетные таблицы приводим не полностью.

а) Для линейной регрессии = 9,21х – 3,36

i

xi

уi

yiтеор

δi=yiтеор – yi

δi2

δi / yi

1

1.13

8.4

7.0473

-1.3527

1.8298

0.1610

0.0364

2

1.14

7.1

7.1394

0.0394

0.0016

0.0055

0.0097

3

1.13

7.7

7.0473

-0.6527

0.4260

0.0848

0.0364

49

1.15

9.8

7.2315

-2.5685

6.5972

0.2621

0.0000

50

1.29

6.1

8.5209

2.4209

5.8608

0.3969

1.6458

Сумма

57.49

361.9

361.4829

-0.4171

139.096

10.8476

115.3217

Для дальнейших расчетов используем формулы (8), (11), (12),

где Dобщ = σy2 = 2,25572 = 5,088 .

Получим: Dобъясн уравн = 115,3217/50 = 2,306;

теоретический коэффициент детерминации

R2 = 2,306/5,088 =0,453

теоретическое корреляционное отношение

средняя относительная погрешность аппроксимации

ε = 10,8476100/50= 21,7%;

средняя квадратическая погрешность уравнения

т/вых.

б) Для параболической регрессии = 5,541 –6,128х +6,48х2

i

xi

уi

yiтеор

δi=yiтеор – yi

δi2

δi / yi

1

1.13

8.4

6.8907

-1.5093

2.2781

0.1797

0.1206

2

1.14

7.1

6.9765

-0.1235

0.0153

0.0174

0.0684

3

1.13

7.7

6.8907

-0.8093

0.6550

0.1051

0.1206

49

1.15

9.8

7.0636

-2.7364

7.4879

0.2792

0.0304

50

1.29

6.1

8.4192

2.3192

5.3789

0.3802

1.3953

Сумма

57.49

361.9

361.9018

0.0018

136.693

10.6881

117.7176

Отсюда получим:

Dобъясн уравн = 117,7176/50 = 2,354;

теоретический коэффициент детерминации

R2 = 2,354/5,088 =0,463

теоретическое корреляционное отношение

средняя относительная погрешность аппроксимации

ε = 10,6881100/50= 21,4%;

средняя квадратическая погрешность уравнения

т/вых.

Сравнив результаты, можно сделать вывод, что нелинейная параболическая модель регрессии незначительно улучшает результаты, поэтому окончательно можно оставить линейную модель зависимости между мощностью пласта Х и производительностью рабочего У:

= 9,21х – 3,36 .

Пункт 13. Используя линейное уравнение регрессии дадим точечный прогноз для У при Х = 1,8 м: = 9,211,8 – 3,36 = 13,2 т/вых.

Следовательно, при мощности пласта 1,8 м средняя производительность труда рабочего очистного забоя для струговых установок на антрацитовых шахтах прогнозируется равной 13,2 т/вых. Ошибка прогноза составляет не более 21,7% .