Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Topolnik_V.G._MATEMATIKO-STATISTICHNI_METODI_DO...doc
Скачиваний:
3
Добавлен:
01.07.2025
Размер:
3.49 Mб
Скачать

5.8. Статистична оцінка адекватності рівняння регресії

Для перевірки значущості (адекватності) рівняння регресії в цілому використовується F-критерій Фішера. При цьому порівнюють­ся загальна та залишкова дисперсії.

Обчислення залиш­кової дисперсії має велике значення в теорії статистичних методів побудування емпіричних залежностей. Залишкова дисперсія являє собою показник помилки передбачення рівнянням регресії ре­зультатів досліду. Якість передбачення визначають, порівнюючи з , іншими словами, F-критерій Фішера показує у скільки разів рівняння регресії передбачає результати дослідів краще, ніж середнє значення у.

Для того, щоб рівняння регресії адекватно описувало результати експериментів, необхідно, щоб додержувалась умова

Fр = / > , (5.24)

де - загальна дисперсія результуючої ознаки;

. (5.25)

п - кількість експериментальних даних;

уі - експериментальне значення результуючої ознаки;

- середнє значення результуючої ознаки;

-залишкова дисперсія;

, (5.26)

де - значення результуючої ознаки, розрахованої за рівнянням регресії при значенні чинникової ознаки хі;

т - кількість невідомих параметрів у рівнянні регресії;

т = к + 1 ;

к - порядок апроксимуючого поліному ;

- табличне значення F-критерію при рівні значущості α із степенем свободи в чисельнику ν1 =п-1 і в знаменнику ν2 = п-т = п-к-1.

Приклад 5.4. Перевіримо адекватність рівнянь регресії, па­раметри яких були визначені в пп. 5.5 - 5.7. Для цього обчислимо загальні та залишкові дисперсії в табличній формі.

Таблиця 5. 7 − Розрахунок дисперсій по даним прикладу 5.1.

(у = 6,23х - 8,75)

і

хі

уі

f(хі)

уі- f(хі)

і- f(хі))2

уі-

і- )2

1

3

9,0

9,94

-0,94

0,88

19,64

385,7

2

4

17,5

16,17

1,33

1,77

11,14

124,1

3

5

22,5

24,40

0,10

0,01

6,14

37,7

4

6

27,0

28,63

-1,63

2,66

1,64

2,7

5

7

35,5

34,86

0,64

0,41

6,86

47,1

6

8

42,0

41,09

0,91

0,83

13,36

178,5

7

9

46,5

47,32

0,82

0,67

17,86

319,0

200,5

7,23

1094,8

у = 200,5 / 7 = 28,64 .

Загальна дисперсія

= 1094,8/(7-1) = 182,5 .

Залишкова дисперсія

= 7,23/(7-2) = 1,445 .

Розрахункове значення критерію Фішера

Fр. = 182,5/1,446 = 126,2 .

Табличне значення F-критерію при рівні значущості 0,05 (певна ймовірність 0,95) із степенями свободи в чисельнику ν1= 6 і в знаменнику ν2= 5 дорівнює 4,95 (додаток 10).

Fр = 126,2 > = 4,95 .

Розрахункове значення F-критерію більше табличного значення, отож, апроксимуюча функція у=6,23х-8,75 адекватно (ста­тистично значущо) описує результати експериментів по вивченню залежності ферментної активності медичного панкреатину від рН середовища, що наведені в таблиці 5.1.

Таблиця 5.8 − Розрахунок дисперсій по даним прикладу 5.2

(у = 48,06 + 0,025х - 0,277х2)

і

хі

уі

f(хі)

уі- f(хі)

і- f(хі))2

уі-

і- )2

1

0

49,0

48,06

0,94

0,88

8,72

76,04

2

1

47,5

47,81

-0,31

0,09

7,22

52,13

3

2

46,3

47,00

-0,70

0,49

6,02

36,24

4

3

45,0

45,64

-0,64

0,41

4,72

22,28

5

4

43,3

43,73

-0,43

0,18

3,02

9,12

6

5

41,5

41,26

0,24

0,06

1,22

1,49

7

6

38,7

38,24

0,46

0,21

- 1,58

2,50

8

7

35,5

34,66

-0,84

0,70

- 4,78

22,85

9

8

31,5

30,53

0,97

0,94

- 8,78

77,09

10

9

24,5

25,85

-1,35

1,82

-15,78

249,01

402,8

5,78

548,75

= 40,28 .

Загальна дисперсія

= 548,75/(10-1) = 60,97 .

Залишкова дисперсія

= 5,78/(10-3) = 0,826 .

Розрахункове значення F-критерію

Fр. = 60,97/0,826 = 73,81 .

Табличне значення F-критерію при рівні значущості 0,05 із степенями свободи ν1= 9 та ν2= 7 дорівнює 3,68.

Fр = 73,81 > = 3,68 .

Апроксимуюча функція у=48,06+0,025х−0,277х2 статистич­но значущо описує результати експерименту по зміненню органолептичної оцінки при зберіганні охолодженої страви «яловичина в кисло-солод­кому соусі» (в 73,8 разів краще, ніж середня )

Визначимо, як зміниться залишкова дисперсія, якщо ці ж експериментальні дані апроксимуються кубічною функцією регресії (5.23) у = 49,1 − 1,87х + 0,277х2 – 0,041х3 .

Таблиця 5.9 − Розрахунок залишкової дисперсії при кубічній функції регресії (приклад 5.3)

і

хі

уі

f(хі)

уі - f(хі)

і - f(хі))2

1

0

49,0

49,10

-0,10

0,01

2

1

47,5

47,47

0,03

0,00

3

2

46,3

46,14

0,16

0,03

4

3

45,5

44,88

0,12

0,02

5

4

43,3

43,43

-0,13

0,02

6

5

41,5

41,55

-0,05

0,00

7

6

38,7

39,00

-0,30

0,09

8

7

35,5

35,52

-0,02

0,00

9

8

31,5

30,88

0,62

0,39

10

9

24,5

24,82

-0,32

0,10

0,66

= 0,66/(10-4) = 0,11 ; Fр = 60,97/0,11 = 554,3 .

= 4,1 .

Отже, кубічна функція регресії більш точно описує результа­ти експерименту, ніж квадратична залежність. Залишкова дисперсія зменшилась у 7,5 разів (0,826/0,11).

Лінійна функція регресії, що описує ці ж експериментальні дані, має вигляд: у = 51,4 - 2,47х . Залишкова дисперсія в цьому випадку визначиться по даним табл. 5.10.

Таблиця 5.10 − Розрахунок залишкової дисперсії при лінійній апроксимації даних прикладу 5.2

І

хі

уі

f(хі)

уі - f(хі)

і - f(хі))2

1

0

49,0

51,40

-2,40

5,76

2

1

47,5

48,93

-1,43

2,04

3

2

46,3

46,46

-0,16

0,03

4

3

45,5

43,99

1,01

1,02

5

4

43,3

41,52

1,78

3,17

6

5

41,5

39,05

2,45

6,00

7

6

38,7

36,58

2,12

4,49

8

7

35,5

34,11

1,39

1,93

9

8

31,5

31,64

0,14

0,02

10

9

24,5

29,17

4,67

21,81

46,28

= 46,28/(10-2) = 5,785; Fр = 60,97/5,785 = 10,54 .

= 3,388 . Fр = 10,54 > = 3,39 .

Лінійна функція регресії також статистично значущо описує результати експерименту, але точність її в порівнянні з квадратичною функцією у 7 разів менше (73,81/10,54).

Статистичні критерії перевірки гіпотез про загальний вигляд функції регресії (наприклад F-критерій) не можуть відповісти на питання: чи є гіпотетичний вигляд залежності, що перевіряється, найкращим, єдино вірним? Вони лише або підтверджують факт непротирічності вигляду функції регресії, який перевіряється, почат­ковим даним, що є у дослідника, або спростовують гіпотетичну фор­му залежності, що обговорюється, як таку, що не відповідає цим даним.

*

* *

Застосування методів регресійного аналізу передбачає, що експериментальні дані попередньо статистично оброблені, в результаті чого встановлений статистично значущий зв'язок між результативними та чинниковими ознаками (чинникова ознака може як підлягати керуванню, так і не підлягати).

Важливим моментом для успішного виконання регресійного аналізу є додержання загальної схеми статистичного дослідження парної залежності. Найбільш відповідально необхідно ставитись до етапу вибору загального вигляду функції регресії.

Обчислення параметрів відносно простих залежностей (лінійна, квадратична, кубічна) може бути проведене "вручну".

В дослідницьких технологічних лабораторіях бажано застосу­вання персональних ЕОМ з пакетом прикладних програм для статис­тичної обробки експериментальних даних методами регресійного аналізу, щоб позбавити експериментатора від рутинної роботи.

Однак застосування ЕОМ не звільняє дослідника від аналізу одержаних результатів розрахунку та придатності встановлених за­лежностей для кількісної характеристики та прогнозу показників, які досліджуються.

Розділ 6. Підбір емпіричних формул

Часто при розгляданні парних кореляційних полів ні лінійна, ні квадратична, ні кубічна регресія не дають бажаної точності наближення. У цих випадках мусимо звертатись до інших видів залежностей: гі­перболічної, степеневої, показової та ін. Ці залежності в результаті відповідних перетворень можна привести до лінійної (лінеаризувати). Можна побудувати практично будь-які форми нелінійної парної залежності, використовуючи метод найменших квадратів після лінеаризуючих перетворень, так як тільки лінійні по параметрам функції відновлюються цим методом.

Якість передбачення результатів перевіряють за допомогою рівняння Y= A + BX. Після обчислення коефіцієнтів А і В за методом найменших квадратів (як для парної лінійної залежності) виконують зворотні перетворення, тобто по А і В визначають а і b, переходячи від Y і Х до у і х.

В таблиці 6.1 подані деякі початкові функції та лінеаризуючі перетворювачі для одержання рівняння Y= A + BX .

Таблиця 6.1 – Лінеаризація нелінійних парних залежностей

№ п/п

Емпірична залежність, яка передбачається

Лінеаризуючі перетворювачі

Y

Х

А

В

1

у = а+b/х

у

1/х

а

b

2

у =1 / (а+bх)

1/у

х

а

b

3

у =х / (а+bх)

х/у

х

а

b

4

lg(у) = а+bх

lg(у)

х

а

b

5

у =а+b×lg(х)

у

lg(х)

а

b

6

lg(у) = а+ b×lg(х)

lg(у)

lg(х)

а

b

7

у =а× bх

lg(у)

х

lg(а)

lg(b)

8

у = а×е

lп(у)

х

lп(а)

b

9

у = а+b×е

1/у

е

а

b

10

у = а×х b

lg(у)

lg(х)

lg(а)

b

11

у =а/(b+х)

1/у

х

b/а

1/а

12

у = а×х/(b+х)

1/у

1/х

b/а

1/а

13

у = а×е b/х

lg(у)

1/х

а

b

14

у = а+b×х п

у

хп

а

b

Функцію можна шляхом перетворення привести до квадратичної лінії регресії Y=A+Bx+Cx2 , визначивши коефіцієнти А, В і С методом найменших квадратів, де А = lg(а), В = lg(b), С = lg(с), Y = lg(у) .

Зробивши зворотні перетворення, визначають зна­чення коефіцієнтів шуканого рівняння: а = 10А, b = 10В, с = 10С , у - 10Y.

В [15] надається система нормальних рівнянь для визначення параметрів лінії регресії, яка виражена рівнянням у - а+bх+сх2. Вона має вигляд системи нормальних рівнянь для квадратичної регресії:

; (6.1)

Поки не перевірені всі відомі форми зв'язку, дослідник не може бути впевненим, що вибрана оптимальна форма (з точки зору точності передбачення результатів досліду). Виняток - випадок, коли сукупність точок (кореляційне поле) має визначену та iнтepпретовану форму. "Краще" рівняння регресії вибирається по мінімальній залишковій дисперсії.

Виконання розрахунків по відшуканню оптимальної форми зв'язку при великій кількості початкових даних вручну теоретично можливо, але практично потребує такого часу, що задача стає нереальною. Тому для цього необхідно застосовувати відповідні програмні продукти для розрахунків на ЕОМ.

Приклад 6.1. Розглянемо підбір функції для опису залежності протеолітичної активності ферментних препаратів у відношенні до білків м'яса від їх концентрації в розчині.

В таблиці 6.2 представ­лені результати експерименту, проведеного для панкреатину [21].

Процес підбору емпіричної формули для встановлення з дослі­ду функціональної залежності у = f(х) розпадається на 2 части­ни: спочатку вибирається вид формули і вже після цього визнача­ються чисельні значення параметрів, для якого наближення до даної функції виявляється найкращим.

Таблиця 6.2 − Протеолітична активність панкреатину при різній концентрації його в розчині

Концентрація розчину, %

0,03

0,06

0,09

0,12

0,15

0,18

0,21

0,24

0,27

0,30

Активність, од.

48,3

55,1

61,7

64,8

66,9

67,2

67,9

68,2

68,1

67,9

На рисунку 6.1 представлений графік залежності активності ферментного препарату, який застосовуються для пом'якшення м'яса, від його концентрації.

Рисунок 6.1 − Залежність активності ферментних препаратів від концентрації (рН 5,6)

Порівнюючи "на око" графік, побудований за експерименталь­ними даними, з графіками відомих елементарних функцій [8], можна припустити, що для опису емпіричної залежності у вивченому інтер­валі змінної величини можуть бути вибрані наступні функції:

у = а + bх + сх2 ; (1ʹ)

у2 = а + bх + сх2 ; (2ʹ)

у = 1/(а + bх + сх2) ; (3ʹ)

у = а ×хb . (4ʹ)

Зробивши перетворення для (2ʹ) Y = у2, а для (3ʹ) Y = 1/у, параметри рівнянь (1ʹ) - (3ʹ) можуть бути знайдені відповідно до методики, яка подана в п. 5.6.

Після перетворення (4ʹ) відпові­дно п. 10 таблиці 6.1 (Y=lg(y); X=lg(x); A=lg(a)), параметри лінійної залежності Y = А + знаходяться відповідно до методики, яка подана в п. 5.5.

В таблиці 6.3 приведені перетворені значення експерименталь­них даних, на підставі яких знайдені параметри рівнянь регресії.

Таблиця 6.3 − Перетворені дані активності панкреатину при

різній концентрації

х , %

0,03

0,06

0,09

0,12

0,15

0,18

0,21

0,24

0,27

0,30

Y = у2

2333

3036

3807

4199

4476

4516

4610

4651

4638

4610

Y =1/у ×102

2,07

1,81

1,62

1,54

1,49

1,49

1,47

1,47

1,47

1,47

Х =−lg(х) ×103

1523

1222

1046

921

824

745

678

620

569

523

Y = lg(у) ×103

1684

1741

1790

1812

1825

1827

1832

1834

1833

1832

Виконавши зворотні перетворення, одержали наступні рівняння:

у = 43,3 + 230,3х - 508,4х2 ; (6.2)

у = 10 ; (6.3)

у = 100/(2,2 - 7,0х + 15,8х2) ; (6.4)

у = 85,52 × х0,151 . (6.5)

В таблиці 6.4 приведені дані статистичних розрахунків для оцінки адекватності емпіричних залежностей.

Залишкова дисперсія:

= 12,96/7 = 1,83 ; = 8,26/7 = 1,18 ;

= 30,69/7 = 4,38 ; = 42,48/8 = 5,31 .

Дисперсія середнього

= 413,6/9 = 45,96 .

Розрахункове значення критерію Фішера:

F1 = 45,96/1,83 = 25,61 ; F2 = 45,96/1,18 = 38,9 ;

F3 = 45,96/4,38 = 10,5 ; F4 = 45,96/5,31 = 8,7 .

Таблиця 6.4 – Дані статистичних розрахунків оцінки адекватності емпіричних формул (6.2)–(6.5)

І

Yі е

|Yі

|е

(Y )е2

Значення Yр, розраховане за

Відхилення ΔY=|Yе−Yр|

Квадрат відхилення

(6.2)

(6.3)

(6.4)

(6.5)

ΔY1

ΔY2

ΔY3

ΔY4

ΔY12

ΔY22

ΔY32

ΔY42

1

48,3

15,3

234,1

49,75

49,43

50,00

50,35

1,45

1,13

1,70

2,05

2,11

1,28

2,89

4,20

2

55,1

8,5

72,2

55,29

55,52

54,35

55,85

1,88

0,47

0,75

0,75

3,53

0,22

0,56

0,56

3

61,7

1,9

3,6

59,91

60,24

58,82

59,43

1,79

1,46

2,88

2,27

3,21

2,13

8,29

5,15

4

64,8

1,2

1,4

63,62

63,75

62,89

62,09

1,18

1,05

1,91

2,71

1,40

1,10

3,65

7,34

5

66,9

3,3

10,9

66,41

66,29

66,22

64,12

0,49

0,61

0,68

2,78

0,24

0,37

0,46

7,73

6

67,2

3,6

13,0

68,28

67,97

68,97

66,07

1,08

0,77

1,77

1,13

1,17

0,59

3,13

1,28

7

67,9

4,3

18,5

69,24

68,85

69,93

67,61

1,34

0,95

2,03

0,29

1,80

0,90

4,12

0,08

8

68,2

4,6

21,2

69,29

68,96

69,23

68,87

1,09

0,76

1,73

0,67

1,18

0,58

2,99

0,45

9

68,1

4,5

20,2

68,42

68,32

68,49

70,15

0,32

0,22

0,39

2,05

0,10

0,05

0,15

4,20

10

67,9

4,3

18,5

66,63

66,88

65,79

71,29

1,27

1,02

2,11

3,39

1,60

1,04

4,45

11,49

636,1

413,6

12,26

8,26

30,69

42,48

Табличне значення критерію Фішера при рівні значущості 0,05 із степенями свободи ν1= 9 та ν2= 7(8) : F9;7 = 3,68 ; F9;8 = 3,39 .

Отже, всі досліджені емпіричні залежності (6.2) - (6.5) адекватно (статистично вірогідно) описують результати експеримен­ту, але перевагу треба віддати залежності (6.3), при використан­ні якої найменша залишкова дисперсія (1,18) забезпечує найбільше значення критерію Фішера (38,9).

Мірою точності емпіричної залежності може служити середній процент відхилень розрахункових та експериментальних значень ве­личини, яка контролюється в дослідженні.

×100 % . (6.6)

1,9 % ; 1,3 % ; 2,6 % ; 3,2 % .

Приклад 6.2. Розглянемо ситуацію, коли при виборі емпірич­них формул враховується апріорна інформація про функціональну залежність показника, який досліджується.

В [21] приведені дані відносного комплексного показника якості охолоджених м'ясних страв у процесі їх холодильного зберігання. В таблиці 6.5 представлені середні значення цього по­казника для шести дослідних партій охолодженої страви «яловичи­на, тушкована з цибулею», на рисунку 6.2 - графік зміни його в про­цесі зберігання. Ця залежність може бути описана квадратичною параболою.

Таблиця 6.5 − Якість охолодженої яловичини, тушкованої з цибулею

Термін зберігання, доби

0

5

9

Відносний комплексний показник якості

1,000

0,962

0,840

0,497

Рисунок 6.2 − Динаміка якості страви «яловичина тушкована з цибулею» при холодильному зберіганні

За даними О. М. Бражникова [3], стабільність властивостей м'яс­них продуктів при холодильному зберіганні може бути описана за­лежністю

. (6.7)

За даними [24], зміна показника якості при зберіганні швидкозаморожених смажених м'ясних виробів достатньо задовільно описується залеж­ністю

. (6.8)

Застосовуючи методи термодинаміки безповоротних процесів до опису якості кулінарної продукції при холодильному зберіганні, автори [22] одержали аналітичну залежність зміни відносного показ­ника якості під час зберігання (К = Кτ о , де Кτ - значення показника в процесі зберігання, Ко- початкове значення показника)

. (6.9)

Враховуючи апріорну інформацію та динаміку експерименталь­них значень, визначимо параметри вказаних залежностей і виберемо емпіричну формулу, яка найбільш точно описує результати експери­менту, і, отже, найбільш прийнятну для прогнозування значення комплексного показника якості охолодженої страви при зберіганні.

Для визначення параметрів емпіричних рівнянь опису зміни комплексного показника перетворимо вказані залежності та введемо наступні позначення:

для (6.8) Y1 = А + bх , де Y1 = −ln(K) , А = ln(а), х = τ .

для (6.9) Y2 = а + , де Y2 = , х = τ;

Y3 = а + bх + сх2, де Y3 = K , х = τ.

В таблиці 6.6 подані значення перетворених дослідних даних.

Таблиця 6.6 − Перетворені дослідні дані показника якості страви "яловичина, тушкована з цибулею"

х

0

5

9

14

Y1

0

0,0387

0,1744

0,6992

Y2

0

0,1968

0,4176

0,8362

Y3

1,000

0,962

0,840

0,497

На підставі даних таблиці методом найменших квадратів одержані значення па­раметрів а, b, с вище наведених рівнянь.

Виконавши зворотні перетворення, одержимо наступні рівняння:

Y1 = 1,12×ехр(-0,049х) ; (6.10)

Y2 = ехр −(0,053 - 0,059х)2 ; (6.11)

Y3 = 0,997 + 0,012х - 0,003х2 . (6.12)

В таблиці 6.7 приведені статистичні розрахунки адекватності емпіричних формул (6.10) - (6.12).

Загальна дисперсія

= 0,1572/3 = 0,0524 .

Залишкова дисперсія та розрахункове значення критерію Фішера :

= 0,0404/2 = 0,0202 ; F1 = 0,0524/0,0202 = 2,59 ;

= 0,0084/2 = 0,0042 ; F2 = 0,0524/0,0042 = 12,48 ;

= 0,0073/1 = 0,0073 ; F3 = 0,0524/0,0073 = 7,17 .

Таблиця 6.7 – Дані статистичних розрахунків адекватності емпіричних формул (6.10) – (6.12)

6.10

6.11

6.12

ΔY = | К−Y |

І

К

Y1

Y2

Y3

Δ Y1

Δ Y2

Δ Y3

Δ Y12

Δ Y22

Δ Y32

1

1,000

0,175

0,0306

1,120

1,058

0,997

0,120

0,058

0,003

0,0144

0,0033

0,0000

2

0,962

0,137

0,0188

0,877

0,946

0,982

0,085

0,016

0,020

0,0073

0,0002

0,0004

3

0,840

0,015

0,0002

0,721

0,799

0,862

0,119

0,041

0,022

0,0143

0,0017

0,0005

4

0,497

0,328

0,1076

0,564

0,553

0,577

0,067

0,056

0,080

0,0045

0,0031

0,0064

3,299

0,1572

0,0404

0,0084

0,0073

= 3,299 / 4 = 0,825 .

Табличне значення критерію Фішера при рівні значущості 0,05 та степенях свободи ν1 = 3 та ν2 = 2 дорівнює 19,247 (для Y1 та Y2), а для ν2 = 1 дорівнює 215,71 (для Y3).

Середній процент відхилень розрахункових значень від експе­риментальних, розрахований по (6.4), складає:

= 12,2 % ; = 5,6 % ; = 4,7 % .

Як видно, незважаючи на невеликий середній процент відхи­лень, емпіричні залежності (6.10) - (6.12) статистично незначуще описують результати експерименту.

При рівні значущості α = 0,1 та відповідних степенях свобо­ди табличні значення F-критерію відповідно:

Fт(0,1; 3; 2) = 9,16 і Fт(0,1; 3; 1) = 53,59 .

Із цього виходить, що тільки рівняння (6.11) адекватно описує результати експерименту із рівнем вірогідності 0,9 (1-α), що підтверджує справедливість застосування методів термодинаміки безповоротних процесів до опису якості охолоджених кулінарних виробів при зберіганні.

*

* *

У цьому розділі розглянуті способи, які дозволяють перевірити велику кіль­кість функціональних залежностей, які придатні до опису резуль­татів експерименту.

Бажано, щоб статистичні розрахунки щодо підбору емпіричних залежностей способом лінеаризуючих перетворень були виконані на ЕОМ, оскільки ця робота дуже трудомістка. Тільки пере­бирання великої кількості формул, які підходять, дозволить ви­брати з них найбільш придатну для апроксимації дослідних даних та прогнозу.

Приведено приклад, який ілюструє важливість та корисність використання експериментатором апріорної інформації про вигляд функціональної парної залежності між показниками, які досліджу­ються, при підборі та статистичній оцінці емпіричних формул.