Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции к экзамену.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
868.86 Кб
Скачать

3.11. Проверка адекватности линейного уравнения регрессии

Пусть по результатам экспериментов построена эмпирическая регрессионная линейная зависимость величины y от x

Требуется определить, насколько правильно (адекватно) эта эмпирическая зависимость описывает экспериментальные данные. Для этого нужно сопоставить экспериментальную погрешность (дисперсию), которую назовём дисперсией воспроизводимости и погрешность (дисперсию), возникающую за счёт подгонки уравнения регрессии под экспериментальные данные, которую назовём дисперсией адекватности . Сопоставление производится при помощи статистического критерия Фишера.

Перейдём к расчёту дисперсией воспроизводимости. Поскольку величина y включает в себя случайную компоненту, при каждом значении x величину y нужно измерить несколько раз для того, чтобы оценить среднеквадратическое отклонение соответствующее конкретному значению x. Пусть измерения производятся в точках , где изменяется от 1 до L. При каждом величина y измеряется K раз и принимает значения , где - номер повторного измерения ( = 1, 2, 3…. K). Тогда при каждом вычисляется среднее значение yср.i по формуле

и дисперсия

Корень квадратный из дисперсии является среднеквадратическим отклонением и характеризует статистический разброс относительно среднего при каждом значении (см.рис.4.10) Чтобы характеризовать статистический разброс в среднем по всем опытам, вычисляется дисперсия

(см. рис.4.11), которая носит название дисперсия воспроизводимости. Величина . Величина называется числом степеней свободы при дисперсии воспроизводимости. Итак, − экспериментальная погрешность измерений.

Второй тип погрешностей связан с отклонениями за счёт некоторого различия между средними экспериментальными значениями и расчётными значениями , которые обозначим, как . Как бы хорошо уравнение регрессии ни описывало экспериментальные данные, такая погрешность всегда существует (см. рис .4.11).

Далее вычисляется дисперсия адекватности , которая в среднем по всем точкам характеризует отклонение экспериментальных данных от расчётных значений , где называется числом степеней свободы при дисперсии адекватности и вычисляется по формуле , где b − число независимых переменных. В рассматриваемом случае число независимых переменных равно 1. Это переменная x.

Далее нужно выяснить вопрос: какая из погрешностей больше − экспериментальный разброс данных ( дисперсия воспроизводимости) или погрешность, связанная с отклонением расчётных значений от экспериментальных (дисперсия адекватности). Для этого находят критерий Фишера F, как отношение дисперсий

. (4.55)

и сопоставляют его с табличным значением , которое находится из таблиц статистического распределения Фишера (таблица 4.12).

Таблица 4.11

Доверительная вероятность Р= 0.95

f1 для числителя

f2

1

2

3

4

5

6

7

8

9

10

15

1

161,45

199,50

215,71

224,58

230,16

233,99

236,77

238,88

240,54

241,88

245,95

2

18,51

19,00

19,16

19,25

19,30

19,33

19,35

19,37

19,38

19,40

19,43

3

10,13

9,55

9,28

9,12

9,01

8,94

8,89

8,85

8,81

8,79

8,70

4

7,71

6,94

6,59

6,39

6,26

6,16

6,09

6,04

6,00

5,96

5,86

5

6,61

5,79

5,41

5,19

5,05

4,95

4,88

4,82

4,77

4,74

4,62

6

5,99

5,14

4,76

4,53

4,39

4,28

4,21

4,15

4,10

4,06

3,94

7

5,59

4,74

4,35

4,12

3,97

3,87

3,79

3,73

3,68

3,64

3,51

8

5,32

4,46

4,07

3,84

3,69

3,58

3,50

3,44

3,39

3,35

3,22

9

5,12

4,26

3,86

3,63

3,48

3,37

3,29

3,23

3,18

3,14

3,01

10

4,96

4,10

3,71

3,48

3,33

3,22

3,14

3,07

3,02

2,98

2,85

11

4,84

3,98

3,59

3,36

3,20

3,09

3,01

2,95

2,90

2,85

2,72

12

4,75

3,89

3,49

3,26

3,11

3,00

2,91

2,85

2,80

2,75

2,62

13

4,67

3,81

3,41

3,18

3,03

2,92

2,83

2,77

2,71

2,67

2,53

14

4,60

3,74

3,34

3,11

2,96

2,85

2,76

2,70

2,65

2,60

2,46

15

4,54

3,68

3,29

3,06

2,90

2,79

2,71

2,64

2,59

2,54

2,40

16

4,49

3,63

3,24

3,01

2,85

2,74

2,66

2,59

2,54

2,49

2,35

17

4,45

3,59

3,20

2,96

2,81

2,70

2,61

2,55

2,49

2,45

2,31

18

4,41

3,55

3,16

2,93

2,77

2,66

2,58

2,51

2,46

2,41

2,27

19

4,38

3,52

3,13

2,90

2,74

2,63

2,54

2,48

2,42

2,38

2,23

20

4,35

3,49

3,10

2,87

2,71

2,60

2,51

2,45

2,39

2,35

2,20

Структура таблицы имеет следующий вид. В заголовке таблицы указывается доверительная вероятность. В данном случае эта вероятность равна Р=0.95. В первой строке расположены значения числа степеней свободы для числителя выражения (4.55), то есть значения f1 , в первом столбце − значения числа степеней свободы для знаменателя, то есть значения f2 Например, если f1 = 10, а f2 = 4, то =5.96.

Если выполняется неравенство ,то это означает , что дисперсия адекватности с вероятностью 95% меньше дисперсии воспроизводимости. Другими словами, погрешность, связанная с «подгонкой» уравнения регрессии под экспериментальные данные меньше погрешности эксперимента. Но тогда следует, что данное уравнение регрессии адекватно описывает экспериментальные данные

Отметим, что выводы, которые делаются при помощи критерий Фишера F, носят вероятностный характер (с вероятностью 95%). И сама проверка − адекватно ли уравнение регрессии описывает экспериментальные данные − также носит вероятностный характер. Это объясняется следующими обстоятельствами. Коэффициенты и вычислены на основе использования экспериментальных значений y. Но каждое из этих значений содержит в себе некоторую случайную составляющую. Поэтому и тоже содержат в себе некоторый элемент случайности. Говорить, что эти коэффициенты принимают то или иное значение можно только с той или иной вероятностью. Дисперсия адекватности и воспроизводимости также рассчитаны на основе значений y, поэтому тоже несут в себе элемент случайности.

Случайная величина и её функция распределения вероятности.

Для непрерывной случайной величины наиболее полной характеристикой является плотность функции распределения вероятности , представленная на рис.2.2.

Величина пропорциональна вероятности того, что измеренная величина оказалась равной какому- либо конкретному значению. Например, вероятность того, что при измерении будет получено значение пропорциональна числу . Если формулировать математически точно, то нужно рассматривать интервал . Вероятность того, что измеренная величина попадёт в указанный бесконечно малый интервал равна дифференциалу от плотности распределения вероятности

, (4.1)

который геометрически равен площади заштрихованного участка в окрестности точки . Равенство (2.1) справедливо для любой точки

, (4.2)

Будем обозначать вероятность какого либо события буквой Р, а само событие, выраженное математически, будем помещать в фигурные скобки. Тогда по определению плотности распределения вероятности, выполняется равенство

, (4.3)

То есть, вероятность того, что измеренное значение попадёт в интервал от до равна произведению плотности вероятности на величину этого интервала .

Наиболее вероятное значение соответствуем максимуму на кривой. Многочисленные исследования в самых различных областях науки и техники показывают: если измерения содержат случайную составляющую, которая возникает за счёт влияния большого количества факторов, причём каждый из них вносит малый вклад, то чем больше отклонение от наиболее вероятного значения, тем меньше вероятность такого отклонения. Поэтому, при смещении вправо и влево от , кривая носит убывающий характер. Кроме того, кривая симметрична относительно оси, проходящей через наиболее вероятное значение. Это означает, что отклонения от с завышением и с занижением равновероятны.

Если проинтегрировать функцию плотности распределения вероятности (см. рис.4.2), то получим интегральную функцию распределения вероятности ,

, (4.4)

В общем случае случайная величина может изменяться от до , тогда нижним пределом в интеграле будет .Интегральная функция распределения (или просто функция распределения) представлена на рис.4.3.

Поскольку является первообразной для , соотношение между этими функциями определяется основной теоремой интегрального исчисления ( теоремой Ньютона − Лейбница)

. (4.5)

Из соотношения (4.4) следует статистический смысл функции распределения вероятности. Она показывает, какова вероятность того, что значение

измеряемой величины попадёт в конечный интервал 0 < < ( или в интервал −∞ < < )

. (4.6)

Если, например, требуется определить вероятность попадания измерения в интервал от 0 до , то эта вероятность равна (см. рис. 4.3), что соответствует заштрихованной площади криволинейной фигуры с основанием (0, ) (см. рис.4.2). Но событие попадания измеряемой величины на относительно большой интервал (0, ) означает логическую сумму событий попадание или на первый малый участок , или на второй малый участок , или на третий участок и так далее. Каждому из этих событий соответствуют вероятности и так далее. В этом случае вероятности складываются

. (4.7)

Поэтому функцию распределения вероятностей можно назвать функцией «накопленной » вероятности.

Рассмотрим некоторые естественные свойства рассмотренных функций, вытекающие из их определения:

1.Поскольку попадание положительно определённой случайной величины в интервал от 0 до бесконечности обязательно произойдёт, то есть является достоверным событием, а вероятность достоверного события равна 1, выполняется равенство (условие нормировки)

. (4.8)

2.Вероятность попадания на больший интервал (0, ) больше, чем на меньший (0, ), поэтому функция распределения вероятности является возрастающей

. (4.9)

3.Из определения функции вытекают равенства при

,

,

Откуда следует, что вероятность попадания случайной величины в интервал определяется выражением

, (4.10)

что геометрически соответствует