Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Samordina-LR2.pdf
Скачиваний:
17
Добавлен:
11.05.2015
Размер:
2.11 Mб
Скачать

Рис.21. Проверка нормальности остатков

4.6Анализ наличия грубых отклонений от регрессии

При обработке реальных технических, экономических, медицинских и иных данных, полученных в процессе наблюдений, измерений, расчетов, иногда один или несколько результатов наблюдений резко выделяются, т.е. далеко отстоят от основной массы данных. Такие резко выделяющиеся результаты наблюдений часто считают содержащими грубые погрешности, соответственно называют промахами или выбросами. В рассматриваемых случаях возникает естественная мысль о том, что подобные наблюдения не относятся к изучаемой совокупности, поскольку содержат грубую погрешность, а получены они в результате ошибки, промаха. Если грубые погрешности и промахи обнаруживают в процессе измерений, то результаты, содержащие их, отбрасывают, как утверждает [4].

Поэтому необходимо выполнить анализ наличия выбросов среди имеющихся данных. Для этого служит критерий Титьена-Мура-Бекмана, R.

В случае, если R > R , то yi признается выбросом. Для вычисления

R используется формула: R = max ei , где Si2 можно вычислить, используя

Si

формулу 17.

20

S2 =

 

in=1 ei2

(1

 

1

 

 

(xi x)2

 

)(17)

P

 

 

 

 

 

 

 

i

 

2

 

n

i=1(

i

 

)

2

 

n

 

 

 

 

 

n x

 

 

x

 

 

 

 

 

 

 

 

 

P

 

 

 

 

Таким образом, необходимо добавить в файл несколько дополнительных колонок: e2i , Si2, Ri. Проведя расчеты, было выбрано единственное значение R, являющееся максимальным. Сравнив его с R , полученным из рисунка 22, можно сделать вывод о наличии выброса.

Рис.22. Критические значения критерия выброса Титьена-Мура-Бекмана

Вычисленные значения отображены на рисунке 23, рассмотрев который можно придти к заключению о том, что y45 не является выбросом.

4.7Построение толерантных границ для регрессии

100 процентным толерантным интервалом называется интервал, в границах которого находится 100 процентов всех возможных значений случайной величины, по утверждению [5].

Для того, чтобы вычислить толерантные пределы для линейной регрессии необходимо знать эффективное число наблюдений для некоторой величины X.

n

 

(x) =

 

n

in=1(xi x)2

 

 

(18)

 

 

 

x)2

 

 

P

in=1(xiP x)2

+ n(X

 

 

 

 

 

 

 

 

 

 

Другими словами, для некой величины X средняя величина Y определяет-

ся расчетом по линии регрессии, как если бы было сделано n наблюдений

при заданной величине X.

21

Чтобы найти толерантный интервал, о котором бы можно было с вероятностью утверждать, что внутри него лежит по крайней мере - часть популяции, необходимо найти толерантные интервалы для каждого значения X.

Двусторонний толерантный интервал имеет вид:

y^ k(n (x); ; )S(x) y^(x) y^(x) + k(n (x); ; )S(x)(19)

Эффективный объем выборки n (x) рассчитывается по формуле 18. Значение S(x) рассчитывается по формуле (20):

S2(x) = S 2

(

1

 

+

(x x)2

(20)

 

 

 

Pin=1(xi x)2)

y^

 

n

 

 

Для которой, в свою очередь, нужны данные, полученные из формулы 21.

 

 

1

 

n

 

 

 

 

 

 

 

 

 

 

Xi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Sy^n = n

 

 

a bxi)2(21)

 

 

 

 

2

(y

 

 

 

 

 

 

 

=1

 

 

 

 

 

 

 

Значения k (n (x); ; ) вычисляются по формуле 22:

k (n (x); ; ) = u(1+ =2)(1 +

 

u

 

 

)(22)

 

 

 

 

 

 

 

 

5u2 +10

 

p2n (x) +

 

 

 

 

 

 

12n (x)

Для значения X = 0; 04 вычисления будут выглядеть следующим образом:

22

a

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3,451

b

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,035

y^

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,17

y^-a-bx=0,17304-(0,035+0,04*3,451)

0

S2

=

1

 

n

(^y

 

a

2

bx)

 

 

0

 

 

 

 

 

 

 

 

y^

80

 

i=1 n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

80

i=1

(x

x)

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

n

=

 

P

 

 

 

 

 

 

 

 

 

79

(80 i=1

(x

x)2)+80(X

 

x)

 

 

 

 

 

 

 

 

 

P

 

 

 

 

 

 

 

2

+10

 

 

 

u(1+0;9)=2(1+u0;95)

 

5(u

0;95

 

k =

 

 

P

p

 

 

 

 

 

 

 

+

 

 

 

 

 

1,9

 

 

 

 

 

 

 

 

 

 

(12n )

 

 

 

2n

 

 

 

 

 

y^ k S(x)

 

 

 

 

 

 

 

 

 

 

 

 

 

0,17304

y^ + k S(x)

 

 

 

 

 

 

 

 

 

 

 

 

 

0,17304

Построив подобным образом все толерантные интервалы, можно свести их на одном графике, представленном на рисунке 26. Очевидно, что ни одно значение не выходит за границу толерантной границы.

Рис.23. Толерантные интервалы для регрессии

23

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]