Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Алабин М.А. Корреляционно-регрессионный анализ статистических данных в двигателестроении

.pdf
Скачиваний:
15
Добавлен:
23.10.2023
Размер:
4.6 Mб
Скачать

Ниже приведены записанные на «языке» автоматического программирования одной из широко распространенных отечест­ венных ЭВМ — «Наири-2» программы:

а) расчета линейной двумерной корреляционной зависи­ мости;

б) расчета сумм результирующего параметра и составляю-' щих параметров, сумм квадратов результирующего параметра и составляющих параметров, сумм произведений результирующе­ го параметра на каждый из составляющих параметров, средне­ квадратичных отклонений каждого параметра и коэффициентов частичной корреляции;

в) решения системы т линейных уравнений с т неизвестны­ ми (т. е. программа расчета коэффициентов многомерной кор­

реляционной зависимости bo, Ь12.34...т , &13.24 ... ?л, •■ Й1Ш.23... m-l) • Программа расчета линейной двумерной корреляционной зависимости (программа 1 ) предусматривает расчет для опреде­ ленного числа парных значений ТЛ п Х2 (в данном случае взято 30 таких пар). Изменение числа парных значений X i п Х2 дости­ гается за счет перебивки шапки и операторов 3 и 11. Принятые соотношения в буквенных обозначениях в книге н используемых

в машине «Напрп-2» приведены в табл. 1.

 

 

 

 

 

 

Таблица 1

Обозначения исходных па­

*1

Х 2

*12

02

°х,

“А',

раметров

Обозначения параметров

V

X

во

В12

412

»1

В2

на языке АП ЭВМ „Наири-2“

 

 

 

 

 

 

 

Программа 1

ап

10-11-1973 г. 1 «Наиры» i = 30xy /=126rtn -

1 допустим г'= 1-<-

2 допустим г = 0 л = 0 м= 0 ш = 0 s = 0-<— 3 допустим 2 = 30-<— 4 введем

5

ВЫЧИСЛИМ Г =

Г +

JCf-4—

6

ВЫЧИСЛИМ Л = Л +

У 'г*-

7 ВЫЧИСЛИМ М =

М +

XiU i< -

8вычислим ш = ш-|-.к|<—

9ВЫЧИСЛИМ S = S - j - y 2<—

10 вставим i = l+l-*~

* В программах 1, 2, 3 знак «< -» означает оператор «Возврат каретки».

30

11если i—31 <4-«-

12вычислим \ = }/ ((ш/г) — (r/z)2)«—

13вычислим 81 = ]/"Ц5/2) — [л/zf)

14 вычислим Ч|2= ( (u/z) — ( (гл)/г2) ) <-

15вычислим Ь12= (м /(г62) ) — ( (гл)/(22бг) )-*-

16вычислим Ь0= (л— b12r)/z-^-

17печатаем 86i624i2bobi2-f-

18кончаем

исполним 1-<—

Для расчета многомерной корреляционной зависимости ис­ пользуются программы 2 и 3. Обе они составлены для корреля­ ционной зависимости четвертого порядка (т = 4). Некоторое ус­ ложнение программы 2 вызывается тем, что ЭВМ «Наири-2» не воспринимает операторы типа Хи, X2i и т. п., т. е. операторы, у которых первый индекс — цифра, а вторая — буква (i, j, k).

Программа 2 также предназначена для 30 сочетаний значе­

ний А'ь Х2, Х3, Х4. Изменение числа сочетания

значений Хи Х2,

Х3, Х4 производится путем перебивки шапки

и оператора 21.

Если необходимо изменить порядок корреляционной зависимо­

сти,

то следует учитывать, что в операторах 2 и 3 количество Г,

и Л,

равно порядку корреляционной зависимости (j = m), а в опе­

раторе 4 количество АД равно числу сочетаний СА,_i - Принятые обозначения приведены в табл. 2.

Таблица 2

Обозначения

ис­

А ,

Х 2

ходных параметров

 

 

Обозначения

па­

X

У

раметров на языке

 

 

АП ЭВМ „Наирн-2“

 

 

°Л 'л

4 12

413

414

42 3

5 4

412

4 1 3

41 4

42 3

 

V v ,

V V 2 V V2

 

 

 

iyV 2

 

2 * 4

2 * 1 * 2

а 14

 

 

 

 

и а41

а 22

а 33

а 44

а 20

* з

 

* 4

°x t

ах.

°А 'з

Z

 

t

h

■Ьо

Вз

4 2 4

 

Ч34

2 * i

V Y

2 * 3

 

 

ч 24

 

434

a 10

а Х2 И 321

а 13 Н а 31

5

*

 

 

 

 

Ы *

2 * 1 * 4

2 * 2 * 3 2 * 2 * 4

2 * 3 * 4

со

а 30

 

а 40

а 23 и

аз2 Э24 И Э40

а 34 11 а 43

Программа 2

ап

10-11— 1973 г. 2 «Наири»

31

i = 3 0 x y z t у'= 44глмбча-«-

1допустим i= l-«-

2допустим Г4= 0 г2= 0 г3= 0 г4= 0-с—

3

допустим Л1= 0 л2= 0 л3= 0 л4= 0-<-

4

допустим Mj = 0 м2= 0 м3= 0 м4= 0 м5= 0 Мб=0-1

5

введем д-{ у,- z,-

,6

вычислим Ti= ri+.Vr<-

7ВЫЧИСЛИМ Г2= Г2+ £/;-*-

8вычислим r3= r3+ z,~<-

9ВЫЧИСЛИМ Г4= Г4—^|-<— 10 ВЫЧИСЛИМ Л1= Л|4-Х; ■*-

11вычислим л2= л 2+ г/]^г

12ВЫЧИСЛИМ Л3= Л3+ 2?-«-

13ВЫЧИСЛИМ Л4= Л4+ ^±Г

14ВЫЧИСЛИМ Mi = Mi+.Vj(/i-<—

15ВЫЧИСЛИМ М2= M2+ .VfZ,-«-

16ВЫЧИСЛИМ М3= М3+ Xitj-<—

17ВЫЧИСЛИМ M4= M4-j-tjiZi-*-

18ВЫЧИСЛИМ М5= М5+ г/1-г'г-«-

19ВЫЧИСЛИМ Мб= М6+ 2,-^-«- 20 вставим г = £ + 1-<—

21 если t—31 < 5-е—

22 ВЫЧИСЛИМ 8Х= У (Л1- Г^

23вычислим 8а = / ( л 2-г |)« -

24вычислим 8з = 1/ (Л з -г 1)>

25вычислим 84= 1/(л 4- г 2)<-

26печатаем 86i626364-*-

27вычислим ч]2= (Mi—(г4г2) )/(6i62)-<-

28вычислим ч13= 2—(г±г3)) / (6i63)

29вычислим 4i4= (м3—(г4г4) )/(6164)

30вычислим ч23= (м 4— (г2г3) )/(6263)-«-

31вычислим ч24= (м5— (г2Г4) )/ (6264)

32вычислим ч34= (м6— (г3г4))/(6364)-<-

33вычислим ац=1 a42= r2 ai3= r3 ai4= r4 aio= rr«-

34вычислим a2i= r 2 а22= л2 а23= м 4 a24= Ms a2o=Mj-«

35вычислим a3i= r3 а32= м4 азз= л3 а34= Мб а3о=м2-<

36вычислим а4[ = г4 а42= м 5 а43=Мб а44= л 4 а4о=м3-1

37печатаем 8 Ч)2Ч13Ч14ч23ч24ч34-<-

38печатаем 8 anai2ai3a14aio-t-

39печатаем 8

40печатаем 8 a3ia32a33a34a3(r<—

41печатаем 8 a4ia42a43a/i4a4o4—

42кончаем

исполним 1-«-

После вычисления значений ^ Лг1, V Х г, ^ А ^ , V X mt

для получения коэффициентов многомерной корреляционной за­ висимости bo, Ьи.34...т, ^13.24 ... .......... blm,23...m-l НвОбхОДИМО р е -

шнть систему т линейных уравнений с т неизвестными, в каче­ стве которых и фигурируют коэффициенты многомерной корре­ ляционной зависимости.

Для этой цели служит программа 3, в которой используется стандартная подпрограммарешения системы линейных уравне­ ний (оператор 8). В данном случае программа предназначена

для решения системы 5-го порядка. В случае другого

порядка

необходимо перебить шапку и операторы 5, 7, 12.

 

 

 

Программа 3

 

 

ап

 

 

 

10- 11- -1973 г. 3 «Напри»

 

 

г = 5 / = 6 ач-г' = 4 Ь-

 

 

1 д о п у с т и м г =

 

 

2 д о п у с т и м / — 0-4—

 

 

3

в в е д е м а,-;-ч-

 

 

4

в с т а в и м / = / + 1 ч -

 

 

5

е с л и / — 5 ^ 3 - < -

 

 

6

в с т а в и м / = / + 1 - « -

 

 

7

е с л и i4 ^ 2 - е -

 

 

8

п р о г р а м м а

сг /а 5 Ь ( о п е р а т о р ч-------н е

д а в а т ь )

 

9

д о п у с т и м / = 0 ч -

 

 

10 п е ч а т а е м 5 6,-ч-

 

 

11 в с т а в и м г = г -h 1 —

 

 

12 е с л и i— 4 ^ : 1 0 ч -

 

 

13 к о н ч а е м

 

 

 

и с п о л н и м 1 ч -

 

’b 1 = b i2.345> b2=

 

П р о г р а м м а п е ч а т а е т з н а ч е н и я b 0,

b i 3.245 , b 3=

= bl4.235i b4 = bi5.234-

 

 

Если система нормальных уравнений представлена

в форме

(31"), то коэффициенты уравнения регрессии могут быть опре­ делены, например, для трехмерной корреляционной зависимости, по следующим уравнениям:

у 12,3

Г \1

Г13Г23

°X i .

(38 )

1

2

_

 

1 —

'23

х ,

 

 

^13.2

4"13 —

Г12Г23

а Х , .

(39)

1

 

°Х з

 

 

ГЪ,

 

 

*0 = ^ 1

- ' ^12.3 '

 

^18.2 ’ А'з .

(40)

2

15

33

 

 

Определение коэффициента регрессии Ь12 уравнения прямой линии вида Xl= b0 + bl2X2 может производиться по одной из сле­ дующих формул:

ь

Х ъ - Х ъ - Х у Х * .

(41)

У12--

'

2

 

° Х ,

 

 

2

№ -

А',) (,\:2- х

2) .

(42)

1 2 --

 

9

>

 

 

па~х,

 

 

Ь

— г

 

 

(43)

У12-- ' 12

 

 

 

Порядок определения членов правой части указанных урав­ нений аналогичен порядку, приведенному в разд. 2.4, для вычис­ ления значений коэффициента корреляции.

1. 8. Оценка правильности формы уравнения регрессии

Оценка адекватности выражения (27) производится сравне­ нием дисперсионного отношения Фишера с табличным его зна­ чением, которое с определенной доверительной вероятностью да­ ет нижний предел этого отношения. Значение F подсчитывается по формуле

F =

------ILzJ-------

(44 )

^°ст

V (Л-j -

X lp)2

 

 

п m

2

 

где X 1 = l f L .

п

Если Е > Е табл, то считается, что выражением (27) правильно определяется поведение зависимой переменной.

В некоторых случаях используется показатель адекватности, называемый среднеквадратическим относительным отклонением, который имеет вид

34

По формуле (45) оценивается относительная среднеквадратическая ошибка расчетных данных относительно фактических на стадии определения формы модели, а по формуле (46) опре­ деляются пределы, в которых могут находиться фактические дан­ ные относительно расчетных при использовании данной модели. Эта формула применяется на стадии, когда форма модели оп­ ределена.

Важным этапом оценки правильности формы уравнения рег­ рессии является анализ значимости составляющих параметров, которые рассматриваются взятой моделью, и выявление на ос­ новании этого «лишних» параметров. «Лишние» параметры за­ теняют влияние основных параметров, ухудшают оценочные по­ казатели, особенно при малой информации.

Оценку степени влияния.каждого составляющего параметра, входящего в модель, можно производить:

а) по показателю Д, указывающему изменение результирую­ щего параметра под влиянием максимального размаха исходной информации /-го параметра.

Этот показатель имеет вид

— для линейной модели:

 

Dj (Xj max Xj mjn) bj;

(47)

— для логарифмической модели:

 

 

 

 

(48)

Если отношение

^ 1 ,

то следует считать,

что рассматри­

ваемый у'-й параметр

влияет

в пределах ошибки

аппроксимации

очень слабо. Отношение — — выявляет наименьшее влияние ка- ■^ост

кого-либо составляющего параметра. Однако условие ——- > 1 не

•^ост всегда свидетельствует о том, что рассматриваемый параметр не

«лишний»; б) окончательно решить вопрос о степени влияния каждого

составляющего параметра можно с помощью частного корреля­ ционного отношения

2

I .„2

(49)

Л1

где I]2— квадрат нескорректированного корреляционного отно­ шения, рассчитанный по формуле (24), но без поправ­

ки в S2

ост’

Л (у)'— такой ж е коэффициент для модели с исключением /-го п ар ам етр а.

2*

35

 

Преимуществом показателя

является то, что его значи­

мость можно проверить по критерию Z. Если г|3- не значим, то /-й

параметр следует исключить

из

формы уравнения

регрессии.

После исключения «лишнего»

параметра нужно для

получаемой

Dj

модели определить минимальное значение отношения —— для •^ост

дополнительного параметра и проверить значимость его коэффи­ циента ту. Это повторяется до тех пор, пока влияние всех пара­ метров, включаемых в модель, не будет значимым.

Так как неизвестно, не будут ли значимыми отбрасываемые на ранней стадии исследований модели составляющие парамет­ ры в другой совокупности составляющих параметров, то, начи­ ная со второго этапа отбрасывания «лишних» параметров, нужно вводить их снова в модель, проверяя значимость. Это, естест­ венно, увеличивает объем расчетов, но при использовании ЭВМ такой порядок не вызывает существенных затруднений.

1.9. Оценка точности, надежности и гарантийных границ параметров корреляционной связи

Значение коэффициента корреляции, получаемое по данным случайной выборки, не характеризует в полной мере тесноту свя­ зи между рассматриваемыми параметрами. Достоверность, на­ дежность полученного значения, гарантийные границы, в котот рых с определенной (приемлемой) степенью доверия будет нахо­ диться истинное значение коэффициента корреляции, могут быть определены для случая, когда распределение коррелируемых случайных величин достаточно близко к нормальной форме, по следующей схеме:

— находится среднеквадратическая ошибка коэффициента корреляции ог:

1 - Л12 .

— вычисляется величина t:

t = ^ . °Г

Если 3, то можно считать, что вычисленный коэффициент корреляции является достоверным;

— определяется по таблице значений функции Лапласа зна­ чение абсолютного нормального отклонения tp, соответствующее выбранному значению уровня доверия. Тогда гарантийные гра­ ницы для коэффициента корреляции будут

2

 

 

 

2

 

Г 12

Гист

г 12 “ Ъ t р

=

(Д О )

36

При малом числе наблюдений (п<30) среднеквадратическая ошибка находится по формуле

аг

1

(51)

у п — 1

 

 

Величина этой ошибки может заметно отличаться от действи­ тельного значения средней ошибки. Определение средней ошиб­ ки коэффициента корреляции на основе весьма колеблющейся эмпирической величины коэффициента корреляции дает постоян­ ную погрешность, уменьшающую значение коэффициента корре­ ляции в генеральной совокупности.

При рассмотрении вместо коэффициента корреляции вели­ чины

z = — In * ± 1 =

1,15129 lg !± -£

(52)

2

1 — r

s 1 — г

v 1

было установлено [14], что распределение этой величины мало зависит от численности выборки и от значения коэффициента корреляции в генеральной совокупности, быстро приближаясь к нормальному распределению при возрастании числа наблюде­ ний. Для малых выборок можно принимать приближенно z-pac- пределение за нормальное с дисперсией

Благодаря этому величину z удобно использовать для вероят­ ностей оценки выборочного значения коэффициента корреляции, позволяющую и при малочисленных наблюдениях пользоваться таблицей значений интеграла вероятностей. Для этого достаточ­ но по таблице значений z определить z, соответствующее полу­ ченному коэффициенту корреляции, и затем вычислить значение

величины t, как отношение t к его средней ошибке — - 1 .

V п— 1

Используя z-преобразование, можно в вероятностном отно­ шении оценить разность между коэффициентами корреляции для двух независимых, случайных выборок. В этом случае ошибка разности для величин zL и z2 может быть определена по фор­ муле

 

 

( ® )

Тогда

t =

& — — .

Если t < 2,

то

разность между выборочными коэффициентами

корреляции случайна.

Для примера оценим существенность различия между значе­ ниями коэффициентов корреляции /'1= 0,876 и /'2= 0,719 для двух

37

независимых выборок с числом наблюдений /гх== 100 и «2=150. Пользуясь табл. I [24], находим значения z2=l,3587; zo= 1,0959.

О 9fi98

Тогда !4rfz~0,131; / ^ ^ ^ - s 2 , 0 . B таблице интеграла вероятно­

стей такой величине t соответствует вероятность 0,8545. Таким образом, вероятность того, что разность между значениями двух коэффициентов корреляции, обусловленная случайными ошибка­

ми, может быть большей,

чем 0,2628,

равна

(1—0,9545)

:2 =

= 0,0227. Это достаточно

малая вероятность

и, следовательно,,

полученную разность следует признать

не случайной, т. е.

обе

выборки, для которых вычислены коэффициенты корреляции, взяты из имеющих разную корреляцию совокупностей.

В связи со случайным характером статистической информа­ ции определенный по ней коэффициент корреляции может быть отличен от нуля и для тех переменных, между которыми и не должно быть корреляционной связи. Следовательно, для провер­ ки гипотезы об отсутствии корреляции необходимо проверить, значимо лн получаемое значение коэффициента корреляции от нуля.

Поскольку значение коэффициента корреляции для генераль­ ной совокупности случайных значений неизвестно, то проверяется гипотеза об отсутствии корреляции для этой генеральной сово­ купности. Для этой цели используются таблицы квантилей Z- распределения, зависящего только от количества сопряженных пар .наблюдений. По этим таблицам находится значение выбо­ рочного коэффициента корреляции для определенной довери­ тельной вероятности в предположении, что корреляция в гене-

 

 

 

 

 

Таблица 3

 

 

Квантили /--распределения

 

 

п

0,99

0,999

п

0,99

0,999

10

2,29

2,62

25

2,47

3,03

п

2,32

2,68

30

2,49

3,07

12 '

2,35

2,73

35

2,50 •

3,10

13

2,37

2,77

40

2,51

3,13

14

2,39

2,81

45

2,52

3,15

15

2,40

2,85

50

2,53

3,16

16

2,41

2,87

• 60

2,536

3,184

17

2,42

2,90

70

2,541

3,198

18

2,43

2,92

80

2,546

3,209

19

2,44

2,92

100

2,553

3,226

20

2,45

2,96

оо

2,576

3,291

38

ральнои совокупности случайных значений параметров отсутст­ вует. Сравнивая это значение с произведением абсолютного зна­

чения коэффициента корреляции на ]/"п 1 , устанавливают зна­ чимость выборочного коэффициента корреляции. Если величина

I г |■ЧЛг — 1

будет больше табличного

значения (табл. 3),

то с вы­

бранном, доверительной вероятностью

можно утверждать,

что

истинный

коэффициент корреляции отличен от

 

нуля.

Так, для /г= 26, /'=0,793 произведение \г\Уп— 1=3,96.Если это число больше табличного значения даже для р = 0,999, то корре­ ляционная связь между параметрами существует.

Аналогично тому, как это было приведено для коэффициен­ та корреляции, оцениваются надежность и находятся гарантий­ ные границы корреляционного отношения, для которого средняя квадратическая ошибка вычисляется по формуле

и коэффициента регрессии, для которого средняя квадратическая ошибка будет

sx, УI — г2

(54)

sx? -/п

Смысл этой формулы может быть уяснен, если представить квадрат ошибки коэффициента регрессии

DxSxt

В числителе формулы квадрата ошибки фигурирует остаточная дисперсия значений зависимой переменной, характеризующая их колебания около линии регрессии, в знаменателе — сумма квад­ ратов отношений значений независимой переменной. Ошибка тем меньше, чем меньше остаточная колеблемость значений за­ висимой переменной по отношению к колебаниям значений не­ зависимой переменной. Иными словами, величина ошибки коэф­ фициента регрессии определяется случайными колебаниями зна­ чений зависимой переменной около линии регрессии, для которых в общей колеблемости этой переменной тем меньше, чем точнее определена линия регрессии.

Проверка статистической значимости i] при малой инфор­ мации проводится по z-преобразованию Фишера:

* = i l n

l ± i ,

(55)

2

1— л

 

так как ^-распределение близко к нормальному уже при малом

39

Соседние файлы в папке книги из ГПНТБ