Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Алабин М.А. Корреляционно-регрессионный анализ статистических данных в двигателестроении

.pdf
Скачиваний:
15
Добавлен:
23.10.2023
Размер:
4.6 Mб
Скачать

ха на входе в компрессор, режимы работы и относительное вре­ мя работы на них за ресурс и др.).

Статистическая (стохастическая) связь. Связь (зависимость) между результирующими и составляющими параметрами, имею­ щими различные случайные значения, называется статистиче­ ской, если каждому значению независимой величины соответст­

вуют сопряженные

значения зависимых величин.

Зависимая ве­

личина

связана

с независимыми величинами Х2, Х3, .. ., Хт

статистически, если каждому значению Х2, Х3, ...,

Хт соответст­

вует не одно значение Хи а распределение Хи меняющееся вме­ сте с изменением Х2, Х3, ..., Хт.

Слова «зависимые» и «независимые» переменные применяют­ ся в алгебраическом смысле, т. е. Xi рассматривается как функ­

ция Х2, Х3, ..., Хт.

■/

Корреляционная связь (зависимость). Связь между величи­ нами Xi и Х2, Х3, ..., Х,„ называется корреляционной, если опре­ деленны^ значениям Х2, Х3, .. ., Хт соответствуют групповые средние ХиМножественная корреляционная связь характеризу­ ет статистическую зависимость результирующего параметра от двух и более составляющих параметров.

Групповой средней зависимой переменной Хи является сред­ нее арифметическое значение зависимой величины, соответст­ вующее каждому значению (интервалу) независимых перемен­ ных.

Форма корреляционной связи — тенденция, которой следует зависимая переменная при изменении значений независимых пе­ ременных. Если наблюдается тенденция равномерного возраста­ ния или убывания значений зависимой переменной, то корреля­ ционная связь — линейная; при тенденции же неравномерного изменения значений зависимой переменной корреляционная связь — криволинейная. Форма корреляционной связи при оп­ ределенном объеме статистической информации может быть оп­ ределена с известной вероятностью.

Уравнение корреляционной связи (уравнение регрессии) — уравнение, по которому могут быть найдены числовые значе­ ния групповых средних зависимых переменных в зависимости от соответствующих значений независимых переменных. В общем случае это уравнение может быть записано в следующем виде:

X i= f(X 2, Х3, ...,

Хт ).

(1)

Коэффициент корреляции (коэффициент парной

корреля­

ции)— простейшая характеристика

статистической

связи слу­

чайных величин. Тесноту связи по данным выборки можно оце­ нить только по относительным величинам. По абсолютным зна­ чениям коррелируемых параметров эту оценку нельзя сделать не только в том случае, когда они выражены в различных еди­ ницах измерения, но и когда они выражены в одних и тех же

Ю

единицах измерения, так как величины отклонений зависят от значений самих параметров. Такие относительные величины мо­ гут быть получены в виде отношений к их среднеквадратическо­ му отклонению, т. е. в форме нормированных отклонений. Срав­ нивать нормированные отклонения возможно, так как абсолют­ ная величина признаков при этом не имеет значения.

Для простейшей линейной двумерной корреляционной связи коэффициент корреляции представляет собой среднее произведе­ ние нормированных отклонений коррелируемых параметров

где п — число составляющих пар наблюдений (пара наблюде­ ний — сопряженные значения параметров, для которых опреде­ ляется корреляционная связь).

В индексе коэффициента парной корреляции указывается сначала индекс зависимого переменного, а затем — независимо­ го переменного. Численные значения rJ2 и г21 одинаковы. Коэф­ фициент корреляции есть показатель как того, насколько связь между случайными величинами близка к строгой линейной за­ висимости, так и слишком большой криволинейности этой связи.

Достаточно полным показателем коэффициент корреляции является:

для величин, для которых заранее из общих соображений можно предсказать линейную зависимость;

для величин, собственные случайные колебания которых подчиняются нормальному закону;

—•для величин, являющихся следствием единой причины. Коэффициент корреляции всегда лежит в пределах

Значения коэффициента корреляции, меньшие 0,5, выражают недостаточную меру предполагаемой или принятой зависимости.

Если нормированные отклонения—-— —

и — ------ -рядов равны

°Xi

ах~

между собой, то при совпадении их знаков (этот случай означа­ ет полную прямую связь) коэффициент корреляции получается равным единице:

При полной обратной связи коэффициент корреляции равен

1. Практически этих значений коэффициент корреляции нико­ гда не достигает, лишь приближаясь к единице при высокой ■степени тесноты корреляционных зависимостей.

И

Если случайные величины независимы, то коэффициент кор­ реляции равен нулю. Обратное утверждение, т. е. из равенства нулю коэффициента корреляции не следует независимость корре­ лируемых параметров.

Коэффициент частной (парциальной) корреляции г12,34... т является коэффициент парной корреляции, в котором исключе­ но влияние одной или нескольких других переменных. Коэффи­ циент частной корреляции позволяет выявить основные факторы, оказывающие наибольшее влияние между двумя переменными при условии, что все остальные переменные перестают быть пе­ ременными, так как они закрепляются на своем среднем уровне.

В индексе коэффициента частной корреляции указываются индексы коэффициента парной корреляции, а после точки — ин­ дексы исключаемых переменных.

Общий (совокупный) коэффициент множественной корреля­ ции R\,23i... т выражает меру зависимости результирующего па­ раметра Xi от всех составляющих параметров Х2, Х3, ..., Хт. Этим коэффициентом измеряется теснота (сила) совместного влияния всех составляющих параметров на результирующий па­ раметр. Численное значение общего коэффициента ' корреляции зависит от значений коэффициентов парной корреляции между Xi и Х2, Х3, ..., Хт, а также между каждой парой составляющих параметров. В индексе общего коэффициента множественной корреляции указывается сперва индекс зависимого переменного, а после точки — индекс всех составляющих параметров.

Уравнение регрессии — вид уравнения, который выбирается или которьвг характеризуется форма (модель) статистической связи результирующего параметра с составляющими парамет­ рами. Форма (модель) связи может быть линейной или криво­ линейной. Наиболее употребительными моделями связи являют­ ся линейные уравнения регрессии вида

 

Х 1~ Ь 0-{-Ь12Х 2 — для

парной корреляции. (3)

X 1= b 0-j-bJ2'3i'_mX 2-{-b132i'''mX 3-{-... — для

множественной

кор­

 

реляции.

(4)

Нелинейными уравнениями регрессии, как правило, являются

уравнения вида

 

 

 

■ ^■ 1 —

^12.34... щ Х 2 " Г ^13.24.,.т -'^ 2 _Ь ■"

^1т.234 ...т—1 ‘

(® )

Линейные уравнения регрессии можно использовать как пер­ вый этап исследований нелинейных корреляций-с тем, чтобы в дальнейшем! внести в них необходимые поправки.

Параметры уравнения корреляционной зависимости (уравне­ ния регрессии) — свободный член и коэффициенты при состав­ ляющих параметрах правой части уравнений регрессии.

Коэффициенты регрессии — коэффициенты при составляю­ щих параметрах правой части уравнения регрессии. В индексе

12

при коэффициенте регрессии вначале указываются индексы ре­ зультирующего и соответствующего составляющего параметра, а после точки — все остальные составляющие параметры.

Линии регрессии — графическое изображение уравнений кор­ реляционной зависимости (уравнений регрессии). Они характе­ ризуют форму связи результирующего параметра с составляю­ щими и определяют характер изменения результирующего пара­ метра, который получается при условии, что влияние неучтенных причин закрепляется на одном и том же уровне. Сами измене­ ния представляются как изменения, которые происходят в сред­ нем.

Следовательно, линия регрессии — это математическое вы­ ражение зависимости между параметрами, свойственной изучае­

мым наблюдениям. Практически графическое

изображение

уравнений регрессии применяется в основном

при

двумерных

линейных и криволинейных корреляционных связях.

 

 

Система нормальных уравнений — совокупность

уравнений,

по которым могут быть определены параметры

уравнения

рег­

рессии. Эта

система получается из условия максимального при­

ближения

линии регрессии к ломаной линии,

построенной

по

эмпирическим данным, получаемым в результате данного стати­ стического наблюдения. Эта задача обычно решается способом наименьших квадратов, при применении которого выдвигается требование, чтобы сумма квадратов разностей между значения­ ми результирующего параметра по линии регрессии и по эмпи­ рическим значениям была минимальной. Это требование соответ­ ствует свойству средней арифметической — сумма квадратов отклонений от своей средней была бы минимальной.

1.3. Масштабы выражения зависимых и независимых

переменных

 

Применение для расчета коэффициента корреляции

вместо

исходных случайных значений переменных X t новых

значений

X ' = k X t + C ,

(6)

где k — масштаб переменной величины Х{; С — начало отсчета этой переменной, не меняет абсолютного значения коэффициента корреляции. При k < 0 знак коэффициента корреляции получает­ ся обратный тому, который получается при подсчете коэффици­ ента корреляции по исходной статистической информации.

При подсчете параметров уравнения регрессии все перемен­ ные и соотношения между ними иногда выгодно выражать в стандартизованном масштабе, где за начало отсчета для каждой переменной принимается среднее значение, а за единицу масш­ таба —• величина среднеквадратического отклонения. В стан­

13

дартизованном масштабе упрощаются соотношения между пере­ менными, что удобно при анализе многомерных связей.

Формула перевода в стандартизованный масштаб:

 

 

X — х

 

(7 )

 

 

 

°х

 

 

 

 

 

 

где

X — значения

параметров

(результирующего

или состав­

 

ляющих)

в натуральном масштабе;

 

 

tx — соответствующие их

значения

в стандартизованном

 

масштабе.

 

 

 

 

При расчетах могут применяться также новые значения пере­

менных, подсчитанные по формуле

 

 

 

 

X t-X pi

 

(8)

 

 

 

dx

 

 

 

 

 

 

где

Хы — новое начало отсчета переменных, которое выбирается

 

вблизи средних значений переменных Хй

корреляци­

 

dX; — произвольная величина (при

расчетах по

онным таблицам в качестве такой произвольной вели­ чины берутся длины интервалов соответствующих пе­ ременных) .

После расчета параметров корреляционных зависимостей по масштабным значениям переменных производится замена зна­

чений Х[ на Х{ по одной из формул (6), (7), (8). Например, для стандартизованного масштаба

X i=X i + txi ста';.

1.4. Оценка тесноты корреляционных связей

Для оценки тесноты корреляционной связи при линейных кор­ реляционных зависимостях используется коэффициент корре­ ляции. Коэффициент корреляции характеризует относительную величину отличия математического ожидания произведения пе­ ременных величин от произведения математических ожиданий каждой переменной величины.

Коэффициент корреляции является безразмерной величиной, значения которого должны находиться в пределах — Его значение равно единице при линейной функциональной за­

висимости между переменными и равно нулю — для независи­ мых переменных величин.

Для оценки тесноты связи между двумя переменными вели­ чинами применяется коэффициент парной корреляции, между тремя и более переменными — коэффициент частной корреля­ ции и общий коэффициент корреляции.

Коэффициент парной корреляции выражает меру корреля­ ционной линейной зависимости. Для определения численного зна­

14

чения коэффициента парной корреляции могут использоваться следующие формулы:

Х уХ 2 — ХхХъ

 

 

и

АV1 «АVа

 

(9)

 

 

 

( 10)

 

 

га

 

 

 

 

 

2 (Х\ — х х) ( х 2Хо) .

 

 

 

п V A'pY, — У

V Хо

 

 

12

V n

У X? — СУ А’,

] /

п V Х\ — (У А"2)2

( П )

 

 

где

 

 

 

 

 

 

 

 

 

 

- ( A i )2

 

— среднеквадратическое отклонение параметра Лу,

 

=

| /

S

=

_ д

а

 

— среднеквадратическое отклонение параметра /Y2.

 

При я<30

для устранения постоянной

погрешности значе­

ния среднеквадратического отклонения, получаемые по указан­ ным выше формулам,, умножаются на величину ‘

При изменении всех численных значений коррелируемых при­ знаков на величину выбранных начала отсчета и масштаба ко­ эффициент корреляции определяется по формуле

 

 

 

У

12 '

 

S'х \х 2 71

 

 

 

,

Хх— A"io

, Хо — Хоо

где х. = -------х„-------------- -}

1

И

Ь

dXi

 

‘X,

 

Х л \ I У X

, (НО

При вычислении в стандартизованном масштабе коэффициент парной корреляции находится по формуле

ri 2 = —

, t-x~ =

ix 1■tx«,

( 12)

где

 

 

Хо x<2 .

 

X i - X x .

tx

 

‘■х,:

;»

G

 

 

Оv-

 

 

Xi, Xo — значения переменных в натуральном масштабе.

15

Для логарифмических моделей коэффициент парной корре­ ляции находится по выражению

п 2 In Xji In X ki — ^

In X g y; In X hi____________

гInХуШХк

l / n j In2 Xui — ( у In X Kif '

У п Ъ In2 X j t - { ^ l n X j i f

Коэффициент множественной корреляции с использованием ме­ тода определителей находится по формуле

где Д-определитель, составленный из всех коэффициентов парной корреляции: х

1 Г12 Г13* •• • - Г1т

 

Г21 1 г 2з . . . г2т

( 15)

 

гтх г т2 г тЗ • * . . . \

 

Дп — определитель, получающийся из определителя Д вычер­ киванием нулевого (первого слева) столбца и нулевой (верхней) строки:

1 Г03. • •

Гgo 1 . . . • •Г 3т

Д п =

( 16)

ГШ2 ^ m3 * * * . . .

1

Общий коэффициент множественной корреляции для трех пере­ менных равен

= l / - Г2+Г'3

( 17)

уl ~ rh ■

Если расчет ведется в стандартизованном масштабе, то

 

^1.23...яг = У ^ l - r i2 +

^2r i3 + ---- + ^mr lm i

( 1 8 )

где bi,

bo, ..., bm— стандартизованные

коэффициенты уравне­

ния множественной корреляции;

 

 

 

г\г, га,

..., гт— коэффициенты

парной

корреляции

между за­

висимым переменным и независимыми переменными

Х2, Х3, ...

. • Хт.

 

 

 

 

Вычисление численных значений коэффициентов частной кор­ реляции может производиться следующими способами.

1. Решением системы нормальных уравнений находится з чение коэффициента 612.34... т . Находится значение коэффициен­ та 621.34... ш по системе нормальных уравнений, полученной из

16

исходной, в которой переменные

А\ и

А2

заменены местами.

Тогда

 

 

 

 

 

 

 

 

 

Г 12.34...ш ~

У ^12.34...m^21.34...m

О ® )

2.

Находится значение

решением исходной системы нор­

мальных уравнений. Дополнительно находится значение БА“,

ре­

шением системы нормальных уравнений, полученной из исходной

с отбрасыванием строки и столбца, содержащих Х2. Тогда

 

 

г

=

У, х ; -

v

x l

 

(20)

 

1 / ^

1 ~

 

1*

 

12.34..

 

у у

д . 2 __

у

X 1*

 

3. Третий способ вычисления коэффициента частной корре­ ляции основан на постепенном переходе от коэффициентов кор­ реляции низших порядков к коэффициентам корреляции выс­ ших порядков. Порядок коэффициента корреляции определяется числом вторых индексов; так, например, коэффициент г1245 яв­ ляется коэффициентом третьего порядка.

Переход к коэффициенту частной корреляции ближайшего высшего порядка производится по формуле

^12.34...гп—\ ' Г lm.23...m—1 * ^2m.34...m—1

(21)

' 12.34. ..пГ

 

V i} •

lm .34...m - l ) 0 ~~ r 2 m .3 4 ...m -l)

 

Так, коэффициент частной корреляции Xi по Х2 при исключении влияния А3 исчисляется по формуле

г ,_ Л—

Г 11 — Г 13г 23

( 2 2 )

12.3

V ( 1 - г М О - 4 )

'

 

а при исключении А3 и А4 — по формуле

 

'12.34

г 12.3— г 14.ЗГ24.3

(23)

 

У У ~ л14.з) ( 1 — г 24.з)

В тех случаях, когда линии регрессии значительно отличаются от прямой линии, в качестве меры связи по данным вы­ борки используют корреляционное отношение, представляющее собой отношение межгруппового среднеквадратического откло­ нения переменной Ai к общему среднеквадратическому отклоне­ нию этой величины:

 

Л1/2=

1( 2 )

 

 

 

(24)

где

 

 

 

 

 

 

 

F Ъ {Х и -Х <?-пх 1.

 

Г

2 (A if-ЛДЗ пх

3l(2)=|/

уГ

 

 

 

п

 

п

 

 

 

Из (24)

следует, что цц2 = 0 в тех случаях,

когда 6i(2)= 0, т. е

в случаях,

когда линия регрессии утлраметров"п редетавл ет ГО-

 

 

■■

:

7

'

17

 

 

I

ризонтальную линию, проходящую через центр тяжести распре­ деления. В тех случаях, когда все распределение сконцентриро­ вано на кривой регрессии, гр/г = 1.

При вычислении корреляционного отклонения по корреляци­ онной таблице выгодно применять следующую формулу:

Теснота корреляционных связей может быть оценена величи­ ной угла между прямыми линиями регрессии. В этом случае, чем меньше эта величина, тем больше степень корреляционных связей между коррелируемыми параметрами.

Величина угла между линиями регрессии находится по урав­ нению

0=

 

-----— Q12

 

(26)

arc tg -

Qoi

Qto

ч

 

 

 

14-

 

 

 

 

 

 

021

 

 

(26')

е21

£ (ЛЧ — А',) (Хп Хо)

■ (26")

 

 

 

Порядок определения

коэффициентов регрессии gi2

и g2i при­

веден в следующем разделе.

Теснота связи может быть охарактеризована также коэффи­ циентами Пирсона и Чупрова. Порядок определения этих коэф­ фициентов дан в разд. 2.4.

1.5. Уравнение регрессии

Уравнение' корреляционной зависимости, или уравнение рег­ рессии, дает форму и численное выражение статистической за­ висимости результирующего параметра от составляющих пара­ метров. Уравнение регрессии позволяет определять для каждого значения независимого переменного вероятное численное значе­ ние зависимого переменного.

В принципе уравнение регрессии может быть графически представлено на многомерной плоскости регрессии. Однако прак­ тически это может быть выполнено для дву- и трехмерных кор­ реляционных зависимостей. Корреляционные зависимости могут выражаться прямой или плавйой кривой линиями. Степень точ­ ности приближения принятой формы (модели) корреляционной зависимости к истинной (в некоторых случаях - - теоретической) форме зависимости зависит от объема статистической информа­

18

ции и существенности влияния неучтенных параметров. Поэто­ му получаемые расчетом по статистическим данным коэффици­ енты уравнения регрессии всегда нуждаются в оценке точности и надежности их определения. Наибольшую трудность в кор­ реляционно-регрессионном анализе статистических данных со­ ставляет правильный выбор формы уравнения регрессии. Не­ правильный выбор формы уравнения регрессии может сказать­ ся в ряде случаев на степени адекватности принятой модели истинному характеру зависимости.

Для двухмерных корреляционных зависимостей выбор формы уравнения регрессии может быть облегчен построением эмпири­ ческой линии регрессии. Она представляет собой ломаную ли­ нию, проведенную на кореляционном поле и соединяющую по­ следовательно точки, отвечайте парным значениям составляю­ щего параметра и среднего значения результирущего параметра.

Для лучшего соответствия оцениваемой регрессионной зави­ симости статистическим данным иногда требуется двумерные регрессионные зависимости определять либо в виде параболы, либо в виде гиперболы. В этих случаях уравнения регрессии име­ ют вид

X 1 = b0-\-b'12X 2-\-b''12X l — парабола второго порядка;

X x = bQ-\-Ь[2Х Ь " пХ\-\- Ь[2Х1 — парабола третьего порядка;

Выбор криволинейной линии регрессии должен быть доста­ точно обоснован, так как неправильный выбор влечет за собой и неправильную оценку тесноты корреляционной зависимости— она будет заниженной.

Исходя из особенностей взаимовлияния различных парамет­ ров, допускаемой степени разброса (ухода) параметров много­ мерная корреляционная связь для авиационных двигателей мо­ жет быть охарактеризована либо линейным уравнением регрес­ сии, либо логарифмическим уравнением регрессии. Линейное уравнение регрессии целесообразно записывать в виде

^ l = ^0 + ^12.34...m^2+

^13.24...m^3+

'

(2^)

а логарифмические уравнения регрессии в виде

 

 

Х х= Ь 0Х 2^Ь - ' п Х 1 ^ - т . . . X n^b.2M,..m-V

 

(28)

Х х = Ь'001Ь^2.34ЪА...mi.тЬ\З.М...

 

(29)

где Ь0, &12.34... т, biz.u... т, ..

Ь1т,2з... т-1 — коэффициенты

(пара­

метры) уравнений регрессии.

 

 

Выражения (28) и (29) с помощью логарифмирования

при

любом основании (обычно при основании е = 2,71828 . . . )

 

легко

19

Соседние файлы в папке книги из ГПНТБ