книги из ГПНТБ / Алабин М.А. Корреляционно-регрессионный анализ статистических данных в двигателестроении
.pdfха на входе в компрессор, режимы работы и относительное вре мя работы на них за ресурс и др.).
Статистическая (стохастическая) связь. Связь (зависимость) между результирующими и составляющими параметрами, имею щими различные случайные значения, называется статистиче ской, если каждому значению независимой величины соответст
вуют сопряженные |
значения зависимых величин. |
Зависимая ве |
|
личина |
связана |
с независимыми величинами Х2, Х3, .. ., Хт |
|
статистически, если каждому значению Х2, Х3, ..., |
Хт соответст |
вует не одно значение Хи а распределение Хи меняющееся вме сте с изменением Х2, Х3, ..., Хт.
Слова «зависимые» и «независимые» переменные применяют ся в алгебраическом смысле, т. е. Xi рассматривается как функ
ция Х2, Х3, ..., Хт.
■/
Корреляционная связь (зависимость). Связь между величи нами Xi и Х2, Х3, ..., Х,„ называется корреляционной, если опре деленны^ значениям Х2, Х3, .. ., Хт соответствуют групповые средние ХиМножественная корреляционная связь характеризу ет статистическую зависимость результирующего параметра от двух и более составляющих параметров.
Групповой средней зависимой переменной Хи является сред нее арифметическое значение зависимой величины, соответст вующее каждому значению (интервалу) независимых перемен ных.
Форма корреляционной связи — тенденция, которой следует зависимая переменная при изменении значений независимых пе ременных. Если наблюдается тенденция равномерного возраста ния или убывания значений зависимой переменной, то корреля ционная связь — линейная; при тенденции же неравномерного изменения значений зависимой переменной корреляционная связь — криволинейная. Форма корреляционной связи при оп ределенном объеме статистической информации может быть оп ределена с известной вероятностью.
Уравнение корреляционной связи (уравнение регрессии) — уравнение, по которому могут быть найдены числовые значе ния групповых средних зависимых переменных в зависимости от соответствующих значений независимых переменных. В общем случае это уравнение может быть записано в следующем виде:
X i= f(X 2, Х3, ..., |
Хт ). |
(1) |
Коэффициент корреляции (коэффициент парной |
корреля |
|
ции)— простейшая характеристика |
статистической |
связи слу |
чайных величин. Тесноту связи по данным выборки можно оце нить только по относительным величинам. По абсолютным зна чениям коррелируемых параметров эту оценку нельзя сделать не только в том случае, когда они выражены в различных еди ницах измерения, но и когда они выражены в одних и тех же
Ю
единицах измерения, так как величины отклонений зависят от значений самих параметров. Такие относительные величины мо гут быть получены в виде отношений к их среднеквадратическо му отклонению, т. е. в форме нормированных отклонений. Срав нивать нормированные отклонения возможно, так как абсолют ная величина признаков при этом не имеет значения.
Для простейшей линейной двумерной корреляционной связи коэффициент корреляции представляет собой среднее произведе ние нормированных отклонений коррелируемых параметров
где п — число составляющих пар наблюдений (пара наблюде ний — сопряженные значения параметров, для которых опреде ляется корреляционная связь).
В индексе коэффициента парной корреляции указывается сначала индекс зависимого переменного, а затем — независимо го переменного. Численные значения rJ2 и г21 одинаковы. Коэф фициент корреляции есть показатель как того, насколько связь между случайными величинами близка к строгой линейной за висимости, так и слишком большой криволинейности этой связи.
Достаточно полным показателем коэффициент корреляции является:
—для величин, для которых заранее из общих соображений можно предсказать линейную зависимость;
—для величин, собственные случайные колебания которых подчиняются нормальному закону;
—•для величин, являющихся следствием единой причины. Коэффициент корреляции всегда лежит в пределах
Значения коэффициента корреляции, меньшие 0,5, выражают недостаточную меру предполагаемой или принятой зависимости.
Если нормированные отклонения—-— — |
и — ------ -рядов равны |
°Xi |
ах~ |
между собой, то при совпадении их знаков (этот случай означа ет полную прямую связь) коэффициент корреляции получается равным единице:
При полной обратной связи коэффициент корреляции равен
— 1. Практически этих значений коэффициент корреляции нико гда не достигает, лишь приближаясь к единице при высокой ■степени тесноты корреляционных зависимостей.
И
Если случайные величины независимы, то коэффициент кор реляции равен нулю. Обратное утверждение, т. е. из равенства нулю коэффициента корреляции не следует независимость корре лируемых параметров.
Коэффициент частной (парциальной) корреляции г12,34... т является коэффициент парной корреляции, в котором исключе но влияние одной или нескольких других переменных. Коэффи циент частной корреляции позволяет выявить основные факторы, оказывающие наибольшее влияние между двумя переменными при условии, что все остальные переменные перестают быть пе ременными, так как они закрепляются на своем среднем уровне.
В индексе коэффициента частной корреляции указываются индексы коэффициента парной корреляции, а после точки — ин дексы исключаемых переменных.
Общий (совокупный) коэффициент множественной корреля ции R\,23i... т выражает меру зависимости результирующего па раметра Xi от всех составляющих параметров Х2, Х3, ..., Хт. Этим коэффициентом измеряется теснота (сила) совместного влияния всех составляющих параметров на результирующий па раметр. Численное значение общего коэффициента ' корреляции зависит от значений коэффициентов парной корреляции между Xi и Х2, Х3, ..., Хт, а также между каждой парой составляющих параметров. В индексе общего коэффициента множественной корреляции указывается сперва индекс зависимого переменного, а после точки — индекс всех составляющих параметров.
Уравнение регрессии — вид уравнения, который выбирается или которьвг характеризуется форма (модель) статистической связи результирующего параметра с составляющими парамет рами. Форма (модель) связи может быть линейной или криво линейной. Наиболее употребительными моделями связи являют ся линейные уравнения регрессии вида
|
Х 1~ Ь 0-{-Ь12Х 2 — для |
парной корреляции. (3) |
|
X 1= b 0-j-bJ2'3i'_mX 2-{-b132i'''mX 3-{-... — для |
множественной |
кор |
|
|
реляции. |
(4) |
|
Нелинейными уравнениями регрессии, как правило, являются |
|||
уравнения вида |
|
|
|
■ ^■ 1 — |
^12.34... щ Х 2 " Г ^13.24.,.т -'^ 2 _Ь ■" |
^1т.234 ...т—1 ‘ |
(® ) |
Линейные уравнения регрессии можно использовать как пер вый этап исследований нелинейных корреляций-с тем, чтобы в дальнейшем! внести в них необходимые поправки.
Параметры уравнения корреляционной зависимости (уравне ния регрессии) — свободный член и коэффициенты при состав ляющих параметрах правой части уравнений регрессии.
Коэффициенты регрессии — коэффициенты при составляю щих параметрах правой части уравнения регрессии. В индексе
12
при коэффициенте регрессии вначале указываются индексы ре зультирующего и соответствующего составляющего параметра, а после точки — все остальные составляющие параметры.
Линии регрессии — графическое изображение уравнений кор реляционной зависимости (уравнений регрессии). Они характе ризуют форму связи результирующего параметра с составляю щими и определяют характер изменения результирующего пара метра, который получается при условии, что влияние неучтенных причин закрепляется на одном и том же уровне. Сами измене ния представляются как изменения, которые происходят в сред нем.
Следовательно, линия регрессии — это математическое вы ражение зависимости между параметрами, свойственной изучае
мым наблюдениям. Практически графическое |
изображение |
|||
уравнений регрессии применяется в основном |
при |
двумерных |
||
линейных и криволинейных корреляционных связях. |
|
|
||
Система нормальных уравнений — совокупность |
уравнений, |
|||
по которым могут быть определены параметры |
уравнения |
рег |
||
рессии. Эта |
система получается из условия максимального при |
|||
ближения |
линии регрессии к ломаной линии, |
построенной |
по |
эмпирическим данным, получаемым в результате данного стати стического наблюдения. Эта задача обычно решается способом наименьших квадратов, при применении которого выдвигается требование, чтобы сумма квадратов разностей между значения ми результирующего параметра по линии регрессии и по эмпи рическим значениям была минимальной. Это требование соответ ствует свойству средней арифметической — сумма квадратов отклонений от своей средней была бы минимальной.
1.3. Масштабы выражения зависимых и независимых
переменных |
|
Применение для расчета коэффициента корреляции |
вместо |
исходных случайных значений переменных X t новых |
значений |
X ' = k X t + C , |
(6) |
где k — масштаб переменной величины Х{; С — начало отсчета этой переменной, не меняет абсолютного значения коэффициента корреляции. При k < 0 знак коэффициента корреляции получает ся обратный тому, который получается при подсчете коэффици ента корреляции по исходной статистической информации.
При подсчете параметров уравнения регрессии все перемен ные и соотношения между ними иногда выгодно выражать в стандартизованном масштабе, где за начало отсчета для каждой переменной принимается среднее значение, а за единицу масш таба —• величина среднеквадратического отклонения. В стан
13
дартизованном масштабе упрощаются соотношения между пере менными, что удобно при анализе многомерных связей.
Формула перевода в стандартизованный масштаб:
|
|
X — х |
|
(7 ) |
|
|
|
|
°х |
|
|
|
|
|
|
|
|
где |
X — значения |
параметров |
(результирующего |
или состав |
|
|
ляющих) |
в натуральном масштабе; |
|
||
|
tx — соответствующие их |
значения |
в стандартизованном |
||
|
масштабе. |
|
|
|
|
|
При расчетах могут применяться также новые значения пере |
||||
менных, подсчитанные по формуле |
|
|
|||
|
|
X t-X pi |
|
(8) |
|
|
|
|
dx |
|
|
|
|
|
|
|
|
где |
Хы — новое начало отсчета переменных, которое выбирается |
||||
|
вблизи средних значений переменных Хй |
корреляци |
|||
|
dX; — произвольная величина (при |
расчетах по |
онным таблицам в качестве такой произвольной вели чины берутся длины интервалов соответствующих пе ременных) .
После расчета параметров корреляционных зависимостей по масштабным значениям переменных производится замена зна
чений Х[ на Х{ по одной из формул (6), (7), (8). Например, для стандартизованного масштаба
X i=X i + txi •ста';.
1.4. Оценка тесноты корреляционных связей
Для оценки тесноты корреляционной связи при линейных кор реляционных зависимостях используется коэффициент корре ляции. Коэффициент корреляции характеризует относительную величину отличия математического ожидания произведения пе ременных величин от произведения математических ожиданий каждой переменной величины.
Коэффициент корреляции является безразмерной величиной, значения которого должны находиться в пределах — Его значение равно единице при линейной функциональной за
висимости между переменными и равно нулю — для независи мых переменных величин.
Для оценки тесноты связи между двумя переменными вели чинами применяется коэффициент парной корреляции, между тремя и более переменными — коэффициент частной корреля ции и общий коэффициент корреляции.
Коэффициент парной корреляции выражает меру корреля ционной линейной зависимости. Для определения численного зна
14
чения коэффициента парной корреляции могут использоваться следующие формулы:
Х уХ 2 — ХхХъ
|
|
и |
АV1 «АVа |
|
(9) |
|
|
|
|
( 10) |
|||
|
|
га |
|
|
|
|
|
|
2 (Х\ — х х) ( х 2— Хо) . |
|
|||
|
|
п V A'pY, — У |
V Хо |
|
|
|
12 • |
V n |
У X? — СУ А’, |
] / |
п V Х\ — (У А"2)2 |
( П ) |
|
|
|
|||||
где |
|
|
|
|
|
|
|
|
|
|
- ( A i )2 |
|
|
— среднеквадратическое отклонение параметра Лу, |
|
|||||
= |
| / |
S |
= |
_ д |
а |
|
— среднеквадратическое отклонение параметра /Y2. |
|
|||||
При я<30 |
для устранения постоянной |
погрешности значе |
ния среднеквадратического отклонения, получаемые по указан ным выше формулам,, умножаются на величину ‘
При изменении всех численных значений коррелируемых при знаков на величину выбранных начала отсчета и масштаба ко эффициент корреляции определяется по формуле
|
|
|
У |
12 ' |
|
S'х \х 2 — 71 |
|
|
|
|
|
, |
Хх— A"io |
, Хо — Хоо |
|
где х. = —-------х„ — —-------------- -} |
|||
1 |
И |
Ь |
dXi |
|
‘X, |
|
Х л \ I У X
, (НО
При вычислении в стандартизованном масштабе коэффициент парной корреляции находится по формуле
ri 2 = — |
^х, •t-x~ = |
ix 1■tx«, |
( 12) |
|
где |
|
|
Хо — x<2 . |
|
X i - X x . |
tx |
|
||
‘■х,: |
;» |
G |
|
|
|
Оv- |
|
|
Xi, Xo — значения переменных в натуральном масштабе.
15
Для логарифмических моделей коэффициент парной корре ляции находится по выражению
п 2 In Xji In X ki — ^ |
In X g y; In X hi____________ |
гInХуШХк |
l / n j In2 Xui — ( у In X Kif ' |
У п Ъ In2 X j t - { ^ l n X j i f |
Коэффициент множественной корреляции с использованием ме тода определителей находится по формуле
где Д-определитель, составленный из всех коэффициентов парной корреляции: х
1 Г12 Г13* •• • - Г1т |
|
Г21 1 г 2з . . . • •г2т |
( 15) |
|
|
гтх г т2 г тЗ • * . . . \ |
|
Дп — определитель, получающийся из определителя Д вычер киванием нулевого (первого слева) столбца и нулевой (верхней) строки:
1 Г03. • •
Гgo 1 . . . • •Г 3т |
|
Д п = |
( 16) |
ГШ2 ^ m3 * * * . . . |
1 |
Общий коэффициент множественной корреляции для трех пере менных равен
= l / - Г2+Г'3 |
( 17) |
уl ~ rh ■
Если расчет ведется в стандартизованном масштабе, то
|
^1.23...яг = У ^ l - r i2 + |
^2r i3 + ---- + ^mr lm i |
( 1 8 ) |
|
где bi, |
bo, ..., bm— стандартизованные |
коэффициенты уравне |
||
ния множественной корреляции; |
|
|
|
|
г\г, га, |
..., гт— коэффициенты |
парной |
корреляции |
между за |
висимым переменным и независимыми переменными |
Х2, Х3, ... |
|||
. • Хт. |
|
|
|
|
Вычисление численных значений коэффициентов частной кор реляции может производиться следующими способами.
1. Решением системы нормальных уравнений находится з чение коэффициента 612.34... т . Находится значение коэффициен та 621.34... ш по системе нормальных уравнений, полученной из
16
исходной, в которой переменные |
А\ и |
А2 |
заменены местами. |
|||||
Тогда |
|
|
|
|
|
|
|
|
|
Г 12.34...ш ~ |
У ^12.34...m^21.34...m |
■ |
О ® ) |
||||
2. |
Находится значение |
решением исходной системы нор |
||||||
мальных уравнений. Дополнительно находится значение БА“, |
ре |
|||||||
шением системы нормальных уравнений, полученной из исходной |
||||||||
с отбрасыванием строки и столбца, содержащих Х2. Тогда |
|
|||||||
|
г |
= |
У, х ; - |
v |
x l |
|
(20) |
|
|
1 / ^ |
1 ~ |
|
1* |
||||
|
12.34...т |
|
у у |
д . 2 __ |
у |
X 1* |
|
3. Третий способ вычисления коэффициента частной корре ляции основан на постепенном переходе от коэффициентов кор реляции низших порядков к коэффициентам корреляции выс ших порядков. Порядок коэффициента корреляции определяется числом вторых индексов; так, например, коэффициент г12.з45 яв ляется коэффициентом третьего порядка.
Переход к коэффициенту частной корреляции ближайшего высшего порядка производится по формуле
^12.34...гп—\ ' Г lm.23...m—1 * ^2m.34...m—1 |
(21) |
|
' 12.34. ..пГ |
|
|
V i} • |
lm .34...m - l ) 0 ~~ r 2 m .3 4 ...m -l) |
|
Так, коэффициент частной корреляции Xi по Х2 при исключении влияния А3 исчисляется по формуле
г ,_ Л— |
Г 11 — Г 13г 23 |
( 2 2 ) |
‘ 12.3 |
V ( 1 - г М О - 4 ) |
' |
|
||
а при исключении А3 и А4 — по формуле |
|
|
'12.34 |
г 12.3— г 14.ЗГ24.3 |
(23) |
|
У У ~ л14.з) ( 1 — г 24.з)
В тех случаях, когда линии регрессии значительно отличаются от прямой линии, в качестве меры связи по данным вы борки используют корреляционное отношение, представляющее собой отношение межгруппового среднеквадратического откло нения переменной Ai к общему среднеквадратическому отклоне нию этой величины:
|
Л1/2= |
“ 1( 2 ) |
|
|
|
(24) |
где |
|
|
|
|
|
|
|
F Ъ {Х и -Х <?-пх 1. |
|
Г |
2 (A if-ЛДЗ пх |
||
3l(2)=|/ |
уГ |
|
|
|
п |
|
|
п |
|
|
|
||
Из (24) |
следует, что цц2 = 0 в тех случаях, |
когда 6i(2)= 0, т. е |
||||
в случаях, |
когда линия регрессии утлраметров"п редетавл ет ГО- |
|||||
|
|
■■ |
: |
7 |
' |
17 |
|
|
I |
ризонтальную линию, проходящую через центр тяжести распре деления. В тех случаях, когда все распределение сконцентриро вано на кривой регрессии, гр/г = 1.
При вычислении корреляционного отклонения по корреляци онной таблице выгодно применять следующую формулу:
Теснота корреляционных связей может быть оценена величи ной угла между прямыми линиями регрессии. В этом случае, чем меньше эта величина, тем больше степень корреляционных связей между коррелируемыми параметрами.
Величина угла между линиями регрессии находится по урав нению
0= |
|
-----— Q12 |
|
(26) |
||
arc tg - |
Qoi |
Qto |
ч |
|||
|
|
|
14- |
|
|
|
|
|
|
|
021 |
|
|
(26') |
е21 |
£ (ЛЧ — А',) (Хп — Хо) |
■ (26") |
|||
|
|
|
||||
Порядок определения |
коэффициентов регрессии gi2 |
и g2i при |
веден в следующем разделе.
Теснота связи может быть охарактеризована также коэффи циентами Пирсона и Чупрова. Порядок определения этих коэф фициентов дан в разд. 2.4.
1.5. Уравнение регрессии
Уравнение' корреляционной зависимости, или уравнение рег рессии, дает форму и численное выражение статистической за висимости результирующего параметра от составляющих пара метров. Уравнение регрессии позволяет определять для каждого значения независимого переменного вероятное численное значе ние зависимого переменного.
В принципе уравнение регрессии может быть графически представлено на многомерной плоскости регрессии. Однако прак тически это может быть выполнено для дву- и трехмерных кор реляционных зависимостей. Корреляционные зависимости могут выражаться прямой или плавйой кривой линиями. Степень точ ности приближения принятой формы (модели) корреляционной зависимости к истинной (в некоторых случаях - - теоретической) форме зависимости зависит от объема статистической информа
18
ции и существенности влияния неучтенных параметров. Поэто му получаемые расчетом по статистическим данным коэффици енты уравнения регрессии всегда нуждаются в оценке точности и надежности их определения. Наибольшую трудность в кор реляционно-регрессионном анализе статистических данных со ставляет правильный выбор формы уравнения регрессии. Не правильный выбор формы уравнения регрессии может сказать ся в ряде случаев на степени адекватности принятой модели истинному характеру зависимости.
Для двухмерных корреляционных зависимостей выбор формы уравнения регрессии может быть облегчен построением эмпири ческой линии регрессии. Она представляет собой ломаную ли нию, проведенную на кореляционном поле и соединяющую по следовательно точки, отвечайте парным значениям составляю щего параметра и среднего значения результирущего параметра.
Для лучшего соответствия оцениваемой регрессионной зави симости статистическим данным иногда требуется двумерные регрессионные зависимости определять либо в виде параболы, либо в виде гиперболы. В этих случаях уравнения регрессии име ют вид
X 1 = b0-\-b'12X 2-\-b''12X l — парабола второго порядка;
X x = bQ-\-Ь[2Х Ь " пХ\-\- Ь[2Х1 — парабола третьего порядка;
Выбор криволинейной линии регрессии должен быть доста точно обоснован, так как неправильный выбор влечет за собой и неправильную оценку тесноты корреляционной зависимости— она будет заниженной.
Исходя из особенностей взаимовлияния различных парамет ров, допускаемой степени разброса (ухода) параметров много мерная корреляционная связь для авиационных двигателей мо жет быть охарактеризована либо линейным уравнением регрес сии, либо логарифмическим уравнением регрессии. Линейное уравнение регрессии целесообразно записывать в виде
^ l = ^0 + ^12.34...m^2+ |
^13.24...m^3+ |
' |
(2^) |
а логарифмические уравнения регрессии в виде |
|
|
|
Х х= Ь 0Х 2^Ь - ' п Х 1 ^ - т . . . X n^b.2M,..m-V |
|
(28) |
|
Х х = Ь'001Ь^2.34ЪА...mi.тЬ\З.М... |
|
(29) |
|
где Ь0, &12.34... т, biz.u... т, .. |
Ь1т,2з... т-1 — коэффициенты |
(пара |
|
метры) уравнений регрессии. |
|
|
|
Выражения (28) и (29) с помощью логарифмирования |
при |
||
любом основании (обычно при основании е = 2,71828 . . . ) |
|
легко |
19