Учебн. пособия-ОНИ / 1. Данько В.М._Алчевск-06
.pdfКорреляция может быть сильной (рис.12.5а), слабой (рис.12.5б) или отсутствовать вообще (рис.12.5д); положительной (рис.12.5а) или отрицательной (рис.12.5г); линейной (рис.12.5а,б,г) и нелинейной монотонной (рис.12.5в) или немонотонной (рис.12.5.е).
Для численной обработки результатов наблюдений их группируют и представляют в виде корреляционной таблиц. Общая форма корреляционной таблицы показана на примере таблицы 12.2.
Таблица 12.2 – Корреляционная таблица
Середины |
|
Середины интервалов хj |
|
Сумма |
|||
интервалов |
|
|
|
|
|
|
частот |
x1 |
x2 |
... |
xj |
... |
xt |
||
уk |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
y1 |
p11 |
p12 |
... |
p1j |
... |
p1t |
h1 |
y2 |
p21 |
p22 |
... |
p2j |
... |
p2t |
h2 |
M |
M |
M |
M |
M |
M |
M |
M |
|
|
|
|
|
|
|
|
yk |
pk1 |
pk2 |
... |
pkj |
... |
pkt |
hk |
M |
M |
M |
M |
M |
M |
M |
M |
|
|
|
|
|
|
|
|
ys |
ps1 |
ps2 |
... |
psj |
... |
pst |
hs |
|
|
|
|
|
|
|
|
Сумма |
g1 |
g2 |
... |
gj |
... |
gt |
N |
частот |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Например, корреляция между диаметрами (у) и высотами (х) стволов северной сосны (табл. 12.3). Здесь pkj – абсолютное число случаев появления стволов высотой yk и диаметром xj . Сумма частот hk - общее число появления стволов высотой yk, а сумма частот gj – общее яисло случаев появления стволов диаметром xj. Естественно что N – общее число стволов.
91
Таблица 12.3– Корреляция между диаметрами и высотой сосны
Диаметр, |
|
|
Высота, м |
|
|
Итого |
|
см |
|
|
|
|
|
|
|
17 |
18 |
... |
24 |
... |
30 |
|
|
|
|
|
|
|
|
|
|
14-17 |
2 |
2 |
... |
8 |
... |
1 |
17 |
|
|
|
|
|
|
|
|
18-21 |
1 |
3 |
... |
12 |
... |
2 |
47 |
|
|
|
|
|
|
|
|
M |
M |
M |
M |
M |
M |
M |
M |
|
|
|
|
|
|
|
|
54-57 |
|
|
... |
|
... |
|
98 |
|
|
|
|
|
|
|
|
58 и > |
1 |
4 |
... |
6 |
... |
- |
12 |
|
|
|
|
|
|
|
|
Итого |
7 |
13 |
... |
124 |
... |
5 |
624 |
|
|
|
|
|
|
|
|
92
Лекция № 13 13.1 Коэффициент корреляции
Если между случайными величинами х и у существует линейная корреляционная зависимость(рис. 12.5 а,б,г), то интенсивность корреляционной связи определяется при помощи коэффициента корреля-
ции
ryx = |
syx |
(13.1) |
|
sx × sy |
|||
|
|
где syx – ковариация (момент связи) переменных х и у;
sx , sy – среднеквадратичные отклонения переменных х и у.
Ковариация является простейшей характеристикой связи между случайными величинами. Она представляет собой математическое ожидание произведения отклонений случайных величин х и у от центров их распределений:
sxy = m[(x - mx ) (y - my )] |
(13.2) |
где mx ,my – математические ожидания случайных величин х и у.
Выборочная ковариация рассчитывается по формуле
|
|
|
|
|
1 |
N |
||
Sxy |
= |
|
|
å(xi - x)(yi - y) |
||||
|
|
|
||||||
|
|
|
|
N - 1 i=1 |
||||
Выборочный коэффициент корреляции |
||||||||
|
|
|
N |
(xi - x)(yi - y) |
||||
|
|
å |
||||||
ryx = |
|
i |
=1 |
|
|
|
(13.3) |
|
|
|
|
|
|
|
|||
|
|
|
||||||
|
|
|
|
N |
|
|
|
|
|
+ å(xi - x)2 (yi - y)2 |
|||||||
|
|
|
i=1 |
|
|
|
||
Коэффициент корреляции изменяется в пределах |
||||||||
|
|
|
|
|
|
93 |
|
|
1 ≤ ρyx ≤ 1
Если ρyx = +1(-1), то между х и у существует прямая (обратная)
функциональная связь. При ρyx < ±1 связь является корреляционной.
Чем ближе ρyx к нулю, тем слабее линейная корреляционная связь.
При ρyx = 0 линейная корреляционная связь отсутствует. Однако это
не означает, что отсутствует всякая корреляция. Нелинейная корреляция при этом может быть, и даже быть очень сильной. Коэффициент корреляции не позволяет выяснить, имеется или нет нелинейная корреляционная зависимость. Для выяснения этого вопроса используется корреляционное отношение.
Коэффициент корреляции выражает взаимозависимость переменных. Если поменять местами переменные, то коэффициент корре-
ляции не изменится. Поэтому ρyx = ρxy , т.е. этот параметр является
симметричной функцией переменных х и у.
Коэффициент корреляции не изменится, если переменные подвергнуть какому-либо преобразованию или поменять их размерность. Следует помнить, что выборочный коэффициент корреляции rух явля-
ется всего лишь оценкой ρyx . Поэтому, особенно при малых объемах
выборок, нужно проверять значимость коэффициентов корреляции по критерию Стьюдента, используя статистическую гипотезу:
H0 : ρyx = 0
H1 : ρyx > 0
При больших объемах выборок коэффициенты корреляции удобнее считать по сгруппированным данным (в виде корреляционной таб-
94
лицы). Вместо отдельных значений хi и уi в этом случае используются середины интервалов xj и yk таблицы 12.2. Формула (13.3) приобретет вид
|
|
åN (xj - x)(yj - y)phj |
|||
ryx = |
|
i=1 |
|
|
(13.4) |
|
|
|
|
||
|
|
||||
+ |
å(xj - x)2gjå(yh - y)2 hk |
||||
|
|
j |
k |
||
Коэффициент корреляции, вычисленный по не сгруппированным данным точнее, т.к. он свободен от погрешностей группирования. Но вычисление по (13.4) при больших выборках упрощается, а погрешность обычно настолько мала, что не имеет практического значения.
13.2 Множественный коэффициент корреляции
Задача определения интенсивности или, как ее еще называют, тесноты связи между более чем двумя переменными относится к множественному корреляционному анализу (МКА). В этом случае при наличии линейной связи определяется множественный коэффициент корреляции. Он показывает интенсивность связи между объясняемой переменной у и несколькими объясняющими переменными хn
ry.1n = + |
2 |
¢ |
2 |
¢ |
2 |
¢ |
(13.5) |
ry1 |
×a1 |
+ ry2 |
× a2 |
+ ...+ ryn × an |
|||
где ryi - коэффициенты парной корреляции между откликом и i-тым
фактором;
a′i - т.н. нормированные коэффициенты регрессии (см. далее).
В отличие от rух, множественный коэффициент корреляции изменяется в интервале
0 £ ry.1n £ 1
95
Это связано с тем, что коэффициенты парной корреляции обычно бывают разных знаков и для предотвращения самокомпенсации они возводятся во вторые степени, а из их суммы извлекается квадратный корень.
С помощью множественного коэффициента корреляции нельзя установить, является положительной или отрицательной корреляция между факторами и откликом. Только в том частном случае, когда все коэффициенты парной корреляции имеют одинаковые знаки, этот знак можно отнести и к множественной корреляции.
В простейшем случае трех переменных коэффициент множественной корреляции имеет вид
r |
|
r2 |
+ r2 |
− 2r r r |
, |
= + y1 |
y2 |
y1 y2 12 |
|||
y.12 |
|
|
1 − r2 |
|
|
|
|
|
|
12 |
|
где rij - коэффициент парной корреляции между факторами.
Если факторы между собой не коррелированны, то (13.5) упрощается
r2 |
= r2 |
+ r2 |
+ ... + r2 |
(13.6) |
y.1n |
y1 |
y2 |
yn |
|
Коэффициент множественной корреляции используется и как показатель полноты регрессионной модели. По нему можно судить, достаточно ли введено факторов в эксперимент. Если не все существенно влияющие факторы учтены, то коэффициент множественной корреляции, естественно, будет небольшим. Если все существенно влияющие факторы учтены, то этот коэффициент будет близким к 1. Практически модель считается полной, если ее коэффициент множественной корреляции >0,7. Если он меньше этой величины, но не меньше 0,5 то это говорит только о наличии корреляционной связи между фак-
96
торами и откликом, но не о полноте модели. А поскольку от полноты модели зависит ее работоспособность (см. лекцию №17), то нужно стремится еще при планировании эксперимента ввести в него все существенные факторы.
13.3 Коэффициент частной корреляции
Показывает интенсивность связи между двумя переменными при фиксировании или исключении влияния остальных переменных.
Пусть имеет место множественная корреляция. Если случайные величины x1 и x2 тесно коррелированны друг с другом и отклик у зависит от x1, то у будет также коррелировать и с x2. При этом возможно, что между у и x2 нет причинной связи и корреляция косвенная, через x1. Поэтому необходимо исследовать частную корреляцию между у и x1 при исключении влияния x2 на у. Эта задача решается при помощи вычисления коэффициента частной корреляции ry1.2:
ry1.2 |
= |
|
ry1 − ry2r12 |
|
(13.7) |
|
|
(1 − r2 |
)(1 − r2 |
) |
|||
|
+ |
|
||||
|
|
|
y2 |
12 |
|
|
Т.о. вычисление коэффициентов частной корреляции сводится к вычислению коэффициентов парной корреляции.
По (13.7) можно установить соотношения между этими коэффициентами. Если ry2 = r12 = 0, то ry1.2 = ry1 . Если r12 = 0, то ry1.2 по модулю будет больше ry1, а ry2.1 – больше ry2. Т.о. с уменьшением связи между x1 и x2 будет усиливаться коэффициент частной корреляции по сравнению с соответствующим коэффициентом парной корреляции. Это увеличение тем сильнее, чем больше по модулю ry1 или ry2. Если ry2= 0, то ry1.2 по модулю будет больше ry1 и ry2.1 больше – ry2, если ry1=0. Если коэффициенты корреляции имеют противоположные знаки,
то всегда по модулю ry1.2 будет больше ry1.
97
В общем случае коэффициент частной корреляции любого фактора может быть найден по формуле:
|
ry1.3...m - ry2.3...m × r12.3...m |
|
||
ry1.2...m = |
(1 - r2 |
)(1 - r2 |
) |
(13.8) |
|
y2.3...m |
12.3...m |
|
|
При вычислениях по (13.8) сначала нужно найти коэффициенты парной корреляции, а затем приступать к определению коэффициентов корреляции более высокого порядка.
98
Лекция № 14 14.1 Постановка задачи регрессионного анализа
Основное назначение регрессионного анализа (РА) – получение по экспериментальным данным зависимостей, аппроксимирующих эти данные в виде алгебраических формул. Эти зависимости называются регрессионными моделями объектов исследования и в общем виде выглядят следующим образом
y = f(x1, x2 ...xn ) + e ,
где е – помеха эксперимента.
Ограничимся рассмотрением только линейных по параметрам регрессионных моделей
n q j |
(xj ) |
|
y = a0 + å åajfk j |
(14.1) |
|
j=1k=1 |
|
|
где y - среднее значение отклика;
а0 – свободный член;
аj – коэффициент регрессии при j-том факторе; fkj – k-тая базисная функция при j-том факторе; qj – число базисных функций j-того фактора;
n– число факторов. Например:
pср = 3,428 + 2,941 h + 0,564 h2 + 1,276 ln vдеф + 0,00328t−3,45
В данном примере переменная h аппроксимирована полиномом 2-й степени, скорость деформирования – логарифмической функцией, а температура – степенной.
Несмотря на наличие нелинейных базисных функций, зависимость (14.1) является линейной по параметрам, поскольку параметры
99
регрессии – коэффициенты регрессии – входят в нее в первой степени. Однако благодаря наличию базисных функций такой моделью можно аппроксимировать и нелинейные зависимости.
Система базисных функций fkj (xj ) выбирается до проведения
РА на основе априорной информации. Наиболее часто используются в качестве базисных функций полиномиальные переменные:
― 1-й степени: |
f1(x1) = x1; f2(x2) = x2 ... fk(xn) = xn; |
― 2-й степени: |
f1(x1) = x12; f2(x2) = x22... fk(xn) = xn2 и т.д. |
Однако применяются и другие элементарные функции, а также полиномы Чебышева, Лежандра и т.п.
Теоретически в РА считается, что вид модели (14.1) известен и нужно по экспериментальным данным найти неизвестные коэффициенты регрессии и свободный член. Практически указать заранее форму будущей регрессии (т.е. набор базисных функций), адекватной объекту исследования, можно только в редких случаях. Обычно адекватная регрессия отыскивается методом проб и ошибок. При этом используется принцип постепенного усложнения модели. Вначале применяется простейшая линейная модель
y= a0 + a1x1 + a2x2 + ... + anxn ,
иесли она оказывается не адекватной, то порядок полинома увеличивается или же используются базисные функции иного вида.
14.2Основные предпосылки регрессионного анализа
Методика РА создана с использованием некоторых предпосы-
лок. Если они не выполняются, то корректное выполнение всех процедур РА приведет к неверным результатам. Поэтому при проведении РА необходимо обеспечить выполнение тех предпосылок, которые нахо-
дятся под контролем исследователя, и проверить после проведения РА
100
