- •7.1.2. Функциональные и стохастические связи
- •7.1.3. Различные виды взаимосвязи природных процессов
- •7.2. Регрессионная математическая модель взаимосвязи двух переменных величин (парная корреляция)
- •7.2.1. Линейное уравнение регрессии двух переменных величин
- •7.2.2. Коэффициент корреляции
- •7.2.3. Оценка коэффициента корреляции и уравнения регрессии. Преобразование Фишера
- •7.2.4 Анализ погрешностей расчетов по уравнению регрессии
- •7.2.5.Проверка адекватности математической модели линейной кореляции на основе анализа погрешностей расчетов
- •7.2.4. Граничные условия математической модели парной корреляции
- •7.3. Регрессионная математическая модель взаимосвязи ряда переменных величин (множественная корреляция)
- •7.3.1. Задачи исследования многофакторных связей
- •7.3.2. Уравнение множественной линейной корреляции
- •7.3.3. Сводные параметры множественной линейной корреляции
- •7.3.4. Частный коэффициент корреляции
- •7.3.5. Оценка параметров уравнения множественной корреляции по данным наблюдений
- •7.3.6. Определение оптимальных аргументов. Исключение дублирующих и неэффективных аргументов
- •Граничные условия регрессионной математической модели связи ряда процессов
- •7.3.8. Алгоритм и программа расчетов на основе регрессионной математической модели
- •7.3.9. Пример расчета регрессионной математической модели для определения среднего месячного притока в водохранилище
- •7.3.10. Преобразование исходной информации в целях нормализации и линеаризации взаимосвязей
- •7.3.11. Графические методы построения уравнения множественной корреляции
- •1. Метод контуров
- •2. Метод остаточных отклонений
- •3. Метод коаксиальной (соосной) корреляции
- •4. Использование графической корреляции
7.2.2. Коэффициент корреляции
Второй задачей определения взаимосвязи двух величин является определение тесноты связи.
Выражения
(7.13)
и (7.17)описывают
две существенно
отличающиеся друг от друга прямые
регрессии, пересекающиеся
в точке
(рис.
7.5) под углом φ.
Чем более тесная
связь между Y
и
X
и
чем, соответственно, меньше разброс
точек в поле графика связи, тем меньше
угол между линиями регрессии.
Для
функциональной связи угол φ
= 0, так как линии регрессии Y
по X
и X
по Y
совпадают; в случае отсутствия связи
угол φ
= 90°, то есть линии регрессии проходят
перпендикулярно друг другу и пересекаются
в точке
.
Направление линий регрессии в поле графика (см. рис. 7.5) определяется коэффициентами регрессии а и а'. Первый из них представляет со-
Поставить на осях Y и X средние значения
Рис. 7.5. Линии регрессии в поле графика (y, x).
бой тангенс угла наклона линии регрессии y = f(x) к оси х; второй — тангенс угла наклона линии регрессии x = f(y) к оси у. Обозначим эти углы через а и β. Тогда коэффициенты регрессии
a = tg α, a’ = tg β. (7.18)
Сумма углов a, β, φ (см. рис. 7.5) составляет 90°.
В
случае, если связь между У и X
функциональная,
то
= 0°
и
+
=
90°.
Отсюда
=90°-
,
tg
α=tg(900-β)=
ctgβ=
1/tgβ
и
tgα
tgβ=1.
Если связь между Y и X отсутствует, то =90°, = = 0 и tg α∙tgβ=0.
C
увеличением тесноты связи угол
φ
уменьшается
от 90
до 0°;
вместе с тем увеличиваются углы a
и
β,
а следовательно, тангенсы этих углов и
их произведение. Таким
образом, произведение тангенсов углов
α
и
может служить мерой
тесноты связи X
и
Y.
Обычно
в качестве критерия степени
близости корреляционной связи к линейной
функциональной
зависимости используется корень
квадратный из произведения
tgα
tgβ
(7.19)
Это произведение называется коэффициентом корреляции двух переменных величин и обозначается через r или R. Чаще всего здесь будет использоваться первое обозначение. Коэффициент корреляции принимает положительное значение, если У возрастает с увеличением X, и отрицательное, если У уменьшается с увеличением X.
Подставляя значения а и а', вычисленные по формулам (7.12) (7.16), в формулу (7.19), получаем
(7.20)
Чаще используется другой вид записи формулы коэффициента корреляции:
(7.21)
Преобразуем уравнение регрессии У по X и X по У, выразив коэффициенты регрессии а и а' в формулах (7.12) и (7.15) через коэффициент корреляции.
(7.22)
или
где
(xi)
и
(yi
)
—
рассчитанные значения У
и X
при
данных xi
и
yi,
σх
и
σу
—
средние квадратические отклонения У
и X;
и
—средние значения X
и
У;
r
—коэффициент
корреляции.
7.2.3. Оценка коэффициента корреляции и уравнения регрессии. Преобразование Фишера
Параметры
уравнения регрессии в практических
расчетах определяются по выборкам.
Поэтому естественно, что они носят
выборочный характер и могут
использоваться лишь как более или менее
достоверные оценки действительных
значений. Обозначим выборочные оценки
параметров а
и
b
и
коэффициента корреляции r
через
,
,
соответственно.
Известно
[6,
60],
что эмпирический (выборочный) коэффициент
корреляции
представляет собой состоятельную
оценку. Однако точность этой оценки или
близость ее к действительному значению
может быть установлена только при
достаточно большом объеме выборки и
невысоком коэффициенте корреляции,
когда распределение его оценок может
приниматься нормальным. Если же число
испытаний невелико (п
<
30),
а коэффициент корреляции
0,4,
то распределение выборочных значений
коэффициента корреляции
существенно
отличается от нормального.
Например, на рис. 7.6 представлено распределение оценок коэффициента корреляции r для значений r = 0; 0,4; 0,8 при n= 12.
Рис.
7.6. Распределения: a)
выборочного коэффициента корреляции
,
б)
преобразования
Фишера z
при
п
= 12
и различных значениях r.
Как следует из анализа представленных рисунков, при значениях r, приближающихся к 1, кривая распределения коэффициента корреляции в ча-
стных совокупностях становится все более асимметричной. Обычные методы оценки в этом случае непригодны, так как погрешность выборочных оценок коэффициента корреляции в одну сторону от действительного значения может быть намного больше, чем в другую.
Оценка коэффициентов корреляции и регрессии при r < 0,4 и n > 30
В этом случае закон распределения выборочных оценок коэффициента корреляции принимается нормальным. Поэтому средние квадратические погрешности оценки r, a и b при данном значении п и могут определяться по формулам:
σr
(7.23)
(7.24)
(7.25)
С учетом того, что распределение оценки коэффициента корреляции при указанных условиях подчиняется нормальному закону, то есть является симметричным, доверительные интервалы коэффициентов корреляции и регрессии при заданном уровне значимости можно определить по формулам:
;
(7.26)
;
(7.27)
;
(7.28)
где tα – статистика Стьюдента при двухстороннем уровне значимости α
Нередко в исследованиях возникает вопрос о реальности связей вообще, т. е. вопрос о том, являются ли полученные по данным наблюдений коэффициенты корреляции значимыми и не объясняются ли они случайностями выборки.
Обычно этот вопрос решается с помощью нулевой гипотезы относительно рассматриваемой связи.
Hо:r = 0.
То есть, исходим из предположения, что действительное значение коэффициента корреляции равно 0 и линейная связь отсутствует. Оценка гипотезы проводится по эмпирическому коэффициенту корреляции r. Для этого с учетом соотношения (7.26) строится критическая область вида
(7.29)
с уровнем значимости α. Если полученное выборочное значение r окажется в критической области, то есть больше чем rα, то гипотеза отбрасывается.
Во многих исследованиях, раньше, принималось, что связь доказана, если
,
(7.30)
где
,
—
вероятная погрешность коэффициента
корреляции. Однако эта оценка часто
имеет излишне жесткий характер, так как
уровень
значимости такого значения
r
в
предположении, что гипотеза верна,
равен
1 %.
Оценка коэффициента корреляции при r > 0,4. Преобразование Фишера
Как
отмечалось выше, при r>
0,4
для оценки действительного значения
коэффициента корреляции ввиду
асимметричного распределения
выборочных оценок
нельзя использовать формулу средней
квадратической
погрешности коэффициента корреляции
(7.23). В этих случаях для оценки коэффициента
корреляции применяется преобразование
Фишера, при котором коэффициент
корреляции выборочных совокупностей
приравнивается
к гиперболическому тангенсу th
z
некоторого значения z
r=th z=sh z /ch z . (7.31 )
где
sh z= (ex –e-x )/ 2, ch = (ex +e-x) /2
Отсюда
Z= 0,5 ln[(1+r)/ (1-r)]. ( 7.32)
Статистика Z имеет ряд замечательных свойств, а именно, распределение Z почти не зависит от п и r и с возрастанием п закон распределения Z быстро приближается к нормальному закону (рис. 7.6. б) со средним значением
(7.33)
и средним квадратическим отклонением
(7.34)
К тому же, как следует из формулы (7.34), погрешность оценки z не зависит от .
При
помощи статистики z
можно
выяснить, существенно ли отличается
рассчитанное
значение
от
предполагаемого
и
найти его доверительные границы.
Для
этого необходимо по r
и
определить z
и
.
Тогда
ввиду нормального
распределения статистики z
легко
решить, будет ли разность
r—
существенной
или несущественной.
При ручном счете переход от r к z и обратно достаточно сложен. Поэтому он совершается обычно по таблицам или по графикам связи r=f(z) и z=f(r) (рис. 7.7). При расчете на ЭВМ определение z no r или r по z производится непосредственно по формулам (7.31), (7.32),. которые включаются в алгоритм программы.
Рис. 7.7. Соотношение между коэффициентом корреляции r и преобразованием Фишера z
