Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
глава7.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
1.24 Mб
Скачать

7.2.2. Коэффициент корреляции

Второй задачей определения взаимосвязи двух величин является определение тесноты связи.

Выражения (7.13) и (7.17)описывают две существенно отличающиеся друг от друга прямые регрессии, пересе­кающиеся в точке (рис. 7.5) под углом φ. Чем более тесная связь между Y и X и чем, соответственно, меньше разброс то­чек в поле графика связи, тем меньше угол между линиями ре­грессии. Для функциональной связи угол φ = 0, так как линии регрессии Y по X и X по Y совпадают; в случае отсутствия связи угол φ = 90°, то есть линии регрессии проходят перпендикулярно друг другу и пересекаются в точке .

Направление линий регрессии в поле графика (см. рис. 7.5) определяется коэффициентами регрессии а и а'. Первый из них представляет со-

Поставить на осях Y и X средние значения

Рис. 7.5. Линии регрессии в поле графика (y, x).

бой тангенс угла наклона линии регрессии y = f(x) к оси х; второй — тангенс угла наклона линии регрессии x = f(y) к оси у. Обозначим эти углы через а и β. Тогда коэффициенты регрессии

a = tg α, a = tg β. (7.18)

Сумма углов a, β, φ (см. рис. 7.5) составляет 90°.

В случае, если связь между У и X функциональная, то = и + = 90°. Отсюда =90°- , tg α=tg(900-β)= ctgβ= 1/tgβ и tgα tgβ=1.

Если связь между Y и X отсутствует, то =90°, = = 0 и tg αtgβ=0.

C увеличением тесноты связи угол φ уменьшается от 90 до ; вместе с тем увеличиваются углы a и β, а следовательно, тангенсы этих углов и их произведение. Таким образом, произведение тангенсов углов α и может служить мерой тесноты связи X и Y. Обычно в качестве критерия степени близости корреляционной связи к линейной функциональной зависимости используется корень квадратный из произведения tgα tgβ

(7.19)

Это произведение называется коэффициентом кор­реляции двух переменных величин и обозначается через r или R. Чаще всего здесь будет использоваться первое обозначение. Коэффициент корреляции принимает положительное значение, если У возрастает с увеличением X, и отрицательное, если У уменьша­ется с увеличением X.

Подставляя значения а и а', вычисленные по формулам (7.12) (7.16), в формулу (7.19), получаем

(7.20)

Чаще используется другой вид записи формулы коэффициента корреляции:

(7.21)

Преобразуем уравнение регрессии У по X и X по У, выразив коэффициенты регрессии а и а' в формулах (7.12) и (7.15) через коэффициент корреляции.

(7.22)

или

где (xi) и (yi ) — рассчитанные значения У и X при данных xi и yi, σх и σу — средние квадратические отклонения У и X; и —средние значения X и У; r —коэффициент корре­ляции.

7.2.3. Оценка коэффициента корреляции и уравнения регрессии. Преобразование Фишера

Параметры уравнения регрессии в практических расчетах опре­деляются по выборкам. Поэтому естественно, что они носят вы­борочный характер и могут использоваться лишь как более или менее достоверные оценки действительных значений. Обозначим выборочные оценки параметров а и b и коэффициента корреляции r через , , соответственно.

Известно [6, 60], что эмпирический (выборочный) коэффициент корреляции представляет собой состоятельную оценку. Однако точность этой оценки или близость ее к действительному значению может быть установлена только при достаточно большом объеме выборки и невысоком коэффициенте корреляции, когда распределение его оценок может приниматься нормальным. Если же число испытаний невелико (п < 30), а коэффициент корреляции 0,4, то распределение выборочных значений коэффициента корреляции существенно отличается от нормального.

Например, на рис. 7.6 представлено распределение оценок коэффициента корреляции r для значений r = 0; 0,4; 0,8 при n= 12.

Рис. 7.6. Распределения: a) выборочного коэффициента корреляции , б) преобразования Фишера z при п = 12 и различных значениях r.

Как следует из анализа представленных рисунков, при значениях r, приближающихся к 1, кри­вая распределения коэффициента корреляции в ча-

стных совокупностях становится все более асимметричной. Обычные методы оценки в этом случае непригодны, так как погрешность выборочных оценок коэффициента корреляции в одну сторону от действительного значения может быть намного больше, чем в другую.

Оценка коэффициентов корреляции и регрессии при r < 0,4 и n > 30

В этом случае закон распределения выборочных оценок коэффициента корреляции принимается нормальным. Поэтому средние квадратические погрешности оценки r, a и b при данном значении п и могут определяться по формулам:

σr (7.23)

(7.24)

(7.25)

С учетом того, что распределение оценки коэффициента корреляции при указанных условиях подчиняется нормальному закону, то есть является симметричным, доверительные интервалы коэффици­ентов корреляции и регрессии при заданном уровне значимости можно определить по формулам:

; (7.26)

; (7.27)

; (7.28)

где tα – статистика Стьюдента при двухстороннем уровне значимости α

Нередко в исследованиях возникает вопрос о реальности связей вообще, т. е. вопрос о том, являются ли полученные по данным наблюдений коэффициенты корреляции значимыми и не объясняются ли они случайностями выборки.

Обычно этот вопрос решается с помощью нулевой гипотезы относительно рассматриваемой связи.

Hо:r = 0.

То есть, исходим из предположения, что действительное значение коэффициента корреляции равно 0 и линейная связь отсутствует. Оценка гипотезы проводится по эмпирическому коэффициенту корреляции r. Для этого с учетом соотношения (7.26) строится критическая область вида

(7.29)

с уровнем значимости α. Если полученное выборочное значение r окажется в критической области, то есть больше чем rα, то гипотеза отбрасывается.

Во многих исследованиях, раньше, принима­лось, что связь доказана, если

, (7.30)

где , — вероятная погрешность коэффициента корреляции. Однако эта оценка часто имеет излишне жесткий характер, так как уровень значимости такого значения r в предположении, что гипотеза верна, равен 1 %.

Оценка коэффициента корреляции при r > 0,4. Преобразование Фишера

Как отмечалось выше, при r> 0,4 для оценки действительного значения коэффициента корреляции ввиду асимметричного рас­пределения выборочных оценок нельзя использовать формулу средней квадратической погрешности коэффициента корреляции (7.23). В этих случаях для оценки коэффициента корреляции применяется преобразование Фишера, при котором коэффициент корреляции выборочных совокупностей приравнива­ется к гиперболическому тангенсу th z некоторого значения z

r=th z=sh z /ch z . (7.31 )

где

sh z= (ex –e-x )/ 2, ch = (ex +e-x) /2

Отсюда

Z= 0,5 ln[(1+r)/ (1-r)]. ( 7.32)

Статистика Z имеет ряд замечательных свойств, а именно, распределение Z почти не зависит от п и r и с возрастанием п закон распределения Z быстро приближается к нормальному закону (рис. 7.6. б) со средним значением

(7.33)

и средним квадратическим отклонением

(7.34)

К тому же, как следует из формулы (7.34), погрешность оценки z не зависит от .

При помощи статистики z можно выяснить, существенно ли отличается рассчитанное значение от предполагаемого и найти его доверительные границы.

Для этого необходимо по r и определить z и . Тогда ввиду нормального распределения статистики z легко решить, будет ли разность r существенной или несущественной.

При ручном счете переход от r к z и обратно достаточно сло­жен. Поэтому он совершается обычно по таблицам или по графикам связи r=f(z) и z=f(r) (рис. 7.7). При расчете на ЭВМ определение z no r или r по z производится непосредственно по формулам (7.31), (7.32),. которые включаются в алгоритм программы.

Рис. 7.7. Соотношение между коэффициентом корреляции r и преобразованием Фишера z

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]