
книги из ГПНТБ / Лакин Г.Ф. Биометрия учеб. пособие
.pdfГЛАВА ДЕВЯТАЯ
КОРРЕЛЯЦИОННЫЙ АНАЛИЗ
ПОНЯТИЕ к о р р е л я ц и и
Биология в обширном смысле слова — наука о связях, кото рые она изучает на разных уровнях организации живого. Самые различные биологические признаки находятся в определенной зависимости друг от друга и от условий окружающей среды. Еще Гиппократ отмечал, что между строением тела и предрас положенностью к определенным заболеваниям, между телосло жением и темпераментами людей существует заметная связь. Известна также связь между телосложением и направлением продуктивности у сельскохозяйственных животных, между ка чеством семян и урожайностью сельскохозяйственных культур и т. д. Однако недостаточно лишь констатировать наличие су ществующих в живой природе связей, их нужно измерять.
Выше отмечалось, что для точного выражения зависимости между переменными величинами X и У в математике применяет ся понятие функции. Оно имеет в виду случаи, когда определен ному значению, которое может принять переменная величина У, называемая аргументом, соответствует только одно значение переменной X, называемой функцией. В общем виде это запи сывается так: Y —f'(X). Такого рода однозначная зависимость между переменными величинами называется функциональной. Примером может служить ускорение химической реакции в два раза при повышении температуры на 10° С, или тот факт, что ра диус окружности находится в строгом отношении к ее длине, что угол правильного многоугольника зависит от числа сторон, но не зависит от их длины и т. д.
Но такие однозначные или функциональные связи встреча ются далеко не всегда, особенно в биологии, где числовому зна-' чению одного признака соответствует не одно и то же опреде ленное значение, а целая гамма варьирующих значений другого, связанного с ним признака (или признаков). Известно, напри мер, что продуктивность сельскохозяйственных животных в зна чительной степени зависит от рациона и режима кормления. Но также известно, что рацион и режим кормления определяют уровень продуктивности животных не однозначно. Кроме этих факторов на продуктивности животных сказывается влияние и многочисленных других причин — таких, как наследственность, возраст особей, уход за ними и т. п., вследствие чего признаки варьируют и зависимость между ними, рассматриваемая на по пуляционном уровне, не обнаруживает характера функциональ ной связи.
1 7 0
Такого рода зависимость между |
переменными |
случайными |
|||||
величинами X и У, при которой каждому значению одной из них |
|||||||
соответствует не какое-то |
конкретное значение, а |
определенная |
|||||
групповая средняя другой |
величины, |
т. |
е. |
y x = f ( X i ) |
или ■ху= |
||
=НУі)> |
называется корреляционной, |
или |
просто |
к о р р е л я |
|||
ц и е й 1. |
Математический |
анализ связей, существующих между |
случайными величинами, составляет содержание корреляцион ного анализа.
ОСНОВНЫЕ ЗАДАЧИ КОРРЕЛЯЦИОННОГО АНАЛИЗА
Корреляционный анализ сводится к измерению тесноты или степени сопряженности между варьирующими признаками, а также к определению формы и направления существующей меж ду ними связи. По направлению корреляция бывает положитель ной, или прямой, и отрицательной, или обратной, а по форме —• линейной (прямолинейной) и нелинейной, или криволинейной. При положительной корреляции групповые средние одного приз нака возрастают с увеличением значений другого признака. При отрицательной корреляции груіппшые средние одного приз нака уменьшаются при увеличении значений другого признака. Например, с увеличением веса молочных коров замечается воз растание их удоя, в то же время жирномолочные коровы, как правило, дают меньше молока по сравнению с животными той же породы, обладающими низким процентом жира в молоке. Конеч но, не исключены и такие случаи, когда при увеличении одного признака другой сначала возрастает, а затем его значения начи нают убывать.
Корреляция называется линейной, когда направление связи между признаками X и У графически и аналитически выражает ся прямой линией. Если же корреляционная зависимость между переменными X я Y имеет иное направление, она называется не линейной. Во всех случаях задачи корреляционного анализа оста ются одни и те же: установление формы и направления связи, существующей между варьирующими признаками, измерение ее силы или тесноты с последующей оценкой достоверности эмпири ческих показателей связи.
1 Термин корреляции (лат. correlatio— соотношение, связь) впервые при менил Ж . Кювье в труде «Лекции по сравнительной анатомии» (1806). А са мый метод корреляции вошел в науку из практических задач морфологии и генетики. Математические обоснования метода даны Огюстом Браве в 1846 го ду. Однако Браве (1811 — 1863) имел в виду «теорию ошибок в плоскости», т. е.
распространение закона ошибок Гаусса на случаи двух переменных Y иX, и биологическими корреляциями не занимался.
Первыми, кто использовал и развил метод корреляции, были Гальтон и Пирсон, занимавшиеся изучением проблемы наследственности и изменчивости. С именем Гальтона связано и введение термина корреляция в биометрию (1886).
171
МЕТОДИКА КОРРЕЛЯЦИОННОГО АНАЛИЗА
Корреляцию между признаками можно обнаружить разными способами. Уже само расположение в возрастающем или убыва ющем порядке двух сопряженных рядов позволяет судить о на личии или отсутствии связи между ними. Более наглядное пред ставление о форме и направлении корреляции дают корреляци онные таблицы и особенно графики регрессии, показывающие корреляционную зависимость между признаками в ее динамике (см. ниже).
Для измерения степени сопряженности между варьирующи ми признаками служат параметрические и непараметрические показатели. Выбор того или иного показателя зависит, во-первых, от того, по каким признакам проводится корреляционный ана лиз— количественным или качественным, а во-вторых, от формы корреляционной зависимости (линейная или нелинейная связь), а также и от того, группируются или не группируются выбороч ные данные в вариационные ряды. Во всех случаях корреляцион ный анализ служит инструментом количественного выражения связей, существующих между варьирующими признаками, он позволяет оценивать достоверность эмпирических показателей корреляции, оставаясь при этом методом статистического, а не биологического анализа. Поэтому, несмотря на большую цен ность этого метода в области биологических исследований, его не следует переоценивать и тем бол^е нельзя подменять фор мально-статистическим методом корреляции биологический анализ фактов.
КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ
Чтобы измерить степень сопряженности между признаками X я Y, необходимо, как подсказывает элементарная логика, сопо ставить соответствующим образом их значения друг с другом. Если при увеличении одного признака пропорционально увеличи вается размер другого, это указывает на наличие положитель ной связи, и наоборот, когда увеличение одного признака сопро вождается уменьшением значений другого, — налицо обратная или отрицательная связь между ними.
Но так как при наличии корреляции приходится иметь дело не с приращением функции, а с сопряженной вариацией призна ков, то и выражать ее следует в виде взаимосопряженных откло нений от средних величин, характеризующих эти признаки. Од ним из таких показателей, характеризующих сопряженную вари ацию двух признаков X и У, служит эмпирическая ковариация (Соѵ):
Соѵ = — 'Z,(xi — х) (Уі — у),
172
или |
|
— |
(ХіУі — Пху). |
|
Cov = |
п s |
|
Обычно, в силу разноименное™ коррелируемых величин X и У, сопоставляют не сами отклонения от средних, а их преобразован ные (неименованные) значения в виде нормированных отклоне-
Х і — X |
, |
Уі — у _ |
ниигж= -------- |
и ty = |
---------. Отсюда получается эмпирический |
O x |
|
Оу |
коэффициент корреляции, обозначаемый латинской буквой г:
|
— (S k X ty), |
Соѵ |
2 (Хі — х) (Уі — у) |
|
|||
|
или г |
tlGxGy |
|
(92) |
|||
|
п |
|
GxGy |
|
|
|
|
Коэффициент |
корреляции — величина |
относительная; |
он выра |
||||
жается в долях единицы. |
|
формулу |
92 |
||||
|
Обозначив |
через |
ах— Хі—х и через ау=уі—у , |
||||
можно выразить в следующем виде: |
|
|
|
|
|||
|
|
|
XiCLxQy |
|
|
(92а) |
|
|
|
|
" 1 |
|
|
||
|
|
|
tlOxGy |
|
|
|
|
или с учетом повторяемости отклонений: |
|
|
|
|
|||
|
|
|
Ърахау |
|
|
(926) |
|
|
|
|
tlGxGy |
|
|
||
|
|
|
|
|
|
|
|
„ |
2 |
|
2 |
2 |
2 |
2 |
2 |
Поскольку а* = ------ и ау — --------, откуда Иах= п а х и |
2>ау= п о у, |
||||||
|
|
п |
п |
|
|
|
|
формула 92 легко преобразуется в аналогичную формулу Пирсо на:
2 сіх(іу |
2 (ixciy |
2 ахсіу |
похОу |
Іпо2х X па2у |
ysa* X 2a2^ |
Эта формула освобождает исследователя от необходимости вы числять средние квадратические отклонения, что заметно облег чает расчет коэффициента корреляции.
Приведенные общие формулы коэффициента корреляции трансформируются в целый ряд рабочих формул, более пригод ных в практической работе. Многие из 'них приводятся ниже.
ОСНОВНЫЕ СВОЙСТВА КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ
Коэффициент корреляции служит для измерения силы или тес ноты линейной связи между значениями признаков X и У. В об щем ряду п измерений он может принимать любые значения от
173
—1 до +1, так как в отношении его выполняется неравенство
—1 ^ г ^ + 1. Когда ковариация, которая может быть как поло
жительной, так и отрицательной больше нуля (Сои>0), |
то и |
г > 0. Это значит, что большим значениям X соответствуют |
пре |
имущественно большие же значения У, и наоборот. В таких слу чаях и говорят о наличии положительной связи между перемен ными X и У. При Соо<0 имеет место отрицательная корреляция, когда большие значения X обусловливают появление малых значений У, и наоборот. Иными словами, при наличии положитель ной связи между варьирующими признаками величина коэффи циента корреляции имеет положительный знак ( + ), а при нали чии обратной или отрицательной связи этот показатель приобре тает отрицательный знак (—•); при этом величина коэффициента корреляции не выходит за пределы от —1 до +1. Когда г = 0, это означает отсутствие корреляции, а при r= 1 налицо функцио нальная связь между признаками. Таким образом при г> 0 этот показатель характеризует не только наличие, но и степень сопря женности между значениями варьирующих признаков: чем силь нее сопряженность, тем выше коэффициент корреляции и, наобо рот, чем слабее связь между признаками, тем ниже значение
коэффициента корреляции. Вместе с тем, имея |
положительный |
|
или отрицательный знак, коэффициент корреляции |
позволяет |
|
определять и направление связи. |
|
|
Обычно считается, что г<0,3 указывает на слабую связь, при |
||
0 ,3 ^ г ^ 0 ,5 связь признается умеренной. Если |
же 0 ,5 ^ г^0,7, |
|
корреляция считается значительной, а при 0,7 |
г^ 0 ,9 |
сильной и |
при г>0,9 очень сильной, близкой к функциональной связи. Ра зумеется, это чисто условные подразделения, а не общепринятый стандарт при оценке степени сопряженности между варьирую щими признаками.
ДОВЕРИТЕЛЬНАЯ ОЦЕНКА КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ
Выборочный коэффициент корреляции, являясь величиной случайной, может оказаться отличным от нуля даже при незави симом варьировании признаков. Отсюда возникает необходимость рассматривать его в качестве оценки генерального параметра
(р). Нулевая гипотеза применительно к оценке генерального р по величине эмпирического коэффициента корреляции (г) заклю чается в предположении, что р= 0, т. е. между случайными вели чинами Х и У корреляция отсутствует.
Для проверки нулевой гипотезы служит критерий ^-Стьюден- та, который при достаточно большом числе наблюдений ( п ^ І О 0) представляет отношение эмпирического коэффициента корреля ции к своей ошибке, вычисляемой по формуле
1 — г2 тт= — ==—. (94)
у«
174
Когда п<100, критерием для проверки'Нулевой гипотезы берется
г Ум — 2
У1 — г2 ’
Нулевая гипотеза отвергается, если t ^ t st для k — n—2 и взято го уровня вероятности (Р). Это значит, что в генеральной сово купности р^О и, следовательно, выборочный коэффициент корреляции достоверно отличается от нуля, между X и У сущест вует корреляционная связь. При t < tst нулевая гипотеза сохраня ется, отклонение выборочного коэффициента корреляции от нуля считается чисто случайным. Например, на выборке п = 36 получен г = 0,46. Нужно оценить эту величину. Критерий достоверности
t = 0,46 У36 — 2 = |
2,682 _ а п |
|
У 1 - |
0,462 |
0,888 |
По таблице Стьюдента |
(табл. V приложений) для &= 36—2 = |
= 34 и Р = 0,01 находим tst = 2,58. Так как t |
= 3,0> 4; = 2,58, нуле |
вая гипотеза отвергается. |
|
Когда под руками имеется специальная таблица для оценки |
|
достоверности выборочного коэффициента |
корреляции, необхо |
димость расчета критерия t отпадает. Такая таблица приводится в приложениях под № XV. В ней указаны максимальные .('крити ческие) значения, которые может иметь выборочный коэффици ент корреляции при условии, что р= 0, т. е. принятии нулевой гипотезы. Если выборочный коэффициент корреляции превосхо дит указанную в таблице величину для k — n—2 и принятого уров ня вероятности Р, нулевая гипотеза отвергается. Так, относитель но взятого выше примера для Р = 0,01 и k = 34 в табл. XV находим 0,42. Выборочный г = 0,46 превосходит эту критическую величину, что позволяет отвергнуть нулевую гипотезу.
МЕТОД Z (ЗЕТ)
На малочисленных выборках оценка коэффициента корреля ции описанным выше способом* может оказаться недостаточно точной. Дело в том, что в силу присущих коэффициенту корреля ции свойств (принимать значения только в пределах от —1 до + 1) его распределение обнаруживает левостороннюю асиммет рию, отклоняясь от нормальной кривой тем сильнее, чем абсо лютное значение коэффициента корреляции ближе к единице.
Обойти затруднения в оценке выборочного коэффициента кор реляции, связанные с указанными особенностями его распреде ления, позволяет предложенный Р. Фишером метод «зет». Фишер предложил вместо коэффициента корреляции для его оценки ис пользовать связанную с ним вспомогательную величину Z (зет):
175
1 1 - 4 - г |
Z = |
1 -f- г |
(95) |
Z = — ln —— , или |
1,15129 lg -—^— . |
||
Распределение этой величины мало зависит от численности |
вы |
||
борки и от значения коэффициента |
корреляции в генеральной |
||
совокупности. Преимущество Z |
(зет) |
перед г заключается в том, |
что Z, меняя свое значение от —оо до + о о , быстро приближается к нормальному распределению при возрастании числа наблюде ний (п). Поэтому показатель «зет» дает особенно надежные результаты на малых выборках, так как именно в этих случаях эмпирический коэффициент корреляции может сильно отличать ся от своего значения в генеральной совокупности. Фишер пока зал, что даже при значениях, близких к единице, вычисляемый на малых выборках, показатель Z распределяется почти нормаль-
„ 2 |
1 |
но с дисперсией oz = |
-----—. |
|
п — і |
Преобразование коэффициента корреляции в показатель «зет» производится по специальной таблице, составленной Фише ром (см. приложения табл. XVI). В этой таблице указаны значе ния Z, соответствующие разным величинам коэффициента кор реляции.
Критерием достоверности показателя «зет» служит следую
щее выражение:
2
^ = _ = Z y n - 3. Oz
Этот критерий пригоден как для малых, так и для больших выбо рок; он используется во всех случаях, когда вместо коэффициен та корреляции берется соответствующее ему значение Z (зет).
Для оценки достоверности и установления доверительного интервала, по которому с достаточной вероятностью можно су дить о величине коэффициента корреляции в генеральной сово купности поступают следующим образом. По значению эмпири ческого коэффициента корреляции в табл. XVI приложений на ходят значение Z (зет). Затем определяют величину ошибки по казателя «зет» по формуле
0z = - = L = . |
(96) |
■j/n-3 |
|
По отношению Z к своей ошибке находят значение критерии tz, который сравнивается со стандартом по таблице Стьюдента для
принятого уровня |
значимости (Р) и |
числа |
степеней свободы |
k = n—2. По величине максимальной |
погрешности — AZ = £ÖZ — |
||
находят границы |
доверительного интервала |
для генерального |
параметра. Например, на выборе п —28 получен г = 0,52. Чтобы оценить эту величину, в табл. XVI приложений находим: Z = 0,576.
176
Затем |
вычисляем ошибку oz = ■ |
= — = 0,20, откуда |
|
У28 — 3 |
5 |
^2 = 0,576^ 25 = 2,88. По таблице Стьюдента |
(табл. V приложе |
|
ний) |
для k = 28—2= 26 и Р= 0,05 находим |
tst = 2,06. Поскольку |
іф= 2,88>tst = 2,06, нулевая гипотеза «е сохраняется.
По величине Az=taz = 1,96X0,20 = 0,392 находим границы до верительного интервала для показателя «зет»:
нижняя граница=0,576—0,392 =0,184 верхняя граница = 0,576+0,392=0,968
Пользуясь табл. XVI приложений, переводим значения «зет» в величины коэффициента корреляции и находим его доверитель ные границы:
нижняя граница = 0,18 верхняя граница = 0,74
Это значит, что величина коэффициента корреляции в генераль ной совокупности находится между пределами 0,18<г<0,74. Можно сказать, что эмпирический коэффициент корреляции г = 0,52 определен с достаточной точностью.
МИНИМАЛЬНОЕ ЧИСЛО НАБЛЮДЕНИИ ДЛЯ ПЛАНИРУЕМОЙ ТОЧНОСТИ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ
Статистическая недостоверность эмпирического коэффициен та корреляции еще не доказывает, что связи между варьирующи ми признаками нет. При достаточном числе наблюдений эта связь может выявиться достоверно. Рассчитать необходимый объем выборки для планируемой точности коэффициента корре ляции можно по формуле
й
« = у 2+ 3 , |
(97) |
где п —-искомая численность парных наблюдений, т. е. объем выборки; tz — заданная по принятому порогу доверительной ве роятности величина критерия достоверности «зет». Например,
для г = 0,25 и л=і20 величина 2 = 0,2554, откуда ^ = 0,25541/17 = = 1,05. Для Р = 0,05 и £ —20—2 = 18 tst = 2,10. Видно, что при t$<tsu нулевую гипотезу отвергнуть нельзя. Какое же число на блюдений надо провести, чтобы с вероятностью Р = 0,95 сделать окончательный вывод о достоверности (или недостоверности) корреляции между интересующими нас признаками Х и У? Используя формулу 97 и памятуя о том, что вероятности Р = 0,95 соответствует t= 1,96, находим:
(1,96)8 |
3 |
3,842 |
(0,2554)2 |
3 = 59 + 3 = 62. |
|
|
0,065 ' |
177
Итак, чтобы удовлетворить поставленной задаче, необходимо провести не менее 62 наблюдений.
ОЦЕНКА РАЗНОСТИ МЕЖДУ КОЭФФИЦИЕНТАМИ КОРРЕЛЯЦИИ
Метод «зет» позволяет оценить достоверность разности меж ду эмпирическими коэффициентами корреляции, вычисленными на независимых выборочных совокупностях. Ошибка разности Zi — Z2 определяется по формуле
|
1 |
|
m° z |
(98) |
|
«2— 3 |
||
|
Критерием достоверности оценки служит отношение разности Z1 — Z2 к своей ошибке. Например, измеряя зависимость между длиной колосьев (см) и количеством содержащихся в них зерен у озимой ржи в одном случае на выборке «і = 50 коэффициент корреляции оказался равным /т = +0,56, а в другом на выборке
«2 = 44—-г2 = +0,48. |
Разница |
г\—г2 = 0,56—0,48 = 0,08. |
Нужно |
||
выяснить, случайное это расхождение или нет. По табл. XVI при |
|||||
ложений находим сответственно Z\ = 0,633 и Z2 = 0,523. |
Критерий |
||||
достоверности — |
|
|
|
|
|
, |
0,633 — 0,523 |
0,11 |
|
||
tD = ------’ |
--------■= |
.......... - = 0,52. |
|
||
л/ |
1 |
|
1 |
У0,0456 |
|
* |
50 — 3 + |
44 — 3 |
|
|
|
Так как для Р —0,95 tst = 1,96, |
а /с = 0,52<4< = 1,96, необходимо |
признать, что наблюдаемая разница мехсду коэффициентами кор реляции носит случайный характер.
ВЫЧИСЛЕНИЕ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ НА МАЛЫХ ВЫБОРКАХ
На выборках небольшого объема коэффициент корреляции вычисляется, не прибегая к распределению выборочного матери ала в вариационные ряды и группировке его в корреляционную таблицу. Для примера используем данные о весе 20 новорожден ных павианов-гамадрилов и весе их матерей, измеренном в нача ле беременности (табл. 56).
Предполагается, что между весом матерей и весом их приплода существует прямолинейная положительная связь. Вычислим для этих данных коэффициент корреляции. Можно воспользоваться приведенными выше формулами Пирсона или Браве. Но проще рассчитывать коэффициент корреляции по следующим рабочим
формулам: |
n'Lxy — 2хХ2г / |
|
|
|
г = |
— , |
(99) |
||
---------- |
||||
У«2х2 - |
(Ех)2 X У«2у2- |
(2у )2 |
|
178
|
|
|
|
Т а б л и ц а 56 |
Вес матерей (кг) (X) |
Вес их детенышей |
Вес матерей (Л:) |
Вес их детенышей |
|
(кг) (Y) |
|
(П |
||
10,0 |
0,70 |
|
14,5 |
0,70 |
10,8 |
0,73 |
|
11,0 |
0,65 |
11,3 |
0,75 |
' |
12,0 |
0,72 |
10,0 |
0,70 |
11,8 |
0,69 |
|
10,1 |
0,65 |
|
13,4 |
0,78 |
11,1 |
0,65 |
|
11,4 |
0,70 |
11,3 |
0,70 |
|
12,0 |
0,60 |
10,2 |
0,61 |
|
15,6 |
0,85 |
13,5 |
0,70 |
|
13,0 |
0,80 |
12,3 |
0,63 |
|
12,1 |
0,75 |
Ъху — Пху
( 100)
|
У ( 2 л:2 — пх2) (2у2— пу2) |
|
|
|||||
|
__ |
2 ху — 1/га (2лг2г/) |
|
|
( 101) |
|||
|
|
|
Dx |
Dy |
|
|
||
|
|
|
|
|
|
|||
|
|
|
У"У |
Dy |
ZX |
|
|
( 102) |
|
|
|
X |
|
|
|
||
|
|
|
2 у/)* X |
|
|
|
||
где |
|
( 2 * ) 2 |
|
|
|
Ѵ уѴ |
|
|
Д* = |
2л:2 |
Dy = 2 у2 |
|
|||||
п |
1 |
п |
|
|||||
|
|
|
|
|
|
|
||
и |
Dd = 2d2 - |
(2d)2 _ |
|
|
||||
п |
> |
|
|
|||||
|
|
|
|
|
|
|
|
|
через X и у обозначены |
парные |
варианты признаков |
X и Y; |
|||||
X и у — средние |
арифметические; d = x—у и п — число |
парных |
||||||
наблюдений или объем выборки. |
|
|
|
|
|
Чтобы использовать ту или иную из'приведенных формул, не обходимо предварительно найти вспомогательные значения 2 ху, 2 л:2 2 у2и др. Расчет их показан в табл. 57. По итоговым данным
этой таблицы находим средние арифметические: |
|
||||||
X |
237,4 |
|
_ |
14,06 |
кг. Определяем суммы |
||
= ------ - = 11,87 |
кг и у — |
-------= 0,703 |
|||||
|
20 |
’ |
У |
20 |
|
|
|
квадратов отклонении: |
|
|
|
||||
|
£>*=2861,60 |
(237,4)2 |
|
(14,06)2 |
|||
|
20 |
= 43,662; Dy= 9,9598 |
20 |
||||
|
|
|
|
|
|||
= |
0,0756; Dd = 2535,7218 - |
(223,34)2 |
41,6840. |
Подставляем |
|||
20 |
|||||||
|
|
|
|
|
|
179