Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Лакин Г.Ф. Биометрия учеб. пособие

.pdf
Скачиваний:
150
Добавлен:
25.10.2023
Размер:
16.09 Mб
Скачать

ГЛАВА ДЕВЯТАЯ

КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

ПОНЯТИЕ к о р р е л я ц и и

Биология в обширном смысле слова — наука о связях, кото­ рые она изучает на разных уровнях организации живого. Самые различные биологические признаки находятся в определенной зависимости друг от друга и от условий окружающей среды. Еще Гиппократ отмечал, что между строением тела и предрас­ положенностью к определенным заболеваниям, между телосло­ жением и темпераментами людей существует заметная связь. Известна также связь между телосложением и направлением продуктивности у сельскохозяйственных животных, между ка­ чеством семян и урожайностью сельскохозяйственных культур и т. д. Однако недостаточно лишь констатировать наличие су­ ществующих в живой природе связей, их нужно измерять.

Выше отмечалось, что для точного выражения зависимости между переменными величинами X и У в математике применяет­ ся понятие функции. Оно имеет в виду случаи, когда определен­ ному значению, которое может принять переменная величина У, называемая аргументом, соответствует только одно значение переменной X, называемой функцией. В общем виде это запи­ сывается так: Y —f'(X). Такого рода однозначная зависимость между переменными величинами называется функциональной. Примером может служить ускорение химической реакции в два раза при повышении температуры на 10° С, или тот факт, что ра­ диус окружности находится в строгом отношении к ее длине, что угол правильного многоугольника зависит от числа сторон, но не зависит от их длины и т. д.

Но такие однозначные или функциональные связи встреча­ ются далеко не всегда, особенно в биологии, где числовому зна-' чению одного признака соответствует не одно и то же опреде­ ленное значение, а целая гамма варьирующих значений другого, связанного с ним признака (или признаков). Известно, напри­ мер, что продуктивность сельскохозяйственных животных в зна­ чительной степени зависит от рациона и режима кормления. Но также известно, что рацион и режим кормления определяют уровень продуктивности животных не однозначно. Кроме этих факторов на продуктивности животных сказывается влияние и многочисленных других причин — таких, как наследственность, возраст особей, уход за ними и т. п., вследствие чего признаки варьируют и зависимость между ними, рассматриваемая на по­ пуляционном уровне, не обнаруживает характера функциональ­ ной связи.

1 7 0

Такого рода зависимость между

переменными

случайными

величинами X и У, при которой каждому значению одной из них

соответствует не какое-то

конкретное значение, а

определенная

групповая средняя другой

величины,

т.

е.

y x = f ( X i )

или ■ху=

=НУі)>

называется корреляционной,

или

просто

к о р р е л я ­

ц и е й 1.

Математический

анализ связей, существующих между

случайными величинами, составляет содержание корреляцион­ ного анализа.

ОСНОВНЫЕ ЗАДАЧИ КОРРЕЛЯЦИОННОГО АНАЛИЗА

Корреляционный анализ сводится к измерению тесноты или степени сопряженности между варьирующими признаками, а также к определению формы и направления существующей меж­ ду ними связи. По направлению корреляция бывает положитель­ ной, или прямой, и отрицательной, или обратной, а по форме —• линейной (прямолинейной) и нелинейной, или криволинейной. При положительной корреляции групповые средние одного приз­ нака возрастают с увеличением значений другого признака. При отрицательной корреляции груіппшые средние одного приз­ нака уменьшаются при увеличении значений другого признака. Например, с увеличением веса молочных коров замечается воз­ растание их удоя, в то же время жирномолочные коровы, как правило, дают меньше молока по сравнению с животными той же породы, обладающими низким процентом жира в молоке. Конеч­ но, не исключены и такие случаи, когда при увеличении одного признака другой сначала возрастает, а затем его значения начи­ нают убывать.

Корреляция называется линейной, когда направление связи между признаками X и У графически и аналитически выражает­ ся прямой линией. Если же корреляционная зависимость между переменными X я Y имеет иное направление, она называется не­ линейной. Во всех случаях задачи корреляционного анализа оста­ ются одни и те же: установление формы и направления связи, существующей между варьирующими признаками, измерение ее силы или тесноты с последующей оценкой достоверности эмпири­ ческих показателей связи.

1 Термин корреляции (лат. correlatio— соотношение, связь) впервые при­ менил Ж . Кювье в труде «Лекции по сравнительной анатомии» (1806). А са­ мый метод корреляции вошел в науку из практических задач морфологии и генетики. Математические обоснования метода даны Огюстом Браве в 1846 го­ ду. Однако Браве (1811 — 1863) имел в виду «теорию ошибок в плоскости», т. е.

распространение закона ошибок Гаусса на случаи двух переменных Y иX, и биологическими корреляциями не занимался.

Первыми, кто использовал и развил метод корреляции, были Гальтон и Пирсон, занимавшиеся изучением проблемы наследственности и изменчивости. С именем Гальтона связано и введение термина корреляция в биометрию (1886).

171

МЕТОДИКА КОРРЕЛЯЦИОННОГО АНАЛИЗА

Корреляцию между признаками можно обнаружить разными способами. Уже само расположение в возрастающем или убыва­ ющем порядке двух сопряженных рядов позволяет судить о на­ личии или отсутствии связи между ними. Более наглядное пред­ ставление о форме и направлении корреляции дают корреляци­ онные таблицы и особенно графики регрессии, показывающие корреляционную зависимость между признаками в ее динамике (см. ниже).

Для измерения степени сопряженности между варьирующи­ ми признаками служат параметрические и непараметрические показатели. Выбор того или иного показателя зависит, во-первых, от того, по каким признакам проводится корреляционный ана­ лиз— количественным или качественным, а во-вторых, от формы корреляционной зависимости (линейная или нелинейная связь), а также и от того, группируются или не группируются выбороч­ ные данные в вариационные ряды. Во всех случаях корреляцион­ ный анализ служит инструментом количественного выражения связей, существующих между варьирующими признаками, он позволяет оценивать достоверность эмпирических показателей корреляции, оставаясь при этом методом статистического, а не биологического анализа. Поэтому, несмотря на большую цен­ ность этого метода в области биологических исследований, его не следует переоценивать и тем бол^е нельзя подменять фор­ мально-статистическим методом корреляции биологический анализ фактов.

КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ

Чтобы измерить степень сопряженности между признаками X я Y, необходимо, как подсказывает элементарная логика, сопо­ ставить соответствующим образом их значения друг с другом. Если при увеличении одного признака пропорционально увеличи­ вается размер другого, это указывает на наличие положитель­ ной связи, и наоборот, когда увеличение одного признака сопро­ вождается уменьшением значений другого, — налицо обратная или отрицательная связь между ними.

Но так как при наличии корреляции приходится иметь дело не с приращением функции, а с сопряженной вариацией призна­ ков, то и выражать ее следует в виде взаимосопряженных откло­ нений от средних величин, характеризующих эти признаки. Од­ ним из таких показателей, характеризующих сопряженную вари­ ацию двух признаков X и У, служит эмпирическая ковариация (Соѵ):

Соѵ = — 'Z,(xi — х) (Уі — у),

172

или

 

(ХіУі — Пху).

 

Cov =

п s

 

Обычно, в силу разноименное™ коррелируемых величин X и У, сопоставляют не сами отклонения от средних, а их преобразован­ ные (неименованные) значения в виде нормированных отклоне-

Х і X

,

Уі у _

ниигж= --------

и ty =

---------. Отсюда получается эмпирический

O x

 

Оу

коэффициент корреляции, обозначаемый латинской буквой г:

 

— (S k X ty),

Соѵ

2 і х) (Уі у)

 

 

или г

tlGxGy

 

(92)

 

п

 

GxGy

 

 

 

Коэффициент

корреляции — величина

относительная;

он выра­

жается в долях единицы.

 

формулу

92

 

Обозначив

через

ах— Хі—х и через ау=уіу ,

можно выразить в следующем виде:

 

 

 

 

 

 

 

XiCLxQy

 

 

(92а)

 

 

 

" 1

 

 

 

 

 

tlOxGy

 

 

 

 

или с учетом повторяемости отклонений:

 

 

 

 

 

 

 

Ърахау

 

 

(926)

 

 

 

tlGxGy

 

 

 

 

 

 

 

 

 

2

 

2

2

2

2

2

Поскольку а* = ------ и ау — --------, откуда Иах= п а х и

2>ау= п о у,

 

 

п

п

 

 

 

 

формула 92 легко преобразуется в аналогичную формулу Пирсо­ на:

2 сіх(іу

2 (ixciy

2 ахсіу

похОу

Іпо2х X па2у

ysa* X 2a2^

Эта формула освобождает исследователя от необходимости вы­ числять средние квадратические отклонения, что заметно облег­ чает расчет коэффициента корреляции.

Приведенные общие формулы коэффициента корреляции трансформируются в целый ряд рабочих формул, более пригод­ ных в практической работе. Многие из 'них приводятся ниже.

ОСНОВНЫЕ СВОЙСТВА КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ

Коэффициент корреляции служит для измерения силы или тес­ ноты линейной связи между значениями признаков X и У. В об­ щем ряду п измерений он может принимать любые значения от

173

—1 до +1, так как в отношении его выполняется неравенство

—1 ^ г ^ + 1. Когда ковариация, которая может быть как поло­

жительной, так и отрицательной больше нуля (Сои>0),

то и

г > 0. Это значит, что большим значениям X соответствуют

пре­

имущественно большие же значения У, и наоборот. В таких слу­ чаях и говорят о наличии положительной связи между перемен­ ными X и У. При Соо<0 имеет место отрицательная корреляция, когда большие значения X обусловливают появление малых значений У, и наоборот. Иными словами, при наличии положитель­ ной связи между варьирующими признаками величина коэффи­ циента корреляции имеет положительный знак ( + ), а при нали­ чии обратной или отрицательной связи этот показатель приобре­ тает отрицательный знак (—•); при этом величина коэффициента корреляции не выходит за пределы от —1 до +1. Когда г = 0, это означает отсутствие корреляции, а при r= 1 налицо функцио­ нальная связь между признаками. Таким образом при г> 0 этот показатель характеризует не только наличие, но и степень сопря­ женности между значениями варьирующих признаков: чем силь­ нее сопряженность, тем выше коэффициент корреляции и, наобо­ рот, чем слабее связь между признаками, тем ниже значение

коэффициента корреляции. Вместе с тем, имея

положительный

или отрицательный знак, коэффициент корреляции

позволяет

определять и направление связи.

 

 

Обычно считается, что г<0,3 указывает на слабую связь, при

0 ,3 ^ г ^ 0 ,5 связь признается умеренной. Если

же 0 ,5 ^ г^0,7,

корреляция считается значительной, а при 0,7

г^ 0 ,9

сильной и

при г>0,9 очень сильной, близкой к функциональной связи. Ра­ зумеется, это чисто условные подразделения, а не общепринятый стандарт при оценке степени сопряженности между варьирую­ щими признаками.

ДОВЕРИТЕЛЬНАЯ ОЦЕНКА КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ

Выборочный коэффициент корреляции, являясь величиной случайной, может оказаться отличным от нуля даже при незави­ симом варьировании признаков. Отсюда возникает необходимость рассматривать его в качестве оценки генерального параметра

(р). Нулевая гипотеза применительно к оценке генерального р по величине эмпирического коэффициента корреляции (г) заклю­ чается в предположении, что р= 0, т. е. между случайными вели­ чинами Х и У корреляция отсутствует.

Для проверки нулевой гипотезы служит критерий ^-Стьюден- та, который при достаточно большом числе наблюдений ( п ^ І О 0) представляет отношение эмпирического коэффициента корреля­ ции к своей ошибке, вычисляемой по формуле

1 — г2 тт= — ==—. (94)

у«

174

Когда п<100, критерием для проверки'Нулевой гипотезы берется

г Ум — 2

У1 — г2 ’

Нулевая гипотеза отвергается, если t ^ t st для k — n—2 и взято­ го уровня вероятности (Р). Это значит, что в генеральной сово­ купности р^О и, следовательно, выборочный коэффициент корреляции достоверно отличается от нуля, между X и У сущест­ вует корреляционная связь. При t < tst нулевая гипотеза сохраня­ ется, отклонение выборочного коэффициента корреляции от нуля считается чисто случайным. Например, на выборке п = 36 получен г = 0,46. Нужно оценить эту величину. Критерий достоверности

t = 0,46 У36 — 2 =

2,682 _ а п

У 1 -

0,462

0,888

По таблице Стьюдента

(табл. V приложений) для &= 36—2 =

= 34 и Р = 0,01 находим tst = 2,58. Так как t

= 3,0> 4; = 2,58, нуле­

вая гипотеза отвергается.

 

Когда под руками имеется специальная таблица для оценки

достоверности выборочного коэффициента

корреляции, необхо­

димость расчета критерия t отпадает. Такая таблица приводится в приложениях под № XV. В ней указаны максимальные .('крити­ ческие) значения, которые может иметь выборочный коэффици­ ент корреляции при условии, что р= 0, т. е. принятии нулевой гипотезы. Если выборочный коэффициент корреляции превосхо­ дит указанную в таблице величину для k — n—2 и принятого уров­ ня вероятности Р, нулевая гипотеза отвергается. Так, относитель­ но взятого выше примера для Р = 0,01 и k = 34 в табл. XV находим 0,42. Выборочный г = 0,46 превосходит эту критическую величину, что позволяет отвергнуть нулевую гипотезу.

МЕТОД Z (ЗЕТ)

На малочисленных выборках оценка коэффициента корреля­ ции описанным выше способом* может оказаться недостаточно точной. Дело в том, что в силу присущих коэффициенту корреля­ ции свойств (принимать значения только в пределах от —1 до + 1) его распределение обнаруживает левостороннюю асиммет­ рию, отклоняясь от нормальной кривой тем сильнее, чем абсо­ лютное значение коэффициента корреляции ближе к единице.

Обойти затруднения в оценке выборочного коэффициента кор­ реляции, связанные с указанными особенностями его распреде­ ления, позволяет предложенный Р. Фишером метод «зет». Фишер предложил вместо коэффициента корреляции для его оценки ис­ пользовать связанную с ним вспомогательную величину Z (зет):

175

1 1 - 4 - г

Z =

1 -f- г

(95)

Z = — ln —— , или

1,15129 lg -—^— .

Распределение этой величины мало зависит от численности

вы­

борки и от значения коэффициента

корреляции в генеральной

совокупности. Преимущество Z

(зет)

перед г заключается в том,

что Z, меняя свое значение от —оо до + о о , быстро приближается к нормальному распределению при возрастании числа наблюде­ ний (п). Поэтому показатель «зет» дает особенно надежные результаты на малых выборках, так как именно в этих случаях эмпирический коэффициент корреляции может сильно отличать­ ся от своего значения в генеральной совокупности. Фишер пока­ зал, что даже при значениях, близких к единице, вычисляемый на малых выборках, показатель Z распределяется почти нормаль-

„ 2

1

но с дисперсией oz =

-----—.

 

п — і

Преобразование коэффициента корреляции в показатель «зет» производится по специальной таблице, составленной Фише­ ром (см. приложения табл. XVI). В этой таблице указаны значе­ ния Z, соответствующие разным величинам коэффициента кор­ реляции.

Критерием достоверности показателя «зет» служит следую­

щее выражение:

2

^ = _ = Z y n - 3. Oz

Этот критерий пригоден как для малых, так и для больших выбо­ рок; он используется во всех случаях, когда вместо коэффициен­ та корреляции берется соответствующее ему значение Z (зет).

Для оценки достоверности и установления доверительного интервала, по которому с достаточной вероятностью можно су­ дить о величине коэффициента корреляции в генеральной сово­ купности поступают следующим образом. По значению эмпири­ ческого коэффициента корреляции в табл. XVI приложений на­ ходят значение Z (зет). Затем определяют величину ошибки по­ казателя «зет» по формуле

0z = - = L = .

(96)

■j/n-3

 

По отношению Z к своей ошибке находят значение критерии tz, который сравнивается со стандартом по таблице Стьюдента для

принятого уровня

значимости (Р) и

числа

степеней свободы

k = n—2. По величине максимальной

погрешности — AZ = £ÖZ

находят границы

доверительного интервала

для генерального

параметра. Например, на выборе п 28 получен г = 0,52. Чтобы оценить эту величину, в табл. XVI приложений находим: Z = 0,576.

176

Затем

вычисляем ошибку oz = ■

= — = 0,20, откуда

 

У28 — 3

5

^2 = 0,576^ 25 = 2,88. По таблице Стьюдента

(табл. V приложе­

ний)

для k = 28—2= 26 и Р= 0,05 находим

tst = 2,06. Поскольку

іф= 2,88>tst = 2,06, нулевая гипотеза «е сохраняется.

По величине Az=taz = 1,96X0,20 = 0,392 находим границы до­ верительного интервала для показателя «зет»:

нижняя граница=0,576—0,392 =0,184 верхняя граница = 0,576+0,392=0,968

Пользуясь табл. XVI приложений, переводим значения «зет» в величины коэффициента корреляции и находим его доверитель­ ные границы:

нижняя граница = 0,18 верхняя граница = 0,74

Это значит, что величина коэффициента корреляции в генераль­ ной совокупности находится между пределами 0,18<г<0,74. Можно сказать, что эмпирический коэффициент корреляции г = 0,52 определен с достаточной точностью.

МИНИМАЛЬНОЕ ЧИСЛО НАБЛЮДЕНИИ ДЛЯ ПЛАНИРУЕМОЙ ТОЧНОСТИ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ

Статистическая недостоверность эмпирического коэффициен­ та корреляции еще не доказывает, что связи между варьирующи­ ми признаками нет. При достаточном числе наблюдений эта связь может выявиться достоверно. Рассчитать необходимый объем выборки для планируемой точности коэффициента корре­ ляции можно по формуле

й

« = у 2+ 3 ,

(97)

где п -искомая численность парных наблюдений, т. е. объем выборки; tz — заданная по принятому порогу доверительной ве­ роятности величина критерия достоверности «зет». Например,

для г = 0,25 и л=і20 величина 2 = 0,2554, откуда ^ = 0,25541/17 = = 1,05. Для Р = 0,05 и £ —20—2 = 18 tst = 2,10. Видно, что при t$<tsu нулевую гипотезу отвергнуть нельзя. Какое же число на­ блюдений надо провести, чтобы с вероятностью Р = 0,95 сделать окончательный вывод о достоверности (или недостоверности) корреляции между интересующими нас признаками Х и У? Используя формулу 97 и памятуя о том, что вероятности Р = 0,95 соответствует t= 1,96, находим:

(1,96)8

3

3,842

(0,2554)2

3 = 59 + 3 = 62.

 

0,065 '

177

Итак, чтобы удовлетворить поставленной задаче, необходимо провести не менее 62 наблюдений.

ОЦЕНКА РАЗНОСТИ МЕЖДУ КОЭФФИЦИЕНТАМИ КОРРЕЛЯЦИИ

Метод «зет» позволяет оценить достоверность разности меж­ ду эмпирическими коэффициентами корреляции, вычисленными на независимых выборочных совокупностях. Ошибка разности Zi — Z2 определяется по формуле

 

1

m° z

(98)

«2— 3

 

Критерием достоверности оценки служит отношение разности Z1 — Z2 к своей ошибке. Например, измеряя зависимость между длиной колосьев (см) и количеством содержащихся в них зерен у озимой ржи в одном случае на выборке «і = 50 коэффициент корреляции оказался равным /т = +0,56, а в другом на выборке

«2 = 44—-г2 = +0,48.

Разница

г\—г2 = 0,56—0,48 = 0,08.

Нужно

выяснить, случайное это расхождение или нет. По табл. XVI при­

ложений находим сответственно Z\ = 0,633 и Z2 = 0,523.

Критерий

достоверности —

 

 

 

 

 

,

0,633 — 0,523

0,11

 

tD = ------’

--------■=

.......... - = 0,52.

 

л/

1

 

1

У0,0456

 

*

50 — 3 +

44 — 3

 

 

Так как для Р 0,95 tst = 1,96,

а /с = 0,52<4< = 1,96, необходимо

признать, что наблюдаемая разница мехсду коэффициентами кор­ реляции носит случайный характер.

ВЫЧИСЛЕНИЕ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ НА МАЛЫХ ВЫБОРКАХ

На выборках небольшого объема коэффициент корреляции вычисляется, не прибегая к распределению выборочного матери­ ала в вариационные ряды и группировке его в корреляционную таблицу. Для примера используем данные о весе 20 новорожден­ ных павианов-гамадрилов и весе их матерей, измеренном в нача­ ле беременности (табл. 56).

Предполагается, что между весом матерей и весом их приплода существует прямолинейная положительная связь. Вычислим для этих данных коэффициент корреляции. Можно воспользоваться приведенными выше формулами Пирсона или Браве. Но проще рассчитывать коэффициент корреляции по следующим рабочим

формулам:

n'Lxy — 2хХ2г /

 

 

г =

— ,

(99)

----------

У«2х2 -

(Ех)2 X У«2у2-

(2у )2

 

178

 

 

 

 

Т а б л и ц а 56

Вес матерей (кг) (X)

Вес их детенышей

Вес матерей (Л:)

Вес их детенышей

(кг) (Y)

 

10,0

0,70

 

14,5

0,70

10,8

0,73

 

11,0

0,65

11,3

0,75

'

12,0

0,72

10,0

0,70

11,8

0,69

10,1

0,65

 

13,4

0,78

11,1

0,65

 

11,4

0,70

11,3

0,70

 

12,0

0,60

10,2

0,61

 

15,6

0,85

13,5

0,70

 

13,0

0,80

12,3

0,63

 

12,1

0,75

Ъху Пху

( 100)

 

У ( 2 л:2 пх2) (2у2пу2)

 

 

 

__

2 ху — 1/га (2лг2г/)

 

 

( 101)

 

 

 

Dx

Dy

 

 

 

 

 

 

 

 

 

 

 

У

Dy

ZX

 

 

( 102)

 

 

 

X

 

 

 

 

 

 

2 у/)* X

 

 

 

где

 

( 2 * ) 2

 

 

 

Ѵ уѴ

 

Д* =

2л:2

Dy = 2 у2

 

п

1

п

 

 

 

 

 

 

 

 

и

Dd = 2d2 -

(2d)2 _

 

 

п

>

 

 

 

 

 

 

 

 

 

 

через X и у обозначены

парные

варианты признаков

X и Y;

X и у — средние

арифметические; d = x—у и п — число

парных

наблюдений или объем выборки.

 

 

 

 

 

Чтобы использовать ту или иную из'приведенных формул, не­ обходимо предварительно найти вспомогательные значения 2 ху, 2 л:2 2 у2и др. Расчет их показан в табл. 57. По итоговым данным

этой таблицы находим средние арифметические:

 

X

237,4

 

_

14,06

кг. Определяем суммы

= ------ - = 11,87

кг и у —

-------= 0,703

 

20

У

20

 

 

квадратов отклонении:

 

 

 

 

£>*=2861,60

(237,4)2

 

(14,06)2

 

20

= 43,662; Dy= 9,9598

20

 

 

 

 

 

=

0,0756; Dd = 2535,7218 -

(223,34)2

41,6840.

Подставляем

20

 

 

 

 

 

 

179