Биостат - помощь / Учебники / Ивантер Коросов Введение в количественную биологию
.pdf
190 Задача «Найти зависимость между двумя признаками»
При этом не только уравнения содержат разные коэффициенты пропорциональности, но и линии регрессии не совпадают, как и прогнозы по ним (x1 > x2). Как указывалось выше, причина того, что линии регрессии не совпадают в осью эллипса рассеяния, а значит, и друг с другом, состоит в том, что случайная изменчивость признаков не дает точно определить коэффициенты пропорциональности (регрессии) и, следовательно, точно охарактеризовать взаимозависимое изменение обоих признаков.
В то же время по графикам видно, что каждый коэффициент регрессии неточен по-своему, в результате чего линии регрессии лежат по разные стороны оси эллипса. Возникает вопрос, нельзя ли вычислить некий усредненный показатель взаимосвязи, в котором свойства коэффициентов регрессии обобщаются? Такой характеристикой (средней геометрической) для линейной зависимости выступает коэффициент корреляции:
r = 
a1 × a2 .
Корреляционный анализ, состоящий в расчете и оценке значимости коэффициента корреляции, держит в поле зрения в равной мере оба изучаемых признака – как их сопряженную, так и общую изменчивость. Коэффициент корреляции призван численно выражать долю сопряженной вариации двух признаков в общей их вариации:
|
|
|
|
|
|
Cxy |
|
|
|
å( y - M y )(x - M x ) |
||
r = |
ковариация |
= |
|
|
= |
|
||||||
|
|
|
|
|
|
|
, |
|||||
|
|
|
|
|
|
|
||||||
|
|
изменчивость |
|
|
|
Cx ×Cy |
|
|
|
å( y - M y ) ×å(x - M x ) |
||
|
|
|
|
|
|
|
|
|
||||
где Cxy – характеристика сопряженной изменчивости признаков, Cx, Cy – характеристика общей изменчивости признаков. Рабочая формула для расчетов имеет вид:
r = |
|
Cxy |
|
= |
|
åxy - (åx × å y) / n |
||
|
|
|
|
|
|
. |
||
|
|
|
|
|
|
|||
Cx ×Cy |
(åx2 - (åx)2 / n) × (å y 2 - (å y)2 / n) |
|||||||
Когда степень сопряженной изменчивости признаков велика, коэффициент корреляции имеет большую величину, вплоть до r = ±1
– при функциональной зависимости. Если признаки варьируют независимо друг от друга и сопряженная изменчивость отсутствует, выборочный коэффициент корреляции приближается к нулю, хотя практически никогда не имеет арифметических нулевых значений. В любом случае для доказательства существования зависимости
Задача «Найти зависимость между двумя признаками» 191
между признаками необходимо проверить статистическую гипотезу Но: «коэффициент корреляции значимо от нуля не отличается», r = 0, т. е. «в генеральной совокупности изучаемые признаки не зависят друг от друга». Значимость отличия коэффициента корреляции от нуля оценивается с помощью критерия Стьюдента:
|
T = (r– 0)/ mr = r/ mr ~ T(0.05, n– 2), |
||||
где |
mr = |
|
1- r 2 |
|
. |
|
|||||
|
|
|
n - 2 |
||
|
Из приведенной формулы следует, что ошибка репрезента- |
||||
тивности выборочного коэффициента корреляции определяется только объемом выборки и величиной самого показателя. Это позволяет предложить таблицу значимых коэффициентов корреляции (табл. 16П), в которой приведены минимальные значимые (достоверно отличные от нуля) коэффициенты корреляции при разных объемах выборок. Если коэффициенты корреляции выше табличных, то они также значимы, если ниже, то от нуля отличаются недостоверно.
Как статистический параметр, выборный коэффициент корреляции в той или иной степени соответствует генеральному параметру. Определить диапазон возможных значений генерального коэффициента корреляции можно с помощью доверительного интервала, хотя его нельзя построить непосредственно как для других выборочных параметров: r ±T(α,df)·mr. Дело в том, что область изменений коэффициента ограничена рамками ±1, поэтому распределение выборочных коэффициентов корреляции в общем не соответствует нормальному (для него нужен диапазон изменчивости ±∞). Поэтому перед расчетом коэффициент корреляции переводят в величину,
|
æ |
1 + r ö |
|
имеющую нормальное распределение по формуле: |
z = 0.5 × lnç |
|
÷ |
|
|||
|
è |
1- r ø |
|
(или по табл. 14П, знак сохраняется), затем вычисляют ошибку ко-
эффициентов:mz |
= |
1 |
. Теперь доверительный интервал прини- |
|
|||
|
|
n - 3 |
|
мает вид: z ±T(α,df)·mz. Далее отыскиваются границы интервала: |
|||
верхняя: |
maxz = z + T(α,df)·mz |
||
и нижняя: minz = z – T(α,df)·mz.
После этого значения maxz и maxz с помощью таблицы 15П переводят-
192 Задача «Найти зависимость между двумя признаками»
ся обратно, в прежние единицы maxr, minr; это и будут границы доверительного интервала для генерального значения коэффициента корреляции.
Биологическая интерпретация коэффициента корреляции
Понятие «корреляция» имеет длительную историю использования в биологии. Важно различать два понимания этого термина – статистическое и биологическое. Корреляционный анализ как статистический метод призван лишь установить факт сопряженного варьирования двух величин. Он ничего не сообщает о каузальной обусловленности изменения одного признака при изменении другого. Причинно-следственный характер этих объективных отношений устанавливает биолог. Можно говорить о трех классах биологической корреляции – это влияние, взаимовлияние и «наведение».
Влияние – это тот случай, когда величина одного признака действительно определяется величиной другого. Число видов и численность животных зависят от благоприятных экологических условий – климата, обеспечения кормами. Например, в Карелии продолжительность безморозного периода снижается к северу, что позволяет размножаться живородящим видам почти на всей территории республики, а яйцекладущим – только в южной части; число видов рептилий увеличивается к югу. Для исследования влияний корреляционный анализ очень удобен; изучение криволинейной зависимости требует предварительного «исправления» данных.
Говоря о взаимовлиянии, подразумевают прямую и обратную связь между переменными: один признак зависит от другого, изменение которого, в свою очередь, сопряжено с первым. Самые яркие примеры этого – физиологические реакции организма и экологические отношения, например, между популяциями паразита и его хозяина. Естественный рост численности хозяина непосредственно обеспечивает рост численности паразита, который, в свою очередь, может негативно сказываться на состоянии особей хозяина, вызывая их преждевременный выход из процесса размножения и смерть, т. е. приводить к снижению численности популяции хозяина. Обратная связь – это и есть взаимовлияние. Исследовать такие отношения с помощью корреляционного анализа неэффективно, поскольку один коэффициент не в состоянии учесть двойственную природу явления.
Задача «Найти зависимость между двумя признаками» 193
Обратные связи наиболее эффективно можно исследовать с помощью динамических имитационных моделей (см. раздел 10).
Если величина обоих изучаемых признаков определяется внешней причиной, «наводится» ею извне, то между признаками можно обнаружить корреляцию в силу синхронности их реакций на этот фактор. Так, в годы роста численности рыжей полевки увеличивается и численность обыкновенной бурозубки, в другие (неблагоприятные) годы наблюдается депрессия обоих видов. Корреляция между этими показателями отражает вовсе не симбионтные (ценотические) отношения видов, но их сходную реакцию на одинаковые условия среды, не взаимное влияние видов друг на друга, а сходство видовых потребностей, причем опосредованно, – через реакцию на среду. В онтогенезе особи наблюдаются аналогичные отношения между признаками, связанными со степенью развития эмбриона. Оба признака выступают по отношению друг к другу индикаторами действия третьей силы. В этом случае корреляционный анализ также уместен.
В природе обычно наблюдается более сложная картина – величина изучаемых переменных определяется не только их связью друг с другом, но и одновременным влиянием внешних факторов. Например, развитие органов особи в онтогенезе зависит как от соседних органов (морфогенетические корреляции), так и от организма в целом (геномные, эргонтические корреляции); численность видов в ценозе определяется и общими (абиотическими, биокосными) условиями жизни в данных местообитаниях (зонах), и обилием других сочленов сообщества (объектов питания, конкурентов, хищников); токсичность стоков-загрязнителей зависит не только от их объема, происхождения, типа природной воды, но и от взаимодействия (антагонизм, синергизм) их компонентов. В процессе интерпретации биологических корреляций приходится декомпозировать сложные случаи, явно выделять направления функциональной («влияние») и косвенной («наведение») связи. Для этого следует, во-первых, контролировать (или хотя бы регистрировать) условия наблюдения и эксперимента. Во-вторых, важно осознанно формировать выборку для анализа, исходя из цели исследования, а не из имеющихся данных. В-третьих, распознать причины наблюдаемых корреляций можно, применив «сильные» статистические методы, такие как частная корреляция и компонентный анализ.
194 Задача «Найти зависимость между двумя признаками»
Направление изменчивости
Термин «направление изменчивости» характеризует способ формирования выборки для изучения зависимости между признаками. Во многом именно этот способ определяет, в какой мере объекты будут отличаться друг от друга по серии признаков, а значит, и степень коррелированности этих признаков. Обычно при исследовании зависимости биологических признаков их изменчивость не учитывается специально. Справедливо считается, что свойство «случайно варьировать» и свойство «сопряженно варьировать» (коррелировать) – разные свойства: если признаки не зависят друг от друга, то сколько не увеличивай их изменчивость, корреляции не добиться. При этом упускается из вида, что если признаки все же объективно взаимосвязаны, то выборочная мера связи, коэффициент корреляции, будет очень чувствителен к степени разнородности вариант в изучаемой выборке. Опыт свидетельствует: чем более однотипны объекты в выборке, тем ниже корреляция между их признаками (и даже случается смена знака коэффициента корреляции), но чем сильнее объекты отличаются, тем корреляция выше.
Тем не менее для исследования корреляций часто выдвигается требование «единообразия» вариант, например, чтобы особи в выборках были «одновозрастными». Тогда коэффициент корреляции принимают за оценку биологических взаимозависимостей, характерных для объектов данного типа. Этот подход как будто бы позволяет сопоставлять коэффициенты, полученные для разных групп. Так возникают похожие выводы: «скоррелированность признаков растущего листа... в среднем значительно выше, чем у листа закончившего свой рост» или «у бобров старшей возрастной группы... наблюдается ослабление значительного числа связей». Если бы авторы обратили внимание на принципиальное отличие критерия «одновозрастные» для молодых и старых организмов, то их выводы могли оказаться иными. Дело в том, что выборки, составленные с обычной методической погрешностью в определении числа прожитых дней (месяцев, лет) особей разного возраста, будут представлять различные по длительности отрезки онтогенеза. За те же 10 дней, когда старый лист никак не изменится, молодой вырастет на 30 %. В течение полугода взрослый бобр наберет лишь 5% «размера тела», а молодой – 70%. Выборки, составленные из «методически»
Задача «Найти зависимость между двумя признаками» 195
одновозрастных молодых особей, фактически будут представлять разновозрастных особей (по масштабу ростовых процессов). Выборки же взрослых, действительно, будут однородны. В первом случае облако рассеяния в пространстве признаков примет форму сильно вытянутого эллипса, во втором – близкого к окружности. Понятно, что и корреляции между признаками в группе молодых должны быть много выше, чем в группе старых. Однако вряд ли можно на этом основании делать вывод такого рода: «в ходе онтогенеза... имеет место частичная дезинтеграция», т. е. принимать особенность выборок за биологическое свойство. Аналогичные проблемы могут возникать в тех случаях, когда по уровню коррелированности сравниваются выборки объектов из дикой природы и с плантаций, из лаборатории: изменчивость (а значит, и показатель коррелированности) природных объектов всегда выше, чем у контролируемых человеком.
Помимо рассмотренного приема предлагается так подбирать выборку, «чтобы индивидуальные различия были как можно бó льшими». Но он также не лишен недостатков, поскольку при резком отличии значений вариант коэффициенты корреляции приближаются к единице, ничего не сообщая исследователю о специфике взаимоотношений разных признаков.
Видимо, полная унификация правил составления сравниваемых выборок никогда не может быть достигнута. Единственным средством формирования адекватных выводов может быть специальный учет условий, при которых данные корреляции были получены. Для характеристики этих условий мы предлагаем термин «направление изменчивости», который явно указывает на источник возникновения разнокачественных объектов. Рассмотрим основные причины появления различных значений случайных величин.
Исходной иллюстрацией является условный математический пример, когда случайная изменчивость одной переменной не сказывается на (случайной) изменчивости другой. Корреляция между переменными близка к нулю, ее направленность не выражена. Двумерное распределение имеет форму окружности, а не эллипса, не ориентировано.
В остальных случаях можно отметить три основных направления изменчивости в выборке, связанные с отличиями объектов во времени (онтогенез, этап, стадия), в пространстве (расстояние, уда-
196 Задача «Найти зависимость между двумя признаками»
ление, условия) и по статусу (габитус, зрелость, качество).
Пусть выборка составлена из ряда пар значений, полученных при наблюдении процесса через некоторые (равные или неравные) промежутки времени, как, например, серия все увеличивающихся значений размеров разных частей особей (длина и ширина листовой пластинки растения) в онтогенезе. Коэффициент корреляции будет отражать здесь связь динамики признаков во времени, т. е. временнó е (динамическое) направление. На графике двумерного распределения объекты (лист в отмеченный день наблюдений) будут ориентированы вдоль оси этого направления – от объектов меньшего размера (младшие) – к крупным объектам (старшие): наименьшие размеры пластинка имеет на ранних стадиях роста, наибольшие – на последних стадиях. Если весь период онтогенеза листа разбить на две равные части (начальную и заключительную), то корреляция между промерами на первом отрезке времени будет больше, чем на втором.
Второй случай – это изучение пространственного распределения объектов и оценка связи их признаков. Например, с севера на юг, от района к району Карелии продолжительность морозного периода уменьшается, а сумма летних температур параллельно увеличивается. Корреляция велика и достоверна: r = – 0.85. Интерпретация связи признаков должна учесть эффект неоднородности факторов среды (условия инсоляции на разных широтах), т. е. пространственную (географическую, факториальную) направленность связи признаков. Важно отметить, что если выборку ограничить лишь пятью северными районами, то коррелированность между факторами среды (вместе с изменчивостью) уменьшится.
Часто формируется выборка объектов разного статуса, когда своеобразие их «внутреннего» качества нельзя явно связать с каким-либо отличием в пространственном размещении или стадии развития. Для организмов – это различия по полу, степени зрелости, заболеванию, генотипу; для популяций, ценозов – по области распространения, параметрам структуры, стадии сукцессии, для экосистем – по типу трофности, деградации и т. п. Например, на прибайкальской равнине антропогенная трансформация коренных кедровых лесов привела к возникновению серии вторичных биотопов. Для них выявлена высокая корреляция численности двух таежных обитателей – азиатской лесной мыши и красной полевки. Это свиде-
Задача «Найти зависимость между двумя признаками» 197
тельствует о резком различии условий обитания в разных ценозах: животные обоих видов предпочитают хвойные леса и избегают открытых стаций. Налицо экологическая направленность корреляции – от биотопов, не подходящих для мышей и полевок, – к благоприятным. Еще один пример демонстрирует статику (!) развития беременности, зафиксированную в выборке перезимовавших самок красной полевки. В связи с интенсификацией экскреторной и регуляторной функций в период развития плода масса печени и надпочечников параллельно увеличивается, достигая на поздних стадиях максимального развития. Физиологическая (не динамическая!) направленность корреляции очевидна.
Чаще всего, конечно, встречается смешанный случай, когда о статусе, а также о пространственном и временнó м распределении объектов мало что известно. Это наименее информативная для эколога выборка, ибо причины зависимости признаков оказываются скрытыми. Так, в случайной выборке животных из природы всегда можно обнаружить и крупных и мелких, что проявляется в ощутимой корреляции размеров и массы. В то же время эта корреляция не будет «истинной», «видовой» характеристикой, поскольку объединяет несколько направлений сопряженного изменения признаков – и онтогенетическое (особи разного реального возраста есть и в «одновозрастной» природной выборке – в пределах точности метода возрастной диагностики), и физиологические (особи разного пола или зрелости, объединенные из-за неточности определения), и генетические (индивидуальные, популяционные, расовые особенности), и экологические (отличие условий роста и жизни в разных местообитаниях, в разные годы). В любой выборке, имеющей близкое к эллипсу двумерное распределение, можно выделить несколько направлений коррелятивной изменчивости.
Разобраться в пересечении разных направлений изменчивости признаков, выяснить причины их сопряженного изменения можно, если специально разрабатывать метод сбора биологических данных, стремясь учесть все источники варьирования. К этому нужно подходить ответственно.
Термин «направление изменчивости», или «направление корреляции», заставляет рассматривать коэффициент корреляции как не абсолютную, а контекстуальную характеристику связи признаков, проявившуюся именно в данной совокупности.
198Задача «Найти зависимость между двумя признаками» Техника расчета линейного коэффициента корреляции
Часто ее наличие пытаются оценить на глаз с помощью графиков. Однако даже если и удается определить сам факт коррелятивной взаимосвязи, то степень ее остается неизвестной. Корреляционный анализ призван количественно выразить связь и определить ее достоверность.
Конструкция коэффициента корреляции в своей основе имеет линейную математическую модель (метод наименьших квадратов). Поэтому единичное значение коэффициент корреляции принимает лишь тогда, когда все точки графика зависимости переменных лежат на одной прямой линии. Во всех остальных случаях он будет отличаться от единицы.
Способ вычисления коэффициента корреляции показан на примере исследования зависимости между живым весом коров и их приплода (кг) (табл. 8.3, стр.175). Рассчитываются квадраты вариант и их произведения, а также суммы значений, их квадратов, произведений, другие вспомогательные величины:
Cxy = Σ(x·y)– (Σx)·(Σy)/n = 103144–3150 ·224/ 7 = 2344 Cy = Σy²–(Σy)²/n = 7330–224²/ 7 = 162,
Cx = Σx²–(Σx)²/n = 1453158–3150²/ 7 = 35658.
Затем вычисляется коэффициент корреляции:
r = |
|
Cxy |
|
= |
|
2344 |
|
|
= 0.975, |
|||
|
|
|
|
|
|
|
|
|||||
Cx ×Cy |
35658 ×162 |
|||||||||||
|
|
|
|
|
|
|
|
|||||
его ошибка: |
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|||
mr = |
|
1 - r 2 |
|
= |
|
1 - 0.9752 |
|
= 0.099 |
||||
|
n - 2 |
|
|
7 - 2 |
|
|||||||
|
|
|
|
|
|
|
|
|
|
|||
и критерий Стьюдента, проверяющий нулевую гипотезу Но: «коэффициент корреляции достоверно от нуля не отличается», r = 0.
Tr = r/ mr = 0.975/ 0.099 = 9.84.
То, что эта величина значительно превышает табличную (для уровня значимости α = 0.05 и числе степеней свободы df = п– 2 = 5 T(0.05,5) = 2.57), говорит о высокой статистической значимости полученного коэффициента корреляции.
По таблице 6П определяется уровень значимости коэффициента корреляции. Полученное значение критерия Tr = 9.84 превышает порог даже для уровня значимости α = 0.001, т. е. шанс ошибоч-
Задача «Найти зависимость между двумя признаками» 199
ного заключения даже ниже 1 на 1000, иначе вероятность справедливости заключения очень высока, P>0.999.
Оценить достоверность отличия коэффициента корреляции от нуля можно, не прибегая к вычислению ошибки и критерия Стьюдента. Для этого служит специальная таблица 16П, в которой указаны минимальные значимые значения коэффициента корреляции при разных объемах выборок и уровне значимости. Чтобы полученный коэффициент корреляции можно было считать достоверным, он должен превышать табличное значение при данном n. В нашем случае (n = 7, α = 0.05) достоверно уже значение r = 0.666, полученный коэффициент корреляции (r = 0.975) превышает табличное, следовательно, также значим.
Доверительный интервал для нашего случая (r = 0.975, α = 0.05, п = 7, df = п– 2 = 5, T(0.05,5) = 2.57) рассчитывается так. Преобразуем r:
æ1 + 0.975 |
ö |
|
|
|
|
|
|
||
z = 0.5 × lnç |
|
÷ |
= |
2.184724 (по таблице 14П z = 2.0923). |
|||||
|
|||||||||
è1 - 0.975 |
ø |
|
|
|
|
|
|
||
Ошибка составит: mz |
= |
1 |
= 0.5. |
||||||
|
|
|
|||||||
7 - 3 |
|||||||||
|
|
|
|
|
|
||||
Определяем верхнюю границу:
maxz = z+T(α,df)·mz = 2.09+2.57·0.5 = 3.375, нижнюю границу:
minz = z+T(α,df)·mz = 2.09–2.57 ·0.5 = 0.805.
Обратное преобразование (по табл. 15П) дает: maxr ≈ 1.00, minr ≈ 0.67. Истинный коэффициент корреляции находится в диапазоне от r = 0.67 до r = 1.00.
В среде Excel существует несколько путей поиска корреляций. Отдельный коэффициент корреляции между двумя переменными проще всего определить с помощью статистической функции = КОРРЕЛ(диапазонX;диапазонY). Аналогичный результат дает регрессионный анализ с помощью макроса, вызываемого командой меню Сервис\ Анализ данных\ Регрессия. Когда изучаются два признака, Множественный R на самом деле является парным коэффициентом корреляции между ними. Для расчета корреляций между несколькими переменными можно использовать программу, вызываемую командой меню Сервис\ Анализ данных\ Корреляция. Результатом ее работы оказывается матрица коэффициентов корреляции.
