
Индекс корреляции распутывает сложные связи
Все рассмотренные выше примеры анализа корреляции относились к таким зависимым и независимым переменным, которые находились друг с другом в прямолинейной связи, т. е. с увеличением или уменьшением значения независимой переменной происходило равномерное увеличение или уменьшение зависимой переменной. Однако, как уже известно, переменные могут находиться и в криволинейной зависимости, при которой в пределах вариации переменных имеют место противоположные изменения их значений (см. с. 76—77): с ростом значения фактора величина результирующей переменной неравномерно то возрастает, то понижается. Если переменные находятся в криволинейной зависимости, которая выражается уравнениями регрессии типа параболы, гиперболы и другими, то коэффициент корреляции занижает тесноту связи. Его значение может быть даже равно нулю, в то время как в действительности между переменными была тесная связь. При криволинейных формах связи между переменными необходимо пользоваться индексом корреляции (его называют также и корреляционным отношением). Вот два очень показательных примера.
При анализе зависимости между уровнем ренты и со стоянием крестьянского хозяйства в Эстонии XVII — первой половины XIX в. коэффициент корреляции оказался незначительным — 0.36, коэффициент детерминации — 0.362=0.13. Отсюда следовал вывод: уровень ренты всего на 13% определялся состоянием крестьянского хозяйства, господствовал произвол помещика. Однако индекс корреляции составил 0.86, а индекс детер-
111
минации — 0.73. Отсюда можно сделать вывод: состояние крестьянского хозяйства на 73% обусловливало уровень ренты, т. е. являлось решающим фактором в определении помещиком размеров повинпостей. Вследствие криволинейной формы зависимости между рентой и состоянием крестьянского хозяйства коэффициент корреляции недооценил тесноту связи. И еще один важный вывод вытекает из нелинейной зависимости между рентой и состоянием крестьянского хозяйства. При установлении размеров ренты помещик стремился заинтересовать крестьянина в результатах своего труда и с этой целью вынужденно «делился» с последним дополнительным доходом, который получало исправное, крепкое крестьянское хозяйство от своей хозяйственной деятельности. Если бы помещик забирал весь дополнительный доход исправного крестьянского хозяйства, рента возрастала бы прямо пропорционально, т. е. линейно, с ростом состояния крестьянского хозяйства.
Второй пример. Исследовалось, какое влияние на производительность труда советского рабочего в 60-е годы оказывали стаж работы, возраст, образование, количество поданных рабочим рационализаторских предложений, заработная плата и количество смежных специальностей, которыми владел рабочий. Результаты корреляционного анализа приведены в табл. 12.
ТАБЛИЦА 12
Зависимость между производительностью труда советского рабочего и ее факторами в 60-е годы XX в.
Фактор
Коэффициент корреляции
Индекс корреляции
Стаж работы
Возраст
Образование
Количество смежных специальностей . . Количество рационализаторских предло жений
Заработная плата
0.250 0.212 0.094 0.176
0.119 0.451
0.426 0.415 0.107 0.252
0.177 0.560
Из данных табл. 12 видно, что индекс корреляции для всех 6 факторов оказался в 1.5—2 раза больше соответствующих коэффициентов корреляции. Отсюда еле-
112
дует, что связь между производительностью труда и ее факторами нелинейная и между ними нет прямо пропорциональной зависимости.
Для получения верного индекса корреляции нужно иметь больше данных, чем для получения правильного коэффициента корреляции. Последний вычисляется значительно проще и быстрее, чем индекс корреляции.
Таким образом, подобно коэффициенту корреляции индекс корреляции есть отношение объясненной вариации зависимой переменной к общей ее вариации, а индекс детерминации — квадрат индекса корреляции (г]2) — оценивает долю изменчивости зависимой переменной за счет воздействия фактора или долю и силу влияния фактора на зависимую переменную.
Необходимо иметь в виду, что в некоторых случаях между переменными наблюдается не зависимость типа причина—следствие, а взаимодействие и взаимовлияние, Тогда одна переменная может рассматриваться и как зависимая, и как независимая, что обусловливается целями исследования. Например, если анализируется влияние разных факторов на производительность труда, то образование, возраст, заработная плата выступают как независимые переменные (факторы), а производительность труда — как зависимая или результирующая переменная. Но если перед исследователем стоит задача выяснить влияние разных условий на заработную плату, то тогда заработную плату следует рассматривать как зависимую, а производительность труда — как независимую переменную. Подобная ситуация нередко имеет место и при криволинейных, и при линейных связях между переменными. Так, при выяспении влияния размера дворяпских имений на их доходность размер имения при такой постановке вопроса рассматривается как независимая переменная, или фактор, а доходность — как зависимая, или результирующая, переменная. Если же исследователь ставил цель определить влияние доходности имения на его размер (такая постановка вопроса вполне правомерна, поскольку помогает выяснить очень важный вопрос: производительно или паразитически владельцы имений расходовали доход, или прибавочный продукт?), то тогда доходность имения следует рассматривать как независимую переменную, а размер имения — как зависимую.