Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Ермолаев О.Ю. Математическая статистика.doc
Скачиваний:
369
Добавлен:
13.08.2019
Размер:
23.04 Mб
Скачать

11.2. Коэффициент корреляции Пирсона

Термин «корреляция» был введен в науку выдающимся анг­лийским естествоиспытателем Френсисом Гальтоном в 1886 г. Однако точную формулу для подсчета коэффициента корреля­ции разработал его ученик Карл Пирсон. Знакомство с корреля­ционным анализом мы начнем с изучения этого коэффициента. Сам коэффициент характеризует наличие только линейной свя­зи между признаками, обозначаемыми, как правило, символами X и Y. Формула расчета коэффициента корреляции построена таким образом, что, если связь между признаками имеет ли­нейный характер, коэффициент Пирсона точно устанавливает тесноту этой связи. Поэтому он называется также коэффициен­том линейной корреляции Пирсона. Если же связь между пере­менными X и Y не линейна, то Пирсон предложил для оценки тесноты этой связи так называемое корреляционное отношение (см. 11.9).

Величина коэффициента линейной корреляции Пирсона не может превышать +1 и быть меньше чем -1. Эти два числа +1 и -1 — являются границами для коэффициента корреляции. Когда при расчете получается величина большая +1 или меньшая -1 -следовательно произошла ошибка в вычислениях.

Если коэффициент корреляции по модулю оказывается близким к 1, то это соответствует высокому уровню связи меж­ду переменными. Так, в частности, при корреляции перемен­ной величины с самой собой величина коэффициента корреля­ции будет равна +1. Подобная связь характеризует прямо про­порциональную зависимость. Если же значения переменной X будут распложены в порядке возрастания, а те же значения (обозначенные теперь уже как переменная У) будут распола­гаться в порядке убывания, то в этом случае корреляция между переменными X и У будет равна точно -1. Такая величина ко­эффициента корреляции характеризует обратно пропорцио­нальную зависимость.

Знак коэффициента корреляции очень важен для интерпре­тации полученной связи. Подчеркнем еще раз, что если знак ко­эффициента линейной корреляции — плюс, то связь между кор­релирующими признаками такова, что большей величине одно-

208

го признака (переменной) соответствует большая величина дру­гого признака (другой переменной). Иными словами, если один показатель (переменная) увеличивается, то соответственно уве­личивается и другой показатель (переменная). Такая зависимость носит название прямо пропорциональной зависимости.

Если же получен знак минус, то большей величине одного признака соответствует меньшая величина другого. Иначе гово­ря, при наличии знака минус, увеличению одной переменной (признака, значения) соответствует уменьшение другой пере­менной. Такая зависимость носит название обратно пропорцио­нальной зависимости. При этом выбор переменной, которой приписывается характер (тенденция) возрастания — произволен. Это может быть как переменная X, так и переменная Y. Однако если психолог будет считать, что увеличивается переменная X, то переменная Y будет соответственно уменьшаться, и наоборот. Эти положения очень важно четко усвоить для правильной ин­терпретации полученной корреляционной зависимости.

В общем виде формула для подсчета коэффициента корреля­ции такова:

(11.1)

где xi — значения, принимаемые переменной X, yi значения, принимаемые переменной Y; x - средняя по X, у - средняя по Y.

Расчет коэффициента корреляции Пирсона предполагает, что переменные X и Y распределены нормально.

Формула (11.1) предполагает, что из каждого значения xi пе­ременной X, должно вычитаться ее среднее значение х. Это не­удобно. Поэтому для расчета коэффициента корреляции исполь­зуют не формулу (11.1), а ее аналог, получаемый из (11.1) про­стыми преобразованиями:

(11.2а)

209

где

или модификацию этой формулы:

(11.2b)

Согласно формулам (] 1.2а и 11.2b) необходимо подсчитать сум­му каждой переменной, сумму квадратов каждой переменной и сумму последовательных произведений переменных друг на друга. Подчеркнем, что сумма квадратов — не равняется квадрату суммы!

Обратим внимание читателя еще вот на какое обстоятельство. В формуле (11.1) встречается величина

(11.3)

При делении на п (число значений переменной X или Y) она называется ковариацией. Выражение (11.3) может быть подсчи­тано только в тех случаях, когда число значений переменной X равно числу значений переменной К и равно п. Формула (11.3) предполагает также, что при расчете коэффициентов корреля­ции нельзя произвольно переставлять элементы в коррелируемых столбцах, как это мы делали, например, в случае расчета по критерию 5 Джонкиера.

Используя формулу 11.2, решим следующую задачу.

Задача 11.1. 20 школьникам были даны тесты на наглядно-образное и вербальное мышление. Измерялось среднее время решения заданий теста в секундах. Психолога интересует вопрос: существует ли вза­имосвязь между временем решения этих задач? Переменная Xобозначает среднее время реше­ния наглядно-образных, а переменная Yсред­нее время решения вербальных заданий тестов.

210

Решение. Представим исходные данные б виде таблицы П.2, в которой введены дополнительные столб­цы, необходимые для расчета по формуле (I l.2b). В таблице даны индивидуальные значения пере­менных X и Y, построчные произведения пере­менных X и Y, квадраты переменных всех индиви­дуальных значений переменных X и У, а также суммы всех вышеперечисленных величин.

Таблица 11.2

№ испы-

тумых п/п

X

У

X•Y

X•X

YY

Среднее время решения наглядно-образных заданий

Среднее время решения вербаль­ных за­даний

1

19

17

323

361

289

2

32

7

224

1024

49

3

33

17

561

1089

289

4

44

28

1232

1936

784

5

28

27

756

784

729

6

35

31

1085

1225

961

7

39

20

780

1521

400

8

39

17

663

1521

289

9

44

35

1540

1936

1225

10

44

43

1892

1936

1849

11

24

10

240

576

100

11

37

28

1036

1369

784

13

29

13

377

841

169

14

40

43

1720

1600

1849

15

42

45

1890

1764

2025

16

32

24

768

1024

5760

17

48

45

2160

2304

2025

18

42

26

1092

1764

676

19

33

16

528

1089

256

20

47

26

1222

2209

676

Сумма

731

518

20089

27873

16000

211

Рассчитываем эмпирическую величину коэффициента корре­ляции по формуле 11.2b:

Определяем критические значения для полученного коэффи­циента корреляции по таблице 20 Приложения. Особо отметим, что в таблице 20 Приложения величины критических значений коэффициентов линейной корреляции Пирсона даны по абсо­лютной величине. Следовательно, при получении как положи­тельного, так и отрицательного коэффициента корреляции по формуле (11.2) оценка уровня значимости этого коэффициента проводится по той же таблице 20 Приложения без учета знака, а знак добавляется для дальнейшей интерпретации характера свя­зи между переменными X и Y.

При нахождении критических значений для вычисленного коэффициента линейной корреляции Пирсона rэмп число степе­ней свободы рассчитывается как k = п - 2. В нашем случае k = 20, поэтому n - 2 = 20-2 = 18. В первом столбце таблицы 20 Прило­жения в строке, обозначенной числом 18, находим:

Строим соответствующую «ось значимости»:

Ввиду того что величина расчетного коэффициента корреля­ции попала в зону значимости — гипотеза Н0 отвергается и при­нимается гипотеза Н1 Иными словами, связь между временем

212

решения наглядно-образных и вербальных задач статистически значима на 1% уровне и положительна. Полученная прямо про­порциональная зависимость говорит о том, что чем выше сред­нее время решения наглядно-образных задач, тем выше среднее время решения вербальных и наоборот.

Для применения коэффициента корреляции Пирсона, необхо­димо соблюдать следующие условия:

1. Сравниваемые переменные должны быть получены в интер­вальной шкале или шкале отношений.

2. Распределения переменных X и Y должны быть близки к нор­мальному.

3. Число варьирующих признаков в сравниваемых переменных X и Y должно быть одинаковым.

4. Таблицы уровней значимости для коэффициента корреляции

Пирсона (таблица 20 Приложения) рассчитаны от п = 5 до п = 1000. Оценка уровня значимости по таблицам осуществ­ляется при числе степеней свободы k = п - 2.