Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Лакин Г.Ф. Биометрия учеб. пособие

.pdf
Скачиваний:
150
Добавлен:
25.10.2023
Размер:
16.09 Mб
Скачать

Пользуясь этой таблицей, подставляем в формулу Юла соответ­ ствующие значения и находим величину коэффициента ассоциа­ ции:

га =

7 5 X 6 8 -

14X 16

5 1 0 0 - 224

4876

■ -

--------- =

..—_ = -------= 0,65.

 

1/89X84 X91 X 82

У55785912

7469

Коэффициент ассоциации выражается в долях единицы, как и пирсоновский коэффициент корреляции, его величина изменяет­ ся в пределах от нуля до единицы. Чем сильнее связь между признаками, тем выше и коэффициент ассоциации. В данном слу­ чае зависимость между окраской тела и развитием крыльев у дрозофилы налицо; она оказалась довольно заметной.

Достоверность выборочного коэффициента ассоциации оцени­

вается по его отношению

к средней ошибке,

определяемой по

сЬопмѵле

1 - г 2

n

 

1 — 0,652 ПЛ

гпг — -----—

• В данном случае тг =

---- = 0,04,

ѵ F J

фп

 

 

У173

откуда t =

— = 16 25 >

3 • Еще проще оценка коэффициента

 

0,04

 

 

 

ассоциации по табл. XV приложений. Нулевая гипотеза заключа­ ется в предположении, что связь между учитываемыми альтер­

нативными признаками отсутствует. Если величина г У п —1 превосходит указанное в таблице критическое значение для при­ нятого уровня вероятности, нулевая гипотеза отвергается. Так, в

данном случае г У п — 1=0,65 V 173—1=8,52. Эта величина зна­ чительно превышает критическое значение — 3,291, указанное в табл. XV для Р 0,999 и п>100.

Между коэффициентом ассоциации Юла и критерием хи-квад- рат Пирсона существует следующая зависимость:

 

Га = Ух2/«,

(116);

откуда

у2 _ п г 2 Также известно, что

 

 

n(ad — cb) 2

(см. выше ф. 89).

^

Т~ Ь) (с -(- d) (а с) (b + d)

 

Эти формулы позволяют рассчитать коэффициент ассоциации и оценить его по величине критерия хи-квадрат. Если х<У^ЪГу для принятого порога доверительной вероятности (Р) и числа степеней свободы k= \ коэффициент ассоциации является досто­ верным. Так, для данного примера

 

173(75X 68— 14 X 16)2

173Х48762

1

89X 84 X91 X 82

55785912

216

откуда

 

73 1

 

У Т7у = І 0 Ж = 0,65.

 

По табл. VIII приложений для /г=1 и Д = 0,01 находим % s t 2

= 5,6.

Так как % 2 = 73,1>х«г2 = 6,6, достоверность вычисленного

коэф­

фициента ассоциации не вызывает сомнений.

 

Одним из условий правильного применения коэффициента ас­ социации является требование, чтобы ни одна из теоретических частот четырехклеточной корреляционной таблицы не была бы меньше 5 (Снедекор, 1961). Напомним, что теоретические часто-

ты (р'ху) определяются по формуле

tl

fl

_ Например,

р'ху — ■

ѵ

 

 

 

п

 

для четвертой

клетки табл. 72

теоретическая

частота d' =

84X 82

 

 

 

 

= - Ц з - = 4

0 ,,І' д'

 

 

 

При установлении сопряженности между признаками на матери­ але генеральной совокупности указанное требование можно не соблюдать.

Смотря по объему и качеству выборки, коэффициент ассоциа­ ции, вычисляемый по формуле 115, может оказаться несколько завышенным. Поэтому более точные результаты получаются при определении этого показателя по следующей исправленной фор­ муле:

(ab be) — 1/ 2п

y(a + b)(c + d)(a + c)(ö + d) '

(115а)

Для нашего примера коэффициент ассоциации, рассчитанный по этой формуле, оказывается равным:

 

4876— 173/2

4789,5

Га~~

7469

— 7469 ~ ’ L

Коэффициент взаимной сопряженности

Когда необходимо измерить корреляционную зависимость между несколькими качественными признаками, группируемыми в многоклеточные таблицы, используется коэффициент взаимной сопряженности (К), называемый также полихорическим показа­ телем связи (Плохинский, 1960). Он определяется по следующей формуле:

К = У ~ .

(117)

Г у/г

217

/

Здесь cp2 — показатель взаимной сопряженности, равный

ф2+ 1

П ѵ

где рху — частоты в клетках корреляционной таблицы; пѵ— сум­ ма частот по столбцам, а пх — сумма частот по строкам корреля­ ционной таблицы; k —(a—1) (b—1 )— число степеней свободы, где а — число классов или градаций признака по строкам, b — число классов по столбцам корреляционной таблицы.

Так как величина фи-квадрат (ф2) зависит от числа классов (т. е. строк и столбцов корреляционной таблицы), а также и от общего числа наблюдений (п), при вычислении ф2 на выборках небольшого объема и при наличии малого числа классов следует

вносить поправку —

(а— 1)п(Ь — 1)

 

------- _ ------- —, которая вычитается из фи-

квадрат, т. е.

 

 

 

 

ф2

1

Пѵ

1

п

 

[ А

п

, \ -

 

Коэффициент взаимной сопряженности — величина относи­ тельная; он изменяется в пределах от нуля до единицы и всегда имеет положительный знак. Чем сильнее сопряженность между признаками, тем ближе к единице и величина коэффициента со­ пряженности.

Оценка достоверности выборочного коэффициента взаимной сопряженности производится с помощью критерия хи-квадрат, определяемого по формуле (Плохинский, 1970):

Хг = П(р2.

Если для принятого порога доверительной вероятности (Р) и чис­ ла степеней свободы k= 1) 1) Хф2 ^ Х ^ 2, это служит ука­ занием на статистическую достоверность выборочного коэффици­ ента сопряженности. Приведем соответствующий пример (по Ф. Н. Деревицкому из В. Иогансена, 1933, с изменениями). Чтобы выяснить, существует ли связь между цветом глаз и цветом во­ лос у человека, было обследовано 900 лиц обоего пола. Результа­ ты оказались следующие (табл. 73).

Вычисляем коэффициент взаимной сопряженности между этими признаками. В табл. 74 показан расчет величины ф2 + 1.

В клетках табл. 74 значения рху, и их квадраты (рху2) помещены в

 

2

скобках, а ниже — отношения

. Например, ржУ2 = 1702 =

 

пѵ

2 1 8

 

 

 

 

 

 

Т а б л и ц а

73

 

 

 

Группы по цвету волос

 

 

 

 

Цвет глаз

 

блондины

шатены

рыжие

 

Всего

 

 

 

 

 

 

Голубой .............................

170

 

80

5

 

 

255

 

Серый ................................

70

 

152

8

 

 

230

 

Карий .................................

68

 

340

7

 

 

415

 

В с е г о . . .

308

 

572

20

 

 

900

 

 

 

 

 

 

 

Т а б л и ц а

74

г

Блондины

Шатены

Рыжие

Всего

V

Р*ѵ

■„

 

X

 

Ь

пу

пх

 

 

 

 

 

 

 

 

 

Голубые

170(28 900)

80(6 400)

5(25)

255

106,27

 

 

93,83

11,19

1,25

106,27

• 255

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Серые

70(4900)

152(23 104)

8(64)

230

59,50

-- U •аіОУ

15,91

40,39

3,20

59,50

230

 

 

 

 

 

 

 

 

Карие

68(4 624)

340(115 600)

7(49)

415

219,56

 

 

15,01

202,10

2,45

219,56

------ 1----- = 0,529

 

 

 

 

 

 

415

 

 

Сумма ( пу)

308

472

20

900

<р2 +

1 =

1,205

 

2

 

 

 

 

 

 

 

 

 

= 28 900; !* > =

28900:308 =

93,83;

p ^ 2 = 802 = 6400;

рхѵ2 /пѵ =

Пу

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

= 6400 : 572= 11,19 и т. д. Суммируя величины

по строкам,

 

 

 

 

 

 

Пу

 

 

 

2

 

 

 

 

 

 

 

 

 

находим 2

. Например,

93,83+11,19 + 1,25=106,27.

Затем

Пу

 

 

 

 

 

 

 

 

 

эти величины относим к сумме частот по строкам (пх) и получаем

2

 

2 Е^1:Пх

(см. последнюю графу табл. 74). Суммируя полученные

Пу

 

значения,

находим ф2+ 1 =0,417 + 0,259 + 0,529= 1,205, откуда

Ф2=0,205. Число классов по строкам и по столбцам равно трем, т. е. а = 3 и ö = 3. Подставляем известные значения в формулу 117

219

и определяем коэффициент взаимной сопряженности между цве­ том глаз и цветом волос у человека:

К

0,205

У

0,205

Ѵ(3— 1) ( 3 - 1)

У0,102 = 0,32.

Можно сказать, что связь между указанными признаками суще­ ствует, но она не очень велика. Поправку к величине ф2 в данном случае не вносим, так как при п = 900 она не скажется на величи­ не коэффициента сопряженности.

Оценим достоверность этого показателя:

%2 Ф= ПФ2 = ^OOX

Х0,205= 184,5. По

табл. VIII приложений

для

Р = 0,99

и k =

—(3—1) (3—1) =4

находим x2s< = 13,3. Так

как %\>%2 st,

вычис­

ленный коэффициент = 0,32) является в высшей степени досто­ верным.

У?

Поскольку ф2 = — ^формула 117 легко преобразуется, прини-

п

мая следующее выражение:

К =

(118)

Следовательно, показатель взаимной сопряженности можно оп­

ределить по критерию хи-квадрат, используя для этого формулу

_ рі\2

118. Покажем это на том же примере. Расчет значений---------—

Р1

приводится в табл. 75. Суммируя эти значения, находим величи­ ну хи-квадрат: %2 = 120,05 + 2,82 + 61,16= 184,03. Подставляем из­ вестные значения в формулу 118:

__ 184,03

-і/

184,03

У0,102 — 0,32.

к = У 900У(3 — 1) ( 3 - 1)

'

=

1800

 

Как и следовало ожидать, получился

тот же

результат, что и

выше.

 

 

 

Как и в отношении коэффициента ассоциации, при вычисле­ нии выборочного коэффициента взаимной сопряженности следу­ ет добиваться того, чтобы теоретические частоты, рассчитывае­ мые для каждой клетки корреляционной таблицы по формуле

fl

fl

-) не были бы меньше 5. Это условие может не вы-

р'ху = --

------

 

п

 

подняться лишь при измерении сопряженности между признака­ ми по данным генерального учета.

220

 

 

 

 

 

Т а б л и ц а 75

_____

Блондины

Шатены

Рыжие

Сумма (пх )

 

 

Голубоглазые

р

170

80

5

255

 

d

87,267

162,067

5,666

255

 

82,733

82,067

0,666

 

d2

6844,746

6734,992

0,444

 

d V p '

78,43

41,55

0,07

120,05

Сероглазые

р

70

,152

8

230

 

P'

78,711

146,178

5,111

230

 

d

8,711

5,822

2,889

 

d2

75,882

33,896

8,346

 

d2!p '

0,96

0,23

1,63

2,82

Кареглазые

p

68

340

7

415

 

P'

142,022

263,756

9,222

415

 

d

74,022

76,244

2,222

 

d.2

5479,256 '

5813,148

4,937

 

d 2l p'

38,58

22,04

0,54

61,16

Сумма

(пу) . . ..

308

572

20

900

Ранговый коэффициент корреляции

Наряду с параметрическими показателями корреляционной связи существуют и нѳпараметрические, или порядковые, пока­ затели, применяемые в тех случаях, когда изучаемые объекты ранжируются по учитываемым в опыте признакам. Наиболее из­ вестным непараметрическим Показателем связи является ранго­ вый коэффициент корреляции Спирмена (С. Spearmen, 1904), определяемый по формуле

62d2

(119)

п(п2— 1)

Здесь 2-— знак суммирования; d — разность между рангами со­ пряженных значений признаков X и У, т. е. d = x eу р; п — объем выборки или общее число парных наблюдений.

В основу конструкции этого показателя положены весьма про­ стые соображения. Чтобы выяснить, существует ли связь между признаками Х и У, нужно ранжировать их значения и наблюдать, как они располагаются по отношению друг к другу. Если возра­ стающим (или убывающим) значениям одного признака (X) со­ ответствуют возрастающие же значения другого признака (У), то

221

между ними налицо положительная связь. Если же при возраста­ нии значений одного признака значения другого последователь­ но убывают, это свидетельствует о наличии отрицательной связи между ними. Когда же связь между признаками отсутствует, ранжированным значениям одного из них будут соответствовать неупорядочивающиеся значения другого признака.

Обозначив ранжированные значения признаков порядковыми числами натурального ряда, мы можем рассчитать ранги этих значений и по их разности судить о степени сопряженности между признаками. Очевидно, при полной (функциональной) связи ран­ ги ранжированных значений признаков полностью совпадут меж­ ду собой и разность между ними будет равняться нулю. В таких случаях Гр =1. Если же признаки X и Y варьируют независимо друг от друга, то

62сР _

я(я2 — 1)

иранговый коэффициент будет равен нулю. Таким образом, как

ипараметрический коэффициент корреляции, ранговый коэффи­ циент может изменяться в пределах от нуля до единицы, т. е. он выражается долями единицы и сопровождается одним — положи­ тельным ( + ) или отрицательным (—) знаком.

Технику вычисления порядкового коэффициента Спирмена легче усвоить из соответствующего примера. Воспользуемся уже знакомыми нам данными о связи между живым весом (X) и

количеством гемоглобина в крови (К) у павианов-гамадрилов и вычислим для них ранговый коэффициент корреляции. Ранжиру­ ем варианты по X, т. е. расположим значения живого веса в воз­ растающем порядке и определим их ранги. Для удобства расче­ та рангов порядковые числа вариант запишем в первом столбце расчетной таблицы (табл. 76).

 

 

 

 

 

 

 

 

Т а б л и ц а

76

 

 

 

Ранги

рядов

 

 

Расчет ранга У

 

п/п

Вес

Ни %

 

 

Xp— Yp=d

d ‘

 

 

 

(X)

(У)

Хр

Ур

3$ п/п

У

у?

 

 

 

 

 

1

17,7

74

1

3

— 2,0

4,00

1

70

1

2

18

70

2,5

1

+ 1,5

2,25

2

. 72

2

3

18

80

2,5

6,5

-4,0

16,00

3

74

3

4

19

72

4,5

2

+2,5

6,25

4

76

4

5

19

77

4,5

5

-0,5

0,25

5

77

5

6

20

76

6

4

+2,0

4,00

6

80

6,5

7

21

89

7

9

-2,0

4,00

7

80

6,5

8

22

80

8

6,5

+ 1,5

2,25

8

86

8

•9

30

86

9

8

+ 1,0

1,00

9

89

9

Сумма . . .

40,00

2 2 2

Если бы отдельные варианты не повторялись, их рангами бы­ ли бы порядковые числа, помещенные в первом столбце табл. 76. Но так как некоторые варианты повторяются, например вариан­ ты 18 и 19 (см. ряд X), то их рангами будут среднеарифметиче­ ские из соответствующих порядковых чисел. Так, для варианты 18 ранг определяется как полусумма порядковых чисел 2 и 3, т. е. (2+ 3) : 2= 2,5. Для следующей варианты 19 ранг выражается

полусуммой (4+ 5) : 2 = 4,5. Таким

же образом

рассчитываются

ранги по ряду Y, как это показано

в крайних

справа столбцах

табл. 76, и заносятся эти ранги на присущие им места в общем строю вариант. Когда эта наиболее ответственная работа закон­ чена, остается взять разность между рангами, возвести ее в квад­ рат и результаты просуммировать, как показано в одной из граф табл. 76. Подставляя известные значения в формулу Спир­ мена, находим величину рангового коэффициента корреляции:

6X 40

_

240

9(92 — 1)

~

1 - 0,33 = 0,67.

” 9X 80

Как и всякий выборочный показатель, коэффициент ранговой корреляции является величиной случайной, и поэтому нуждается в оценке достоверности его значений. Как и в других случаях, нулевая гипотеза заключается в предположении, что в генераль­ ной совокупности г = 0, т. е. отсутствии корреляции между приз­ наками X и У. Критерием оценки этой гипотезы может служить выражение

У п — 2

tr — Гр

1- г2 '

Нулевая гипотеза отвергается, если іфпревысит критическое зна­

чение 1st (или будет равен ему), указанное в таблице Стьюдентэ для выбранного уровня значимости (Р ) и числа степеней свобо­ ды k = n — 2. Этот критерий дает более или менее надежную оцен­ ку при наличии не менее 9—10 парных наблюдений. Однако более точными критериями оценки выборочного показателя корреля­ ции рангов могут служить его критические (стандартные) значе­ ния, определяемые по следующим формулам (по Урбаху, 1964):

 

для Р — 0,05 —

1,96

/

0,16

\

 

tr

'

п — 1

'

 

 

Уп — 1

и

для Р = 0,01 —

2,58

/

0,69

\

U

 

п V

 

 

Уп — 1 '

Нулевая гипотеза отвергается, если іф> і5і для принятого уровня

значимости (Р) и соответствующего числа наблюдений (п). Так, в отношении взятого примера для Р = 0,05 и п — 9 находим:

223

tr =

- —

1 - - 1— = 0,692 X 0,98 = 0,678 = 0,68.

 

У9 — 1 '

9 — 1'

Так как

0,67<4г = 0,68, нулевую гипотезу отвергнуть нельзя.

Вопрос о наличии связи между весом тела и количеством гемо­ глобина в крови у гамадрилов остается открытым.

Чтобы не затруднять себя расчетами, связанными с указан­ ными формулами, для оценки выборочного показателя ранговой

корреляции

составлена специальная таблица (см. приложения

табл. XVII),

в которой приведены критические значения tr для

разных чисел парных наблюдений (п) и двух уровней значимости

(Р = 0,05 и Р = 0,01).

Достоинство рангового коэффициента корреляции заключает­ ся в простоте его конструкции и в том, что он позволяет измерять степень сопряженности между варьирующими признаками неза­ висимо от закона их распределения и формы связи. Ранговый коэффициент позволяет измерять связь между признаками, кото­ рые не поддаются точному количественному измерению, но могут быть ранжированы по местоположению, занимаемому ими в об­ щей совокупности наблюдений. Вместе с тем показатель ранго­ вой корреляции не обладает той степенью точности, которая при­ суща параметрическим показателям связи — коэффициенту кор­ реляции и корреляционному отношению. Поэтому вычисляемые на одном и том же выборочном материале эти показатели связи могут заметно и даже сильно отличаться друг от друга по их абсолютной величине. Например, корреляция между весом самок гамадрилов и возрастом, в котором у них наступает первый по­ ловой цикл, выражается следующими величинами параметриче­ ских показателей связи: %/* = (),85; 11^=0,92 и г=+0,25. Вычис­ ленный для этих признаков ранговый коэффициент корреляции (вычисления предлагается проделать самому читателю) оказал­ ся равным 0,39. Видно, что эта величина более чем в два раза меньше коэффициентов корреляционного отношения У по X и

X по Y.

Ранговый коэффициент корреляции следует использовать лишь в тех случаях, когда по тем или иным причинам невозмож­ но применение параметрических показателей. К таким случаям относятся объекты, распределение которых сильно отличается от нормального или когда закон их распределения остается невыяс­ ненным, а также и в тех случаях, когда варьирующие признаки оцениваются баллами или другими условными единицами изме­ рения, и связь между ними определяется лишь общим направле­ нием изменчивости, что и позволяет ранжировать совокупность наблюдений. Во всех таких случаях показатель ранговой корре­ ляции может найти самое широкое применение. Но он не может и не должен подменять или заменять параметрические показате­ ли корреляционной связи.

224

ГЛАВА Д Е СЯТ АЯ

РЕГРЕССИОННЫЙ АНАЛИЗ

ПОНЯТИЕ РЕГРЕССИИ

Коэффициент корреляции и корреляционное отношение позво­ ляют измерять степень сопряженности между признаками, опре­ делять направление и форму существующей между ними связи. Но они не дают представления о том, насколько в среднем может измениться варьирующий признак при изменении на единицу, из­ мерения другого, связанного с ним признака. Между тем эта сто­ рона корреляционного анализа представляет большой интерес и занимает видное место в области статистического анализа массо­ вых явлений.

Функция, позволяющая по величине одного признака (X) на­ ходить средние (ожидаемые) значения другого признака (ух), связанного с А корреляционно, называется р е г р е с с и е й 1. А статистический анализ регрессии получил название регрессион­ ного анализа.

Регрессионный анализ неотделим от корреляционного анали­ за. Но, в отличие от последнего, показатели регрессии измеряют отношения между коррелированными признаками А и У двусто­ ронне, т. е. учитывают изменения X в зависимости от изменений У и, наоборот, изменения У и А. Исключением служат так назы­ ваемые ряды динамики, или временные ряды, показывающие из­ менение признаков во времени. Регрессия таких рядов оказыва­ ется односторонней.

Показатели регрессии—-величины именованные: они харак­ теризуют зависимость между переменными А и У по их абсолют­ ным значениям, тогда как показатели корреляции — величины относительные, измеряющие тесноту связи между признаками в долях единицы.

Регрессия — это ряд групповых средних ух (или х у), показы­ вающий динамику изменчивости признака У (или А) в зависимо­ сти от изменения значений признака А (или У). Ряды регрессии и особенно их графики, называемые линиями регрессии, дают на­ глядное представление о характере корреляционной связи между варьирующими признаками, в чем и заключается их большая ценность. Являясь неотъемлемой частью корреляционного анали­ за, метод регрессии позволяет предвидеть возможные изменения

1 Термин «регрессия» ввел в биологию Ф. Гальтон, изучавший соотноше­ ние между ростом родителей и их детей. Им был установлен так называемый «закон регрессивного наследования», по которому дети очень высоких и очень низких родителей имеют тенденцию отклоняться в своем развитии («регресси­ ровать») в сторону среднего для данной популяции роста. Так возник и вошел в биологию этот термин.

8— 2802

225