Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Лакин Г.Ф. Биометрия учеб. пособие

.pdf
Скачиваний:
54
Добавлен:
25.10.2023
Размер:
16.09 Mб
Скачать

 

 

 

 

 

 

Т а б л и ц а 79

Возраст

Вес (кг)

У

*

 

■г2

 

(мес.) X

 

 

1

0,53

 

— 11

-5,83

121

0,61

2

0,71

 

-9

— 6,39

81

0,72

3

0,79

 

— 7

— 5,53

49

0,83

4

0,98

 

-5

-4,90

25

0,93

5

1,06

 

-3

-3,18

9

1,04

6

1,13

 

— 1

-1,13

1

1,14

7

1,25

 

+ 1

4-1,25

1

1,25

8

1,43

 

43

4-4,29

9

1,36

9

1,51

 

+5

4-7,55

25

1,47

10

1,59

 

4-7

4-11,13

49

1,57

11

1,65

 

4-9

4-14,95

81

1,69

12

1,77

 

4-П

4-19,47

121

1,79

Сумма . .

14,40

'

30,43

572

14,40

КОЭФФИЦИЕНТ РЕГРЕССИИ

Коэффициент регрессии играет в регрессионном анализе важ­ ную роль. Он является не только' параметром уравнения, но и мерой регрессии У по X и X по Y. Коэффициент регрессии позво­ ляет рассчитать, насколько в среднем изменится признак при из­ менении на единицу меры другого, связанного с ним признака. При этом, если известны коэффициент корреляции и средние ква­ дратические отклонения сопряженных распределений, коэффици­ ент регрессии У по X и X по Y вычисляется по следующим анало­ гичным формулам:

(Уу X

Іу

(126)

Ь у / X

 

(Ух X

і-х

 

Ох X

К

(126а)

Ьх/у

(Уу X

 

Или же, минуя вычисление средних квадратических отклонений, по формулам:

ѴІХ

Г У ъ ( Уі- у ) 2

(127)

 

 

'

E(Xj — х ) г

(127a)

 

 

237

А также:

 

2(Xj — х) (Уі — у)

Ь у / х

Е(х і-

(128)

 

х)2

— 2(*» — а) і ~~у)

(128а)

 

~Ъ ( У і - у ) г

По формулам 126, 127, и 128 определяется среднее (ожидаемое) значение У при изменении на единицу меры X, а по формулам 126а, 127а и 128а находят среднюю величину х ѵ при изменении на единицу меры признака У. Например, коэффициент корреля­

ции между весом

(У) и годовым удоем (X) коров горбатовской

породы /- = 0,527

(см. предыдущую главу); оѵ = 3,015 кг и

<тх=2,86 кг. Так как эти показатели вычислялись на интервальных вариационных рядах, то необходимо учесть и величины классо­ вых интервалов: % = 15 кг и г* =150 кг. Отсюда находим:

 

3,015 X

15

23,83

Ьу/х =

0,527 X 2,86 X

150

= 0,055 кг,

429,0

Ьх/У=

2,86 X 150

226,08

0,527 X

15

5,02 кг.

 

3,015 X

45,23"

Это значит, что увеличение годового удоя на 1 кг соответству­ ет увеличению живого веса коров в среднем на 0,055 кг. А увели­ чению веса коров на 1 кг соответствует возрастание годового удоя в среднем на 5,02 кг.

Если судить о прибавках живого веса и удоя коров по отно­ шениям между средними арифметическими этих признаков, ко­ торые равны по удою х = 2228,5 кг, по весу г/= 349,75 кг, то полу­ чается, что на 1 кг живого веса коров приходится в среднем 2228,5: 349,75 = 6,4 кг молока, а прибавка годового удоя на 1 кг связана с увеличением живого веса коров в среднем на 349,75:2282,5 = 0,16 кг. Сравнивая эти показатели с величинами коэффициента регрессии, видим, что они не совпадают: отноше­ ния средних арифметических дают более высокие результаты, чем значения коэффициента регрессии. Причина этого явления заключается в том, что отношения средних арифметических не учитывают корреляционную зависимость между признаками, по­ тому и не могут служить точным показателем регрессии У по X и X по У. Из этого примера видно значение коэффициента регрес­ сии в оценке относительных прибавок величины одного призна­ ка по изменяющимся значениям другого связанного с ним приз­ нака.

Коэффициент регрессии определяет углы наклона плоскости, образуемой линиями регрессии в системе координат, к осям абс­ циссы и ординаты. На коэффициенте регрессии хорошо выясняет-

238

ся связь между регрессией и корреляцией. Если средние квадра­ тические отклонения двух сопряженных рядов равны между со­ бой, т. е. Оу= ах, то отношение между ними равно единице. В таком случае, как это следует и из формул 126 и 126а, между коэффициентом корреляции и коэффициентом регрессии осуще­ ствляется равенство r = by/x=bx/y.

По значениям коэффициента регрессии Ьу/Х и Ьх/Ѵопределяет­ ся коэффициент корреляции, который есть не что иное, как сред­ няя геометрическая из коэффициента регрессии У по X и X по У,

т. е.

 

г == УЬу/х X Ьх/у.

(129)

Указанная зависимость между коэффициентами регрессии и корреляции расширяет и углубляет наши представления об этих показателях, характеризующих линейную зависимость между пе­ ременным Х и У. Эта зависимость позволяет, во-первых, контро­ лировать правильность расчета коэффициента корреляции по из­ вестным значениям коэффициента регрессии, а во-вторых, опре­ делять неизвестную величину коэффициента корреляции по известным значениям коэффициента регрессии.

Как и коэффициент корреляции, коэффициент регрессии ха­ рактеризует только линейную связь, когда приращения одной пе­ ременной У пропорциональны приращениям другой переменной величины X. И так же, как и коэффициент корреляции, коэффи­ циент регрессии может иметь положительный ( + ), либо отрица­ тельный (—) знак, что зависит от направления связи. Но в отли­ чие от коэффициента корреляции, выражающего зависимость между признаками У и У в нормированных отклонениях, коэф­ фициент регрессии выражает ее в принятых единицах измерения. Коэффициент корреляции — число не именованное, а значения коэффициента регрессии — числа именованные.

Одна из характерных особенностей регрессионного анализа заключается в том, что он позволяет исследовать корреляцион­ ную зависимость между признаками даже при очень малых чис­ лах парных значений признаков. Возьмем соответствующий при­ мер. По данным Т. А. Скворцовой (1956), в роде синиц наблюда­ ется зависимость между весом мозга, выраженном в процентах от веса тела, и двигательной активностью птиц, измеряемой ко­ личеством прыжков, которые птица совершает в течение одного часа. Эти данные вместе с расчетом вспомогательных значений 2у, 2х, 'Lxy, Ъу2и 2х2 приведены в табл. 80. Воспользуемся ими и найдем эмпирическое уравнение и коэффициент регрессии для этих данных.

Средние

арифметические

признаков

У и А и их

квадраты

равны:

 

 

 

 

26,8

6,7; у2 = 44,89;

14,1

= 3,5; я2 =

12,25.

У — - =

* = - ^ -

239

Т а б л и ц а 80

 

 

Средний

Среднее

 

 

 

 

Вес

число

 

 

 

 

нес мозга

 

 

 

Виды синиц

тела

прыжков

 

ь 2

ж3

в % к весу

X IJ

 

(г)

тела ( Y)

в 1 ч.

 

 

 

 

 

 

(тыс .) ( X)

 

 

 

Большая синица Q.-J .-J

15,8

5,5

2,5

13,75

30,25

6,25

Л а зо р е в к а .................

9,9

7,1

3,7

26,27

50,41

13,69

М о с к о в к а ..................

7,7

8,4

5,5

46,20

70,51

30,25

Длиннохвостая . . .

7,7

5,8

2,4

13,92

33,64

5,76

Сумма . . .

26,8

14,1

100,14

184,86

55,95

Определяем коэффициент регрессии У по X и X по У:

Ъху — пху

_ 100,14 — 4 X 6 ,7 X 3 ,5

_ 6,34

Их2 — пх2

~~

55,95 —

4 X 12,25

 

— 6^95

Ъху пху

 

6,34

 

6,34

= Ъу2 — пу2 ~

184,86 -

4 X 44,89

5,30

а — у by/x X =

6,7 — 0,91 X 3,5 = 6,7

— 3,185 = 3,52,

откуда уравнение регрессии У по X

Ух = 0,91л: + 3,52.

По этому уравнению можно определить ожидаемые значения веса (ух) по показателям двигательной активности птиц (X). Именно: эмпирические данные

вес мозга синиц

(у):

5,5

7,1

8,4

5,8

вычисленные по

уравне­

 

 

 

нию регрессии

(ух):

5,8

6,9

8,5

5,7

Зная величины Ьу/Х и Ьх/Ѵ,

можно

определить коэффициент

корреляции между этими признаками:

 

 

t

г = уо,91 X 1,07 = У097“= 0,98.

Показатели корреляции в данном случае оказались весьма высо­ кими. Следует, однако, иметь в виду, что при наличии малочис­ ленного1ряда регрессии показатели корреляционной зависимо­ сти— коэффициенты регрессии и корреляции — могут оказаться завышенными.

Также нужна большая осторожность при экстраполяции ли­ нии регрессии за пределы исследованного периода. Линия рег­ рессии, выходя за указанные пределы, может изменить свое на­ правление и линейная экстраполяция в таких случаях не даст обнадеживающих результатов.

240

ОЦЕНКА ДОСТОВЕРНОСТИ ПОКАЗАТЕЛЕЙ РЕГРЕССИИ

Показатели регрессии, как и всякие другие выборочные пока­ затели, являются величинами случайными: их значения могут не совпадать с соответствующими значениями в генеральной сово­ купности. Для измерения возможной погрешности, с какой опре­ деляются выборочные показатели относительно своих генераль­ ных параметров, служат ошибки репрезентативности, позволяю­ щие с той или иной вероятностью устанавливать доверительные границы для генеральных параметров по данным выборочных наблюдений, оценивать статистическую достоверность показате­ лей регрессии.

ОШИБКА РЕПРЕЗЕНТАТИВНОСТИ ЛИНЕЙНОЙ РЕГРЕССИИ

Когда известны средние квадратические отклонения и коэф­ фициент корреляции выборочных распределений, ошибка коэф­ фициента регрессии определяется по следующим аналогичным формулам:

СГу -| /

1 — г 2

(130)

тЪух = — I /-------— и

Ох 1

п — 2

 

0x1 /

1 — f2

 

т Ъху = — \

-------(130а)

 

Оу '

п — 2

 

Если средние квадратические отклонения вычислялись на ин­ тервальных рядах, то при вычислении ошибок по указанным фор­ мулам сигмы должны умножаться на величину классовых интер­ валов, т. е. в знаменателе и числителе должны быть оѵХ іѵ и ОхХіх■ Например, ошибка коэффициента регрессии веса (У) по годовому удою (X) коров горбатовской породы определяется следующим образом:

ІТІЬух

3,015 X 15-|/

1 -(0 ,5 2 7 )2 = 0,1054 X 0,0854 = 0,009 кг.

2,86 X 150 »

 

1 0 0 -2

Ошибка коэффициента регрессии удоя по весу коров

_

2,86 X

150

-|/

1 —(0,527)2

тЬѵх ~~ 3,015 X

15

'

= 9,48 X 0,0854 == 0,809 кг.

1 0 0 - 2

Достоверность коэффициента регрессии оценивается по кри­ терию Стьюдента с числом степеней свободы k — n — 2. В данном

0,055

^

5,02

„ й

случае tv/x = ^

= 6,1 п tx/y =

— — =

6,2. В обоих случаях

t~>3, что свидетельствует о достоверности этих показателей.

241

Ошибку коэффициента регрессии можно вычислить, минуя определение средних квадратических отклонений по следующим формулам:

 

2а,

(2ахау)2

 

 

2 а*2

 

ІТІЬух

 

(131)

(л - 2 ) Х 2 а *

 

ffl-bxy

 

Ъа\

(131а)

( п -

2) Х

2 а 2

 

где ау и ах — отклонения вариант

от

средних арифметических,

т. е. ау= (уі у) и а* = (х{ — х).

 

 

 

Ошибка разности между сравниваемыми коэффициентами ре­ грессии оценивается по следующей формуле:

mdb

ГПу

тп2

У2 ( * * - * ) 2

(132)

 

Ъ (у г - у )2’

где mx и my — ошибки коэффициентов регрессии.

Если сравниваемые коэффициенты регрессии вычислены на малочисленных выборках, то ошибка их разности должна опре­ деляться по формуле

mdb = 1/

I

X

1

1

 

{пх — 2) пгх А- (пу— 2) ml

 

( ^ - 2 ) + К - 2 )

—*)2 Ъ(у— уУ

(133)

Критерий достоверности различий между выборочными коэффи­

циентами регрессии — Ы =

— — — ^stst (k = пх

+

пѵ — 4) —

mdb

 

оценивается по таблице Стьюдента.

По идее и по существу линия регрессии, построенная на основании эмпирических данных по способу наименьших квад­ ратов, выполняет в регрессионном анализе такую же роль, какая принадлежит средней арифметической в любой выборочной со­ вокупности. И как величина случайная, линия регрессии, как и средняя арифметическая, сопровождается ошибкой репрезента­ тивности. Ошибка линейной регрессии У по X характеризует сопряженную вариацию значений У возле х у по заданным зна­ чениям X, и наоборот, ошибка регрессии X по У характеризует

242

варьирование значений X возле ух по заданным значениям У. Варьирование значений случайной величины вокруг их средней арифметической измеряется, как известно, средним квадрати­ ческим отклонением. А так как линия регрессии уподобляется средней арифметической выборочной совокупности, то ее «ошиб­ ку» будем обозначать символами Оу/д-и Ох/у', она вычисляется по следующим аналогичным формулам:

Оу/х = ОуУ1— г2,

(134)

ах/у — ОхУ1 — г2,

(134а)

где Оу и ох — средние квадратические отклонения рядов У и X,

а величина У 1—г2, называемая коэффициентом

алиенации

(F. Kelley, 4919), служит поправкой на сопряженность между переменными X и Y.

Для рассмотренного выше примера ошибка регрессии окруж­ ности груди по длине тела у мужчин оказывается следующая:

0у/х = оу У 1 - г2 = 2,43 У 1 - 0,887 = 2,43 X 0,34 = 0,83.

Если известны теоретически вычисленные значения линейной регрессии, ее ошибку можно определить по разности между фак­ тически наблюдаемыми и вычисленными по способу наименьших квадратов значениями по следующим аналогичным формулам:

Оу/х

■ ' Ъ { У і - у х)г

(135)

Ох/у

 

(135а)

В числителе этих формул суммы квадратов разности между эм­ пирическими и вычисленными значениями членов ряда; п — чис­ ло членов, составляющих ряд регрессии.

Применим одну из этих формул к тому же примеру. По табл. 78

рассчитана 2 (г/т — ух)2 = 9,32. Отсюда

оу/х =

=У0,716 = 0,84. Получился тот же результат, что и выше. Не­

большая неточность расчета объясняется приближенными вычис­ лениями, связанными с округлением дробных чисел.

243

ДОВЕРИТЕЛЬНАЯ ЗОНА ЛИНЕЙНОЙ РЕЕРЕССИИ

Ошибка регрессии позволяет определить вероятную зону, или область, тех случайных отклонений выборочной линии, в пре­ делах которых находится истинная линия регрессии, т. е. ли­ нейная регрессия генеральной совокупности. Максимальная ошибка репрезентативности или погрешность (А) выборочной линии регрессии выражается следующими формулами:

 

AylX-- tOy/x

(136)

и

Ах/у — tOxty*

(136а)

Отсюда линейная регрессия, с учетом возможной максимальной погрешности, может быть выражена в виде следующих урав­ нений:

Ух — (п “У Ьу/х%') it töy/x'

(13/)

Ху = (а + Ьх/уу) ± tax/у.

(137а)

По этим уравнениям можно определить доверительные границы линии регрессии для любого порога вероятности (Р). Так, имея в виду, что в пределах от у — За до г/+ 3а заключены почти все 100% вариант нормально распределяемой совокупности, по ошибке регрессии а х,у =0,84 определяем величину максимальной

погрешности А у/Х=3-0,84 = 2,52 = 2,5

см. Откладывая

эту вели­

чину в обе стороны от теоретически

высчисленной

по способу

наименьших квадратов линии регрессии, получим границы дове­ рительного интервала для принятого порога доверительной ве­

роятности Р = 0,997. Именно, для

первой

точки //*= 80,7 (см.

табл. 78) находим:

 

 

 

н и ж н ю ю

гр а н и ц у = 8 0 ,7 —

2,5 = 7 8 ,2

 

верхню ю

границу = 80,7 + 2,5 = 83,2

и т. д.

Проводя через точки, обозначаемые границы доверительного ин­ тервала, прямые (вдоль линии регрессии), получаем так назы­ ваемую доверительную зону возможных (случайных) отклонений выборочной линии регрессии от ее положения в генеральной со­ вокупности. На рис. 23 пунктиром изображены границы дове­ рительной воны линии регрессии У по X.

Анализ эмпирических регрессий имеет большое практическое значение. По уравнению регрессии можно оценить, например, физическое развитие отдельно взятого индивида по отношению принятой нормы для популяции, дать групповую оценку состоя­ нию отдельных категорий населения при известных стандартах или показателях генеральной совокупности и т. д. При нормаль­ ном распределении признаков, между которыми установлена корреляционная связь, в интервале у х ± а х/ ѵ или х у — а у/х заклю­ чено около 68% всех вариант данной совокупности. А в интер­ вале ух± 2ІзОхіу или х у± 2/зОуіх находится половина всех вариант

244

нормально распределенной совокупности. Если варианты, за­ ключенные в этом интервале, считать «нормальными», то осталь­ ные, распределяющиеся за этими пределами, можно рассматри­ вать как отстоящие ниже или выше принятой «нормы». Таким образом получается объективная основа для сравнительной оцен­ ки отдельных вариант по отношению к принятой норме популя­ ции. Границы доверительного интервала в таких случаях уста­ навливаются следующим образом. Представим, что у самки павиана-гамадрила весом 12,6 кг родился детеныш с весом, рав­ ным 0,65 кг. Спрашивается, нормальный это вес или нет? Урав­ нение регрессии веса новорожденных гамадрилов по весу их матерей нам известно: ух = 0,03543 х + 0,283. Ошибка линии регрессии оказалась равной ау/х= 0,06 кг. Для вероятности Р = = 0,95, которой соответствует ^ = 1,96, имеем:

Рис. 23. Доверительная зона регрессии окружности груди по длине тела у мужчин:

на оси абсцисс — длина тела (рост) мужчин (см), на оси ординат — окружность груди (см)

ух= (0,03543X12,6 + 0,283) ±1,96-0,06, или ^ж=0,73±0,12. От­ куда границы доверительного интервала для принятого порога вероятности оказываются равными:

нижняя граница —0,73—0,12 = 0,61 кг верхняя граница = 0,73+0,12 = 0,85 кг

Видно, что вес новорожденного (0,65 кг) не выходит за пределы доверительных границ случайных отклонений. Следовательно, его можно считать нормальным.

Если количественной оценке подлежат не отдельные индиви­ ды, а выборочные группы с их средними характеристиками, то границы доверительного интервала для групповых средних ли­

245

нейной регрессии устанавливают по заданному порогу довери­ тельной вероятности по следующей формуле:

у = (а + Ьѵ/хх ) ± ^ — ,

(138)

І п — 1

 

где п — объем оцениваемой выборочной группы.

Например, антропологическое обследование учащихся млад­ ших классов в школах №-й области показало, что их средний вес равен х = 29,6 кг, а средний рост г/= 136,0 см. Корреляция меж­ ду весом и ростом учащихся выразилась показателем г=+0,69. Уравнение регрессии веса по возрасту оказалось следующим:

х ѵ — 0,811 у — 80,14

с ошибкой ах/у = 4,62 кг.

В одном из районов этой

области выборочно обследовано

50 учащихся младших классов восьмилетних школ. Их средний вес оказался равным 28,4 кг, а рост— 134,0 см. Можно ли на основании этих данных заключить, что учащиеся школ указан­ ного района несколько отстают по физическому развитию от из­ вестных средних показателей учащихся области по данным признакам?

Опираясь на полученные данные, устанавливаем доверитель­ ный интервал для первого порога вероятности /’= 0,95, которому

соответствует

1,96:

х =(0,811 X 134 + 80,14)+ 1,9 6 Х 4 - 2= 28,53+ 1,29 кг, Т/50 — 1

откуда доверительные границы интервала оказываются следу­ ющие:

нижняя=28,53—1,29=27,24 кг верхняя=28,53+1,29 = 29,82 кг

Так как

средний вес

обследованной

группы

учащихся

(х =

= 28,4 кг), соответствующий их среднему

росту

(у = 134,0

см),

находится

в

границах

доверительного

интервала

(от 27,2 до

29,8 кг),

то

с вероятностью Р = 0,95 его

можно

счйтать

нор­

мальным.

 

 

 

 

 

 

 

 

КРИВОЛИНЕЙНАЯ ЗАВИСИМОСТЬ

Корреляция между признаками может быть не только ли­ нейной, но и криволинейной. Последняя имеет место, когда рав­ новеликим изменениям одного признака X соответствуют нерав­ новеликие приращения величины другого признака У, корреля­ ционно связанного с первым. Криволинейная зависимость может иметь самые различные формы и описывается аналитически со­ ответствующими корреляционными уравнениями. Рассмотрим случаи наиболее типичных криволинейных связей, с которыми биологу приходится встречаться в своей работе.

246