книги из ГПНТБ / Лакин Г.Ф. Биометрия учеб. пособие
.pdf
|
|
|
|
|
|
Т а б л и ц а 79 |
Возраст |
Вес (кг) |
У |
* |
|
■г2 |
|
(мес.) X |
|
|
||||
1 |
0,53 |
|
— 11 |
-5,83 |
121 |
0,61 |
2 |
0,71 |
|
-9 |
— 6,39 |
81 |
0,72 |
3 |
0,79 |
|
— 7 |
— 5,53 |
49 |
0,83 |
4 |
0,98 |
|
-5 |
-4,90 |
25 |
0,93 |
5 |
1,06 |
|
-3 |
-3,18 |
9 |
1,04 |
6 |
1,13 |
|
— 1 |
-1,13 |
1 |
1,14 |
7 |
1,25 |
|
+ 1 |
4-1,25 |
1 |
1,25 |
8 |
1,43 |
|
43 |
4-4,29 |
9 |
1,36 |
9 |
1,51 |
|
+5 |
4-7,55 |
25 |
1,47 |
10 |
1,59 |
|
4-7 |
4-11,13 |
49 |
1,57 |
11 |
1,65 |
|
4-9 |
4-14,95 |
81 |
1,69 |
12 |
1,77 |
|
4-П |
4-19,47 |
121 |
1,79 |
Сумма . . |
14,40 |
' |
— |
30,43 |
572 |
14,40 |
КОЭФФИЦИЕНТ РЕГРЕССИИ
Коэффициент регрессии играет в регрессионном анализе важ ную роль. Он является не только' параметром уравнения, но и мерой регрессии У по X и X по Y. Коэффициент регрессии позво ляет рассчитать, насколько в среднем изменится признак при из менении на единицу меры другого, связанного с ним признака. При этом, если известны коэффициент корреляции и средние ква дратические отклонения сопряженных распределений, коэффици ент регрессии У по X и X по Y вычисляется по следующим анало гичным формулам:
(Уу X |
Іу |
(126) |
Ь у / X |
|
|
(Ух X |
і-х |
|
Ох X |
К |
(126а) |
Ьх/у |
1у |
|
(Уу X |
|
Или же, минуя вычисление средних квадратических отклонений, по формулам:
ѴІХ |
Г У ъ ( Уі- у ) 2 |
(127) |
|
|
|||
|
' |
E(Xj — х ) г |
(127a) |
|
|
237
А также:
|
2(Xj — х) (Уі — у) |
|
Ь у / х — |
Е(х і- |
(128) |
|
х)2 |
— 2(*» — а) (Уі ~~у) |
(128а) |
|
~Ъ ( У і - у ) г
По формулам 126, 127, и 128 определяется среднее (ожидаемое) значение У при изменении на единицу меры X, а по формулам 126а, 127а и 128а находят среднюю величину х ѵ при изменении на единицу меры признака У. Например, коэффициент корреля
ции между весом |
(У) и годовым удоем (X) коров горбатовской |
породы /- = 0,527 |
(см. предыдущую главу); оѵ = 3,015 кг и |
<тх=2,86 кг. Так как эти показатели вычислялись на интервальных вариационных рядах, то необходимо учесть и величины классо вых интервалов: % = 15 кг и г* =150 кг. Отсюда находим:
|
3,015 X |
15 |
23,83 |
Ьу/х = |
0,527 X 2,86 X |
150 |
= 0,055 кг, |
429,0 |
|||
Ьх/У= |
2,86 X 150 |
226,08 |
|
0,527 X |
15 |
5,02 кг. |
|
|
3,015 X |
45,23" |
Это значит, что увеличение годового удоя на 1 кг соответству ет увеличению живого веса коров в среднем на 0,055 кг. А увели чению веса коров на 1 кг соответствует возрастание годового удоя в среднем на 5,02 кг.
Если судить о прибавках живого веса и удоя коров по отно шениям между средними арифметическими этих признаков, ко торые равны по удою х = 2228,5 кг, по весу г/= 349,75 кг, то полу чается, что на 1 кг живого веса коров приходится в среднем 2228,5: 349,75 = 6,4 кг молока, а прибавка годового удоя на 1 кг связана с увеличением живого веса коров в среднем на 349,75:2282,5 = 0,16 кг. Сравнивая эти показатели с величинами коэффициента регрессии, видим, что они не совпадают: отноше ния средних арифметических дают более высокие результаты, чем значения коэффициента регрессии. Причина этого явления заключается в том, что отношения средних арифметических не учитывают корреляционную зависимость между признаками, по тому и не могут служить точным показателем регрессии У по X и X по У. Из этого примера видно значение коэффициента регрес сии в оценке относительных прибавок величины одного призна ка по изменяющимся значениям другого связанного с ним приз нака.
Коэффициент регрессии определяет углы наклона плоскости, образуемой линиями регрессии в системе координат, к осям абс циссы и ординаты. На коэффициенте регрессии хорошо выясняет-
238
ся связь между регрессией и корреляцией. Если средние квадра тические отклонения двух сопряженных рядов равны между со бой, т. е. Оу= ах, то отношение между ними равно единице. В таком случае, как это следует и из формул 126 и 126а, между коэффициентом корреляции и коэффициентом регрессии осуще ствляется равенство r = by/x=bx/y.
По значениям коэффициента регрессии Ьу/Х и Ьх/Ѵопределяет ся коэффициент корреляции, который есть не что иное, как сред няя геометрическая из коэффициента регрессии У по X и X по У,
т. е. |
|
г == УЬу/х X Ьх/у. |
(129) |
Указанная зависимость между коэффициентами регрессии и корреляции расширяет и углубляет наши представления об этих показателях, характеризующих линейную зависимость между пе ременным Х и У. Эта зависимость позволяет, во-первых, контро лировать правильность расчета коэффициента корреляции по из вестным значениям коэффициента регрессии, а во-вторых, опре делять неизвестную величину коэффициента корреляции по известным значениям коэффициента регрессии.
Как и коэффициент корреляции, коэффициент регрессии ха рактеризует только линейную связь, когда приращения одной пе ременной У пропорциональны приращениям другой переменной величины X. И так же, как и коэффициент корреляции, коэффи циент регрессии может иметь положительный ( + ), либо отрица тельный (—) знак, что зависит от направления связи. Но в отли чие от коэффициента корреляции, выражающего зависимость между признаками У и У в нормированных отклонениях, коэф фициент регрессии выражает ее в принятых единицах измерения. Коэффициент корреляции — число не именованное, а значения коэффициента регрессии — числа именованные.
Одна из характерных особенностей регрессионного анализа заключается в том, что он позволяет исследовать корреляцион ную зависимость между признаками даже при очень малых чис лах парных значений признаков. Возьмем соответствующий при мер. По данным Т. А. Скворцовой (1956), в роде синиц наблюда ется зависимость между весом мозга, выраженном в процентах от веса тела, и двигательной активностью птиц, измеряемой ко личеством прыжков, которые птица совершает в течение одного часа. Эти данные вместе с расчетом вспомогательных значений 2у, 2х, 'Lxy, Ъу2и 2х2 приведены в табл. 80. Воспользуемся ими и найдем эмпирическое уравнение и коэффициент регрессии для этих данных.
Средние |
арифметические |
признаков |
У и А и их |
квадраты |
равны: |
|
|
|
|
26,8 |
6,7; у2 = 44,89; |
14,1 |
= 3,5; я2 = |
12,25. |
У — —-— = |
* = - ^ - |
239
Т а б л и ц а 80
|
|
Средний |
Среднее |
|
|
|
|
Вес |
число |
|
|
|
|
|
нес мозга |
|
|
|
||
Виды синиц |
тела |
прыжков |
|
ь 2 |
ж3 |
|
в % к весу |
X IJ |
|||||
|
(г) |
тела ( Y) |
в 1 ч. |
|
|
|
|
|
|
(тыс .) ( X) |
|
|
|
Большая синица Q.-J .-J |
15,8 |
5,5 |
2,5 |
13,75 |
30,25 |
6,25 |
Л а зо р е в к а ................. |
9,9 |
7,1 |
3,7 |
26,27 |
50,41 |
13,69 |
М о с к о в к а .................. |
7,7 |
8,4 |
5,5 |
46,20 |
70,51 |
30,25 |
Длиннохвостая . . . |
7,7 |
5,8 |
2,4 |
13,92 |
33,64 |
5,76 |
Сумма . . . |
— |
26,8 |
14,1 |
100,14 |
184,86 |
55,95 |
Определяем коэффициент регрессии У по X и X по У:
Ъху — пху |
_ 100,14 — 4 X 6 ,7 X 3 ,5 |
_ 6,34 |
|||
Их2 — пх2 |
~~ |
55,95 — |
4 X 12,25 |
|
— 6^95 |
Ъху — пху |
|
6,34 |
|
6,34 |
|
= Ъу2 — пу2 ~ |
184,86 - |
4 X 44,89 |
“ |
5,30 |
|
а — у — by/x X = |
6,7 — 0,91 X 3,5 = 6,7 |
— 3,185 = 3,52, |
откуда уравнение регрессии У по X
Ух = 0,91л: + 3,52.
По этому уравнению можно определить ожидаемые значения веса (ух) по показателям двигательной активности птиц (X). Именно: эмпирические данные
вес мозга синиц |
(у): |
5,5 |
7,1 |
8,4 |
5,8 |
вычисленные по |
уравне |
|
|
|
|
нию регрессии |
(ух): |
5,8 |
6,9 |
8,5 |
5,7 |
Зная величины Ьу/Х и Ьх/Ѵ, |
можно |
определить коэффициент |
|||
корреляции между этими признаками: |
|
|
t |
г = уо,91 X 1,07 = У097“= 0,98.
Показатели корреляции в данном случае оказались весьма высо кими. Следует, однако, иметь в виду, что при наличии малочис ленного1ряда регрессии показатели корреляционной зависимо сти— коэффициенты регрессии и корреляции — могут оказаться завышенными.
Также нужна большая осторожность при экстраполяции ли нии регрессии за пределы исследованного периода. Линия рег рессии, выходя за указанные пределы, может изменить свое на правление и линейная экстраполяция в таких случаях не даст обнадеживающих результатов.
240
ОЦЕНКА ДОСТОВЕРНОСТИ ПОКАЗАТЕЛЕЙ РЕГРЕССИИ
Показатели регрессии, как и всякие другие выборочные пока затели, являются величинами случайными: их значения могут не совпадать с соответствующими значениями в генеральной сово купности. Для измерения возможной погрешности, с какой опре деляются выборочные показатели относительно своих генераль ных параметров, служат ошибки репрезентативности, позволяю щие с той или иной вероятностью устанавливать доверительные границы для генеральных параметров по данным выборочных наблюдений, оценивать статистическую достоверность показате лей регрессии.
ОШИБКА РЕПРЕЗЕНТАТИВНОСТИ ЛИНЕЙНОЙ РЕГРЕССИИ
Когда известны средние квадратические отклонения и коэф фициент корреляции выборочных распределений, ошибка коэф фициента регрессии определяется по следующим аналогичным формулам:
СГу -| / |
1 — г 2 |
(130) |
тЪух = — I /-------— и |
||
Ох 1 |
п — 2 |
|
0x1 / |
1 — f2 |
|
т Ъху = — \ |
-------(130а) |
|
Оу ' |
п — 2 |
|
Если средние квадратические отклонения вычислялись на ин тервальных рядах, то при вычислении ошибок по указанным фор мулам сигмы должны умножаться на величину классовых интер валов, т. е. в знаменателе и числителе должны быть оѵХ іѵ и ОхХіх■ Например, ошибка коэффициента регрессии веса (У) по годовому удою (X) коров горбатовской породы определяется следующим образом:
ІТІЬух |
3,015 X 15-|/ |
1 -(0 ,5 2 7 )2 = 0,1054 X 0,0854 = 0,009 кг. |
||
2,86 X 150 » |
|
1 0 0 -2 |
||
Ошибка коэффициента регрессии удоя по весу коров |
||||
_ |
2,86 X |
150 |
-|/ |
1 —(0,527)2 |
тЬѵх ~~ 3,015 X |
15 |
' |
= 9,48 X 0,0854 == 0,809 кг. |
|
1 0 0 - 2 |
Достоверность коэффициента регрессии оценивается по кри терию Стьюдента с числом степеней свободы k — n — 2. В данном
0,055 |
^ |
5,02 |
„ й |
случае tv/x = ^ |
= 6,1 п tx/y = |
— — = |
6,2. В обоих случаях |
t~>3, что свидетельствует о достоверности этих показателей.
241
Ошибку коэффициента регрессии можно вычислить, минуя определение средних квадратических отклонений по следующим формулам:
|
2а, |
(2ахау)2 |
|
||
|
2 а*2 |
|
|||
ІТІЬух — |
|
(131) |
|||
(л - 2 ) Х 2 а * |
|||||
|
’ |
||||
ffl-bxy |
|
Ъа\ |
(131а) |
||
( п - |
2) Х |
2 а 2 |
|||
|
’ |
||||
где ау и ах — отклонения вариант |
от |
средних арифметических, |
|||
т. е. ау= (уі — у) и а* = (х{ — х). |
|
|
|
Ошибка разности между сравниваемыми коэффициентами ре грессии оценивается по следующей формуле:
mdb |
ГПу |
тп2 |
У2 ( * * - * ) 2 |
(132) |
|
|
Ъ (у г - у )2’ |
где mx и my — ошибки коэффициентов регрессии.
Если сравниваемые коэффициенты регрессии вычислены на малочисленных выборках, то ошибка их разности должна опре деляться по формуле
mdb = 1/ |
I |
X |
1 |
1 |
|
{пх — 2) пгх А- (пу— 2) ml |
|
||||
( ^ - 2 ) + К - 2 ) |
—*)2 Ъ(у— уУ |
(133) |
Критерий достоверности различий между выборочными коэффи
циентами регрессии — Ы = |
— — — ^stst (k = пх |
+ |
пѵ — 4) — |
mdb |
|
оценивается по таблице Стьюдента.
По идее и по существу линия регрессии, построенная на основании эмпирических данных по способу наименьших квад ратов, выполняет в регрессионном анализе такую же роль, какая принадлежит средней арифметической в любой выборочной со вокупности. И как величина случайная, линия регрессии, как и средняя арифметическая, сопровождается ошибкой репрезента тивности. Ошибка линейной регрессии У по X характеризует сопряженную вариацию значений У возле х у по заданным зна чениям X, и наоборот, ошибка регрессии X по У характеризует
242
варьирование значений X возле ух по заданным значениям У. Варьирование значений случайной величины вокруг их средней арифметической измеряется, как известно, средним квадрати ческим отклонением. А так как линия регрессии уподобляется средней арифметической выборочной совокупности, то ее «ошиб ку» будем обозначать символами Оу/д-и Ох/у', она вычисляется по следующим аналогичным формулам:
Оу/х = ОуУ1— г2, |
(134) |
ах/у — ОхУ1 — г2, |
(134а) |
где Оу и ох — средние квадратические отклонения рядов У и X, |
|
а величина У 1—г2, называемая коэффициентом |
алиенации |
(F. Kelley, 4919), служит поправкой на сопряженность между переменными X и Y.
Для рассмотренного выше примера ошибка регрессии окруж ности груди по длине тела у мужчин оказывается следующая:
0у/х = оу У 1 - г2 = 2,43 У 1 - 0,887 = 2,43 X 0,34 = 0,83.
Если известны теоретически вычисленные значения линейной регрессии, ее ошибку можно определить по разности между фак тически наблюдаемыми и вычисленными по способу наименьших квадратов значениями по следующим аналогичным формулам:
Оу/х — |
■ ' Ъ { У і - у х)г |
(135) |
Ох/у |
|
(135а) |
В числителе этих формул суммы квадратов разности между эм пирическими и вычисленными значениями членов ряда; п — чис ло членов, составляющих ряд регрессии.
Применим одну из этих формул к тому же примеру. По табл. 78
рассчитана 2 (г/т — ух)2 = 9,32. Отсюда |
оу/х = |
=У0,716 = 0,84. Получился тот же результат, что и выше. Не
большая неточность расчета объясняется приближенными вычис лениями, связанными с округлением дробных чисел.
243
ДОВЕРИТЕЛЬНАЯ ЗОНА ЛИНЕЙНОЙ РЕЕРЕССИИ
Ошибка регрессии позволяет определить вероятную зону, или область, тех случайных отклонений выборочной линии, в пре делах которых находится истинная линия регрессии, т. е. ли нейная регрессия генеральной совокупности. Максимальная ошибка репрезентативности или погрешность (А) выборочной линии регрессии выражается следующими формулами:
|
AylX-- tOy/x |
(136) |
и |
Ах/у — tOxty* |
(136а) |
Отсюда линейная регрессия, с учетом возможной максимальной погрешности, может быть выражена в виде следующих урав нений:
Ух — (п “У Ьу/х%') it töy/x' |
(13/) |
Ху = (а + Ьх/уу) ± tax/у. |
(137а) |
По этим уравнениям можно определить доверительные границы линии регрессии для любого порога вероятности (Р). Так, имея в виду, что в пределах от у — За до г/+ 3а заключены почти все 100% вариант нормально распределяемой совокупности, по ошибке регрессии а х,у =0,84 определяем величину максимальной
погрешности А у/Х=3-0,84 = 2,52 = 2,5 |
см. Откладывая |
эту вели |
чину в обе стороны от теоретически |
высчисленной |
по способу |
наименьших квадратов линии регрессии, получим границы дове рительного интервала для принятого порога доверительной ве
роятности Р = 0,997. Именно, для |
первой |
точки //*= 80,7 (см. |
|
табл. 78) находим: |
|
|
|
н и ж н ю ю |
гр а н и ц у = 8 0 ,7 — |
2,5 = 7 8 ,2 |
|
верхню ю |
границу = 80,7 + 2,5 = 83,2 |
и т. д. |
Проводя через точки, обозначаемые границы доверительного ин тервала, прямые (вдоль линии регрессии), получаем так назы ваемую доверительную зону возможных (случайных) отклонений выборочной линии регрессии от ее положения в генеральной со вокупности. На рис. 23 пунктиром изображены границы дове рительной воны линии регрессии У по X.
Анализ эмпирических регрессий имеет большое практическое значение. По уравнению регрессии можно оценить, например, физическое развитие отдельно взятого индивида по отношению принятой нормы для популяции, дать групповую оценку состоя нию отдельных категорий населения при известных стандартах или показателях генеральной совокупности и т. д. При нормаль ном распределении признаков, между которыми установлена корреляционная связь, в интервале у х ± а х/ ѵ или х у — а у/х заклю чено около 68% всех вариант данной совокупности. А в интер вале ух± 2ІзОхіу или х у± 2/зОуіх находится половина всех вариант
244
нормально распределенной совокупности. Если варианты, за ключенные в этом интервале, считать «нормальными», то осталь ные, распределяющиеся за этими пределами, можно рассматри вать как отстоящие ниже или выше принятой «нормы». Таким образом получается объективная основа для сравнительной оцен ки отдельных вариант по отношению к принятой норме популя ции. Границы доверительного интервала в таких случаях уста навливаются следующим образом. Представим, что у самки павиана-гамадрила весом 12,6 кг родился детеныш с весом, рав ным 0,65 кг. Спрашивается, нормальный это вес или нет? Урав нение регрессии веса новорожденных гамадрилов по весу их матерей нам известно: ух = 0,03543 х + 0,283. Ошибка линии регрессии оказалась равной ау/х= 0,06 кг. Для вероятности Р = = 0,95, которой соответствует ^ = 1,96, имеем:
Рис. 23. Доверительная зона регрессии окружности груди по длине тела у мужчин:
на оси абсцисс — длина тела (рост) мужчин (см), на оси ординат — окружность груди (см)
ух= (0,03543X12,6 + 0,283) ±1,96-0,06, или ^ж=0,73±0,12. От куда границы доверительного интервала для принятого порога вероятности оказываются равными:
нижняя граница —0,73—0,12 = 0,61 кг верхняя граница = 0,73+0,12 = 0,85 кг
Видно, что вес новорожденного (0,65 кг) не выходит за пределы доверительных границ случайных отклонений. Следовательно, его можно считать нормальным.
Если количественной оценке подлежат не отдельные индиви ды, а выборочные группы с их средними характеристиками, то границы доверительного интервала для групповых средних ли
245
нейной регрессии устанавливают по заданному порогу довери тельной вероятности по следующей формуле:
у = (а + Ьѵ/хх ) ± ^ — , |
(138) |
І п — 1 |
|
где п — объем оцениваемой выборочной группы.
Например, антропологическое обследование учащихся млад ших классов в школах №-й области показало, что их средний вес равен х = 29,6 кг, а средний рост г/= 136,0 см. Корреляция меж ду весом и ростом учащихся выразилась показателем г=+0,69. Уравнение регрессии веса по возрасту оказалось следующим:
х ѵ — 0,811 у — 80,14 |
с ошибкой ах/у = 4,62 кг. |
В одном из районов этой |
области выборочно обследовано |
50 учащихся младших классов восьмилетних школ. Их средний вес оказался равным 28,4 кг, а рост— 134,0 см. Можно ли на основании этих данных заключить, что учащиеся школ указан ного района несколько отстают по физическому развитию от из вестных средних показателей учащихся области по данным признакам?
Опираясь на полученные данные, устанавливаем доверитель ный интервал для первого порога вероятности /’= 0,95, которому
соответствует |
1,96: |
х =(0,811 X 134 + 80,14)+ 1,9 6 Х 4 - 2= 28,53+ 1,29 кг, Т/50 — 1
откуда доверительные границы интервала оказываются следу ющие:
нижняя=28,53—1,29=27,24 кг верхняя=28,53+1,29 = 29,82 кг
Так как |
средний вес |
обследованной |
группы |
учащихся |
(х = |
|||
= 28,4 кг), соответствующий их среднему |
росту |
(у = 134,0 |
см), |
|||||
находится |
в |
границах |
доверительного |
интервала |
(от 27,2 до |
|||
29,8 кг), |
то |
с вероятностью Р = 0,95 его |
можно |
счйтать |
нор |
|||
мальным. |
|
|
|
|
|
|
|
|
КРИВОЛИНЕЙНАЯ ЗАВИСИМОСТЬ
Корреляция между признаками может быть не только ли нейной, но и криволинейной. Последняя имеет место, когда рав новеликим изменениям одного признака X соответствуют нерав новеликие приращения величины другого признака У, корреля ционно связанного с первым. Криволинейная зависимость может иметь самые различные формы и описывается аналитически со ответствующими корреляционными уравнениями. Рассмотрим случаи наиболее типичных криволинейных связей, с которыми биологу приходится встречаться в своей работе.
246