Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Лакин Г.Ф. Биометрия учеб. пособие

.pdf
Скачиваний:
51
Добавлен:
25.10.2023
Размер:
16.09 Mб
Скачать

N . У Окружность груди

X Р о с т " \ {СМ) (длина

тела)

(см)

147,5-149,4 148,5

149,5—151,4 150,5

151,5—153,4 152,5

153,5-155,4 154,5

155,5-157,4 156,5

157,5-159,4 158,5

159,5—161,4 160,5

161,5-163,4 162,5

1

!

163,5-165,4 164,5

165,5—167,4 166,5

167,5-169,4 168,5

169,5-171,4 170,5

171,5-173,4 172,5

173,5-175,4 174,5

175,5-177,4 176,5

Ру

Средний рост для каждой окружности груди (*~)

Т а б л и ц а 77

72,5—

74,5—

76,5—

78,5—

80,5—

82,5-

84,5—

86,5-

88,5—

90,5—

92,5—

94,5—

 

Средняя

74,4

76,4

78,4

80,4

82,4

84,4

86,4

88,4

90,4

92,4

94,4

96,4

 

окруж­

Рх

ность

 

 

 

 

 

 

 

 

 

 

 

 

груди для

73,5

75,5

77,5

79,5

.81,5

83,5

85,5

87,5

89,5

91,5

93,5

95,5

 

каждого

 

роста (ух )

 

 

1

 

 

 

1

 

 

 

 

 

2

81,5

 

 

 

1

1

2

 

 

 

 

 

 

4

82,0

 

2

1

2

1

4

3

 

 

 

 

 

13

80,7

1

1

 

8

3

1

1

1

 

1

 

 

17

81,0

2

1

3

7

7

3

8

5

 

 

 

 

36

82,1

 

1

4

7

8

14

10

12

2

2

 

 

60

83,8

 

 

2

8

18

20

13

И

5

1

 

 

78

83,9

 

2

3

12

9

24

21

14

7

3

 

 

95

83,9

 

1

 

1

1

!

1

1

1

 

 

 

 

 

 

 

 

1

1

1

 

 

1

 

1

 

 

 

 

1

2

8

13

14

14

17

14

10

2

 

95

85,0

 

 

 

 

 

 

 

 

.

 

 

 

 

 

 

 

2

2

11

16

16

27

10

7

2

3

96

86,1

 

 

1

3

10

9

14

20

10

5

7

1

80

86,7

 

 

1

2

3

 

t

 

 

 

 

 

 

 

 

 

9

13

19

14

4

2

2

69

86,1

 

 

 

1

3

11

9

13

7

7

1

1

53

86,4

 

 

1

1

4

3

4

2

5

2

1

*

23

85,9

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

1

3

1

 

 

6

88,8

3

8

21

62

91

130

128

142

77

43

15

7

727

 

155,8

158,0

161,3

160,8

162,4

164,1

164,6

165,8

167,6

167,2

168,6

168,8

 

.

одного признака на основе известных изменений другого, связан­ ного с ним корреляционно варьирующего признака. Таковы отли­ чительные черты регрессионного анализа, играющего важную роль в биометрии.

ЭМПИРИЧЕСКИЕ РЯДЫ РЕЕРЕССИИ

На больших выборках, чтобы выразить в виде регрессии по­ ведение одного признака в зависимости от изменений другого, приходится группировать выборочную совокупность в виде кор­ реляционной таблицы, как это делается и при вычислении пока­ зателей корреляции. Затем по значениям одного признака нужно рассчитать групповые средние другого признака, что и дает в ре­ зультате эмпирический ряд регрессии. Покажем методику постро­ ения эмпирических рядов регрессии на примере корреляции меж­ ду ростом (длиной тела) мужчин и окружностью их грудной клетки. Соответствующие данные, сгруппированные в виде кор­ реляционной таблицы, приведены в табл. 77 (по А. А. Малинов­ скому, 1948, с сокращениями). В этой таблице, включающей 727 случаев парных измерений мужчин, приведены и эмпирические ряды регрессии — Y по X (в крайнем справа столбце) и А по У (нижняя строка таблицы). Отдельные значения эмпирических рядов регрессии есть не что иное, как групповые средние ариф­ метические, вычисленные для каждой строки и каждого столбца корреляционной таблицы. Например, средняя у*= 81,5, что нахо­ дится сверху последнего столбца таблицы, получена следующим образом:

 

1 X 77,5

+ 1 X 85,5

81,5.

Ух =

 

2

 

 

 

Следующая за ней

величина

ух—82,0 вычислена аналогичным

способом:

 

,5 + 2X 83,5

 

1 X 7 9 ,5 + 1 X 8 1

 

Групповые средние роста мужчин по окружности груди, пред­ ставляющие эмпирический ряд регрессии X по Y, рассчитаны тем же способом. Например, величина 155,8 что стоит первой в ниж­ ней строке таблицы, вычислена так:

1 X 154,5 + 2 X 156,5 , гго

Следующая за ней величина 158,0 получена в результате сле­ дующего расчета:

2 X 152,5 + 1 X 154,5 + 1 X 156,5 + 1 X 158,5 + ... ->

-<-...+ 2 X 162,5 + 1 X 164,5

158,0 и т. д.

8

228

Будучи нанесены на график, эмпирические ряды групповых средних ух и Ху выражаются в .виде эмпирических линий регрес­ сии (рис. 22).

Обычно, как это видно и на рис. 22, эмпирические ряды рег­ рессии, изображаемые графически, выглядят в системе координат в виде не плавно идущих, а ломаных линий. Причина этого явле­ ния заключается в том, что наряду с основными причинами, опре-

Рис. 22. Регрессия окружности груди по длине тела у мужчин:

на оси абсцисс — длина тела (рост) мужчин (см), на оси ординат — окружность груди (см). Прямые линии изображают теоретически вы­ численные линии регрессии X по У и У по X

деляющими главное направление регрессии, на ней сказывается влияние многочисленных второстепенных (случайных) факторов, нарушающих плавный ход линии регрессии. Отсюда возникает необходимость выравнивания эмпирических рядов и линий рег­ рессии, т. е. нахождение наиболее устойчивых, узловых точек ли­ нии связи, отображающих функциональную зависимость между переменными величинами X и Y при полной изоляции действую­ щих на нее случайных причин.

ВЫРАВНИВАНИЕ ЭМПИРИЧЕСКИХ РЯДОВ РЕГРЕССИИ

Под выравниванием подразумевается способ замены ломаной линии или ряда — регрессии, динамики, распределения — на плавно текущую, сглаженную линию, или освобожденный от ко­ леблющихся значений численный ряд. Существуют разные спосо­ бы выравнивания рядов.

229

Графический способ

Наиболее простым, не требующим вычислительной работы, является способ графического выравнивания эмпирических рядов и линий регрессии. Сущность его проста. После того как эмпири­ ческий ряд нанесен на график— в виде ломаной линии, или в ви­ де отдельных точек, соответствующих групповым средним, на глаз, определяются срединные точки линии регрессии, которые затем соединяются при помощи линейки или лекала сплошной линией или пунктиром, в результате чего и получается выравнен­ ная линия регрессии.

Недостаток этого способа заключается в том, что он не исклю­ чает влияние индивидуальных свойств исследователя на резуль­ таты выравнивания. Поэтому там, где требуется большая точ­ ность выравнивания рядов, этому способу предпочитают другие.

Способ скользящей средней

Более точные результаты получаются при выравнивании эмпи­ рических рядов последовательным исчислением средних арифме­ тических из двух или трех соседних значений ряда. Например, имеются следующие данные о возрастных изменениях веса дете­ нышей гамадрилов:

Возраст

(мес.):

0

1

2 3

4

5

6

Средний

вес (кг):

0,7 1,0 1,6 1,4 1,9

2,0

2,6

Сначала находим сумму первых трех значений ряда:

0,7 +1,0 +

+ 1,6= 3,3. Затем определяем

сумму следующих

трех

значений,

стоящих за первым: 1,0+1,6+1,4 = 4,0. Далее берем сумму дру­ гих последующих значений: 1,6+ 1,4+1,9 = 4,9 и так до конца ря­ да. Проделав эту операцию, делим каждую полученную сумму на число слагаемых, т. е. на 3, и находим усредненные значения ряда: 1,1 1,3 1,6 1,8 и 2,2.

Способ скользящей средней прост и особенно удобен в тех слу­ чаях, когда эмпирический ряд представлен многим числом членов и потеря двух из них (крайних) заметно не сказывается на его общей структуре. Ценность этого способа заключается также в том, что он позволяет себя модифицировать: усредненные величи­ ны можно получать из двух, трех и большего числа членов эмпи­ рического ряда.

Способ наименьших квадратов

Из всех способов выравнивания эмпирических рядов наиболее точным является способ наименьших квадратов, предложенный Гауссом в 1806 г. В основу этого способа положено требование, чтобы сумма квадратов отклонений вариант от средней арифме­ тической была наименьшей, т. е. 2(г/< — г/)2 = тіп . Отсюда и на­ звание метода.

230

Регрессионный анализ тесно связан с методом наименьших квадратов. При решении конкретных задач применение этого способа сводится к следующим практическим операциям:

1.Исходя из геометрического места точек двух переменных А

иУ, подбирается соответствующее математическое уравнение, возможно полнее отображающее существующую между ними за­ висимость. Этот вопрос решается путем логического анализа фактического материала, посредством группировки его в эмпи­ рические ряды. Более наглядное представление о форме суще­ ствующей зависимости между переменными А и Y дает графиче­ ское изображение эмпирических рядов.

2.В исходное уравнение подставляют соответствующие эмпи­ рические данные, образуя систему нормальных уравнений.

3.Решая совместно полученные уравнения, определяют их параметры.

4.Подставив значения параметров в общее уравнение, полу­ чают эмпирическое уравнение регрессии, выражающее функцио­

нальную зависимость между переменными X и Y.

5. Подставляя в эмпирическое уравнение значение перемен­ ной X, находят соответствующие (ожидаемые) средние значения другой переменной величины У. Таким способом получают сгла­ женный ряд регрессии У по А. А подставляя в уравнение значе­ ния У, можно рассчитать ряд регрессии X по У.

Способ наименьших квадратов имеет широкое применение в области статистического анализа массовых явлений.

ЛИНЕЙНАЯ РЕГРЕССИЯ

Как уже сообщалось, для математического выражения связи

между переменными А и

У служит уравнение общего вида

Y = f(А), где символом f(X)

обозначается подбираемая форма

уравнения, более или менее полно выражающая функциональную зависимость средней величины одной переменной (ух) от значе­ ний другой переменной величины А. Такого рода математические уравнения называются корреляционными или, как их впервые на­ звал Ф. Гальтон, регрессионными уравнениями. Корреляционные уравнения или уравнения регрессии позволяют аналитически оп­ ределять ожидаемые (средние) значения одного признака по за­ данным числовым значениям другого, сопряженного с ним приз­ нака.

Зависимость между биологическими признаками может быть самой разнообразной. В большом числе случаев эмпирические регрессии выражаются простым уравнением линейной зависи­ мости:

ух — a + bx.

(120)

Здесь ух — групповая средняя арифметическая, или ожидаемое значение переменной У, соответствующее заданному значению

231

переменной X; а и Ъ— параметры уравнения; а служит свобод­ ным членом, а b является показателем пропорциональности, на­ зываемым коэффициентом регрессии.

Для определения параметров а и &применяется система нор­ мальных уравнений:

2 у =

ап*-\- 62х первое уравнение,

( 121')

Хху =

аЪх — &2х2 — второе уравнение.

Чтобы составить такую систему по п объему парных наблюдений или по числу членом эмпирического ряда регрессии, необходимо предварительно определить значения следующих величин: 2 г/, 2х, Хху и 2х2. В качестве примера воспользуемся результатами 20 наблюдений об изменчивости веса новорожденных гамадри­ лов (У) в зависимости от веса их матерей (J), в начале беремен­ ности (см. табл. 56) В табл. 57 находим нужные нам величины: 2г/ = 14,06; 2х = 237,4; Хху = 167,939 и 2х2 = 2861,60. Предполагая линейную зависимость между переменными X и У, составляем систему нормальных уравнений:

14,06 =

20а+ 237,4&,

(1)

167,939 =

237,4а + 2861,66.

(2)

Решая совместно эти уравнения, находим: а = 0,283 и Ъ = 0,03543. Откуда получается следующее корреляционное уравнение веса детенышей (ух) по весу их матерей (х):

ух = 0,03543х + 0,283.

Подставляя в это уравнение вместо х конкретные значения (вес самок-гамадрилов, выраженный в кг), можно определить сред­ ний ожидаемый вес новорожденных детенышей животных этого вида. Именно:

вес матерей

(х)\

 

10

11

12

13

14

15

16

ожидаемый

вес

детены­

 

 

 

 

 

 

шей (+ ):

 

 

0,64

0,67

0,71

0,74

0,78

0,81 0,85

В математической

статистике

доказывается, что

свободный

член уравнения линейной функции а = уЬх, или соответственно

а = х by, где

 

 

пЪху — 2хХ 2г/

 

 

(122)

 

 

п2х2 — (2х)2

 

 

п2хг/ — 2х X

 

 

(122а)

 

 

пХу2(Ху)2

или

 

Хху — пху

Ьу / х

(123)

 

 

2х2 — пхг

232

 

и

, _ Zxy — пху

 

 

Ох/у -----— ;

г г >

 

 

 

2 г/2 — пу2

 

 

 

Пху — (ПхХ^У)

или

Ьу!х =

 

п

----------------------------

 

 

 

2х2 —— (2*)2

 

 

 

 

п

 

 

 

Н х у - ^ - { Н х Х Ъ у )

 

 

Ьх/у = ----------

------ '------

.

 

 

2//2- - ( 2 г / ) 2

 

 

 

 

п

 

(123а)

(124)

(124а)

Эти формулы, полученные из совместного решения системы нор­ мальных уравнений, значительно облегчают вычислительную ра­ боту при определении параметров а и Ь, особенно на больших вы­ борках и при наличии многозначных числовых значений корре­ лированных признаков.

Воспользуемся этими формулами и найдем эмпирическое \равнение регрессии окружности груди (У) по длине тела (X) мужчин по данным табл. 77. Предварительно рассчитаем вспомо­ гательные величины Пу, Их, Пху, Их2 и Пу2, а также и некоторые другие величины, которые потребуются нам в дальнейшем. Рас­ чет приводится в табл. 78.

Т а б л и ц а 78

Рост Лг

Окруж­ ность груди У

148,5

81,5

150,5

82,0

152,5

80,7

154,5

81,0

156,5

82,1

158,5

83,8

160,5

83,9

162,5

83,9

164,5

85,0

166,5

86,1

168,5

86,7

170,5

86,1

172,5

86,4

174,5

85,9

176,5

88,8

ХУ

X2

Г2

h

 

(УХ-УѴ

12102,75

22052,25

6642,25

80,7

3,56

12,6736

12341,00

22650,25

6724,00

81,2

3,06

9,3636

12306,75

23256,25

6512,49

81,7

2,56

6,5536

12514,50

23870,25

6561,00

82,2

2,06

4,2436

12848,65

24492,25

6740,41

82,6

1,66

2,7556

13282,30

25122,25

7022,44

83,3

0,96

0,9216

13465,95

25760,25

7039,21

83,6

0,66

0,4356

13633,75

26406,25

7039,21

84,3

0,04

0,0016

13982,50

27060,25

7225,00

84,8

0,54

0,2916

14335,65

27722,25

7413,21

85,2

0,94

0,8836

14608,95

28392,25

7516,89

85,7

1,44

2,0736

14680,05

29070,25

7413,21

86,3 •

2,04

4,1616

14904,00

29756,25

7464,96

87,0

2,74

7,5076

14989,55

30450,25

7378,81

87,3

3,04

9,2416

15673,20

31152,25

7885,44

88,0

3,74

13,9876

2437,5 1263,9 205669,55 397213,75 106578,53 1263,9 — 75,0960

х = 162,247; г/ = 84,26; 2 = 26323,9917; 1/2 = 7099,7476

233

По итоговым данным этой таблицы находим:

Ьу / х

2*г/ — пху

205669,55 — 15 X 84,26 X 162,247

2*2- пх*

397213,7515X26323,99

 

 

 

622,0667

 

 

0,264;

 

 

2353,8745

откуда

а = у — Ьх == 84,26 — 0,264 X 162,2 = 41,44,

 

ух — 0,264* + 41,44.

Вычисленные по этому уравнению групповые средние (ух),

т.е. выравненный ряд регрессии окружности груди (F) по росту

(^)мужчин, приводятся в шестом столбце табл. 78. Видно, что

вычисленные значения ух хорошо согласуются с фактически полу­ ченными значениями у эмпирического ряда. Более наглядное представление дает рис. 22, на котором вместе с колеблющимися эмпирическими линиями нанесены и теоретически вычисленные прямые линии регрессии Y по X и X по Y.

На рис. 22 обращает на себя внимание тот факт, что линии регрессии пересекаются, образуя угол. Этот угол может быть и большим и малым, что зависит от степени сопряженности между признаками: чем сильнее связь, тем меньше этот угол, и, наобо­ рот, чем слабее корреляция между признаками, тем больше бу­ дет и угол, образуемый пересечением линий регрессии в системе координат. При г = 0, т. е. при полном отсутствии связи между признаками, линии регрессии пересекаются под прямым углом, а при г —\, т. е. при наличии функциональной зависимости между признаками, линии регрессии совпадают друг с другом. Линии регрессии пересекаются в точке, соответствующей величинам средних арифметических обоих признаков.

Дополнительно к графическому изображению регрессии мож­ но определить меру линейности у=г|2—г2 регресси в системе координат. При г= 0, т. е. при полном отсутствии связи между признаками, линии регрессии пересекаются под прямым углом, а при г 1, т. е. при наличии функциональной зависимости меж­ ду признаками, линии регрессии совпадают друг с другом. Линии регрессии пересекаются в точке, соответствующей величинам средних арифметических обоих признаков.

Дополнительно к графическому изображению регрессии мож­

но определить меру линейности у = ті2—г2 и таким

образом убе­

диться в правильности предположения о линейной

зависимости

между окружностью груди и ростом мужчин. Воспользуемся данными таблицы 78 и рассчитаем квадраты корреляционного отношения и коэффициента, корреляции. Последний определим по формуле 101, придав ей следующий вид:

г =

2 ху ■

2* X 2г/

У/2*2-

(2 ) ‘

)( Ъу2

Ш У

 

 

(125)

234

Предварительно находим суммы квадратов отклонений:

Е l y , — у У = % 2 - - ® - =

106578,53 -

1263-9— = 82,0,

 

V )

 

V

п

 

 

'15

 

 

 

 

х ) 2 = 2X 2- ( ^ ) 2

 

 

 

 

 

 

15

 

 

 

 

=

397213,75

2437,52

1120, 0.

 

 

Гб

 

 

 

 

 

 

 

Определяем значение коэффициента корреляции:

_

205669,55 -

7 и X 2437,5 X 1263,9

_

285,8

~~

 

У 1120X82

 

_

303,0

Откуда

г2 = 0,889.

Находим величину квадрата корреляционного

отношения У по X (по формуле 107а):

 

 

2 ,

2 ( Ух

г/)2 _

75,096

0,914, Определяем меру линейнос­

Ц у / х ----

2(Уі — у)

 

82,00

 

 

 

т = 0,037. Критерий

ти: у = 0,914 — 0,889 = 0,025.

Ее ошибка

0,025

Следовательно, и графически

и аналитически

tv — -------<r 1.

ѵ0,037

подтверждается первоначальное предположение о линейности регрессии окружности груди у мужчин по длине их тела (росту).

ОПРЕДЕЛЕНИЕ ПАРАМЕТРОВ ЛИНЕЙНОЙ ФУНКЦИИ ПРИ НАЛИЧИИ РАВНООТСТОЯЩИХ ЗНАЧЕНИЙ НЕЗАВИСИМОЙ ПЕРЕМЕННОЙ

Уравнение линейной регрессии (120) можно представить в виде отклонений вариант от средних арифметических:

Ух У Ьу / х ( %і X ) ИЛИ Х у X Ь х / у ( У і У ) .

Эти уравнения показывают, что отклонения вариант от средней по одному ряду (У) сопровождаются отклонениями вариант от их средней по другому ряду (X ) регрессии, а коэффициент b характеризует величину изменения одной переменной (У) при из­ менении другой (X).

Если у и х

перенести в правую часть уравнений, получим:

у х =

у + Ь у / х ( Хі — х) и Х у = X + Ь х / у { у 4 — у).

(120а)

235

В таком случае систему нормальных уравнений (121) молено представитъ в следующем виде:

2 г/ = па -f- 62 і — х ) — первое уравнение,

2хг/ = а2 (хі — х) + 62х2 — второе уравнение.

Так как 2 (лу

х) = 0, то 2 у = па и 2 хи — &2х2, откуда а = —

2 ху

п

 

и b =

 

2х2

 

Уравнения

120а можно с успехом использовать для вырав­

нивания эмпирических рядов регрессии при наличии равноотсто­ ящих значений одной из переменных величин. Они особенно цен­ ны при выравнивании рядов динамики, когда изменения призна­ ка учитываются через равные интервалы или промежутки времени. В таких случаях равноотстоящие значения независимой переменной X выражаются числами натурального ряда («откло­ нениями»), идущими от центра ряда динамики в оба его конца;

причем при наличии

н е ч е т н о г о

числа членов

ряда — в виде

—1, —2, —3, ... и +1,

+2, +3, ..., а

при ч ет н о м

числе членов

ряда —1, —3, —5, ..., и +1, +3, +5, ... Порядковые числа («от­ клонения») со знаком минус идут в сторону меньших, а со знаком плюс в сторону больших значений регрессии.

Покажем применение этого способа на следующем примере. Наблюдения над развитием группы детенышей макаков-резусов показало’, что их вес на протяжении первого года жизни изменя­ ется следующим образом:

возраст (мес.):

1

2

3

4

5

6

7

8 ’

9

10

11

12

вес (кг):

0,53

0,71

0,79

0,98

1,06

1,13

1,25

1,43

1,51

1,59

1,65

1,77

Если нанести эти данные на графики, можно убедиться в нали­ чии линейной зависимости между ними. Найдем эмпирическое уравнение этого ряда динамики. Расчет вспомогательных значе­ ний 2 у, 2 ху, и 2х2 приведен в табл. 79.

По итогам табл. 79 находим параметры:

2 у

14,40

2 ху

30,43

п

= 1,20 и

2х2

0,0532.

12

= 572

Отсюда эмпирическое уравнение регрессии У по У оказывает­ ся следующим: ух= 1,20+ 0,0532 х. Ожидаемые значения веса де­ тенышей. (ух) поих возрасту рассчитываются так: г/ж=1,20 + + 0,0532 (—11) = 1,20-0,5882 = 0,6118 = 0,61 и т. д. Значения приведены в последнем столбце табл. 79. •

236