Mashkovsky_Lesnaya_biometria
.pdfпользуясь формулой
k
xg = n x1f1 x2f2 K xkfk = n ∏xifi .
i=1
Вданном случае мы не можем сформулировать определяющее свойство по аналогии с рассмотренными выше степенными средними, так как сумма нулевых степеней наблюдений, как, впрочем, и любых других чисел, которыми они могли бы быть заменены, всегда равна числу наблюдений n. Однако анализ формулы (37) дает нам основание заключить, что если заменить все значения в выборке средним геометрическим, то произведение наблюдений не изменится, т. е. справедливо равенство:
n
∏xi
i=1
n |
|
= ∏xg . |
(38) |
i=1
Действительно, используя (37), правую часть равенства (38) можно преобразовать следующим образом:
n |
= |
n |
x |
|
= x n = (n x |
x |
|
K x |
|
n |
|
n |
n |
= |
n |
|
x |
∏ |
g |
2 |
n |
) |
= n ∏ x |
|
x . |
||||||||
∏ i |
|
|
g |
1 |
|
|
|
|
|
i |
|
∏ i |
||||
i=1 |
|
i=1 |
|
|
|
|
|
|
|
|
|
i=1 |
|
|
i=1 |
Как правило, средняя геометрическая используется в тех случаях, когда анализируются темпы роста признака. Под темпом роста в данном случае понимается отношение величины признака в какой-то момент времени к величине этого же признака в предыдущий момент учета:
xi = |
z |
, |
(39) |
|
|||
|
zi−1 |
|
|
где xi – темп роста в i-тый период времени; |
zi – величина признака в |
i-тый момент учета (конец i-того периода времени); zi−1 – величина
признака в i-тый момент учета (начало i-того периода времени). Рассмотрим использование средней геометрической на примере
анализа темпов роста по высоте древесного ствола. В табл. 16 приведены значения высоты дерева в различных возрастах. На основании этих данных вычислим темпы роста как отношение высоты дерева теперь к высоте дерева 10 лет назад (табл. 19). Средняя геометрическая темпов роста согласно (37) равна
52
xg g = 9 2,889 2,538 1,697 1,214 1,250 1,218 1,150 1,134 1,074 = = 9 32,2116 =1,4708.
Таблица 19. Темпы роста древесного ствола по высоте
Возраст дерева, лет |
Высота дерева, м |
Темпы роста дерева |
10 |
0,9 |
– |
20 |
2,6 |
2,889 |
30 |
6,6 |
2,538 |
40 |
11,2 |
1,697 |
50 |
13,6 |
1,214 |
60 |
17,0 |
1,250 |
70 |
20,7 |
1,218 |
80 |
23,8 |
1,150 |
90 |
27,0 |
1,134 |
100 |
29,0 |
1,074 |
Пользуясь средним геометрическим значением темпов роста дерева в высоту, мы можем на основании высоты дерева в начальный момент времени 10 лет ( x10 ) определить высоту дерева в конечный
момент времени 100 лет ( x100 ):
x100 = x10 xg9 = 0,9 1,47089 = 29,0 м.
Как видим, использование средней геометрической величины позволяет нам правильно определить значение признака в конечный момент времени. Для сравнения попробуем решить эту же задачу, пользуясь средней арифметической величиной, которая, согласно (18) для рассматриваемого примера равна
x = 2,889+2,538+1,697+1,214+1,250+1,218+1,150+1,134+1,074 = 9
=14,9164 =1,5738.
Высота дерева в 100 лет при использовании средней арифметической величины будет равна
x100 = x10 x9 = 0,9 1,57389 = 0,9 41,5334 = 37,4,
что значительно превышает истинное значение.
При вычислении средней геометрической по формуле (37) приходится находить произведение довольно большого числа
53
сомножителей и вычислять корень такой же большой степени, что может привести к значительным трудностям. В связи с этим зачастую формулу (37) преобразуют путем логарифмирования левой и правой ее частей и вычисляют логарифм средней геометрической, пользуясь преобразованным вариантом формулы:
n
loga xg = loga n ∏xi
i=1
= |
1 |
|
n |
|
= |
n |
loga |
∏xi |
|||
|
i=1 |
|
|
n
∑loga xi
i=1 |
n |
. |
(40) |
|
|||
|
|
|
Далее путем потенцирования вычисленного логарифма находят среднюю геометрическую величину. Основание логарифма a может выбираться любым, но, как правило, используются десятичные или натуральные логарифмы.
Формулу (40) можно использовать в том случае, если вычисления выполняются на основании несгруппированного набора данных. Если же среднюю геометрическую надо вычислить, пользуясь сгруппированными в статистический ряд данными, то следует воспользоваться формулой
|
|
|
|
|
|
|
|
|
|
|
k |
|
|
|
k |
f |
|
|
1 |
|
k |
f |
|
∑loga xifi |
|
loga |
|
|
= |
= i=1 |
= |
|||||||
xg = loga n ∏xi |
i |
n |
loga |
∏xi |
|
i |
||||||
|
|
i=1 |
|
|
|
i=1 |
|
|
n |
(41) |
||
k |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
∑ fi loga xi |
|
|
|
|
|
|
|
|
|
|
|
|
= i=1 |
n |
. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В том случае, если средняя геометрическая величина определяется для темпов роста какого-либо признака, вычисленных для последовательных равных периодов времени, можно воспользоваться более простой формулой:
xg = n |
zn |
или |
loga xg |
= |
loga zn −loga z0 |
, |
|
n |
|||||||
|
z0 |
|
|
|
|
где z0 – значение признака в начальный момент учета; zn – значение
признака в конечный момент учета. Действительно, подставляя (39) в (37), получаем
xg = n x1 x2 K xn = n |
z1 z2 K |
zn = n |
zn . |
|
|
z0 |
z1 |
zn−1 |
z0 |
Рассмотрим порядок вычисления средних величин на примере
54
вариационных рядов по диаметрам и высотам (табл. 12 и 13). Для выполнения вычислений составим вспомогательную табл. 20.
Теперь, подставив в формулы (21) и (28) соответствующие суммы из 2-й, 3-й и 4-й колонок табл. 20, вычислим среднее арифметическое значение:
|
|
|
k |
(x |
f |
|
) |
|
|
|
|
|
|
|
|
|
|
|
∑ |
|
|
|
|
|
|
|
|
||||
|
x = |
i=1 |
i |
|
i |
|
= 6320,40 = 31,60 см |
|
|
(42) |
|||||
|
n |
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
200 |
|
|
|
|
|
||
и среднее квадратическое: |
|
|
|
|
|
||||||||||
|
|
2 = 2 |
∑n (xi2 fi ) |
= 2 210 797,2 = 32,47 см. |
|
|
|
||||||||
|
x |
i=1 |
n |
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
200 |
|
|
|
|
|
|||
Таблица 20. Вычисление средних значений (диаметры) |
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
xi |
|
fi |
|
|
|
fi.xi |
|
fi.xi2 |
fi.xi3 |
fi/xi |
ln(xi) |
fi.ln(xi) |
|||
1 |
|
2 |
|
|
|
3 |
|
4 |
5 |
6 |
7 |
8 |
|
||
17,65 |
|
3 |
|
|
52,95 |
|
934,6 |
16 495,7 |
0,1700 |
2,871 |
8,613 |
|
|||
20,85 |
|
11 |
229,35 |
|
4781,9 |
99 702,6 |
0,5276 |
3,037 |
33,407 |
|
|||||
24,05 |
|
29 |
697,45 |
|
16 773,7 |
403 407,5 |
1,2058 |
3,180 |
92,220 |
|
|||||
27,25 |
|
39 |
1062,75 |
|
28 959,9 |
789 157,3 |
1,4312 |
3,305 |
128,895 |
|
|||||
30,45 |
|
32 |
974,40 |
|
29 670,5 |
903 466,7 |
1,0509 |
3,416 |
109,312 |
|
|||||
33,65 |
|
33 |
1110,45 |
|
37 366,6 |
1 257 386,1 |
0,9807 |
3,516 |
116,028 |
|
|||||
36,85 |
|
23 |
847,55 |
|
31 232,2 |
1 150 906,6 |
0,6242 |
3,607 |
82,961 |
|
|||||
40,05 |
|
10 |
400,50 |
|
16 040,0 |
642 402,0 |
0,2497 |
3,690 |
36,900 |
|
|||||
43,25 |
|
9 |
|
389,25 |
|
16 835,1 |
728 118,1 |
0,2081 |
3,767 |
33,903 |
|
||||
46,45 |
|
3 |
|
139,35 |
|
6472,8 |
300 661,6 |
0,0646 |
3,838 |
11,514 |
|
||||
49,65 |
|
4 |
|
198,60 |
|
9860,5 |
489 573,8 |
0,0806 |
3,905 |
15,620 |
|
||||
52,85 |
|
2 |
|
105,70 |
|
5586,2 |
295 230,7 |
0,0378 |
3,967 |
7,934 |
|
||||
56,05 |
|
2 |
|
112,10 |
|
6283,2 |
352 173,4 |
0,0357 |
4,026 |
8,052 |
|
||||
Сумма |
200 |
6320,40 |
|
210 797,2 |
7 428 682,1 |
6,6669 |
|
685,359 |
|
Для вычисления среднего кубического в соответствии с формулой (30) следует сумму из 5-й колонки табл. 20 разделить на объем выборки:
x |
|
= 3 |
∑n (xi3 fi ) |
|
7 428 682,1 = 33,37 см. |
3 |
i=1 |
= 3 |
|||
|
|
n |
|
200 |
|
|
|
|
|
||
Воспользовавшись |
формулой (27) и данными из табл. 20, |
||||
|
|
|
|
|
55 |
вычислим среднюю гармоническую величину:
x |
−1 |
= |
n |
|
= |
200 |
= 30,00 см. |
|
∑k (fi xi ) |
6,6669 |
|||||||
|
|
|
|
i=1
Для вычисления средней геометрической сначала вычислим ее логарифм по формуле (41):
|
k |
|
|
|
|
|
∑ fi ln xi |
|
685,359 |
|
|
ln xg = |
i=1 |
= |
= 3,4268, |
||
n |
200 |
||||
|
|
|
а затем потенцированием найдем среднюю геометрическую:
xg = eln xg = e3,4268 = 30,78 м2.
Аналогичным образом определим средние значения для ряда распределения высот деревьев в древостое. Сначала составим вспомогательную табл. 21.
Таблица 21. Вычисление средних значений (высоты) |
|
|
|||||
|
|
|
|
|
|
|
|
xi |
fi |
fi.xi |
fi.xi2 |
fi.xi3 |
fi/xi |
ln(xi) |
fi.ln(xi) |
17,05 |
2 |
34,10 |
581,41 |
9913,04 |
0,1173 |
2,836 |
5,672 |
18,05 |
1 |
18,05 |
325,80 |
5880,69 |
0,0554 |
2,893 |
2,893 |
19,05 |
4 |
76,20 |
1451,61 |
27 653,17 |
0,2100 |
2,947 |
11,788 |
20,05 |
5 |
100,25 |
2010,01 |
40 300,70 |
0,2494 |
2,998 |
14,990 |
21,05 |
2 |
42,10 |
886,21 |
18 654,72 |
0,0950 |
3,047 |
6,094 |
22,05 |
13 |
286,65 |
6320,63 |
139 369,90 |
0,5896 |
3,093 |
40,209 |
23,05 |
25 |
576,25 |
13 282,56 |
306 163,00 |
1,0846 |
3,138 |
78,450 |
24,05 |
31 |
745,55 |
17 930,48 |
431 228,00 |
1,2890 |
3,180 |
98,580 |
25,05 |
32 |
801,60 |
20 080,08 |
503 006,00 |
1,2774 |
3,221 |
103,072 |
26,05 |
43 |
1120,15 |
29 179,91 |
760 136,70 |
1,6507 |
3,260 |
140,180 |
27,05 |
24 |
649,20 |
17 560,86 |
475 021,30 |
0,8872 |
3,298 |
79,152 |
28,05 |
14 |
392,70 |
11 015,24 |
308 977,50 |
0,4991 |
3,334 |
46,676 |
29,05 |
3 |
87,15 |
2531,71 |
73 546,18 |
0,1033 |
3,369 |
10,107 |
30,05 |
1 |
30,05 |
903,00 |
27 135,15 |
0,0333 |
3,403 |
3,403 |
Сумма |
200 |
4960,00 |
124 059,51 |
3 126 986,05 |
8,1413 |
|
641,266 |
Затем, подставляя суммы из табл. 21 в формулы (21), (27), (28), (30) и (41), вычислим степенные средние:
средняя арифметическая:
56
|
k |
(x f |
|
) |
|
|
|
|
|
|
|
||||
|
∑ |
|
|
|
|
|
|
|
|
||||||
x = |
i=1 |
|
i |
|
i |
|
= 4960,00 = 24,80 м; |
(43) |
|||||||
|
|
|
n |
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
200 |
|
|
||||
средняя квадратическая: |
|
||||||||||||||
x2 = 2 |
∑n (xi2 fi ) |
|
|
|
124 059,51 = 24,91 м; |
|
|||||||||
i=1 |
n |
|
|
|
= 2 |
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
200 |
|
|||
средняя кубическая: |
|
||||||||||||||
x = 3 |
∑n (xi3 fi ) |
|
|
|
3126 986,05 = 25,01 м; |
|
|||||||||
i=1 |
|
|
|
|
|
= 3 |
|
||||||||
3 |
|
|
|
|
n |
|
|
|
|
|
|
200 |
|
||
|
|
|
|
|
|
|
|
|
|
|
|
||||
средняя гармоническая: |
|
||||||||||||||
x−1 = |
|
|
n |
|
|
|
= |
200 |
= 24,57 м; |
|
|||||
∑k (fi |
|
xi ) |
|
8,1413 |
|
||||||||||
|
|
i=1 |
|
|
|
|
|
|
|
|
|
|
|
||
средняя геометрическая: |
|
||||||||||||||
|
|
|
|
k |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
∑ fi |
ln xi |
641,266 = 3,2063; |
|
||||||||
ln xg = |
i=1 |
|
|
|
|
|
|
= |
|
||||||
|
|
n |
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
200 |
|
|||||
xg = eln xg |
= e3,2063 = 24,69 м2. |
|
2.2.Показатели вариации
Средние величины указывают на то значение признака, вокруг которого группируются анализируемые наблюдения. Однако вокруг одного и того же значения признака наблюдения могут располагаться совершенно по-разному. К примеру, они все могут очень незначительно отличаться от среднего значения, располагаясь плотной группой вокруг него, или, напротив, иметь сильный разброс. Для того чтобы отразить характер расположения наблюдений вокруг среднего, и служат показатели вариации. Рассмотрим некоторые из них.
Размах вариации. Наиболее простым показателем, характеризующим распределение вариант вокруг среднего, является размах вариации, который вычисляется как разность между максимальным и минимальным значениями признака, называемыми в
57
биометрии также лимитами (от латинского слова limes - предел) и обозначаемыми символом lim:
R = xmax − xmin . |
(44) |
Если наблюдения плотно группируются вокруг среднего, то лимиты располагаются близко друг к другу, и размах вариации оказывается небольшим. Если же разброс данных сильный, то, как правило, минимальная и максимальная варианты располагаются далеко друг от друга, и размах вариации получается большим.
Размах вариации является насколько простым показателем, настолько же и ненадежным. Дело в том, что он вычисляется на основании значений лимитов, а последние, в свою очередь, являются очень неустойчивыми статистиками и могут значительно варьировать от выборки к выборке. Кроме того, так как при вычислении размаха вариации используются только две крайние варианты, он не дает нам никакой информации о характере распределения всех остальных вариант, располагающихся ближе к среднему.
Среднее линейное отклонение. Этих недостатков лишено среднее линейное отклонение, которое вычисляется как средняя арифметическая величина из абсолютных значений отклонений всех наблюдений от их средней арифметической:
n
∑ xi − x
|
|
|
i=1 |
|
|
d |
= |
|
. |
||
|
n |
||||
|
|
|
|
|
В том случае, если среднее линейное отклонение вычисляется на основе сгруппированных данных, следует воспользоваться формулой
k
∑ fi xi − x
|
|
= |
i=1 |
|
. |
(45) |
d |
|
|||||
|
|
n |
||||
|
|
|
|
|
|
В данной статистике применяются именно абсолютные величины отклонений, так как среднее значение самих отклонений не может служить мерой вариации признака. Дело в том, что согласно свойству 1 средней арифметической величины, сумма отклонений вариант от средней арифметической равна нулю.
Среднее линейное отклонение характеризует изменчивость показателя гораздо лучше, чем размах вариации. Тем не менее, наиболее широкое применение получил другой показатель,
58
основанный на квадратах отклонений.
Эмпирическая дисперсия - это средний квадрат отклонений вариант от среднего арифметического. Данный показатель получил свое название от латинского слова dispersio - рассеяние. Вычислить эту статистику можно по формуле
∑n (xi − x)2
Sx2 = |
i=1 |
|
(46) |
|
n |
||
|
|
|
или, если речь идет о сгруппированном наборе данных, по формуле
∑k fi (xi − x)2
Sx2 = |
i=1 |
|
. |
(47) |
|
n |
|||
|
|
|
|
Выборочная дисперсия, рассчитанная по формуле (46), дает смещенную оценку генеральной дисперсии. Для того чтобы получить несмещенную оценку, в формулу необходимо добавить сомножитель
|
n |
|
, называемый поправкой Бесселя: |
|
|
||||||||||||
|
n −1 |
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
n |
|
|
|
|
|
|
Sx2 = |
∑(xi − x)2 |
|
|
n |
|
|
|
∑(xi − x)2 |
|
|
||||
|
|
|
i=1 |
|
|
|
|
= |
|
i=1 |
|
(48) |
|||||
или |
n |
|
n |
−1 |
|
|
|||||||||||
|
|
|
|
|
|
n −1 |
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
k |
|
|
|
|
|
|
|
|
|
|
k |
|
|
|
|
|
Sx2 = |
∑ fi (xi |
− x)2 |
|
n |
|
|
|
∑ fi (xi |
− x)2 |
|
||||
|
|
|
i=1 |
|
|
|
|
|
|
|
= |
i=1 |
|
(49) |
|||
|
|
|
n |
|
|
|
|
n −1 |
n −1 |
||||||||
|
|
|
|
|
|
|
|
|
|
|
для сгруппированного набора данных. Величина n −1 из формул (48) и (49) называется числом степеней свободы. Она показывает, сколько в данном случае имеется независимых наблюдений. Дело в том, что в формуле (46) используется средняя арифметическая величина, вычисленная по данным той же самой выборки по формуле (18). В связи с этим независимыми наблюдениями в данной выборке можно считать только n −1 элементов, так как последний n-ный элемент полностью определяется остальными n −1 элементами и средней арифметической.
Эмпирическая дисперсия обладает рядом свойств.
1. Свойство минимальности, которое заключается в том, что эмпирическая дисперсия меньше среднего квадратов отклонений
59
наблюдений от любой точки, не равной средней арифметической, т. е.
∑n (xi − a)2
Sx2 < |
i=1 |
|
, если a ≠ x. |
|
n |
||
|
|
|
Действительно, согласно свойству 4 средней арифметической, сумма квадратов отклонений вариант от их средней арифметической меньше, чем сумма квадратов отклонений от любой другой величины, не равной средней. Если обе части неравенства (23), выражающего это свойство, разделить на объем выборки n, получим
|
∑n (xi − x)2 |
|
∑n (xi − a)2 |
, для любого a ≠ x. |
|
|||
|
i=1 |
< |
i=1 |
|
|
(50) |
||
|
n |
|
|
n |
||||
|
|
|
|
|
|
|||
Учитывая (46), выражение (50) можно преобразовать |
||||||||
следующим образом: |
|
|
|
|
||||
|
Sx2 < |
∑n (xi |
− a)2 |
|
если a ≠ x. |
|
||
|
i=1 |
|
|
, |
|
|||
|
n |
|
||||||
|
|
|
|
|
|
2. Дисперсия постоянной величины равна нулю. В самом деле, если все элементы выборки объема n равны между собой и равны величине c, то эмпирическая дисперсия будет равна
∑n (c −c )2
Sc2 = |
i=1 |
|
. |
(51) |
|
n |
|||
|
|
|
|
Так как
n
c = ∑i=1 c = n c = c, n n
то (51) можно преобразовать следующим образом:
Sc2 = |
∑n (c −c )2 |
|
∑n (c − c)2 |
|
∑n |
0 |
|
i=1 |
= |
i=1 |
= |
i=1 |
|
= 0. |
|
n |
n |
n |
|
||||
|
|
|
|
|
3. Если к каждому наблюдению в выборке прибавить константу c ( c [−∞,+∞] ), то выборочная дисперсия не изменится.
Действительно, учитывая свойство 2 среднего арифметического (22) и (46), можем записать
60
|
|
|
∑n ((xi + c)− ( |
|
))2 |
|
∑n ((xi + c)− ( |
|
+ c))2 |
|
|||
Sx2+c |
x + c |
x |
|
||||||||||
= |
i=1 |
|
|
|
= |
i=1 |
= |
||||||
|
|
|
n |
n |
|||||||||
|
|
|
|
|
|
|
|
||||||
|
∑n (xi − |
|
)2 |
|
|
|
|
|
|
|
|
||
x |
= Sx2 . |
|
|
|
|
|
|||||||
= |
i=1 |
|
|
|
|
|
|
|
|
|
|||
|
n |
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
4. Если каждое наблюдение в выборке умножить на константу c ( c [−∞,+∞] ), то эмпирическая дисперсия увеличится в c2 раз, т. е.
Sc2 x = c2 Sx2 .
Покажем это. Учитывая свойство 3 среднего арифметического и выражение (46), можно записать
∑n (c xi −cx)2 ∑n (c xi − c x)2
Sx2 c = |
i=1 |
|
= |
|
i=1 |
|
= |
||||||
n |
|
n |
|
||||||||||
|
|
|
|
|
|
|
|
||||||
|
∑n |
c2 (xi − |
|
)2 |
|
|
∑n (xi − |
|
)2 |
|
|
||
x |
= c2 |
x |
= c2 Sx2 . |
||||||||||
= |
i=1 |
|
|
|
|
i=1 |
|||||||
|
|
n |
|
||||||||||
|
|
|
|
|
|
n |
|
|
5. Если ряд наблюдений состоит из двух групп, то выборочная дисперсия такого ряда равна сумме средневзвешенной из дисперсий групп и средневзвешенной из квадратов отклонений групповых средних от общей средней. При этом в качестве весов служат объемы выборок. Это свойство можно записать в виде формулы
S 2 = |
S12 n1 |
+ S22 n2 |
+ (x1 − x)2 n1 + (x2 − x)2 n2 , |
(52) |
|||
|
|
||||||
|
|
n1 |
+ n2 |
n1 + n2 |
|
|
|
где S 2 – дисперсия для всего ряда; |
x – средняя арифметическая для |
||||||
всего ряда; S 2 |
– дисперсия для 1-й группы наблюдений; |
x – средняя |
|||||
1 |
|
|
|
|
|
1 |
|
арифметическая для 1-й группы наблюдений; n1 |
– число наблюдений |
||||||
в 1-й группе наблюдений; S22 |
– дисперсия для 2-й группы |
||||||
наблюдений; |
x2 |
– средняя арифметическая |
для |
2-й группы |
наблюдений; n2 – число наблюдений |
во 2-й группе наблюдений. |
||
Докажем это. Для начала покажем, что |
|
||
S 2 = |
|
−(x)2 . |
|
x2 |
(53) |
||
Учитывая (18) и (46), выражение |
(53) можно преобразовать |
||
|
|
|
61 |