Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Лакин Г.Ф. Биометрия учеб. пособие

.pdf
Скачиваний:
51
Добавлен:
25.10.2023
Размер:
16.09 Mб
Скачать

Г ЛАВА СЕДЬМАЯ

ОЦЕНКА ЗАКОНОВ РАСПРЕДЕЛЕНИЯ

ОЦЕНКА ВЫСКАКИВАЮЩИХ ВАРИАНТ

При распределении выборочной совокупности в вариацион­ ный ряд бывают случаи, когда отдельные крайние варианты сильно отклоняются от соседних с ними вариант, «выскакива­ ют» из общего строя распределения, и возникает сомнение в их принадлежности к данной генеральной совокупности. Причины таких явлений могут быть разные: во-первых, возможны техни­ ческие ошибки, допущенные при образовании выборочной сово­ купности, а во-вторых, «выскакивание» вариант может быть следствием сильной вариабильности признака, т. е. явлением вполне нормальным. Если варианты попали в выборку случайно и к данной генеральной совокупности не принадлежат, их надо отбросить. В противном случае этого делать нельзя, хотя бы и казалось, что «выскакивающие» варианты попали в выборку случайно. Оценку «выскакивающих» вариант нужно делать обоснованно.

Существуют разные способы статистической оценки «выска­ кивающих» вариант, проверки «доброкачественности» вариа­ ционного ряда. Довольно простым и достаточно точным является способ нормирования сомнительных вариант по отношению их средней арифметической. Нулевой гипотезой при этом служит предположение, что «выскакивающие» варианты принадлежат к той же генеральной совокупности, что и все другие варианты вы­ борки. Критерием оценки нулевой гипотезы служит нормиро­ ванное отклонение:

t Х Х

о

Варианта выбраковывается, если она выходит за пределы дове­ рительного интервала, устанавливаемого для известного порога вероятности (по правилу «плюс — минус трех сигм»).

Продемонстрируем этот способ на следующем примере. 109 анализов сыворотки крови павианов-гамадрилов на содержание кальция (мг%) распределились следующим образом:

х \ 6,8

7 ,3 7 ,8 8 ,3 8 ,8 9 ,3 9 ,8

10,310,8 11,3 11,8 12,3 12,8

13,3

13,8

14,3

14,8

р: 2

0 1 0 1 2 2

7 11 19 15 - 21 12

7

4

3

2

Видно, что частоты, особенно первых трех классов, резко выде­ ляются из общего строя распределения, что вызывает сомнение в их принадлежности к данной генеральной совокупности. Нуж­ но оценить эти варианты, «доброкачественность» данного вариа­ ционного ряда. Его параметры следующие: х = 11,78 мг% и <т= 1,40 мг%.

120

Для оценки «выскакивающих» вариант построена специаль­ ная таблица (она приведена в приложениях под № VI), в кото­ рой содержатся критические значения нормированного откло­ нения для разных уровней доверительной вероятности и числа

наблюдений (п). Воспользуемся этой таблицей и сначала путем 2 g39_2 576 интерполяции найдем значение^,ээ — 2,576 + 100 X —---------------

= 2,63. Затем определяем границы доверительного интервала для данной совокупности:

нижняя

 

(хт ах)::

х

— /ст =11,78—2.63X1.40=8,10

мг%

граница (лст іп)

 

11,78+2,63Х 1,40= 15,46

верхняя

граница

 

x+ta =

мг%

 

 

 

 

 

 

Варианты 6,8; 7,3 и 7,8 выходят за нижнюю границу доверитель­ ного интервала. На этом основании их следует исключить из данной совокупности.

Другой результат получается при проверке «доброкачествен­ ности» распределения кальция (мг%) в сыворотке павиановгамадрилов, для которого известны min = 8,99; max= 14,70; х = = 11,90 и а=1,20. В этом случае границы доверительного интер­ вала для того же уровня доверительной вероятности (Р = 0,99) оказываются следующими:

нижняя граница: х — ftr= 11,90—2,64x1,20= 8,73 мг% верхняя граница: х + ta= 11,90+2,64х 1,20= 15,07 мг%

Видно, что минимальная (8,99) и максимальная (14,70) вариан­ ты этого распределения не выходят за границы доверительного интервала; отбрасывать их нельзя.

Описанный способ дает безошибочные результаты лишь при­ менительно к выборкам большого объема, распределяющимся по нормальному закону. Относительно же малочисленных выбо­ рок (п<30) он не гарантирует надежность оценок. Дело в том, что в малочисленных совокупностях сильнее сказывается зави­ симость, существующая между величиной нормированного от­ клонения и числом наблюдений. Поэтому на малочисленных выборках нормировать «выскакивающие» варианты следует с

поправкой, равной 1/ п + 1, на которую умножается среднее

'п

квадратическое отклонение эмпирической совокупности, т. е. критерием оценки должно служить отношение

X X

t =

0 У.п +п 1

Возьмем следующий пример. На пяти опытных делянках был получен (в пересчете ц/га) следующий урожай: 8,3 7,9 9,1 6,8 и

121

12,1 ц/га. Вызывает сомнение варианта 12,1, сильно уклоняющая­ ся от среднего урожая ж = 8,84 ц/га. Найдем нормированное от­ клонение этой варианты и оценим его значение; имея в виду, что 0 = 2,0 ц/га

12,1 -

8,84

3,26

іф = ............= 1,49.

2,19

2,0 V6/5

По табл. VI для п = 5 и

Р = 0,95

находим tst = 3,04. Так как

t$<itst, нулевая гипотеза сохраняется: отбрасывать эту варианту при расчете среднего урожая нельзя.

Описанные способы оценки выскакивающих вариант предпо­ лагают нормальность оцениваемых распределений. Если распре­ деление резко уклоняется от нормального закона, эти способы не гарантируют высокую надежность оценки. Отсюда следует, как важно иметь представление о законе, по которому распре­ деляется обрабатываемая совокупность наблюдений.

ПРИБЛИЖЕННЫЕ ОЦЕНКИ ЗАКОНА РАСПРЕДЕЛЕНИЯ

 

Как

бы точно ни вычислялись эмпирические

показатели —

средняя

арифметическая, дисперсия и среднее

квадратическое

отклонение, — сами по себе они не содержат информации

о за­

коне распределения, т. е. ничего не говорят о том, каким

обра­

зом варианты распределяются по классам вариационного ряда. Между тем выяснение закона, по которому распределяется эм­ пирическая совокупность, — важный элемент биометрического анализа.

Известно, что не все признаки распределяются по нормаль­ ному закону: некоторые обнаруживают явную асимметрию; воз­ можны и другие случаи отклонения от нормального закона. Поэтому прежде чем использовать тот или иной критерий оценки генеральных параметров, следует составить представление о за­ коне распределения изучаемого признака (или признаков). Знание закона распределения гарантирует от возможных оши­ бок в оценке биометрических показателей. Приближенную оцен­ ку закона распределения можно получить при помощи коэффи­ циентов асимметрии и эксцесса.

Измерение асимметрии

В нормальном распределении соблюдается равенство между средней арифметической, медианой и модой. При наличии асим­ метрии распределения указанное равенство нарушается. Приня­ то различать асимметрию правостороннюю, или положительную и левостороннюю, или отрицательную. В первом случае варианты

122

накапливаются преимущественно в левой, а во втором, т. е. при отрицательной асимметрии, — больше в правой части вариаци­ онного ряда. При правосторонней асимметрии вершина кривой распределения сдвинута влево от центра распределения (рис. 13), а при левосторонней асимметрии—вправо (рис, 14).

Асимметрию можно заметить по тому, как распределяются частоты по классам вариационного ряда. Например, выборка из урожая фасоли, равная 200 семян, распределилась по их ве­ су (мг) следующим образом:

классы:

100 —150 —200 —250

—300

—350 —400 —450 —500 —550

частоты:

1

2

7

69

88

22

7

3

1

Рис. 13.

Асимметричная кривая (положительная

асим­

 

метрия)

 

Характеристики

этого ряда следующие: 51 = 314 мг

и о = 50 мг.

Модальный класс с частотой 88 находится в центре ряда: влево от него отстоят четыре класса и столько же классов имеется в

Рис. 14. Асимметричная кривая (отри­ цательная асимметрия)

правой части ряда. Однако варианты распределяются по клас­ сам неравномерно: вправо от модального класса расположено 33 варианты, а в левой части ряда находится 79 вариант. Боль­ шая часть вариант сосредоточена в левой части ряда, что ука­ зывает на положительную асимметрию данного распределения.

Мерой скошенности рядов распределения служит коэффи­ циент асимметрии, обозначаемый символом As; он представляет центральный момент третьей степени, отнесенный к величине

123

среднего квадратического отклонения, возведенного в третью степень, т. е.

Ля = Zp(Xi- х)'

Ера3

(66)

пол

пол

 

При строго симметричном распределении сумма третьих степе­ ней отклонений вариант от средней арифметической равна нулю, т. е. 2 (хі — х )3 = 0. При наличии же скошенности, или асиммет­ рии, этот показатель будет иметь либо положительную, либо от­ рицательную величину, которая и может служить мерой ассимметрии.

Коэффициент асимметрии — величина относительная; он ко­ леблется от нуля до единицы. При совершенно симметричных распределениях он равен нулю. Асимметрия считается незначи­

тельной, если A s^0,2; при A s>0,5

скошенность распределения

оказывается

уже сильной. Так

как

центральный

и

условный

моменты распределения третьей

степени связаны

между собой

равенством

рз = £3—30^2 + 2 0 ^,

то

отсюда следует

рабочая

формула для вычисления коэффициента асимметрии по способу условной средней:

 

/ Ира3

,

Ера12

,

\

:о3.

(67)

 

As — I

— ------ЗЬ ——

+ 263

/

 

 

'

п

 

п

 

 

 

Здесь

Ер(Хі — А)

■условный

момент первого

порядка;

Ьі =

 

 

Іра2

Ep(Xj — А)‘

 

условный

момент

 

второго

порядка;

 

 

 

 

Ера3 .

Ер(хг — А)3

 

условный момент третьего порядка.

 

 

 

пп

Вычислим по этой формуле коэффициент ассиметрии для распределения кальция (мг%) в сыворотке крови павианов-га- мадрилов. Предварительно рассчитаем моменты распределения, пользуясь данными табл. 20:

1 , ^ 2 5 0

+ + = 3+ =

3 ,0 2 ; »

Ера

+ 28

п

100

п

100

л

100

 

=

0,28; ЗЬ =

0,84; З Ь ^ - =

2,537;

b3 = 0,022; 2Ь3 =

0,044; а3 =

=

5,0*.

п

 

 

 

 

 

 

 

 

 

 

Подставляя найденные значения в формулу 67, получаем:

As= (2,50 — 2,54 + 0,04) : 5 ,0 ^ 0,01.

1 При вычислении показателей асимметрии и эксцесса по способу условной средней среднее квадратическое отклонение на величину классового интервала

не умножается.

124

Полученная величина настолько мала, что дает веское основание считать это распределение симметричным.

Другой результат получается, если рассчитать коэффициент асимметрии ряда распределения фасоли по весу семян, который приведен выше. В этом случае коэффициент асимметрии оказы­ вается положительным и довольно высоким: Лх = +0,57 (вычис­ лительную работу предлагается проделать читателю).

Эксцесс и его измерение

Наряду с симметричными и скошенными распределениями, вариационные ряды могут быть остро- и плосковершинными, или эксцессивными. Островершинность характеризуется чрезмерным накапливанием вариант в центральных классах вариационного ряда, вследствие чего вершина вариационной кривой сильно под­ нимается (рис. 15). Кроме одновершинных, встречаются двух- и

Рис. 15. Положительный эксцесс (островершинное распределение)

многовершинные распределения. Если при увеличении числа ис­ пытаний имеет место возрастание эксцесса, то ряд распределе­ ния, у которого наблюдалась двугорбость, может разделиться на два ряда с самостоятельными центрами распределения. В таких случаях говорят об отрицательном эксцессе, т. е. таком, для кото­ рого характерна плосковершинность или наличие двух вершин у одной и той же вариационной кривой (рис. 16). При островер­ шинности распределения эксцесс называется положительным.

к= 0

Рис. 16. Отрицательный эксцесс (плосковершинное рас­ пределение)

125

Величина эксцесса измеряется с помощью коэффициента, обо­ значаемого символом Ел:; он равен отношению центрального мо­ мента четвертого порядка к среднему квадратическому отклоне­ нию, возведенному в четвертую степень т. е.

Zp(xi — x ) i

Ера4

(68)

Е л; =

«а4

па4

 

Для строго симметричных распределений Е х= 0, так как

Ера4 = 3. При наличии же эксцесса это отношение не равно 3:

при островершинности оно больше 3 (положительный эксцесс), а при плосковершинности — меньше 3 (отрицательный эксцесс). Отсюда следует, что положительный эксцесс имеет знак плюс ( + ), а отрицательный сопровождается знаком минус (—). Пре­ дельная граница отрицательного эксцесса характеризуется Ех = = —2, а положительный эксцесс может характеризоваться любой величиной, которая никак не ограничена (разумеется, теорети­ чески); положительный эксцесс считается незначительным, если Ех<0,5.

Пользуясь табл. 18, в которой находим Ера4 = 612,32, вычислим

коэффициент эксцесса для ряда распределения

кальция (мг%)

в сыворотке павианов-гамадрилов.

Объем

ряда

п=100, сг =

= 1,20 .«г % и а4 = 2,074 мг%. Отсюда

 

 

 

 

Ех =

612,32

2,95 -

3 =

-

0,05.

- 3 =

 

100 X 2,074

 

 

 

 

Это мизерная величина, позволяющая считать отсутствие эксцес­ са у данного распределения.

Так как центральный момент распределения четвертого по­ рядка связан с условным моментом такого.же порядка равенст­

вом ц* = bi _ 4Ö1Ö3 _|_ 6Ь\ ь2 _ ЗЙ14 коэффициент эксцесса

можно определить упрощенным способом по следующей форму­

ле:

 

 

Ера4

Ера3

, Ера2

 

 

Ех

 

 

 

(69)

-

[ (

----------4b ----------6 Ь2 ------------ 3bk

Ы

 

 

п

 

 

- 3-

Здесь а =

(х — А)\ b

Ep(Xj — А)

условный момент перво­

 

 

п

го порядка. Остальные величйны понятны из предыдущего объяс­ нения.

Применим эту формулу к тому же примеру распределения кальция (мг%) в сыворотке крови павианов-гамадрилов. Поль­ зуясь данными табл. 20, сначала рассчитаем условные моменты разных порядков, входящие в состав формулы 69:

126

п

 

 

2М 0;

+

+

=

2“

= 2 ,50;

 

 

100

 

п

 

100

 

 

2ра2

302

ап

,

 

Ира

+

28

0,28;

 

------ = — = 3,02;

6 =

= —— =

 

п

 

100

 

 

-

п

 

100

 

 

46 = 1,12;

6 6 2

= 0,47;

364 =

0,005;

 

46Ира3

2 8

 

 

 

 

 

 

 

 

 

 

 

, ;

66'

Ира2

1,42;

а =1,715

и

а4 =

8,64.

 

 

п

 

 

 

 

 

 

 

 

 

 

Подставляя найденные значения в формулу 69, получаем:

Ех = [ (26,9 - 2,8 + 1,42 - 0,005) :8,64] — 3 = 2,95 - 3 = - 0,05.

Как и следовало ожидать, получился тот же результат, что и выше.

Вычисление коэффициентов As и Ех по способу суммирования

Центральные моменты распределения, используемые при вы­ числении показателей асимметрии и эксцесса, связаны с услов­ ными моментами равенством:

Ц2 =

62 6 і

Рз —

63 — З6261 -}- 26і

Ц4 =

64 — 46361 -|- 66261 — 361

Условные же моменты можно определить по следующим форму­ лам:

öi =

di

 

Si + 2 S2

di-f- 6(^2 -f- 6c?3

— ;

 

62 = ----------- ; 63 =

-------------------;

 

n

 

n

n

 

 

64

Si + 14S2436S3 +

24S4

 

 

n

 

 

 

 

 

где di, d2, d3

— разности между суммами неполных рядов накоп­

ленных частот, получаемых кумуляцией частот с противополож­ ных концов вариационного ряда до условной точки (Л); Sb S2, S3, ... — суммы из сумм неполных рядов накопленных частот, по­ лучаемые без учета знаков.

Описываемый способ легче усвоить из конкретного примера. Воспользуемся уже известным нам распределением кальция (мг%) в сыворотке крови павианов-гамадрилов и вычислим для него показатели асимметрии и эксцесса этим способом. В табл. 33 показан расчет различных значений d и S. Так, величина d\ = = +28 получена следующим образом: сумма накопленных частот первого ряда, расположенных в сторону меньших значений ва-

127

риант от условной точки Л = 11,7, берется с отрицательным зна­ ком (2 + 5+14 + 3 1 = —52), а сумма накопленных частот того же ряда, расположенных в сторону больших значений вариант, чем А = 11,7, берется с положительным знаком (4+11 + 21 +44 = + 80). Суммирование этих величин (без учета знаков) дает: 80 + 52 = = 132, а их разность + = 80—52=+28. Таким же образом опре­ деляются а?2 и d3, а также Si, S2 и т. д.

 

 

 

 

 

 

 

Т а б л и ц а 3301

Классовые

 

 

 

Ряды накопленных частот

Частоты (р)

 

 

 

 

варианты (х )

2

3

4

 

 

 

1

 

 

 

 

 

 

 

»

8,9

 

2

2

 

2

2

2

9,6

 

3

5

 

7

9

10,3

 

9

14

21

11,0

 

17

31

 

А = 11,7

 

25

 

12.4

 

23

44

 

--'

13,1

 

10

21

36

13,8

 

7

11

15

19

14,5

 

4

4

 

4

4

' 4

Сумма 1-я

 

100

- 5 2

- 3 0

—11

- 2

Сумма 2-я

 

 

+ 80

4-55

+ 23

+ 4

$1+2

 

 

132

85

34

6

d\—2

 

 

+28

+ 25

+ 12

+ 2

Вычисляем условные моменты:

 

 

 

 

bi =

+ 28

= 0,28; Ьг =

132 +

2 X 85

3,02;

100

-----~ ~ — =

 

 

 

 

100

 

 

 

Ьз =

28 + 6 Х 2 5 +

6 Х 12

 

 

 

100

 

 

2,50;

 

 

 

 

 

 

 

 

,

=

132+ 14X 85 + 36X 34 + 24X 6

ос

Ьі

-------- -------------------------------------- ----

26,90.

 

 

 

100

 

 

 

 

Переходим к центральным моментам распределения:

 

 

 

P2 = 3,02 - 0,282 =

2,94

 

р3 =

2,50 -

3 X 3,02 X 0,28 +

2 X 0,28я =

+ 0,01

Р4 =

26,90 -

4 X 2,50 X 0,28 +

6 X 3,02 X 0,282 -

 

 

 

— 3 X 0,284 = 25,51,

 

12 8

откуда находим:

 

 

о2 =

р2 == 2,94; а3 = 5,04 и а4 — 8,64

+

0,01

25,51

As =

- =

0,002 и Ел- = —-------3 = 2,95 — 3 = — 0,05.

5,04

8,64

Получился тот же результат, что и выше, свидетельствующий о нормальности данного распределения.

Оценка показателей асимметрии и эксцесса

Как и другие выборочные показатели, коэффициенты асим­ метрии и эксцесса являются величинами случайными. Поэтому да­ же при строго нормальном распределении совокупности, из кото­ рой взята выборка, они могут более или менее отличаться от нуля. Чтобы отличить мнимую асимметрию от действительной, необходима статистическая оценка достоверности выборочных показателей асимметрии и эксцесса. Нулевая гипотеза заключа­ ется в предположении, что в генеральной совокупности показате­ ли асимметрии и эксцесса равны нулю. Тогда выборочные коэф­ фициенты Лх и Ех как величины случайные распределятся нор­ мально; их средние квадратические отклонения приблизительно равны:

Ѵ іП Г з

(70)

1

і/ 24

і / 6

 

К , + 5- 2К я + 5 -

(71)

 

Отсюда, согласно «правилу плюс—минус трех сигм», условием, опровергающим нулевую гипотезу, будут критерии:

tAs = — > 3

и ttx = — > 3 .

О д *

Otx

Например, Л5 = 0,01 и Ех = —0,05 рассмотренного распределения кальция (мг%) в сыворотке крови павианов-гамадрилов оцени­ вается следующим образом:

 

1 Более точные формулы этих показателей следующие:

 

. /

6 (л — 1)

Ы — !)

 

V ( п + 1 ) ( п + 3 ) “ К

(п — 2) (л + 1) (л + 3) ’

огх

________ 24л (л — 1)2________

24л (л — 2) (л — 3)

(л — 3) (л — 2) (л + 3) (л + 5)

(л + 1)2 (л + 3) (л + 5)

5—2802

 

129