Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Вариационная статистика

.pdf
Скачиваний:
50
Добавлен:
11.03.2016
Размер:
6.2 Mб
Скачать

В 9-й столбец записывают значения (А/б)fШ (-r), в 10-й -значения (E/24)/IV (-r). Данные 11-ro столбца nредставляют алгебраическую сумму

цифр 6, 9 и 10-ro столбцов. В 12-м столбце nомещены выравненные частоты,

полученные nутем умножения данных 11-ro столбца на N/s.

 

 

n

Правильиость

расчета

 

теоретических частот ряда

ZJ

 

 

проверяют

сравнением об­

 

 

щей

их суммы с

суммой

 

 

фактических частот. Ре­

 

 

зультаты

выравнивания по

 

 

кривой типа А показаны на

 

 

рис.

7. Видно, что

экспери­

ментальная кривая согласу­

ется с моделью (VIII. 9). Критерий Л==О,47.

Рис. 7. Распределеине высот стволов

оосны (тиn А)

§ 5. ПРОВЕРКА МОДЕЛИ БИНОМИАЛЬНОГО РАСПРЕДЕЛЕНИЯ

Модель с гипотетической вероятностью р. Дискретные при­

знаки часто распределяются по модели биномиального распре­ деления. Эта модель лежит в основе статистического анализа данных больших выборок, полученных в результате подсчета

численностей. В таких случаях возникает необходимость про­

верки соответствия модели экспериментальным данным. Рас­ смотрим ряд примеров такой проверки. Пусть воздействию неко­

торого препарата подвергнуто вредное насекомое. Предполага­

лось, что используемая доза приводит к 50%-ной гибели насе­

комого. Возможна и другая вероятность гибели. Обозначим эту

вероятность р, а вероятность противоположного исхода q.

Для проверки предположения произвели эксперимент. Из

совокупности насекомых, подвергнутых воздействию препарата.

взяли 100 выборок по 4 насекомых в каждой. Результаты подсчета следующие:

Числешюсть насекомых, погибших в группе .

о

1

2

.J

Число выборок с данной численностью . . .

1

21

~5

9

Наличие двух признаков (гибель и выживание), одинаковое

число испытаний в группах и предполагаемая 50% -на я вероят­ ность гибели р полностью определяют биномиальное распреде­

ление. Эта модель и принимается для проверки предпо.1ожения о р=0,5, или 50%. Численности события (в нашем случае гибе­

ли), соответствующие этой модели, определяются по (11.7):

N (p+q)n. При N= 100, n=4, р=0,5, q= (1-р) =0,5 имеем

распределение:

100 (1/2 + 1/2)4 = 100 (1/16 + 1,4 + 3,18 + 1/4 + 1/16) =

= 6 + 25 + 38 + 25 + 6.

82

Задачей статистического анализа при такого рода вопросах яв­

ляется проверка совместимости опытных данных с избранной моделью, т. е. с гипотетическими численностями. Эту задачу

можно решить путем сопоставления распределений по критерию z2 или Л, как было показано в предыдущем параграфе. Но сна­

чала рассмотрим оценку различия между экспериментальным

распреде.'!ением и гипотетическим на основе методов, рассмот­

ренных в главе V, т. е. путем сравнения выборочной средней х

н гипотетической /!- Для гипотетической совокупности с бино­

миальным распределением среднее квадратическое отклонение

a~=Vpqjn,(VIll.IO), а средняя ошибка средней a-x=VpqiNn=

= о ·уN

(VIII.\1 ),

где n - численности

групп; N- числен-

ность совокупности.

 

 

 

Пр н~~ ер. Имеем

~t=4X0,5=2 случая rнбелн на

груnпу, что равно 50%.

cr ~ Vt0,5-0,5)/4 = 0,25,

илн 25%, т. е. од1111 случай гибели на групnу,

ошнбка средней ах

25/YIOO = 2,5%.

 

 

Для выборки имеем

x~~x/N=219/100=2,19 случая гибели на груnпу, или

(2· 19/4) .\00%=54,75%.

 

 

 

 

При гнпотезе f/0 : tL =50%, t =(к- p.)fa-

(54,75- 50)/2,5--"" 1,9.

 

 

 

x

 

 

При 99 стеnенях свободы t0 ,0s=2,0. Слвдовательно, нет основания найден­ ную разность считать значимой. Гиnотеза о 50% -й вероятности· гибели не от-

вергается. Пос.~е того как установлена несущественность различия х и ~ nри

предположенпи, что выборка принадлежит к биномиальному расnределению, це.1есообразно рассмотреть вопрос, можно ли считать выборочное расnреде­

.1енне, взятое в целом, сог.1асующимся с моделью биномиального расnределе­ ния. По.~ьзуясь методом сравнения, изложенным в § 4 этой главы, произведем оценку сог.нсия по критерию -у} (табл. 26).

26. Вычисление критерия х.2 для выборки 100 насекомых

 

'lисленность

выборок

 

 

(/!_-;;)'

Чнсло слу-

 

 

l

 

 

Разность

чаев п1бели

3ксnернмен-

тсоретнчс-

(п--;;)

n

в груnпе

~

 

 

тальная

ll

екая n

 

 

 

о

1

}

 

6

}

-9

 

1

21

 

25

2,61

 

 

2

45

 

 

38

 

+7

1,29

3

24

 

 

25

 

-1

0,04

4

9

 

 

6

 

+3

1,50

 

100

 

 

100

 

 

5,44=х2

Чнс.1о степеней свободы v = 4-1 = 3.

По таб.1. 7 находим, что вероятность подучить значение х.2 >5,44 nревы­

шает 0,10. Это дает основание считать изблюдеиное различие незначимым.

Х2 = 5,44 чаще, чем в 1О случаях из 100, может наблюдаться и вследствие

чисто с.1учайных nричин. Поэтому гиrютеза о 50% -й вероятности гибели .не

Н<~ходнтся в nротиваречин с оnытом.

83

Модель с неизвестной вероятностью р. Критерий однородно­

сти распределения. Часто р неизвестно и нет никаких основа­ ний для выдвижения той или иной гипотезы относительно ее.

В этом случае постановка вопроса предыдущего параграфа

и его решение не имеют смысла. Вместо этого может быть решен

вопрос об однородности выборки и о том, принадлежит ли она

к некоторому биномиальному распределению, р которого nока

не определено.

При решении вопроса в такой постановке (об однородности

выборки) принимают опытное значение вероятности р u опреде­

ляют соответствующее ему теоретическое биномиальное распре­ деление. Для рассмотрения метода решения вопроса об однород­

ности возьмем данные о гибели насекомых из предыдущего пара­

графа. Анализ этих данных на основе гипотезы о 50%-й вероят­

ности гибели не привел к отверганию этой гипотезы, однако

и значимость ее подтверждения была невысокой. Критерий t был ниже 5% -го уровня значимости, а критерий х2 мог быть

превзойден вследствие случайных причин более чем в 1О с,1учаях

из 100. При наличии рациональных соображений в пользу того,

что гипотетическая вероятность занижена, данные предыдущего

опыта можно было бы интерпретировать как требующие расши­

рения. Теперь мы ставим вопрос так. Априорная теоретическая

вероятность р=0,5 сомнительна: Можно ли считать, что полу­

ченные данные выборки однородны и принадлежат к биномиаль­ ному распределению при вероятности р=54,75%, получе_нной

в опыте?

При этих условиях гипотетические численности определяются по биному: 100(0,5475+0,4525) 4Эти численности· вычисляют

следующим образом (табл. 27).

27. Оnределение численностей по биному

 

 

Степень

 

Ч BC.1CIIIIOCTЬ

 

Число слу-

q

р

Бtti·IOMiltlЛЬHЫii

0ТIIОСJПСЛЫ13Я1 rнnотетнчсекая -

в группе

k

чаев гнбелн

 

 

коэффицне11т

 

 

 

 

1

 

 

 

о

0,0419

-

1

0,04.19

4

1

0,0927

0,5475

4

0,2030

20

2

0,2048

0,2998

6

0,3684

37

3

0,4525

0,1641

4

0,2970

30

4

-

0,0897

1

0,0898

9

 

 

 

 

1,000

100

В предпоследнюю строку столбца q вписывают ее опытное зна­ чение (в нашем примере число 0,4525). Затем оно возводится

в квадрат, куб и т. д. и результаты вписываются последова­

тельно в верхние строки этого столбца. Также заполняют н стол-

84

бец «Стеnень р». Данные вносят в таблицу, начиная со 2-й стро­

ки. Относительные численности являются nроизведением 3 цифр

(а для верхней и нижней строк-2) столбцов слева (qXpXk).

Для 3-й строки имеем 0,2048Х0,2998Х6=0,3684.

Умножением относительных частот на N (в нашем nримере

на 100) nолучают гиnотетические численности биномиального

расnределения (nри р=0,5475).

в табл. 28 дана оценка этого расnределения по критерию х2,

называемому nри решении таких задач к р и т ер и е м о д н о -

род н о с т и. Теnерь 2 стеnени теряются nри вычислении х2

Рассчитываемые численности ограничены не только условием

постоянства N = 100, но и тем, что выборочная средняя взята

вкачестве nараметра распределения. Число степеней свободы

для х2 равно v=n-2, где п-число образованных классов в таб­

лице. В нашем случае n=4. Верхняя и 2-я строки объединены

водну группу условием, что численность групп не должна быть

меньше 5.

28.Критерий однородности расnределения численностей nогибших насекомых

 

 

Числе1шоспJ

 

 

 

 

Число слу­

 

 

 

 

Разность

 

чаев гибели

ЭI\СПСрНМСli­

rнnотетнче-

 

 

 

 

 

 

fl -

fl

 

в груnпе

ТЗЛЫНI.Я

ll

екая n

 

n

 

 

 

 

 

 

 

 

 

 

о

1

}

4

}

-2

 

0,17

1

21

20

 

 

+8

 

 

2

45

 

37

 

 

1,73

3

24

 

30

 

-6

 

1,20

4

9

 

9

 

о

 

о

 

100

 

100

 

0,00

 

При двух степенях свободы такое и большее значения х2

встречаются вследствие случайных причин с вероятностью р =О, 1, т. е. не очень редко. Это не дает основания считать выборку разнородной, не согласующейся с моделью биномиального рас­ пределения, имеющего постоянную вероятность р=0,547&.

§ 6. ПРОВЕРКА МОДЕЛИ ПУАССОНА

Эту модель проверяют так же при анализе распределений

дискретной величины, получаемой в результате подсчета чис­

ленностей. В основе модели лежит представление о искоторой

константной вероятности появления события. Эта вероятность,

однако, очень мала и часто бывает трудно определимой. Вместе с тем размер субвыборок (групп), считающийся также постоян­

ным, должен быть достаточно большим.

85

Распределение Пуассона определяется одним параметром­

средней fl, а= ll·

Относительные численности случайного события встречаются

в субвыборках О, 1, 2, ... , n раз и определяются последователь­

ными ч.1енами:

 

(VIII.12)

где е- основание

натуральных логарифмов, е=2,7183, ln е=

= 0,4343. Процесс

вычисления теоретического распределения

приведен в табл. 29 для данных по учету всходов сосны на лесо­

секах в Архангельской обл.

после проведенного посева

семян

с самолета (данные автора).

Размер учетной площадки

10 м2.

Экспериментальное распределение численностей n по числу всхо­

дов такое:

хо

/! .З84

 

2

4

5

6

7

9

12

15

12

8

3

3

 

 

 

Видно, что распределение имеет крайне асимметричный харак­ тер. Большая часть площадок (384 из 431) не имела всходов.

Малая вероятность появления благоприятного события (всхода)

р=х=0,315 вехода на площадку и показанная выше форма

распределения дали основание предполагать это распределение

соответствующим модели (VIII.12).

В данном примере модель применяется для оценки однород­

ности выборки, т. е. решения вопроса о существовании постоян­ ной вероятности появления всходов для всей выборки лесосек с 431 субвыборкой (учетной площадкой в 10 м2 ).

29. Вычисление теоретических численностей по модели Пуассона для данных

 

 

по учету всходов

 

Чнсло

 

 

Теоретичес~<ая

 

 

 

всхо­

СимооJJ

Логарифмы

1 чнслешюсть

дов

 

 

 

 

 

о

N=4.ЗI

2,6345

 

 

е~-'

0,315. 0,4343 = 0,1.368

 

 

N(e~-'

2,4977

314

 

 

1

fi == 0,.315

"1,4983 или -0,5017

 

 

t.tNje~-'

1,9960

99

 

 

2

fi

-0,5017

 

 

2

1,4943

 

 

fi~Nj2e1~

0,3010

 

 

1,1933

 

 

86

 

 

 

 

 

 

 

Продолжение

Число

Симво.•

 

 

Логарифмы

 

\

Теоретическая

 

 

 

 

 

 

осхо­

 

 

 

 

Чltслеиность

 

 

 

 

 

 

 

 

дов

 

 

 

 

 

 

 

 

 

3

 

р.

 

 

-0,50J7

 

 

 

 

 

 

3

 

 

0,6916

 

 

 

 

 

р.ЭN/2-Зе~'-

 

 

0,4771

 

 

 

 

 

 

 

0,2145

 

 

 

2

 

 

 

 

 

 

 

 

 

j Итого

 

 

 

 

 

 

 

431

Вычисления начинают с того,

что

из lп N

нашем

примере

N =431, lп N =2,6345), вычитают логарифм

е"",

т. е, J.t lпе. В на-

шем примере J.t

х 0,315.

Полученная разность (2,4977)

явля­

ется логарифмом частного

Nje~'-. Антилогарифм

этого

частного

(314)

является

теоретической

численностью

первого

класса,

с числом всходов равным

нулю.

Добавление

логарифма

J.t=

=-0,5017 дает логарифм следующей теоретической численно­ сти. Он равен в нашем примере 1,9960, а теоретическая числен­

ность равна 99. В дальнейшем каждый раз прибавляют лога­

рифм J.t и вычитают логарифм последовательно возрастающего

целого числа (2, 3 и т. д.). Этот процесс ведут до получения

численности меньшей 5.

Вычисление критерия '1..2 (табл. 30) производится по обычной

схеме (см. табл. 24, 26, 28). Число степеней свободы для '1} v= = i-2, где i - число классов; 2- число потерянных степеней

при вычислении в связи с использованием N, а также х в ка­

честве J.t· В нашем примере последняя теоретическая численность меньше 5, следовательно, приходится образовать лишь 3 класса с числом сеянцев на учетной площадке (в субвыборке) О, 1, 2

иболее, v=3-2= 1.

30.Вычисление критерия х2 для распределения сеянцев сосны

 

 

(lllCЛelfiiUCТI•

-ll

 

11 --ll

((/_';;i'

Чнсло сеяш.I.св

 

 

 

в субвыбор!<с

11

1

 

-n

 

 

 

 

 

 

 

384

 

314

 

·'

15,6

о

 

 

70

1

15

 

99

}

-84

71,3

2

12

}

16

+14

10,9

З-13

20

2

 

 

 

431

 

431

 

о

97,s=:e

87

Вероятность превзойти полученное значение х2 меньше 0,001 (табл. 7 прил.). Поэтому данную выборку из 431 учетной пло­

щадки нельзя считать однородной в отношении вероятности по­

явления исследуемого события. Вероятность не была здесь посто­

явной и модель Пуассона не отражает действительного распре­

деления всходов по числу их в субвыборке (в учетной единице). Несогласованность выборки с моделью можно бьиrо заметить

и до расчетов, визуально.

Расчет теоретических численностей чрезвычайно упрощается

при использовании значений функций Пуассона, приводимых

в таблицах, см. табл. ll прил. Для Л=/.1=0,30, принимаемого

на ос~ове х=0,315, находим вероятности частот по Пуассону:

0,741; 0,222; 0,033; 0,003. Умножая их на 431, получаем теорети­

ческие численности: 319, 95, 14, l, т. е. близкие к н~денным

точным расчетом. Расхождения вызваны округлением х при ис­ пользовании таблицы значений теоретических относительных

численностей (табл. 11 прил.). Сопоставляя полученные чис­

ленности сеянцев с теоретическими, видим большую несогласо­

ванность модели и эксперимента.

Для получения более согласованных с данными опыта теоре­ тических частот распределения следует подобрать другую модель распределения, например из семейства моделей («кривых») К. Пирсона. В настоящем пособии эти моде.!fи не рассматрива­

ются.

Г л а в а IX

ИЗМЕРЕНИЕ КОРРЕЛЯЦИИ МЕЖДУ ПРИЗНАКАМИ

§1. ОБЩИЕ ПОНЯТИЯ О КОРРЕЛЯЦИИ

Вприроде все явления взаимосвязаны. Некоторые из них

находятся в определенной зависимости, другиеизменяются

в определенном направлении под влиянием общих условий. Так,

производительность древостоев зависит от плодородия почв,

адиаметры и высоты деревьев взаимосвязанно изменяются под

влиянием некоторых общих факторов. В дальнейшем изложении все такого рода зависимости и связи, как имеющие общие мето­ ды их статистического измерения, будем называть к о р р е л я -

ц и ей, или с вязью. При употреблении слова зависимость ему

придается такое же статистическое значение.

Различают связи

функциональную

и

корреляционную.

Фу н к ц и о н а ль н ой

называют такую

связь

между величи­

нами, при которой каждому значению одной переменнойаргу­

мента соответствует одно определенное значение другой пере­

менной -функции. Такие связи наблюдаются в физике.

88

В природе явления развиваются под воздействием различных

факторов внешней среды. Поэтому связь между признаками про­

является в виде корреляционной связи, или корреляции.

Каждому значению одного признака здесь соответствует не одно, а несколько значений другого признака, т. е. его распреде­

ление. Один из признаков (обычно легче или точнее измеримый)

принимают за факториальный, а другойза результативный.

Иногда, в

условном значении, один называют независимым,

а другой -

зависимым от первого.

Статистическое исследование корреляции сводится к уста­ новлению факта связи, определению ее формы, направленности

и тесноты. Установление факта связи производят сначала на основе биологического анализа явления. Например, можно ска­ зать о наличии корреляции между размерами диаметра (толщи­

ны) и высоты деревьев в древостое еще до ее измерения. В дру­

гих случаях наличие корреляции между изучаемыми признаками

нельзя предсказать столь определенно. В этом случае решают

вопрос о наличии корреляции на основе статистического ана­

лиза результатов ее измерения.

Корреляцию называют пр о с т ой, если она измеряется на

основе двух признаков, или м н о ж е с т в е н н ой, если измене­

ние результативного признака измеряют в связи с влиянием или

изменением нескольких факториальных признаков.

По форме различают корреляцию л и н ей н у ю, когда зави­

симость между признаками отражается прямой линией, и к р и - в олиней н у ю, когда ее отражает уравнение какой-нибудь

кривой. Во многих случаях форму корреляции можно уже пред­ сказать до опыта. Например, между длиной и толщиной мо,'lо­ дых деревьев в древостое можно ожидать линейную корреляцию.

Но нельзя ожидать такой же формы корреляции у деревьев, рас­

тущих в старых древостоях. Статистический анализ дает ответ о форме связи и в тех случаях, когда на основе биологического

анализа ее установить трудно или вообще невозможно.

По направленности различают корреляцию прямую, когда

с увеличением одного признака в среднем увеличиваются и зна­

чения другого, а с уменьшениемуменьшаются, и обратную, когда с увеличением значений одного признака значения другого в среднем уменьшаются и наоборот.

Тесноту корреляции, или степень сопряженности между зна­

чениями одного и другого признака, выражают в виде отвлечен­

ных статистических характеристик (показателей) связикоэф­

фициента корреляции r и корреляционного отношения -ТJ.

§ 2. КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ

Коэффициент корреляции является численной характеристи­

кой связи между признаками, когда она имеет линейный харак­

тер. Коэффициент корреляции численно выражает отношение

89

числа факторов, действующих на изменение обоих признаков к общему числу факторов.

Указанное содержание коэффициента корреляции достаточно хорошо выражает формула

(IX.l)

где числительсумм~.Jiроизведений отклонений величин Х и У

от своих средних х и у; в знаменателе- Sx и Sy - средние ква­

дратические отклонения распределений Х и У; N - число сопо­ ставляемых пар или число наблюдений.

Из формулы видно, что при независимом варьировании при-

знаков, когда любое из отклонений Х-х может сочетаться с лю­

быми У-у (как с поЛожительными, так и с отрицательными,

притом одинаково часто), числитель ее будет равен нулю или

близкой к нулю величине. Следовательно, и r ~О. При сопря-

женном варьировании отклонения Х-х сочетаются только с не­ которыми отклонениями У-у, например, положительные в ос­

новном только с положительными (при прямой связи) или поло­

жительные с отрицательными (при обратной связи). В этом

случае сумма произведений будет иметь положительное (при прямой связи) или отрицательное (при обратной связи) значе­

ние, притом тем большее по своей величине (при данном N), чем

связь сопряженнее.

Делением суммы произведений отклонений на число корре­

лирующих пар получают среднюю величину произведения, а де­

.лением на стандартные отклонения Sx и Sy выражают это про­

изведение отвлеченным числом, характеризующим тесноту связи.

Формулу коэффициента корреляции можно написать и в та­

ком виде:

или

(lХ.З)

Когда данные обрабатывают с помощью счетной машины,

имея небольтую выборку, например до 50 пар, коэффициент

корреляции удобно вычислять непосредственно на основе зна­

чений измеренных признаков Х и У по формуле:

(IX.4)

Пример вычисления коэффициента корреляции для малых

выборок приведен в табл. 31.

90

31.Вычисление коэффициента корреляции между длиной стволиков

идлИной корней сеянцев сосньr

Отклонение

Длина

длина

 

 

 

 

 

 

 

стволи-

корня

 

 

 

.r2

 

ВычнслеJJitс

 

ка Х,см

у

х

у

ху

У'

 

 

 

1 .

 

 

 

 

1

 

1

1

 

 

5

3,5

-0,5

-0,5

+0.25

0,25

0,25

 

 

6

4,0

+0,5

о

о

0,25

о

х- ~.XJN=c55j10 = 5,5

 

5

4,1

-0,5

--j-0,1 -0,05

0,25

0,01

см

7

5,0

+1.5

--j-1,0 --j-1,50

2,25

1,00

 

 

6

3,5

+0,5

-0,5

~ 0,25

0,25

0,25

 

 

4

3,1

-1,5

-0,9

+1,35

2,25

0,81

у=~ YJN= 40/10 = 4,0

or

5

3,5

-0,5

-0,5

+0.25

0,25

0,25

r .с= ~ ху/V~х~~ у2 =

 

4

3,0

-1,5

-1,0

+1.50

2.25

1,00

= 7,00: ../10,50 . 6,26 = 0,86

7

5,3

+1.5

+1.3

+1,95

2,25

1,69

 

 

6

5,0

+0,5

+1.0 --j-0,50

0,25

1,0

 

 

~ss

140,01

о 1

о

1+7

11o,sol6,261

 

 

По формуле (IX.4) получим

r =

227- (55·40)/10

 

 

552

40''

 

-v( 313 ---то) (166,26- -тi-)

----:-;:~70::::;;::::;:;:~ = 0,86.

у10,50. 6,26

Коэффициент корреляции может принимать значения от +1

до -1. При полной прямой корреляции Г=+ 1, при полной: обратной г=-1. При г=О или близкой к О прямолинейная

связь отсутствует (криволинейная связь при этом может быть).

Обычно считают, при величине г~О,ЗО связь слабой, при Г= =0,5-0,6- средней; при г=0,7 и вышесильной или тесной..

 

§ 3.

КОРРЕЛЯЦИОННОЕ ОТНОШЕНИЕ

 

Когда

связь

имеет криволинейный

харак-:-ер,

что можно

иногда установить на основе графика,

вычисляют

показатель

криволинейной зависимости ТJ (эта), называемый

к о р ре л я­

ц и о н н ы м

о т н о ш е н и е м (табл. 32).

 

 

Квадрат корреляционного отношения представляет собой

частное от дисперсии групповых средних s}. на общую диспер-

сию

2

т. е.

 

 

 

 

'

 

Sy,

 

z

 

(IX Б)

 

 

 

 

 

2 _

2

1

(IX.6}

 

 

'У) -

1

. ,

'У)= SY/SY,

 

 

SY/s,,,

s~;' s;1 -соответственно дисперсия

и среднее

квадратическое

отклонение групповых средних признака У; s;,

Sy - общая дис­

персия и среднее квадратическое отклонение признака У.

91