Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Вариационная статистика

.pdf
Скачиваний:
50
Добавлен:
11.03.2016
Размер:
6.2 Mб
Скачать

32.Вычисление корреляционного отношения между длиной стволиков и корней

Длина

Длина

ЧJtСЛО

Групповые 1

-

-

 

1 n <Yi- у)'

 

корня }', 1

-

 

стполнка

n

1 сре;:нс yi,

У;- у

 

х см

см

 

 

 

 

 

 

4

3,0

2

3,05

-0,95

0,9025

1,8050

 

3,1

 

 

 

 

 

 

 

3,5

 

 

 

 

 

 

5

4,1

3

3,70

-0,30

0,0900

0,2700

 

3,5

 

 

 

 

 

 

 

4,0

 

 

 

 

 

 

6

3,5

3

4,17

+0,17

0,0289

0,0867

 

5,0

 

 

 

 

 

 

7

5,0

2

5,15

+1,15

1,3225

2,6450

 

5,3

 

 

 

 

 

 

Итого: 1

1

10

1

 

 

 

4,8017

 

sy1 = V[~n (yi- у)~]

/V<N- 1),

(IX.7)

 

 

s;. = V(~ny2) /V(N -1 ).

(IX.8)

Для данных табл. 32 имеем:

 

 

 

 

s;. = J14,80t7/V(lo- 1) = о,73о,

sy -= V6,261V(1o -1) =0,83,

1

 

 

= s;/sY = 0,73/0,83 =

 

 

 

 

'l"Jyfx

0,88.

 

Корреляционное отношение показывает, какую часть общей

дисперсии (вариации) результативного признака (У)

составляет

дисперсия частных средних этого признака, т. е. измер~ет отно­

сительную степень варьирования групповых средних Yi·

Можно вычислить два корреляционных отношения 'l']ylx и Ylxly. Однако реальное значение имеет, как правило, один из них. Кор­

реляционное отношение имеет всегда положительное значение,

изменяющееся от О до l. Когда групповые средние одинаковы

(не варьируют), '11 =0. Связь отсутствует. В случае строго пря­

молинейной связи (все точки лежат на прямой) '11 = r= l. В дру­

гих случаях ч>r. Чем это различие больше, тем связь более

криволинейна. В предеJiьном случае, когда связь строго криво­

линейна и кривая проходит через групповые средние, так что

SJ; =sy, корреляционное отношение равно 1, а r=O.

- * Общая сумма квадратов отклонений пр113нака У вычислена ранее (см.

табл. 31 или пример вычисления коэффициента корреляции по формуле

IX.4), где она найдена из непреобраэованных, несгруппированных вариант:

(IX.9)

92

 

Вычисление по формуле IX.6

значения '11

возможно

лишь

в

том случае, когда выборка большая и данные расположены

в

виде корреляциоюrой таблицы,

как в таб.JJ.

33. При

малом

числе наблюдений показатель 11 недостаточно надежен. В груп­ пах может оказаться по одному значению У. Тогда s-y1 :::::: Sy,

а '11:::::: 1,0. При малой выборке следует вводить корректирование

'11 по формуле:

~~ = 1- (1- 'Yn [(N- 1)/(N- т)], (IX.9)

где т- число групп.

Для нашего примера с сеянцами получим

':;j~ = 1 - (1 --0,88)~ [(10- 1)/(10 -4)] = 0,662, откуда -;j = 0,81.

Более подробные замечания относительно 11 приведены в гла­ ве Х.

§ 4. МЕРА КРИВОЛИНЕйНОСТИ

Различия в квадратах корреляционного отношения и коэф­ фициента корреляции используют в качестве меры криволиней­

ности связи к.

(IX.lO)

Мера криволинейности изменяется от О до 1. При К=О связь строго прямолинейна, при К= 1 связь строго криволинейна. В выборках значение К обычно находится между нулем и едини­

цей. Тогда всякий раз возникает необходимость оценки досто­ верности выборочной меры.

Теория оценки параметров рассмотрена в главе VI. В § 6 гл. IX произведена оценка меры криволинейности связи между диаметром и высотой 94 деревьев сосны.

§ 5. ТЕХНИКА ВЬIЧИСЛЕНИ.Я СТАТИСТИЧЕСКИХ ХАРАКТЕРИСТИК СВ.ЯЗИ ПРИ БОЛЬШОй ВЫБОРОЧНОй СОВОКУПНОСТИ

Вычислению показателей связи при большой выборке пред­

шествует сводка данных в корреляционную таблицу или в таб,

.пицу распределения вариант по двум признакам (табл. 33). При составлении этой таблицы сначала размещают значе­

ния классов признаков Х и У. В табл. 33 значения классов взяты

из табл. 3 и 4. Границы классов и срединные значения для одно­

го из признаков, принимаемого за независимый- Х размещены во 2 и 4-й строках, а границы и срединные значения классов дру­

гого признака У- в 1 и 2-м столбцах заголовка таблицы (см. отграниченные линиями строки в табл. 33).

93

33. Распределение

количества

стволов

сосны по

классам диаметра

и

высоты

У- высота) м

 

 

 

 

 

Х - диаметр, см

 

 

 

 

 

14,1- 1

18,1-122,1- 1 26:1-,30,1-134,1-138,1-

 

 

 

-18,0

 

-22,0

-~6.0

-30,0

-34,0

-38,0

-42,0

 

 

Сред11ее

 

 

 

 

 

 

 

 

 

 

1/нтерва.•

значение

 

Среднее з11ачение интернала

для Х

 

 

lfтoro,

интервала

 

 

 

 

 

 

 

 

 

 

 

 

 

 

для

у

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

20

24

28

32

36

4n

 

 

 

 

 

1

 

1

 

1

1

1

1

 

 

~9.6-30,5

30

-

 

-

-

 

-

2

6

2

 

10

28,6-29,5

29

-

 

-

-

 

3

6

5

4

 

18

27,6-28,5

28

-

 

1

-

10

7

5

2

 

25

26,6-27,5

27

-

 

1

 

2

5

3

5

1

 

14

25,6-26,5

26

-

 

-

 

4

7

2

2

-

 

1:>

24,6-25,5

25

-

 

-

 

1

1

-

-

-

 

2

23,6-24,5

24

1

 

2

-

 

1

-

-

-

 

4

22,6-23,5

23

1

 

1

 

1

-

-

-

--

 

3

21,6-22,5

22

1

 

-

-

 

1

-

-

-

 

2

20,6-21,5

21

-

 

2

-

 

-

-

-

-

 

2

19,6-20,5

20

1

 

-

-

 

-

-

--

-

 

1

 

 

 

 

 

 

 

 

 

 

 

 

Итоrо: 1

 

4

1

7

1

8

1 28

1 20

1 18

1 9

1

94

Средние эмпириче-

 

 

 

 

 

 

 

 

 

 

 

ские высоты, Му;

22,2

 

24,0

25,7

27,0

28,2

28,8

28,8

 

27,2

Контроль: Ynyx

89

 

168

206

755

563

519

259

 

2559

-y;n,.

 

88,8

168,0

205,6

756,0

564,0

518,4

259,2

 

2560,1)

Разноску ваблюденных значений признаков производят сразу по обоим признакам. Каждую варианту в клетке, образуемой пересечением строки и столбца, соответствующих значениям

варианты по обоим признакам, обозначают постановкой точки

или черточки, как при составлении ряда распределения (см.

табл. 3 и 4). Если диаметр ствола сосны равен 20,8 см, а высота 28,0 м, варианта должна быть занесена в клетку, образуемую 3-й строкой и 2-м столбцом таблицы. После разноски всех вари­ ант и обозначения их в цифровой записи подводят итоги частот

по каждой строке и столбцу. В табл. 33 процесс разноски вари­

ант и обозначение их точками не показаны. Приведевы итоги

распределения, показанные в цифрах.

Таблица распределения заканчивается вычислением эмпири­

ческих средних значений зависимого признака (в нашем при­

меревысоты) по классам независимого (в нашем при­ мерепо классам диаметра). Для этого сначала в пределах

каждого класса независимого признака находят суммы произве·-

94

дений срединных значений классов зависимого признака на со­

ответствующие им частоты, помещенные в корреляционной таб­

лице. Найденные по каждому разряду суммы произведений (они

вписаны во 2-й строке снизу) делят на общее количество частот

класса.

Полученные в результате этого деления средние значения

зависимого признака по классам независимого, т. е. средние

эмпирические высоты, вписаны в 3-й строке снизу.

Для проверки правильиости вычисления этих средних значе­ ний зависимого признака находят сумму произведений их на чис­

.пенности по каждому классу независимого признака. В рассмат­

риваемом в табл. 33 примере: 22,2Х4=-88,8; 24,0Х7=168 и т. д.

Совпадение общей суммы произведений, найденной разными спо­

-собами, свидетельствует о правильиости вычисления. Небольтое

расхождение, являющееся следствием округления в расчетах,

неизбежно. В нашем примере оно оказалось равным 1,0.

·Практически такое расхождение допустимо. Если определить

среднюю высоту для всей совокупности стволов путем деления

суммы произведений средних высот классов на сумму частот,

она окажется равной 2560: 94=27,21 м. Расхождение со сред­ ней, найденной в таблице, составляет всего 0,01 м.

Средние значения частные и общее вычисляют с точностью не менее той, какая принята при измерении отдельных значений

признака. Обычно средние вычисляют с точностью на один раз­

ряд выше.

Для вычислений статистических характеристик корреляции следует использовать таблицу в сокращенном виде, как это пока­ зано в верхней левой части табл. 34, отграниченной жирной

.rшнией. В этой части таблицы отчетливо просматриваются полу­

ченные в результате разноски ряды распределения численностей

по двум признакам. Вертикальные столбцы частот, рассматри­

ваемые вместе с классовыми вариантами зависимого признака,

представляют собой частные вариационные ряды этого признака

в пределах каждого класса независимого признака. Горизон­

тальные строки частот, рассматриваемые вместе с классовыми

вариантами независимого признака, представляют собой вариа­

ционные ряды независимого признака в пределах каждого клас­

-са зависимого. Итоги строк n11 представляют собой частоты пол­

ного ряда зависимого признака, а итоги столбцов nx -частоты

nолного ряда независимого признака.

Для расчета статистических показателей связи целесообраз­

но использовать способ кодирования или моментов, как и при вычислении показателей распределения. Для нахождения момен­ тов корреляционной таблицы (см. табл. 34), за пределами отгра­

ниченной жирной чертой части таблицы с исходной информацией, вводят 5 дополнительных столбцов и 7 дополнительных строк.

В 1-ю дополнительнуfо строку вписывают отклонения клас­

совых вариант ряда независимого признака Х от условной

95

~34. Распределение числа стволов сосны по классам диаметра и высоты, расчет моментов и основных отклонений

 

 

 

дна"етр, см

 

 

 

 

 

.,

 

Высота, ~r

 

 

1 24 1 2s lз2 м~ 1

 

 

Итого

yk

nyyk

 

 

 

 

40

.пу

nyYk

nxyxk

 

 

16 1 20

36

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

30

 

 

 

2

6

2

10

+3

30

90

О+ 6+4

29

------ -- ------------

 

 

 

 

3

6

5

4

18

+2

36

72

-3+ 0+5+8

28

------ -- --------------

 

 

1

10

7

5

2

25

+1

25

25

-3-10+0+5+4

м'= 27

-- ---------- ----------

 

 

1

2 5

3

2

1

14

о

о

о

-3-4-5+0+2+2

у

-------- ------------1-

 

 

26

 

 

4 7

2

 

 

13

-1

-13

13

-8- 7-f-0

25

-- ------------------

--

 

 

 

1 1

 

 

 

2

-2 - 4

8

-2-1

 

--.------ ------------

 

 

24

 

1 2

1

 

 

 

4

-3 -12 36

-4-6-1'

23

-- ---- ----------------

 

 

1 1

1

 

 

 

3

-4 -12 48

-4- 3-2

22

-------- --------------

 

 

1

1

 

 

 

2

-5 -10 50 -4-1.

21

 

---- --.--------------

 

 

2

 

 

 

 

2

-6

-12

72

-6

20

 

--------------------

 

-

1

 

 

 

 

1

-7

-7

49

-4

 

-------------- ----

 

 

nxyxkyk

10 30

10 20

-4 -4

-8 о

-15 15

-3 6

-11 33

-9 36

-5 25

-6 36

-4 28

Итого nx

4

7

8

28

20

18

9

94

21 463

225

"-~

::с

;з::

('")..

"'о..

Xk

nxxk

nxx~

nyxYk

nyxYkXk

(nyxYk)2

nx

-

Yi

1- 4 1- 3 1- 2 1- 1 1

о 1 + 1 1 + 2

1

 

 

 

 

 

 

 

 

1-161-211-161-281

о

1 +181 +18

-45

1 641

631

321

281

о

1

181

361

241

 

 

 

 

 

 

-3 + 1

о

+6 ~1+18

+6

--

-4 о

- 4

+10

+12

 

+10

+ 8

 

 

 

------ --------

-5 -6 -2 о +7 +5 + 2

 

-- --------------

-7 -4 -4 -7 о

о

о

 

 

-12

 

- 2

-2

 

 

 

 

 

 

-3

 

 

 

 

 

 

 

-5

 

 

 

 

-191-211-101- 1123

[33

116

1

 

 

 

 

 

 

 

76

63

20

1

о

33

32

225

 

--------------

90,2

63,0

12,5

о

26,4

60,5

28,4

281,0

 

---- -- --------

22,2

24,0

25,8

27,0

28,2

28,8

28,8

 

 

 

Моменты

m 1x =

(~ nxx,,)/ N = -45/94 =- 0,479;

m 1y =

~ nyYkfN =

21/94 = 0,223:

m2x =

~ nxxkjN =

241/94 = 2,564;

m 2y = ~ nyy'ifN = 463/94 = 4,926;

s;= V m2x-mix= V 2,564-(-0,479)2= 1,528;

s; = V m2 y- miy = V4,926-0,2232 = 2,202;

mlyx =

~ nyxXkYkfN = 225/94 = 2,394;

_

1 ~ (nyxYkP

= _1_ Х 281,0 = 2,989.

m2yix-N ~ n~

94

~

средней величины этого ряда М', выраженные в рабочих едини­ цах, т. е. поделенные на величину к.'Iассового промежутка (kx).

(см. V, 4) *

Во 2-ю дополнительную строку вписывают произведения час­

тот на условные отклонения (n;~:Xk) и в 3-ю- произведения час­

тот на квадраты условных отклонений (nxx~). В следующую

строку по каждому частному ряду распределения, т. е. по каж­

дому столбцу, вписывают проиjведения отклонений классовых вариант ряда зависимой переменной от их условной средней величины на частоты каждого частного ряда зависимой.

Для класса Х= 16, например, значения этих произведений

получают так: условное отклонение у,, (в 1-м дополнительн,ом

столбце и 8-й строке таблицы), равное -3, умножают на числен­ ность nyx= 1; условное отклонение (в 9-й строке таблицы), рав­ ное -4, умножают на численность nyx= 1; условные отклоненщ1 10-й и 12-й строк таблицы, соответственно равные - 5 и -7, умножают на численности, равные 1. Полученные произведения

--3, -4, -5, -7 суммируют. Сумма произведений =-19.

В5-ю дополнительную строку вписывают значения произве­

дений условных отклонений ряда независимой переменной Xk на

алгебраические суммы произведений (nyxYk), вписанные в пре­

дыдущей строке.

В6-ю строку таблицы вписывают значения средних квадра­

тов отклонений частных рядов зависимого признака по классам независимого. Для первого частного ряда ( 1-й столбец) средний

квадрат '

В 7-ю (самую нижнюю строку) вписывают средние значения

зависимого признака Yi по каждому классу независимого. Эти

значения впервые вычислены в процессе составления рабочей корреляционной таблицы (см. табл. 33).

Содержание дополнительных 5 столбцов таблицы аналогично содержанию рассмотренных строк без 2 пос.1едних. Оно ясно из

символов, указанных в заголовках столбцов. Столбцы эти слу­

жат для проверки расчетов, произведенных в строках. Суммы

3-й строки снизу и последнего столбца должны совпадать (см.

число 225).

После проверки этих сумм и нахождения сумм других строк

и столбцов вычисляют начальные моменты и основные отклоне­ ния. Формулы и последовательность расчетов -приведены в ниж­ ней части табл. 34 справа.

* Под96ная фор:~1ула прнменяется д.1я ОТI\.1оненн1'1 11 по другому прнзнаку

Yk= (Y-My).'ku.

98

В этих формулах:

m 1x и m 2x - l и 2-й начальные моменты ряда распределения

независимого признака; m1y и m2y - l и 2-й начальные моменты

ряда зависимого признака; m1xy - момент произведения откло­

нений; m~J.~- средний квадрат условных произвольных отклоне­

ний чаСТНЬIХ средНИХ ряда у ПО КЛассам Х (2-Й МОМент); S х, S~ -

основные_ от~лонения вариант, соответственно ряда х и у от их

средних х и у, выраженные в долях интервалов.

Статистические показатели связи для больших выборок вы­

числяют по формулам: коэффициент корреляции

г= (mJxy ~ mJxmiy)/s~s~,

(IX.ll)

корреляционное отношение

 

 

(IX.l2)

Мера криволинейности вычисляется по формуле (IX.IO).

Для нашей выборки 94 диаметров и высот деревьев сосны

r = [2,394- ( -0,479) (0,223) )i(l ,528 · 2,208) = 0,741,

'l/= 1-/ (2,989 -- 0,223~) 12,208 = 0.777.

Мера криволине!"шости корреляции диаметров и высот k = "'1~ ~~г~= 0,7772 ~~ 0,74Р = 0,055.

§ 6. СТАТИСТИЧЕСКИй АНАЛИЗ КОРРЕЛЯЦИИ

Общие методы оценки. Статистический анализ корреляции, установленной на основе выборочных характеристик, произво­ дится в nринципе так же, как и анализ выборочных показателей распределения. Теория оценки выборочных наблюдений изложе­

на в главе VI. Она полностью применима и к оценке корреля­ ции. Оценка может быть произведена в форме указания довери­

тельного интервала для параметра или в форме проверки зна­ чимости выборочного показателя (проверки гипотезы).

Ошибки статистических показателей связи вычисляют по

формулам:

а) при малой выборке

s,=V(l--r~)i(N-2), (IX.13); sr, = Jl(l-"''~)'(N-~2) (IX.14)

б) при большой выборке

s,=(l-r~):JIN-1 (IX.15);s~=(l-"'12);VN-1. (IX.lб)

Ошибку меры криволинейности находят по формуле:

sk = (2/VN ) VК- К2 (2 - "'12 - r~) .

(IX.17)

99

Для совокупности диаметров и высот сосны (см. табл. 33)

ошибки показателей связи равны:

Sr = (1- 0,74J2)/V(94- 1) = 0,047,

SТj = (1--

0,7772)/V(94 -1)

= 0,041

sk = (2/V94) V0,055

-0,0552 (2- 0,777

2 - 0,741 2 ) = 0,047.

Полученные значения r, '11 и их ошибок позволяют произвести проверку нулевой гипотезы о том, значимы ли r и '1')?Или в более

подробной ее постановке: совместимы ли полученные показатели

с предположением о том, что в генеральной совокупности не су­ ществует связи между изучаемыми признаками, т. е. р=О и 'I'Jг=O (р и 'I'Jгпоказатели генеральной совокупности). Крите­ рий t, дающий решение, имеет выражение, обобщенное (VI.22),

т.

е.

lr=r/sr; tf! = Yifs~. Значения tr и t~ соответственно равны

16

и

19.

 

Так как найденные tr и tfl выше критических значений, при-

ведеиных в табл. 3 прил. для v=N-1 =93, то можно утверж­ дать, что разность между выборочным показателем r и гипоте­ тическим (р=О) (аналогично между '11 и 'I'Jг=O) является зна­ чимой. Нулевая гипотеза Н0 : р=О; 'l']г=О отвергается.

Для меры криволинейности t"=0,055/0,047= 1,2. Это значе­

ние меньше критического значения t0,05 =2,0. Следовательно, выборочная К- незначима. Она незначимо отличается от нуля,

принимаемого в формуле для t" за значение меры криволиней­

ности в совокупности.

К такому же статистическому заключению мы придем, при­

меняя интервальную оценку для параметров. Доверительные

интервалы будут для p=r±t 0 ,05sr=0,741 ±2·0,041, от 0,659 до 0,823; для 'l']r='I'J±Ito,osSТI =0,777±2·0,047, от 0,683 до 0,871; для Kr=K±to,osS"=0,055±2·0,047, от -0,039 до +0,149.

Видно, что р и 'llг будут иметь положительные и высокиезна­

чения, с вероятностью р=0,95, лежащие в указанных интерва­ лах. Интервал для Kr покрывает нуль. Это означает, что Kr может быть равно нулю, а следовательно, нулевая гипотеза Но: Kr=O не отвергается. Следовательно, криволинейный харак­ тер связи статистически не доказан. Связь в совокупности можно считать прямолинейной. Статистическое заключение о связи диа­

метров и высот 94 деревьев сосны, вытекающее из вышеизложен­ ного анализа, следующее. Связь между диаметром Х и высо­

той У по направленности - прямая (об этом свидетельствует

и знак при r); по теснотесвязь тесная, по формепрямоли­

нейная.

Заключение о прямолинейном характере связи нуждается

в обсуждении. С точки зрения статистики такое заключение не

противоречит данным опыта. Однако более правильно было бы

100

сказать, что хотя выборочный показатель К нам указал на неко­

торую степень криволинейности связи, но на достаточном уровне

доверия

(р=0,95)

эта криволинейность не доказана. Это

могло

быть либо

следствием ма.1очисленности выборки (при

малой

выборке

ошибка

sк оказывается большой, а, следовательно,

iфаит < iирнт.

либо

следствием действительно прямолинейного

характера связи высот и диаметров в совокупности.

На основе биологического анализа явления можно, однако,

утверждать, что связь эта не прямолинейна. Самые толстые

деревья не являются самыми высокими, на что указывают и дан­

ные корреляционной таблицы. Таким образом, полученные ста~ тистические оценки и вывод относительно прямолинейного харак­ тера связи не находятся в согласии с существом явления. В та­

I<ом случае этот анализ лишь обогащает познание явления. Он

указывает, что криво;rJИнейность корре.1яции проявляется слабо

и что зас.'!уживающая доверия проверка значимости К может быть сделана на основе более расширенной выборки, с большим

числом наблюдений.

.

Дальнейшие подбор и оценка уравнений для выраЖения зави­

симости подтвердили вывод о криволинейной ее форме, который

в данном случае был сделан на основе биологическрго анализа

существа явления.

Оценка показателей связи при малых выборках. При оценке

коэффициента корреляции при малой выборке возникают неко­

торые новые проблемы в связи с тем, что при высоких значе­ ниях р выборочные коэффициенты имеют не нормальное, а по­

зитивно асИмметричное · распределение. В таких случаях на

основе выборочного r и его ошибки Sr можно применить лишь

оценку значимости r при гипотезе р=О, т. е. лишь одну форму

оценки из двух.

Для данных табл. 31 при r=0,86 имеем следующую его

оценку

s,=V(l.,-r~)f(N-2) =V<1-0,86)(10-2) =0,18;

t, = rjs, = 0,86/0,18 = 5,33.

Полученное значение tr превышает даже to,oo1 = 5,0. Следова­

тельно, r значимо на высоком уровне доверия. .

Эту форму оценки нельзя hрименять при других гипотезах,

кроме р=О. Равным образом критерий t нельзя использовать для

построения доверительного интервала. Р. А. Фишер предложил

для этих

целей

z - преобразованне

величины

r. Величина

z = 1/2 [ln (1 +r) -ln (1

-

r)] ох:18) имеет нормальное распре-

 

 

~

1/(N- 3). (IX.19). Для

получения z

~еление с дисперсией az =

имеются номограммы и таблицы (см. табл.

13 прил.).

Для совокупности длин

стволиков

и

корней

при· r=0,86

Z= 1,293.

Ошибка

этой

 

величины sz =

~/ 1,'(10- 3) =0,378.

101