Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Вариационная статистика

.pdf
Скачиваний:
50
Добавлен:
11.03.2016
Размер:
6.2 Mб
Скачать

Результаты анализа помещены в табл. 46.

46. Испытание rипотезы парабо.nическоii (2-ii степени) корре.nяции

 

свободы

квадратов

1Дисперсия1

 

Вариация

1 Степени 1

Сумма

 

F

Отклонение от параболы 2·ro по-

7-3=4

1,33

0,33

 

рядка

 

Внутри групп (строев)

87

181,96

2,09

0,15

F = 0,33 2,09 =О, 15 < Fo,os = 5,7.

Результаты совместимы с гипотезой о том, что парабола 2-го по­

рядка приемлема для выражения корреляции между высотами

и диаметрами деревьев сосны.

Значение полученного критерия F настолько мало, что гипо­ тезу о связи высот и диаметров, отражаемой параболой 2-го по­

рядка, можно считатц подтвержденной на высоком уровне значи­

мости. В друrих случаях, возможно, потребовалось бы испытание парабол более высоких степеней или кривой другого вида. Изло­ женный метод при этом не претерпевает изменений. Изменилось лишь число степеней свободы для дисперсии внутри групп. Сле­

дует, однако, учитывать правило, что, если достигнута достаточ­

ная точность выражения связи на основе наиболее простого

уравнения, ему следует отдать предпочтение перед сложным.

Г л а в а Xl

МНОЖЕСТВЕННАЯ РЕГРЕССИЯ И КОРРЕЛЯЦИЯ

В предшествующих главах рассмотрена теория корреляции и регрессии между двумя признаками или переменными У и Х. Однако явления природы подвержены влиянию многих· факторов и колебания одной переменной могут происходить в результате

взаимодействия нескольких сил.

Для решения многих биологических проблем требуется изме­

рение действия ряда факторов на одну переменную или резу,'IЬ­

тативный признак У. Это может быть решено методами множест­

венной регрессии и корреляции.

Символы, применеиные при изложении множественной

регрессии и корреляции, в большей части остаются теми же, что и при изучении связи двух переменных. Но при них в индексе

ставятся подписные значки У, 1, 2 и т. д., указывающие на пере­ менвые У, XI, х2 и т. д.

В настоящей книге рассматривается измерение регресси11

результативного признака У на два независимых Х1 и Х2. Цель

изложения данного материаладать читателю только основы

теории множественной регрессии и корреляции, избегая сложно-

142

сти расчетов и символики. Достаточно подробное изложение более сложных вопросов вариационного анализа множественной

связи можно найти в книгах Дж. У. Снедекора (1961), Ф. Миллса ( 1958). Техника вычислений хорошо изложена в книге А. К. Мит­ рапольского (1961).

Ниже описывается линейная модель регрессии вида, пока­ заиного в формуле Xl.l. Следует подчеркнуть, в связи с вопро­ сом множественной и частной корреляции и регрессии, что рас­

сматриваемые показатели имеют полный смысл при предполо­

жении линейной или приблизительно лиflейной связи ·между

переменным·и. При небольшом отклонении от линейности точ­

ность расчетов снизится, однако они не станут необоснованными. В том случае, когда связь между признаками не линейна, ее иногда возможно привести к линейному виду путем подходя­ щей трансформации, например, принимая вместо переменных их

логарифмы, обратные числа и т. п. В таких случаях показатели s, R применялись бы к преобразованным переменным, от которых

существует обратный_ переход к первоначальным данным и еди­

ницам щмерен:Ия.

Отметим еще одно положение. Множественные (и частные)

коэффициенты корреляции, основанные на уравнениях с боль­ шим числом переменных, мало показательны, если число наблю­

дений не очень велико. При ограниченном объеме выборки

и большом числе переменных можно получить ложное представ­ ление о силе и форме связи. Но если исследования не выходят за пределы указанных здесь и в тексте ограничений и поправок, то методы множественной корреляции представляют собой мощ­

ное средство анализа.

§ 1. РЕГРЕССИЯ С ТРЕМЯ ПЕРЕМЕННЫМИ (У, Х1, Х2)

Увеличение числа независимых переменных от одной до двух

приводит к необходимости при графической интерпретации ре­ зультатов пользоваться трехмерным пространством. Вместо гео­

метрии на плоскости необходима геометрия в пространстве. Для графического изображения требуется 3 взаимно перпендикуляр­

ных ОСИ КООрдинат. Х1 ОТКЛадывают ВДОЛЬ ОДНОЙ ИЗ НИХ, Х2параллельна 2-й, а У- над плоскостью Х1Х2 на прямой, парал­

.1ельно 3-й оси. Точки такого пространства, фиксированные Х1,

Х2, У, определяют плоскость регрессии.

Уравнение, выражающее такую плоскость связи, будет иметь

вид:

(Х/.1)

где ьУ!.2 и ьУ2.1 являются коэффициентами частной регрессии.

Первый символ читается так: регрессия У на Х1 независимо от Х2. Такое уравнение определяется по наблюденным данным по

методу наименьших квадратов.

143

В табл. 47 приведсны данные об объемах стволов в дмз _ у

квадратах диаметров в см2 - Х, и высотах стволов в м_ х '

Данные взяты из таблиц объемов стволов сосны по диаметр~

и высоте (Н. В. Третьяков и др. «Справочник таксатора». М.-Л.,

Гослесбумиздат, 1952, табл. 28).

47. Значения объемов в дм3 - У, квадратов диаметров в см2- Х1 И ВЫСОТ В М- Х2 CTBOJIOB СОСНЫ

у 1 Х, 1 Х, 1 у 1 Х, 1 Х, 1 у 1 Х, 1 Х, 1 }" 1 Х, 1 Х,

61

100

15

64

144

10

295

400

20

257

324

21

82

144

14

74

144

12

106

144

18

336

400

23

250

324

16

166

324

12

139

256

13

241

400

15

29

64

11

189

196

24

119

196

15

280

400

19

101

144

12

120

256

10

269

400

18

64

144

10

323

400

22

44

64

16

269

400

18

119

196

15

48

100

12

269

400

18

90

196

10

40

100

10

126

256

11

241

400

15

52

100

13

126

196

16

164

196

21

153

256

15

336

400

23

120

256

10

40

100

10

29

64

11

133

196

17

224

400

13

336

400

23

44

100

11

76

100

18

66

100

16

224

400

13

187

256

19

168

256

17

336

400

23

27

64

10

27

64

10

311

400

21

27

64

10

 

Сумма

8017

12184

796

 

Средние

154,17

234,31

15,31

~ Xi = 3671584

~ х1х2 = 202120

~ Х1 У= 2502736

с*= 2854805

с= 185509

 

с= 1878445

~ xi = 816779

~ Х1Х2 = 17211

~ х1у =624291

~х~ = 13108

~ Х2 У = 140225

~ У2 = 1762594

с= 12185

с ="122722

 

с= 1236006

~Х~=923

~ Х2У = 17503

~ у2

= 526589

с*- поправка к сумме

квадратов переменных, для Xi с=(~ Xt) 2 /N =

= 121842/52 = 2854805.

 

 

 

 

Отбор единиц для

наблюдения произведен

по таблице

слу­

чайных чисел. Однако исходная совокупность деревьев была

предварительно ограничена размерами деревьев.

Отбирали деревья в следующих рамках исходной таблицы:

диаметрот 8 до 20 и высота от 10 до 23 м. Ограничение

144

совокупности деревьев указанной их толщиной преследовало цельобеспечить некоррелированность независимых перемен­

ных Х1, Х2, т. е. диаметров и высот. Это условие представлялось

полностью выполняющимся, поскольку в рамках каждого клас­

са диаметра высота варьировала приблизительно в тех же пре­

делах (10-23 м). Последующая статистическая проверка пока­

зала не полное отсутствие, а лишь умеренную корреляцию. Было

учтено и второе условие для опытного материалапрямоли­

нейность корреляции между признаками У и Х1; У и Х2. Корре­

ляция объема с квадратом диаметра выразилась коэффициентом

корреляции r=0,952 и объема с высотой r=0,794.

§ 2. РЕШЕНИЕ УРАВНЕНИЯ МНОЖЕСТВЕННОЯ РЕГРЕССИИ

Уравнение (XI.1) можно решать как на основе первоначаль­ ных данных У, Х1, Х2, так и на основе центральных отклонений.

Используя первоначальные данные, уравнение запишем в сле­ дующем более простом выражении

(Х\.2)

Нормальными уравнениями будут

~У =а N + ь. ~х. + ь2~Х2

~ух.= а ~х. + ь. ~xi -+- ь2~х.х2 ~УХ2 =а ~Х2 + Ь1 ~Х1Х1 + Ь2 ~Х~.

Подставляя в эти уравнения значения сумм, приведеиные

втабл. 47, и решая их по схеме табл. 39, получим У=-117,44+

+0,5993 Х1 + 8,5672 Х2. Среднее квадратическое отклонение ис­

ходных данных от регрессии Syx может быть найдено обычным путем на основе индивидуальных разностей dyx по формуле

(Х.22).

Для общего представления о величине Syx приведем значения

разностей для первых 10 стволов из табл. 47.

Имеем (дм3 ):

Исходный объем

.

61

82

250

29

101

323

48

126

164

40

Вычпс,1еввый

.

71

89

214

15

72

311

45

13.1

180

28

Разность, dyx

. -10

-7

+36 +14

+29

+12

+3

-5

-16

+12

Среднее квадратическое из 10 отклонений

Syx= V~dyx/N =

= 17,5 дм3. Таким

путем

можно

вычислить Syx на

основе

всех

52 наблюдений. Однако наиболее просто и точно среднее квадра­

тическое отклонение вычисленных значений (ошибка уравнения)

может быть найдено:

10 Н. Н. Свалов

145

Для наших данных получим

2

дм3. Этот

Syx = 247,1, Syx= 15,72

путь решения уравнения и оценки его точности мы показали как

наиболее общий для регрессии с двумя, возможно, с тремя пере­

менными. При 3, 4 переменных применяют способ, дающий более облегченное решение. Таким способом является способ

определителей.

В принятой символике для центральных отклонений и коэф­

фициентов регрессии нормальные уравнения будут такими:

~ х1Ьп~ + ~ x,x2bv~.1 = ~ х1у,

~Х1Х2ЬУ1.2 + ~x~bv2.1 = ~х2у.

Два коэффициента частной регрессии из этой системы полу­

чают выражение:

Ьп2 =

(~х~ ~ х1у·- ~ Х1Х2 ~ х2у)!D,

(XI.4)

bv~.I =

(~ xi ~ Х2У- ~ Х1Х2 ~ Х1У)/D,

(XI.5)

где определитель D = -~ xi ~ х~- (~ х1х2)2.

(XI.5a)

Для данных табл. 47 получим:

 

D= 816779 Х 923-17211 2 = 457668496.

ьп2 = (923 х 624 291 - 11211 х 11 503)/457 668 496 = о,6ОО9.

bv2.1 = (816 779 Х 17 50317 211 Х 624 291)/457 668 496 = 7, 7 598.

л -

Уравнение регрессии в общем виде У=у+Ь1х12х2 при пере-

ходе к.первоначальным данным будет таким:

л

У= 154,17 +0,6009 1 - 234,31) + 7,7598 (Х~- 15,31) =

= 105,36 + 0,6009Х1 + 7,7598Х2

Полученное уравнение имеет следующий смысл: объем ствола возрастает в среднем на 0,6 дм3 при увеличении квадрата диа­ метра на 1 см2 и на 7~6 дм3 при увеличении высоты на 1 м. Поскольку размах высот в нашей выборке (см. табл. 47) равен

24-10= 14 М, С ИЗМенением ВЫСОТЫ СВЯЗаНО приблизительно

около 100 дмз варьирования объема. Варьирование квадрата

диаметра измеряется размахом 400-64=336 см2• С ним свя­

.зано 0,6Х336=200 дм3 варьчрования объема, общий размах которого, согласно табл. 47, равен 306 дм3.

Более точно относительная сила связи между У и каждой из

двух независимых переменных может быть установлена сравне-

146

нием двух коэффициентов регрессии. Однако из сделанного ана­

лиза видим, что прямое сравнение полученных коэффициентов

ьУ\.2 и ьУ2.\ эффективно только при одинаковом варьировании

Х1 и Х2, т. е. при равенстве их стандартных отклонений. В других случаях, как в нашем, требуется определить и сравнить стан­ дартные коэффициенты частной регрессии:

Для нашего примера

ь~\.2 = 0,6009 V816779/526589 = 0,7481, bv2.1 = 7,7598 V923/526589 = 0,3246.

Эти коэффициенты подтверждают и уточняют уже ранее сде­ ланный вывод о том, что с изменением квадратов диаметров

деревьев связана преобладающая часть (более 2/ 3 ) общей вариа­ ции объема. Далее будут даны еще более точные оценки этой

связи, на основе коэффициентов частной корреляции.

§ 3. ИНТЕРВАЛЬНЫЕ ОЦЕНКИ И КРИТЕРИИ ЗНАЧИМОСТИ

Сначала производят оценку значимости регрессии в целом.

Метод оценки был изложен в предыдущем параграфе этой гла­

вы. По критерию F следует сравнить 2 средних квадрата: сред­

ний квадрат, «объясняемый» регрессией, и средний квадрат отклонений от регрессии.

Средний квадрат отклонений от регрессии можно найти

,\

nутем вычис.:1ения разностей dv.12= У- У, возведения их в квадрат

и разделения общей суммы полученных квадратов на их число

(см. форму.'lу X.2l). Однако его лучше получить через

~

2

~

 

~

-

~ /\2

(XI.6)

...,.:.dJ·.lz

=.....~у

 

"'--Y12,

1\ry

 

 

 

 

 

 

 

где ~ у!.2 -сумма квадратов вычисленных значений У,

 

~~{_2 =

Ь1·1.1~Х1

)' -f-

Ь1'2.1 ~Х2)1.

(XI.7)

Для нашего примера имеем:

 

 

 

 

 

~ У1\~2 = 0,6009 >~ 624291 + 7,7598 х 17 503 = 510956, (XI.6)

~ d~.\2 = 526 589510 956 = 15 633.

147

Дисперсионный анализ регрессии дан в табл. 48.

48. Дисперсионный анализ регрессии

 

/

 

 

 

Источник варьирования

Чнело стеnеней/

Сумма •шадратов

, Средний

 

свободы

квадрат

Общее

 

51

~у~= 526589

 

 

 

 

Л'>

 

Регрессия

 

2

~i, = 510956

255 488

От((лонення

 

49

~ d~.l2 -" 15633

319

F=255488/319=80\, p>O,Oi.

 

 

Доверительный интервал для а будет:

 

у::!~ to.o5SYI.2/VN

(при числе

степеней свободы

v = N -т).

Для нашей выборки получим:

 

 

154,17 ± 2,о1 V319 /V52;

от 149,19 до 159,15.

Доверительные интервалы для коэффициентов и оценку их

значимости производят обычным способом по t-критерию.

= Ь/sь.

Ошибки коэффициентов регрессии находят по формулам:

 

 

 

2

2

(~

)

(XI.8)

SьY2.1 =SJ'.I2

( ~

 

 

2

 

)

(XI.8a),

 

 

SьYI.~=Sv.12

..:;;...X2/D

 

..:...JX!(D

 

где D- определитель уравнения, см. (XI.5a).

 

 

 

 

 

 

 

 

Для нашего примера имеем:

 

 

 

 

 

 

 

 

 

 

s~y1

_2 =

319 Х (923/457668496) =

0,00064, SьYI.2

 

=

 

0,0245,

1

2

1

319 Х (816779/457668496) = - 0,5693, Sы-

2

.

1

 

0,7545,

{s't . _ =

 

 

=

 

 

tl

= 0,6009/0,0245 = 24,63, t~ = 7,7598/0,7545 = 10,28.

Оба коэффициента значимы на уровне a>O,OOI.

 

 

 

 

§ 4. МНОЖЕСТВЕННЬIИ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ

Множественный коэффициент корреляции можно определить

по формуле аналогичной для коэффициента корреляции r между

двумя признаками, когда исходят из сумм квадратов.

(XI.9)

148

Различие между R2 и r2 состоит в качественном различии диспер­

сий числителя последнего члена формулы XI.9. Для данных

табл. 47 средние квадраты, измеряющие корреляцию двух при­

знаков У от Х, и У от Xz соответственно равны

S~x, = 31 ,44, S~x, = 62,39.

Средний же квадрат, измеряющий корреляцию У от Х1 и Х2,

равен

По соображениям, изложенным при вычислении индекса кор­ реляции, в полученное на основе выборки R вносят поправку.

R2 = 1 - [(1 - я~) ( : ~~ )] ,

(XI.10)

где т- число постоянных в уравнении.

В данном случае получим выправленное значение

- ,

1-

[

?

( 52- 1

]

-

R- =

 

(1- 0,985-)

52 _ 3 )

 

= 0,9690, R = 0,984.

Коэффициент множественной корреляции является показате­

лем тесноты связи между зависимой переменной и комбинацией измеренных независимых переменных, составля:ющих как бы одну группу сил или факторов.

Коэффициент R не имеет определенного знака. В некоторых

случаях зависимая переменнаякоррелирована положительно

с одними независимыми и отрицательно- с другими. В нашем

случае корреляции У с Х, и У с Xz положительны, поэтому и R

можно считать положительным.

Ошибку выборочного R определяют по формуле

(XI.11)

Тогда оценку значимости производят на основе /-критерия. Одна­

ко применение sн имеет значительные ограничения, на которые

было указано при оценке коэффициента корреляции r.

Более удовлетворительная оценка значимости R дается мето­

дом дисперсионного анал-иза на основе

 

F =

2 1 .,

 

 

 

SA:S-YI.Z,

 

 

 

 

у

 

 

где

2

 

А

2

s А -дисперсия вычисленных значений

У;

sY1.2- дисперсия,

у

т. е. средний квадрат отклонений исходных значений У от вычис­

л

ленных У.

149

 

Ja оценка для данного примера произведена в табл. 49.

/

49. Сопоставление показателей корреляций

 

 

Основание оцеш<И

Мера надеж-~

Коэффициент I<Орреляции

 

1 н ости

 

 

оценки s

 

 

 

Х"= 154,17

101,7

 

 

 

 

/1

31,44

 

 

0,952

 

У= -24,84+0.764 х1

rп

се.·

 

11

62,39

r1·2

 

0,794

 

У=-136,16+8.9632 Х2

---,

 

11

17,86

R nz "'' 0,985

 

У=-105,З6+О,6ОО9 х~+7.75О8 х2

Оценка показала значимость линейной корреляции вида XI .2.

с высокой степенью вероятности.

Иногда более удобно определить отношение дисперсий из

выражения

F = R2 (N- k - 1)/(1- R2 ) k,

(XI.13)

где k ___:_число независимых переменных уравнения множествен­

ной регрессии. Если R определить как отношение двух сумм

квадратов s~/s~ ,то для формулы XI.IЗ есть эквивалент- XI.9.

уYl.2

§5. ЭФФЕКТИВНОСТЬ МНОЖЕСТВЕННОЯ КОРРЕЛЯЦИИ

Эффективность множественной связи можно оЦенить, сопо­

ставляя коэффициенты корреляции или меры надежности оцен­

ки s. Такие сравнения для рассматриваемого примера приведены

в табл. 49.

 

 

 

 

Уравнение СВЯЗИ объеМОВ f

С КВадратом диаметром Х1 ВЫЧИС·

лено, исходя из регрессии общего вида

 

 

 

1\

-

 

 

 

У= у+Ьх.

(см. Х.20)

 

 

Ь = ~ху12

 

Для наших данных имеем

 

 

 

Ьух, =

624291;816779 = 0,7640.

 

 

11

 

 

 

 

У= 1.54,17 + 0,764х1 , или

 

1\

+ 0,764 1

-

 

- 234,31)-:-

У = 154,17

- х1 ) = 154,17 +0,764 1

 

= -24,84 + 0,764Х1

 

1'50

Также вычислена и регрессия У на Х2.

Для определения ошибки уравнения найдем

~d~x, = 2 - (~х~у)2/~хт =

= 526589- (624291) 2/816779 = 49433,

отсюда Syx, = V (~d;x.)f(N- 2) = V 49433/50 = 31,44 дм3

Подобный расчет для регрессии объема У на высоту Х2 дает постоянные и ошибку, показанные .в табл. 49 (строка 3). Показа­

тели множественной регрессии приведены в нижней строке этой

таблицы. Из данных таблицы видно, что полученная сначала величина s=l01,7 дм3 уменьшена до 17,86, т. е. в 6 раз. Это

означает, что применение уравнений регрессий позволяет значи­

тельно улучшить оценки объема. Наиболее точные оценки полу­

чены по уравнению с двумя независимыми факторами в 2 раза

точнее, чем по уравнению регрессии объема с квадратом диамет­ ра,.и в 3,5 раза точнее, чем по уравнению регрессии объема с вы­

сотой.

Коэффициенты корреляции (см. табл. 49) показывают тот же эффект, но выражают его менее четко вследствие высокой связи

объема с каждым из факторов.

§ 6. ИЗМЕРЕНИЕ ЧАСТНОй ИЛИ ЧИСТОй СВЯЗИ

МЕЖДУ ПЕРЕМЕННЫМИ

В предшествующем параграфе было измерено комбинирован­

ное действие нескольких независимых признаков Х на резуль­

тативный признак У. Существует, однако, еще другая постановка вопроса, имеющая во многих случаях большое значение. Она

состоит в определении связи между зависимой и одной незави­

симой переменной в предположении постоянства других факто­

ров или сил. Применительно к рассмотренному примеру можно

поставить вопрос так: какова была бы зависимость объема ство­

ла от квадрата диаметра при постоянной высоте стволов?

Такая постановка вопроса постоянно возникает в лесном экс­

перименте, например, при измерении величины урожая древе­ сины в разном возрасте древостоев, изучении влияния на рост

растений, видов удобрения или влияния препаратов для борьбы

с насекомыми.

Традиционный подход к решению вопроса состоит в том,

чтобы обеспечить относительную однородность условий опыта

или в элиминировании всех факторов, кроме изучаемых. Это­

правильный, но в общем не проверенвый в отношении выравнен­

ности условий путь. Можно утверждать, что выравненность усло­

вий, ·сравнительно удовлетворительно достигаемая в химии при

151