Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Mastitsky_and_Shitikov_2014.pdf
Скачиваний:
206
Добавлен:
25.12.2019
Размер:
10.99 Mб
Скачать

8.5.Ковариационный анализ

Вотличие от дисперсионного и регрессионного анализов, рассмотренных в главах 5-7, ковариационный анализ (ANCOVA) оперирует с набором предикторов, включающим как качественные группообразующие переменные, так и количественные переменные, измеренные в непрерывных шкалах и называемыековариатами. Если исследуется

характер взаимосвязи между реализациями зависимой величиныY = {y1, …, yn} и определенной совокупностью предикторов, то строится ковариационная модель, которая является как бы синтезом регрессионного и дисперсионного анализов:

yi = åkj =1 fijqj + åmj =1b j xi( j ) + eij ,

где k – возможные типы условий (в данном случае, однофакторного) эксперимента, F = {f1,… , fk}; m – число независимых ковариат, X = {x(1), …, x(m)}. Как обычно для общей

линейной модели, индикаторные переменные fij равны 1, если j-е условие эксперимента имеет место при наблюденииyi, и 0 в противном случае. Коэффициенты qi определяют эффект влияния j-го условия, а bj – значения соответствующих коэффициентов регрессии Y по x(j), eij – независимые случайные ошибки с нулевым математическим ожиданием. При включении в модель второго, третьего и последующих факторов в правой части уравнения

появятся слагаемые, отвечающие за эффекты их уровней.

 

 

 

 

Ковариационный анализ позволяет разложить общую

вариацию

зависимой

переменной на две составляющие:

 

 

 

 

°

степень

случайной изменчивости откликаY,

связанную с эффектамиF, т.е.

с

влиянием категориальных предикторов и их комбинаций; если значимой взаимосвязи

здесь

нет, то

для оценки степени воздействия ковариат

на

отклик

достаточно

воспользоваться обычным регрессионным анализом;

 

 

 

 

° долю изменчивости отклика за счет влияния непрерывных предикторовX; если при

этом воздействие ковариат оказывается статистически незначимым, то

достаточно

воспользоваться обычным дисперсионным анализом.

 

 

 

 

 

Основное

назначение ковариационного

анализа– получение

статистических

оценок q1,… , qk и b1,… , bp, а также статистических критериев для проверки различных гипотез относительно значений этих параметров. Основные теоретические и прикладные процедуры ковариационного анализа относятся к линейным моделям, но имеются некоторые особенности касательно интерпретации результатов.

Поскольку в приведённой формуле модели коэффициенты регрессии зависимой переменной Y на сопутствующую переменную x не зависят от качественных факторов, то

можно сделать предположение, что для каждого

уровняfj кривые

регрессииx

параллельны. Можно также сделать предположение, что линейная зависимость имеет

одинаковые коэффициенты для каждого значения качественного фактора, т.е. проверить

гипотезу:

 

H0(F): q1 = q2 =… = qk.

 

 

 

 

В случае одной независимой переменной(m = 1) эта гипотеза предполагает, что линии

регрессии совпадают.

 

 

 

 

 

 

Другая

гипотеза, которая

проверяется

значительно

, режеотносится

к

статистической значимости влияния ковариат, т.е. все их регрессионные коэффициенты

равны 0:

 

H0(X): bj = 0

 

анализа

на

примере.

Рассмотрим особенности

проведения ковариационного

Таблица hellung из пакетаISwR содержит данные о численностиconc (экз/мл) и

диаметре diameter особей ресничных инфузорий Tetrahymena, которые выращивались в

питательной среде без (glucose = 0) и с добавлением (glucose = 1) глюкозы. Нужно

ответить на вопрос: оказывает ли

наличие глюкозы влияние на связьdiameter ~

conc? Для

определенности

конвертируем

переменнуюglucose

в

фактор,

принимающий значения "Да/Нет", и оценим характер распределения данных:

332

data(hellung, package = "ISwR") head(hellung)

1

glucose

conc

diameter

1

631000

21.2

2

1

592000

21.5

3

1

563000

21.3

4

1

475000

21.0

5

1

461000

21.5

6

1

416000

21.3

hellung$glucose <- factor(hellung$glucose,

labels = c("Да", "Нет"))

attach(hellung)

tethym.gluc <- hellung[glucose == "Да", ] tethym.nogluc <- hellung[glucose == "Нет", ]

Для визуализации воспользуемся комплексной функциейscatterplot() из пакета car, которая покажет нам характер линейной зависимостиdiameter ~ conc, кривую аппроксимации локальной регрессией с доверительными интервалами и графики boxplot для обоих переменных:

library(car) scatterplot(diameter ~ conc)

points(tethym.gluc$conc,tethym.gluc$diameter, pch = 17)

legend("topright", legend = c("без глюкозы","с глюкозой"), pch = c(1, 17))

 

 

 

 

 

 

 

без глюкозы

 

26

 

 

 

 

 

с глюкозой

 

25

 

 

 

 

 

 

 

24

 

 

 

 

 

 

diameter

23

 

 

 

 

 

 

 

22

 

 

 

 

 

 

 

21

 

 

 

 

 

 

 

20

 

 

 

 

 

 

 

19

 

 

 

 

 

 

 

0e+00

1e+05

2e+05

3e+05

4e+05

5e+05

6e+05

 

 

 

 

conc

 

 

 

333

Поскольку на графике наблюдается выраженная обратная экспоненциальная зависимость, то перед построением линейных моделей будем трансформировать данные путем логарифмирования, что может привести к нормализации распределения переменных и гомоскедастичности дисперсии остатков. Проверим это предположение и выведем графики зависимости величины остатков от прогнозируемого значения отклика до и после преобразования:

plot(aov(diameter ~ conc + glucose, hellung), with=1) plot(aov(log10(diameter) ~ log10(conc) + glucose, hellung),

which = 1)

Некоторая

неопределенность

относительно

однородности

распределения

остатков

остается, но этот пункт протокола проверки предположений был нами честно выполнен.

 

Для реализации ANCOVA в R используется все та же функцияlm(). Выполним построение линейных моделей зависимости размера клеток от плотности популяции отдельно для каждого способа выращивания инфузорий:

(lm.nogluc <- lm(log10(diameter)~log10(conc),data=tethym.nogluc))

Coefficients: (Intercept) log10(conc)

1.63476 -0.05968

# Найдем доверительные интервалы коэффициентов confint(lm.nogluc)

2.5 % 97.5 % (Intercept) 1.59212391 1.67739837 log10(conc) -0.06837895 -0.05097448

(lm.gluc <- lm(log10(diameter)~ log10(conc), data = tethym.gluc))

Coefficients: (Intercept) log10(conc)

1.6313 -0.0532 confint(lm.gluc)

2.5 %

97.5

%

(Intercept) 1.60387478

1.65881239

log10(conc) -0.05875114

-0.04764137

# Выводим распределение точек для

преобразованных данных

p_symb = c(17,1)

 

 

plot(conc, diameter, pch = p_symb[as.numeric(glucose)], log = "xy")

334

# Добавляем регрессионные линии для каждой группы

abline(lm.nogluc, col="blue", lwd=2) ;

 

abline(lm.gluc, col="green", lwd=2)

 

 

abline(lm(log10(diameter)~ log10(conc), data = hellung),

 

 

 

col="red", lty=2)

legend("topright", legend=c("без глюкозы","с глюкозой","для обеих

групп"), lwd=c(2,2,1), lty=c(1,1,2),col = c("blue", "green","red"))

26

 

 

 

 

без глюкозы

25

 

 

 

 

с глюкозой

 

 

 

 

для обеих

 

 

 

 

 

групп

24

 

 

 

 

 

diameter 22 23

 

 

 

 

 

21

 

 

 

 

 

20

 

 

 

 

 

19

 

 

 

 

 

1e+04

2e+04

5e+04

1e+05

2e+05

5e+05

 

 

 

conc

 

 

Основные вопросы, которые ставит ковариационный анализ в данном случае:

°Различаются ли линии по углам наклона, (т.е. по степени влияния ковариат)?

°Различаются ли группы по среднему размеру клеток?

Линии

на рисунке располагаются

примерно параллельно и

доверительные

интервалы обоих коэффициентов пересекаются, что позволяет

сделать

вывод об

отсутствии

влияния

глюкозы. Подкрепим,

однако, проверку

нулевой

гипотезы

проведением стандартного дисперсионного анализа.

 

 

ANCOVA предполагает одинаковые групповые дисперсии. Это условие можно

проверить и убедиться в справедливости нулевой гипотезы

о равенстве дисперсий

следующим образом:

 

 

 

 

var.test(lm.gluc, lm.nogluc)

F test to compare two variances data: lm.gluc and lm.nogluc

F = 0.8482, num df = 30, denom df = 17, p-value = 0.6731 alternative hypothesis: true ratio of variances is not equal to 1

95 percent confidence interval:

0.3389901 1.9129940 sample estimates: ratio of variances

0.8481674

Функция lm() дает возможность построить общую линейную модель для любых комбинаций факторов и ковариат. Матрица плана А (design matrix – см. раздел 6.2) в этом

335

случае получается добавлением новых столбцовХ к матрице плана однофакторного анализа F без ковариации. Построим вначале модель AN1 с учетом взаимодействий фактора с ковариатой:

AN1 <- lm(log10(diameter) ~ log10(conc)*glucose) summary(AN1)

Coefficients:

Estimate Std. Error t value Pr(>|t|)

 

(Intercept)

 

1.631344

0.013879

117.543

<2e-16 ***

log10(conc)

-0.053196

0.002807

-18.954

<2e-16

***

glucoseНет

0.003418

0.023695

0.144

0.886

 

log10(conc):glucoseНет -0.006480

0.004821

-1.344

0.185

 

Интерпретация модели AN1 может быть выполнена следующим образом:

1. Первые две строки содержат свободный член

и регрессионный коэффициент

модели

для

культуры

с

глюкоз(пойказаны

зеленым

цветом), т.е. при

концентрации C ожидаемое среднее значение логарифма диаметра клетокD будет выражено зависимостью:

log10D = 1.6313 – 0.0532´log10C .

2. Остальные две строки содержат разницу между группами по свободному члену и регрессионному коэффициенту при выращивании культуры без добавления глюкозы, и зависимость будет иметь вид:

log10D = (1.6313+0.0034) – (0.0532+0.0064)´log10C

Поскольку инкремент регрессионного коэффициента для культур без глюкозы статистически незначим, то линии модели можно принять параллельными.

Построим теперь модель AN2 без учета взаимодействия между фактором и ковариатой:

AN2 <- lm(log10(diameter) ~ log10(conc) + glucose) summary(AN2)

Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) 1.642132 0.011417 143.83 < 2e-16 ***

log10(conc) -0.055393 0.002301 -24.07 < 2e-16 ***

glucoseНет -0.028238 0.002647 -10.67 2.93e-14 ***

В соответствии с summary(AN2), имеем две ситуации:

° культура с глюкозой:

log10D = 1.6421 – 0.0554´log10C ;

°культура без глюкозы: log10D = (1.6421-0.0282) – 0.0554´log10C.

Таким образом,

клетки в

культуре

без

глюкозы

в

среднем6.3%на

мельче

(10 -0.0282 = 0.937).

 

 

 

 

 

 

 

 

 

Статистическую

 

значимость различий

групп

по

среднему

размеру клеток

подтверждает таблица дисперсионного анализа:

 

 

 

 

 

anova(AN2)

 

 

 

 

 

 

 

 

 

Response: log10(diameter)

 

 

Pr(>F)

 

log10(conc)

Df

 

Sum Sq

Mean Sq F value

 

1

0.046890

0.046890

561.99 < 2.2e-16 ***

 

glucose

1

0.009494

0.009494

113.78 2.932e-14 ***

 

Residuals

48

0.004005

0.000083

 

 

 

 

 

---

 

 

0 ‘***’

0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Signif. codes:

 

336

8.6.Модели со смешанными эффектами для иерархически

организованных данных

Основные идеи

 

 

 

 

 

 

 

 

 

 

 

 

 

В разделе 6.5 нами

подчеркивалось, что

если

при

проведении

многофакторного

 

дисперсионного анализа с учетом взаимодействий число

уровней

категориальных

переменных достигает пяти и более, возникает необходимость оценки значительного

 

количества коэффициентов модели. Было бы ошибкой механически включать в анализ

 

весь набор возможных параметров и скрупулезно оценивать связанные с ними эффекты.

 

Как правило, многое зависит от постановки задачи и природы анализируемых факторов.

 

 

Например, мы хотим сравнить удои молока у различных пород коров (Рокицкий,

 

1973). В таблице данных имеется два фактора: порода скота F1 и различные пастбища F2,

 

на которых производится их выпас. Можно построить модель с двумя факторами и

 

проделать все предусмотренные протоколом действия. Однако, есть ли необходимость,

 

наравне с интересующим нас факторомF1, выполнять полный цикл вычислений и для

 

фактора F2: сравнивать групповые средние, оценивать коэффициенты модели и т.д.? Во-

 

первых, у нас нет такой задачи– сравнивать между собой пастбища. Во-вторых, если

 

порода скота имеет строго фиксированные уровни, определенные исследователем, то

 

список пастбищ, на которых паслись коровы, может быть выбран случайно (например, на

 

следующий год места выпаса могли поменяться). По условию задачи нам было бы вполне

 

достаточно оценить долю общей дисперсии надоев молока , обусловленную фактором F2.

 

 

Независимые переменные, уровни которых надежно определены исследователем и

 

могут быть воспроизведены при реализации повторностей, называются фиксированными

 

факторами. Модели на их основе, рассмотренные в главе 6, называются моделями I типа,

 

или моделями с фиксированными эффектами (fixed effects). В них значение объясняемой

 

переменной Y определяется генеральной среднейm,

дифференциальными

эффектами

 

воздействия индивидуальных факторов, а также комбинаторными эффектами их парных,

 

тройных (и остальных, до m) взаимодействий.

 

 

 

 

 

 

 

 

 

 

Другой тип эффектов, часто вызывающий интерес исследователей, представляют

 

случайные

эффекты (random effects).

Здесь

предполагается,

что

при

 

реализации

 

повторного эксперимента выборки каждый раз могут извлекатся с

 

иным

составом

группировки наблюдаемых объектов. Следовательно уровни изучаемого фактора будут

 

формироваться

случайно

из

некоторой

совокупности

 

возможных

градаций

или

назначаться по субъективным соображениям. Модели II типа со случайными эффектами

 

используются в случаях, когда исследователя интересует не значимость вкладов уровней

 

факторов, а оценка и сравнение компонентов дисперсии распределения включенных в

 

модель дифференциальных эффектов. Это позволяет обобщить

наши

заключения о

 

природе факторов и значимости их влияния

вне

связи

с

конкретными

, уровнями

заданными в плане эксперимента. Включение в модель случайного эффекта позволяет

 

выделить из независимых остатковe с дисперсиейs долю вариации, "в среднем"

 

объясняемую влиянием этого фактора.

 

 

 

 

 

 

 

 

 

 

 

В рамках линейной модели II типа, например, для двух факторов с k повторностями

 

 

 

 

yijk = m + ai + bj + (ab)ij + eijk

 

 

 

 

 

 

 

 

случайные эффекты ai на i

уровнях воздействия фактораA, bj на j

уровнях воздействия

 

фактора B, а также эффект их взаимодействия (ab)ij, должны

 

быть независимы

в

 

совокупности и иметь нормальное распределение с нулевым средним и дисперсиямиsa,

 

sb и s(ab)

соответственно.

Если

это

условие

выполняется, то

проверяются

нулевые

 

гипотезы

 

Н0(А): sa = 0;

Н0(B): sb = 0;

 

H0(AB): s(ab) = 0,

 

 

т.е. дисперсия случайного фактора на всех его уровнях равна нулю и не вносит дополнительно вклада в изменчивость наблюдаемой случайной величины.

337

Модели III типа со смешанными эффектами(Pinheiro, Bates, 2000; Demidenko, 2004; Wood, 2006) включают как фиксированные, так и случайные факторы. Для простой схемы группировки по уровням линейную модель LMEM (linear mixed-e ects model) со смешанными эффектами удобно представить в матричной форме:

 

 

 

y = X b + Z b + e,

 

b ~ N(0, yq) , e ~ N(0, Ls2),

 

 

 

где y

N-мерный вектор

зависимой переменной, N – число

ячеек

дисперсионного

 

комплекса, X и Z – матрицы, состоящие из нулей и единиц и описывающие группировку

 

фиксированных и случайных факторов по уровням в соответствии с планом эксперимента,

 

b – вектор фиксированных

эффектов(параметров

модели).

Распределение

вектора

 

случайных

эффектов b

описывается

вектором нулевых

средних0

и

положительно

 

определенной ковариационной матрицей ψθ, зависящей от вектора параметровq, оценка

 

которых является основной целью статистического

вывода

о

природе случайных

эффектов. Наконец, Λ – положительно определенная матрица простой структуры, которая

 

обычно используется при моделировании автокорреляции остатковe, но часто это просто

 

единичная матрица.

 

 

 

 

 

 

 

 

 

 

 

 

 

Включение случайных факторов в модели с фиксированными эффектами часто

 

существенно повышает обобщаемость заключений о главном результате исследования при

 

распространении его на другие пространственные, временные или биологические уровни

 

организации. Например, сделав вывод о влиянии одного целевого фактора(например,

 

добавка

 

или

отсутствие

удобрения), корректно

было

бы

выполнить

анализ

о

статистической значимости остальных случайных факторов(таких, как все возможные

 

места размещения пробных площадок, периоды эксперимента, варианты видов растений и

 

т.д.) по всем возможным их уровням. Модели со смешанными эффектами широко

 

используются во многих био- и социологических исследованиях(Zuur et al., 2009), где

 

случайный фактор – "обследуемая группа респондентов", либо "проба из смеси видов".

 

Пример с морскими животными: несколько частных моделей

 

 

 

 

Рассмотрим небольшой пример, представленный в книге А. Цуура с соавторами

 

(Zuur et al., 2009). Файлы с исходными данными и комплект скриптов R к главам книги

 

можно скачать на сайте авторов highstat.com.

 

 

 

 

 

 

 

 

Все вы, вероятно, любите бродить по морскому берегу и собирать мелких морских

 

животных (ракушек, рачков, морских звезд, гребешков, крабов, ланцетиков). Именно этим

 

и занимался институт RIKZ,

специалисты которого собрали данные по бентосу в девяти

 

областях приливной зоны на Голландском побережье: Beach = {1, …, 9}. Для каждой из

 

45 площадок сбора проб(Sample)

была учтена высота пляжа над средним уровнем

 

прилива

NAP

и

подсчитано

 

число

обнаруженных

видов

Richnessбентоса .

 

Дополнительно был рассчитан индекс степени морских возмущенийExposure,

 

учитывающий интенсивность приливной волны, наклон дна, зернистость грунта, толщину

 

анаэробного слоя и т.д. Этот индекс был приведен к фактору с двумя уровнями: ”a” при

 

значениях

Exposure

<

11

и

b

при

Exposure =

1.

Необходимо

оценить

 

статистическую зависимость богатства видовRichness от высоты NAP и возмущения

Exposure.

RIKZ <- read.table(file = "RIKZ.txt", header = TRUE, dec = ".") head(RIKZ)

1

Sample Richness Exposure

NAP Beach

1

11

10

0.045

1

2

2

10

10

-1.036

1

3

3

13

10

-1.336

1

4

4

11

10

0.616

1

5

5

10

10

-0.684

1

338

6 6 8 8 1.190 2

ExposureBeach <- c("a","a","b","b","a","b","b","a","a")

Наивный подход приведет нас к мысли описать искомую зависимость знакомой нам моделью линейной регрессии с гауссовым распределением остатков:

Rij = α + β1 × NAPij + β2 × Exposurei + εij ,

εij ~ N(0, σ2),

где Rij - богатство видов участка j на пляже i, NAPij и Exposurei – предикторы модели и εij – случайные остатки. Однако эта модель не учитываетэффекта вложенности (nested) данных: на каждом пляже сделано по5 проб и, скорее всего, число видов на участках одного пляжа будет более схожим, чем на участках различных местообитаний. Эту модель целесообразно забраковать.

Вторая мысль (более плодотворная, но, все же, не оптимальная) приведет нас к выполнению так называемого двухэтапного анализ. На первом этапе рассчитаем значения коэффициентов регрессии βi для каждого i-го пляжа по совокупности из 5 проб:

Rij = α + βi × NAPij + εij ,

j = 1 ,..., 5.

На втором шаге мы найдем параметры общей

линейной модели, которая оценивает

ˆ

 

зависимость коэффициентов b i, полученных на первом этапе, от предиктора Exposure:

ˆ

i = 1,..., 9.

b i = η + τ × Exposurei + bi ,

Эта модель соответствует тривиальному однофакторному дисперсионному анализу.

Beta<-vector(length=9) # Первый этап for (i in 1:9){

tmpout<-summary(lm(Richness~NAP,

subset = (Beach==i),data=RIKZ)) Beta[i] <- tmpout$coefficients[2,1]

}

print(Beta,3)

[1] -0.372 -4.175 -1.755 -1.249 -8.900 -1.389 -1.518 -1.893 -2.968

#Второй этап

tmp2 <- lm(Beta ~ factor(ExposureBeach),data=RIKZ) summary(tmp2)

Coefficients:

(Intercept)

Estimate Std. Error t value Pr(>|t|)

*

-3.662

1.099

-3.332

0.0126

factor(ExposureBeach)b

2.184

1.649

1.325

0.2268

 

Кроме огорчившей нас статистической незначимости факт, отражающего абиотические условия, двухэтапный анализ имеет и другие недостатки:

°вариация всех данных для каждого берега сводится к одному параметру;

°на втором шаге мы анализируем параметры регрессии, а не наблюдаемые данные (т.е. не моделируем непосредственно интересующий нас отклик);

°итоговая статистическая величина не зависит от числа наблюдений(их может быть

5, 50, или 50 000).

Наконец, в качестве третей версии можно представить нашу модель как линейную

зависимость богатства видов от высоты NAP, где свободный член изменяется для каждого пляжа Beachi, номер которого выступает в качестве фактора с девятью фиксированными уровнями: Rij = (α + β1 × Beachi ) + β2 × NAPij + εij.

Однако мы вовсе не интересуемся знанием точной природы "эффекта пляжа", хотя платить за включение этого члена в модель приходится восемью степенями свободы(слишком высока цена!).

339

Все

перечисленные

проблемы

решаются

с

использованием

моделей

с

смешанными эффектами, которые комбинируют действия обеих шагов в одну простую

 

модель:

 

Ri = Xi×β + Zi×bi.

 

(1)

 

 

Здесь Ri является оценкой богатства видов на пляжеi, i = 1, ..., 9. Предикторы модели включают фиксированный компонентXi×β и случайный компонентZi×bi. Даже для этого небольшого примера есть несколько вариантов наполнения матрицXi и Zi, которые мы обсудим ниже. Пока нам только важно, что эти матрицы имеют размерности ni×p и ni×q соответственно, где ni - число наблюдений Ri, p - число предикторов в Xi, и q - число объясняющих переменных в Zi.

Переходя к обсуждению модели LMEM, рассмотрим последовательно три примера: а) Модель со случайным свободным членом зависимости между Ri и NAPi;

б) Модель со случайными свободным членом и коэффициентом угла наклона; в) Различные модели со смешанными эффектами, включающими все предикторы.

Модель со случайным свободным членомиспользует местоположение пляжа

Beachi как случайный фактор, однако предполагает, что весь эффект его влияния

сконцентрирован в сдвиге свободного члена:

Ri = NAPi×β + bi.

В развернутой форме эта модель имеет вид:

 

,

т.е. матрица случайных эффектовZi в выражении(1) представляет собой единичный вектор.

Для расчета воспользуемся функцией lme() из пакета nlme, которая, в отличие от функции lm(), позволяет задать случайные эффекты. В частности, параметр ~1|fBeach определяет случайный свободный член модели (справа от знака ‘|’ задается предикторная переменная):

library(nlme)

RIKZ$fBeach <- factor(RIKZ$Beach)

Mlme1 <- lme(Richness ~ NAP, random = ~1 | fBeach,data=RIKZ) summary(Mlme1)

Linear mixed-effects model fit by REML Data: RIKZ

AIC BIC logLik 247.4802 254.525 -119.7401

Random effects: Formula: ~1 | fBeach

(Intercept) Residual StdDev: 2.944065 3.05977

Fixed effects: Richness ~ NAP

 

t-value p-value

(Intercept)

Value Std.Error DF

6.581893

1.0957618

35

6.006682

0

NAP

 

-2.568400

0.4947246

35 -5.191574

0

В

первой

части блока выведенных результатов приведены информационные

критерии AIC и BIC, а также достигнутый максимум функции правдоподобияlogLik. Эти

показатели

могут

потребоваться нам для селекции моделей. Вторая и третья части

содержат

анализ

случайных

и фиксированных

эффектов. Часть,

связанная с Fixed

effects, определяет зависимость числа видов от высоты пляжа как6.58 – 2.56×NAPi ,

340

причем к свободному члену этой функции добавляется величина случайного эффектаbi.

 

Стандартное отклонение этого приращения свободного

члена(StdDev: 2.94)

 

определено выше в части, связанной

с Random

effects,

и

почти

совпадает

со

стандартным отклонением для остатков Residual.

 

 

 

 

 

 

 

Приведем график, отражающий смысл этой модели:

 

 

 

 

 

 

F0 <- fitted(Mlme1,level=0)

 

 

 

 

 

 

 

 

 

F1 <- fitted(Mlme1,level=1)

 

 

 

 

 

 

 

 

 

I <- order(RIKZ$NAP) ; NAPs <- sort(RIKZ$NAP)

 

 

 

 

plot(NAPs,F0[I],lwd=2, col="blue" ,type="l",ylim=c(0,22),

 

ylab="Число видов",xlab="NAP")

 

 

 

 

 

 

 

for (i in 1:9){

 

 

 

 

 

 

 

 

 

 

 

 

x1<-RIKZ$NAP[RIKZ$Beach==i]

 

 

 

 

 

 

 

 

y1<-F1[RIKZ$Beach==i] ; K<-order(x1)

 

 

 

 

 

 

lines(sort(x1),y1[K])

 

 

 

 

 

 

 

 

 

}

 

 

 

 

 

 

 

 

 

 

 

 

 

 

text(RIKZ$NAP,RIKZ$Richness,RIKZ$Beach,cex=0.9)

 

 

 

 

 

 

 

5

 

 

 

 

 

 

 

 

 

 

 

 

20

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

15

 

 

 

 

 

 

 

 

 

 

 

 

 

видов

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

19

 

1

 

 

 

 

 

 

 

Число

10

 

 

 

 

 

 

 

 

 

 

 

1

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

2

 

 

 

 

 

 

 

 

8

 

9

 

 

 

 

 

 

 

 

 

 

 

5

3 6

 

 

5

 

5

 

 

 

 

 

 

 

 

 

6

8

 

8

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

6

3

7

6

 

 

 

 

 

 

 

 

 

 

3

 

749

3

4

5

 

8

 

 

 

 

 

 

 

 

 

 

 

97

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

47

3

47

 

6

 

 

 

 

 

 

 

 

 

 

5

8

9

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

-1.0

-0.5

 

0.0

 

0.5

1.0

1.5

 

2.0

 

 

 

 

 

 

 

 

 

NAP

 

 

 

 

 

 

 

Жирная синяя линия определяет центральную тенденцию зависимости числа видов

 

от высоты над уровнем прибоя. К свободному члену этой зависимости добавлены(с

 

учетом знака!) случайные эффекты местоположения каждого пляжа, вызывающие

 

параллельные сдвиги остальных9 прямых. Цифрами показаны координаты точек по

исходным данным для каждого пляжа (по 5 точек повторностей).

 

 

 

 

 

Модель со случайными свободным членом и коэффициентом угла наклона также использует местоположение пляжаBeachi как случайный фактор, однако выдвигает дополнительное предположение о том, что характер зависимостей между числом видовRi и высотой NAPi различен для каждого пляжа. Иными словами, для каждого значения фактора Beachi должен корректироваться не только свободный член зависимости между Ri и NAPi, но и коэффициент угла наклона. Модель имеет следующий вид:

341

т.е. в матрицу Zi, определяющую конфигурацию случайных эффектов, дополнительно включается набор значений NAPi. Это выражается в изменении вида аргумента ~1 + NAP | fBeach для параметра random функции lme():

Mlme2 <- lme(Richness ~ NAP, method = "REML",

random = ~1 + NAP | fBeach, data = RIKZ) summary(Mlme2)

Random effects: Formula: ~1 + NAP | fBeach

Structure: General positive-definite, Log-Cholesky parametrization

(Intercept)

StdDev

Corr

 

 

3.549100

(Intr)

 

 

NAP

1.715015

-0.99

 

 

Residual

2.702785

 

 

 

Fixed effects: Richness ~ NAP

t-value p-value

(Intercept)

Value Std.Error DF

6.588729 1.2647708 35

5.209425

0e+00

NAP

-2.830029 0.7229514 35 -3.914549

4e-04

Correlation:

 

 

 

(Intr) NAP -0.819

#Блок кода R для вывода графика в целом идентичен

#представленному выше

 

 

 

5

 

 

 

 

 

 

 

 

 

20

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

15

 

 

 

 

 

 

 

 

 

 

видов

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

19

 

1

 

 

 

 

Число

10

 

 

 

 

 

 

 

 

1

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

2

 

 

 

 

 

8

 

9

 

 

 

 

 

 

 

 

 

3 6

 

 

5

 

 

5

 

 

 

 

5

 

6

8

 

8

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

6

3

 

7

6

 

 

 

 

 

 

3

 

749

3

4

5

 

8

 

 

 

 

 

 

 

 

 

97

 

 

 

 

 

 

 

 

 

 

 

47

3

47

6

 

0

 

 

 

 

 

 

 

5

8

9

 

 

 

 

 

 

 

 

 

 

 

-1.0

-0.5

 

0.0

 

0.5

1.0

1.5

2.0

 

 

 

 

 

 

 

 

NAP

 

 

 

 

342

Изменению подвергся блок выводимых результатов для случайных эффектов, который стал включать уже два члена. Первый b1, как и в предыдущей модели, определяет оценку стандартного отклонения свободного члена(Intercept) для модели с фиксированными эффектами. Второй b2 определяет изменчивость угла наклона прямых зависимости Ri от NAPi для всех девяти пляжей:

Можно отметить также, что вариация, сконцентрированная в случайном эффекте b1, в четыре раза превышает дисперсию, заключенную в b2, при высоком коэффициенте корреляции между ними (-0.99).

Другое наше замечание связано с упоминанием загадочной аббревиатуры метода REML, который используется по умолчанию при подгонке смешанных моделей. Он расшифровывается как метод максимального правдоподобия с ограничениями(restricted maximum likelihood). Относительно возможного вопроса о том, чем он отличается от обычного метода максимального правдоподобия(кстати, его также можно использовать, если задать параметрmethod = "ML"), большинство книг на эту тему приводит несколько страниц не слишком дружелюбных формул в духе матричной алгебры, либо избегает деталей и представляетREML, как некий мистический путь"корректировки степеней свободы". Ограничимся этим и мы.

Смешанные модели с использованием всех предикторов

Преобразуем индекс интенсивности абиотических возмущенийExposure в фактор fExp и выполним построение линейной модели, в фиксированной части которой учтем как дифференциальные эффекты, так и эффект парного взаимодействияNAP и fExp:

RIKZ$fExp<-RIKZ$Exposure RIKZ$fExp[RIKZ$fExp==8]<-10 RIKZ$fExp<-factor(RIKZ$fExp,levels=c(10,11)) Mlme4 <- lme(Richness ~1 + NAP * fExp,

random = ~1 + NAP | fBeach, data = RIKZ) summary(Mlme4)

Random effects: Formula: ~1 + NAP | fBeach StdDev Corr

(Intercept) 2.421276 (Intr) NAP 1.507835 -0.801 Residual 2.607753

Fixed effects: Richness ~ 1 + NAP * fExp

 

(Intercept)

Value Std.Error DF

t-value p-value

9.118945

1.2242357

34

7.448684

0.0000

NAP

-3.879203 0.8816476 34 -4.399947

0.0001

fExp11

-5.534743 1.8510032

7 -2.990132

0.0202

NAP:fExp11

2.429496

1.3327641

34

1.822900

0.0771

Correlation:

 

fExp11

 

 

 

NAP

(Intr) NAP

 

 

 

-0.637

0.421

 

 

 

fExp11

-0.661

 

 

 

NAP:fExp11

0.421

-0.662 -0.658

 

 

 

Общий смысл представленной модели заключается в следующем. Как всегда при построении модели регрессии, мы имеем некоторую неопределенность искомой зависимости числа обнаруженных видов морских животныхRi от высоты пляжаNAPi и

343

интенсивности приливных возмущенийfExpi (фиксированные факторы). Некоторую часть этой неопределенности мы можем объяснитьвариацией между местообитаниями. Объявив для этого в качестве случайного эффектаfBeach, мы оцениваем вклад этого фактора в виде стандартного отклонения соответствующего нормального распределения StdDev. Иными словами, местообитание перестает быть самостоятельным предиктором модели, но, внося свой вклад в общую дисперсию, наряду с необъясняемыми остатками e, ограничивает возможность совершения ошибки1-го рода (отклонение верной нулевой гипотезы).

Здесь, конечно, естественен вопрос: является ли найденная модель оптимальной? Рассчитаем еще две модели: в первой из них исключим член NAP:fExp11, оценивающий парное взаимодействие, который по t- критерию оказался незначимым:

Mlme5 <- lme(Richness

~1 + NAP + fExp,

 

 

 

random = ~1 + NAP | fBeach, data = RIKZ)

summary(Mlme5)

 

 

 

 

Fixed effects: Richness ~ 1 + NAP + fExp

 

(Intercept)

Value Std.Error DF

t-value p-value

8.407714

1.183419

35

7.104595

0.0000

NAP

-2.808422

0.759642

35

-3.697034

0.0007

fExp11

-3.704917

1.517669

7

-2.441189

0.0447

Correlation:

 

 

 

 

 

NAP

(Intr) NAP

 

 

 

 

-0.500

-0.024

 

 

 

 

fExp11 -0.573

 

 

 

 

Вторая модель возвращает нас к модели со случайным свободным членом:

Mlme6 <- lme(Richness ~1 + NAP + fExp, data = RIKZ, random = ~1 | fBeach, method = "REML")

summary(Mlme6)

Random effects: Formula: ~1 | fBeach (Intercept) Residual

StdDev: 1.907175 3.059089

Для сравнения полученных моделей используем знакомую нам функцию anova(), которая для смешанных моделей приобретает более расширенный вид:

anova(Mlme4, Mlme5, Mlme6)

Mlme4

Model df

AIC

BIC

logLik

 

Test

L.Ratio p-value

1

8

237.1331

250.8416

-110.5665

1

vs

2

5.399608

0.0201

Mlme5

2

7

240.5327

252.6964

-113.2663

Mlme6

3

5

240.5538

249.2422

-115.2769

2

vs

3

4.021142

0.1339

Очевидно, что по минимумуAIC-критерия наилучшей моделью являетсяMlme5, которая статистически значимо отличается от остальных двух .моделейОбобщая изложенное, приведем сравнительную таблицу измененияAIC-критерия для всех построенных моделей. Здесь первая модель с одним случайным эффектом, ранее не обсуждавшаяся нами, вообще не включает абиотических факторов, а показывает лишь изменчивость числа видов морских организмов для различных пляжей:

344