Добавил:

artemtvi Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный электротехнический университет "ЛЭТИ"

Предмет:

Планирование медико-биологического эксперимента

Файл:

Mastitsky_and_Shitikov_2014.pdf

Скачиваний:

206

Добавлен:

25.12.2019

Размер:

10.99 Mб

Скачать

☆

<<< < Предыдущая 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 2122 / 2722 23 24 25 26 27 > Следующая >>>

8.5.Ковариационный анализ

Вотличие от дисперсионного и регрессионного анализов, рассмотренных в главах 5-7, ковариационный анализ (ANCOVA) оперирует с набором предикторов, включающим как качественные группообразующие переменные, так и количественные переменные, измеренные в непрерывных шкалах и называемыековариатами. Если исследуется

характер взаимосвязи между реализациями зависимой величиныY = {y1, …, yn} и определенной совокупностью предикторов, то строится ковариационная модель, которая является как бы синтезом регрессионного и дисперсионного анализов:

yi = åkj =1 fijqj + åmj =1b j xi( j ) + eij ,

где k – возможные типы условий (в данном случае, однофакторного) эксперимента, F = {f1,… , fk}; m – число независимых ковариат, X = {x(1), …, x(m)}. Как обычно для общей

линейной модели, индикаторные переменные fij равны 1, если j-е условие эксперимента имеет место при наблюденииyi, и 0 в противном случае. Коэффициенты qi определяют эффект влияния j-го условия, а bj – значения соответствующих коэффициентов регрессии Y по x(j), eij – независимые случайные ошибки с нулевым математическим ожиданием. При включении в модель второго, третьего и последующих факторов в правой части уравнения

появятся слагаемые, отвечающие за эффекты их уровней.
	Ковариационный анализ позволяет разложить общую			вариацию		зависимой
переменной на две составляющие:
°	степень	случайной изменчивости откликаY,	связанную с эффектамиF, т.е.			с
влиянием категориальных предикторов и их комбинаций; если значимой взаимосвязи
здесь	нет, то	для оценки степени воздействия ковариат		на	отклик	достаточно
воспользоваться обычным регрессионным анализом;
° долю изменчивости отклика за счет влияния непрерывных предикторовX; если при
этом воздействие ковариат оказывается статистически незначимым, то					достаточно
воспользоваться обычным дисперсионным анализом.
	Основное	назначение ковариационного	анализа– получение	статистических

оценок q1,… , qk и b1,… , bp, а также статистических критериев для проверки различных гипотез относительно значений этих параметров. Основные теоретические и прикладные процедуры ковариационного анализа относятся к линейным моделям, но имеются некоторые особенности касательно интерпретации результатов.

Поскольку в приведённой формуле модели коэффициенты регрессии зависимой переменной Y на сопутствующую переменную x не зависят от качественных факторов, то

можно сделать предположение, что для каждого			уровняfj кривые		регрессииx
параллельны. Можно также сделать предположение, что линейная зависимость имеет
одинаковые коэффициенты для каждого значения качественного фактора, т.е. проверить
гипотезу:		H0(F): q1 = q2 =… = qk.
В случае одной независимой переменной(m = 1) эта гипотеза предполагает, что линии
регрессии совпадают.
Другая	гипотеза, которая	проверяется	значительно	, режеотносится			к
статистической значимости влияния ковариат, т.е. все их регрессионные коэффициенты
равны 0:		H0(X): bj = 0		анализа		на	примере.
Рассмотрим особенности		проведения ковариационного
Таблица hellung из пакетаISwR содержит данные о численностиconc (экз/мл) и
диаметре diameter особей ресничных инфузорий Tetrahymena, которые выращивались в
питательной среде без (glucose = 0) и с добавлением (glucose = 1) глюкозы. Нужно
ответить на вопрос: оказывает ли		наличие глюкозы влияние на связьdiameter ~
conc? Для	определенности	конвертируем	переменнуюglucose		в	фактор,

принимающий значения "Да/Нет", и оценим характер распределения данных:

332

data(hellung, package = "ISwR") head(hellung)

1	glucose	conc	diameter
1	1	631000	21.2
2	1	592000	21.5
3	1	563000	21.3
4	1	475000	21.0
5	1	461000	21.5
6	1	416000	21.3

hellung$glucose <- factor(hellung$glucose,

labels = c("Да", "Нет"))

attach(hellung)

tethym.gluc <- hellung[glucose == "Да", ] tethym.nogluc <- hellung[glucose == "Нет", ]

Для визуализации воспользуемся комплексной функциейscatterplot() из пакета car, которая покажет нам характер линейной зависимостиdiameter ~ conc, кривую аппроксимации локальной регрессией с доверительными интервалами и графики boxplot для обоих переменных:

library(car) scatterplot(diameter ~ conc)

points(tethym.gluc$conc,tethym.gluc$diameter, pch = 17)

legend("topright", legend = c("без глюкозы","с глюкозой"), pch = c(1, 17))

							без глюкозы
	26						с глюкозой
	25
	24
diameter	23
	22
	21
	20
	19
	0e+00	1e+05	2e+05	3e+05	4e+05	5e+05	6e+05
				conc

333

Поскольку на графике наблюдается выраженная обратная экспоненциальная зависимость, то перед построением линейных моделей будем трансформировать данные путем логарифмирования, что может привести к нормализации распределения переменных и гомоскедастичности дисперсии остатков. Проверим это предположение и выведем графики зависимости величины остатков от прогнозируемого значения отклика до и после преобразования:

plot(aov(diameter ~ conc + glucose, hellung), with=1) plot(aov(log10(diameter) ~ log10(conc) + glucose, hellung),

which = 1)

Некоторая	неопределенность	относительно	однородности	распределения	остатков
остается, но этот пункт протокола проверки предположений был нами честно выполнен.

Для реализации ANCOVA в R используется все та же функцияlm(). Выполним построение линейных моделей зависимости размера клеток от плотности популяции отдельно для каждого способа выращивания инфузорий:

(lm.nogluc <- lm(log10(diameter)~log10(conc),data=tethym.nogluc))

Coefficients: (Intercept) log10(conc)

1.63476 -0.05968

# Найдем доверительные интервалы коэффициентов confint(lm.nogluc)

2.5 % 97.5 % (Intercept) 1.59212391 1.67739837 log10(conc) -0.06837895 -0.05097448

(lm.gluc <- lm(log10(diameter)~ log10(conc), data = tethym.gluc))

Coefficients: (Intercept) log10(conc)

1.6313 -0.0532 confint(lm.gluc)

2.5 %	97.5	%
(Intercept) 1.60387478	1.65881239
log10(conc) -0.05875114	-0.04764137
# Выводим распределение точек для		преобразованных данных
p_symb = c(17,1)

plot(conc, diameter, pch = p_symb[as.numeric(glucose)], log = "xy")

334

# Добавляем регрессионные линии для каждой группы
abline(lm.nogluc, col="blue", lwd=2) ;
abline(lm.gluc, col="green", lwd=2)
abline(lm(log10(diameter)~ log10(conc), data = hellung),
			col="red", lty=2)
legend("topright", legend=c("без глюкозы","с глюкозой","для обеих
групп"), lwd=c(2,2,1), lty=c(1,1,2),col = c("blue", "green","red"))
26					без глюкозы
25					с глюкозой
25					для обеих
					групп
24
diameter 22 23
21
20
19
1e+04	2e+04	5e+04	1e+05	2e+05	5e+05
			conc
Основные вопросы, которые ставит ковариационный анализ в данном случае:

°Различаются ли линии по углам наклона, (т.е. по степени влияния ковариат)?

°Различаются ли группы по среднему размеру клеток?

Линии	на рисунке располагаются		примерно параллельно и		доверительные
интервалы обоих коэффициентов пересекаются, что позволяет				сделать	вывод об
отсутствии	влияния	глюкозы. Подкрепим,	однако, проверку	нулевой	гипотезы
проведением стандартного дисперсионного анализа.
ANCOVA предполагает одинаковые групповые дисперсии. Это условие можно
проверить и убедиться в справедливости нулевой гипотезы				о равенстве дисперсий
следующим образом:

var.test(lm.gluc, lm.nogluc)

F test to compare two variances data: lm.gluc and lm.nogluc

F = 0.8482, num df = 30, denom df = 17, p-value = 0.6731 alternative hypothesis: true ratio of variances is not equal to 1

95 percent confidence interval:

0.3389901 1.9129940 sample estimates: ratio of variances

0.8481674

Функция lm() дает возможность построить общую линейную модель для любых комбинаций факторов и ковариат. Матрица плана А (design matrix – см. раздел 6.2) в этом

335

случае получается добавлением новых столбцовХ к матрице плана однофакторного анализа F без ковариации. Построим вначале модель AN1 с учетом взаимодействий фактора с ковариатой:

AN1 <- lm(log10(diameter) ~ log10(conc)*glucose) summary(AN1)

Coefficients:	Estimate Std. Error t value Pr(>\|t\|)
(Intercept)	Estimate Std. Error t value Pr(>\|t\|)
(Intercept)	1.631344	0.013879	117.543	<2e-16 ***
log10(conc)	-0.053196	0.002807	-18.954	<2e-16	***
glucoseНет	0.003418	0.023695	0.144	0.886
log10(conc):glucoseНет -0.006480		0.004821	-1.344	0.185

Интерпретация модели AN1 может быть выполнена следующим образом:

1. Первые две строки содержат свободный член					и регрессионный коэффициент
модели	для	культуры	с	глюкоз(пойказаны	зеленым	цветом), т.е. при

концентрации C ожидаемое среднее значение логарифма диаметра клетокD будет выражено зависимостью:

log10D = 1.6313 – 0.0532´log10C .

2. Остальные две строки содержат разницу между группами по свободному члену и регрессионному коэффициенту при выращивании культуры без добавления глюкозы, и зависимость будет иметь вид:

log10D = (1.6313+0.0034) – (0.0532+0.0064)´log10C

Поскольку инкремент регрессионного коэффициента для культур без глюкозы статистически незначим, то линии модели можно принять параллельными.

Построим теперь модель AN2 без учета взаимодействия между фактором и ковариатой:

AN2 <- lm(log10(diameter) ~ log10(conc) + glucose) summary(AN2)

Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) 1.642132 0.011417 143.83 < 2e-16 ***

log10(conc) -0.055393 0.002301 -24.07 < 2e-16 ***

glucoseНет -0.028238 0.002647 -10.67 2.93e-14 ***

В соответствии с summary(AN2), имеем две ситуации:

° культура с глюкозой:

log10D = 1.6421 – 0.0554´log10C ;

°культура без глюкозы: log10D = (1.6421-0.0282) – 0.0554´log10C.

Таким образом,			клетки в	культуре	без	глюкозы	в	среднем6.3%на	мельче
(10 -0.0282 = 0.937).
Статистическую			значимость различий			групп	по	среднему	размеру клеток
подтверждает таблица дисперсионного анализа:
anova(AN2)
Response: log10(diameter)							Pr(>F)
log10(conc)	Df		Sum Sq	Mean Sq F value			Pr(>F)
log10(conc)	1	0.046890		0.046890	561.99 < 2.2e-16 ***
glucose	1	0.009494		0.009494	113.78 2.932e-14 ***
Residuals	48	0.004005		0.000083
---			0 ‘***’	0.001 ‘*’ 0.01 ‘’ 0.05 ‘.’ 0.1 ‘ ’ 1
Signif. codes:			0 ‘***’	0.001 ‘*’ 0.01 ‘’ 0.05 ‘.’ 0.1 ‘ ’ 1

336

8.6.Модели со смешанными эффектами для иерархически

организованных данных

Основные идеи

В разделе 6.5 нами

подчеркивалось, что

если

при

проведении

многофакторного

дисперсионного анализа с учетом взаимодействий число

уровней

категориальных

переменных достигает пяти и более, возникает необходимость оценки значительного

количества коэффициентов модели. Было бы ошибкой механически включать в анализ

весь набор возможных параметров и скрупулезно оценивать связанные с ними эффекты.

Как правило, многое зависит от постановки задачи и природы анализируемых факторов.

Например, мы хотим сравнить удои молока у различных пород коров (Рокицкий,

1973). В таблице данных имеется два фактора: порода скота F1 и различные пастбища F2,

на которых производится их выпас. Можно построить модель с двумя факторами и

проделать все предусмотренные протоколом действия. Однако, есть ли необходимость,

наравне с интересующим нас факторомF1, выполнять полный цикл вычислений и для

фактора F2: сравнивать групповые средние, оценивать коэффициенты модели и т.д.? Во-

первых, у нас нет такой задачи– сравнивать между собой пастбища. Во-вторых, если

порода скота имеет строго фиксированные уровни, определенные исследователем, то

список пастбищ, на которых паслись коровы, может быть выбран случайно (например, на

следующий год места выпаса могли поменяться). По условию задачи нам было бы вполне

достаточно оценить долю общей дисперсии надоев молока , обусловленную фактором F2.

Независимые переменные, уровни которых надежно определены исследователем и

могут быть воспроизведены при реализации повторностей, называются фиксированными

факторами. Модели на их основе, рассмотренные в главе 6, называются моделями I типа,

или моделями с фиксированными эффектами (fixed effects). В них значение объясняемой

переменной Y определяется генеральной среднейm,

дифференциальными

эффектами

воздействия индивидуальных факторов, а также комбинаторными эффектами их парных,

тройных (и остальных, до m) взаимодействий.

Другой тип эффектов, часто вызывающий интерес исследователей, представляют

случайные

эффекты (random effects).

Здесь

предполагается,

что

при

реализации

повторного эксперимента выборки каждый раз могут извлекатся с

иным

составом

группировки наблюдаемых объектов. Следовательно уровни изучаемого фактора будут

формироваться

случайно

из

некоторой

совокупности

возможных

градаций

или

назначаться по субъективным соображениям. Модели II типа со случайными эффектами

используются в случаях, когда исследователя интересует не значимость вкладов уровней

факторов, а оценка и сравнение компонентов дисперсии распределения включенных в

модель дифференциальных эффектов. Это позволяет обобщить

наши

заключения о

природе факторов и значимости их влияния

вне

связи

конкретными

, уровнями

заданными в плане эксперимента. Включение в модель случайного эффекта позволяет

выделить из независимых остатковe с дисперсиейs долю вариации, "в среднем"

объясняемую влиянием этого фактора.

В рамках линейной модели II типа, например, для двух факторов с k повторностями

yijk = m + ai + bj + (ab)ij + eijk

случайные эффекты ai на i

уровнях воздействия фактораA, bj на j

уровнях воздействия

фактора B, а также эффект их взаимодействия (ab)ij, должны

быть независимы

совокупности и иметь нормальное распределение с нулевым средним и дисперсиямиsa,

sb и s(ab)

соответственно.

Если

это

условие

выполняется, то

проверяются

нулевые

гипотезы

Н0(А): sa = 0;

Н0(B): sb = 0;

H0(AB): s(ab) = 0,

т.е. дисперсия случайного фактора на всех его уровнях равна нулю и не вносит дополнительно вклада в изменчивость наблюдаемой случайной величины.

337

Модели III типа со смешанными эффектами(Pinheiro, Bates, 2000; Demidenko, 2004; Wood, 2006) включают как фиксированные, так и случайные факторы. Для простой схемы группировки по уровням линейную модель LMEM (linear mixed-e ects model) со смешанными эффектами удобно представить в матричной форме:

y = X b + Z b + e,

b ~ N(0, yq) , e ~ N(0, Ls2),

где y –

N-мерный вектор

зависимой переменной, N – число

ячеек

дисперсионного

комплекса, X и Z – матрицы, состоящие из нулей и единиц и описывающие группировку

фиксированных и случайных факторов по уровням в соответствии с планом эксперимента,

b – вектор фиксированных

эффектов(параметров

модели).

Распределение

вектора

случайных

эффектов b

описывается

вектором нулевых

средних0

положительно

определенной ковариационной матрицей ψθ, зависящей от вектора параметровq, оценка

которых является основной целью статистического

вывода

природе случайных

эффектов. Наконец, Λ – положительно определенная матрица простой структуры, которая

обычно используется при моделировании автокорреляции остатковe, но часто это просто

единичная матрица.

Включение случайных факторов в модели с фиксированными эффектами часто

существенно повышает обобщаемость заключений о главном результате исследования при

распространении его на другие пространственные, временные или биологические уровни

организации. Например, сделав вывод о влиянии одного целевого фактора(например,

добавка

или

отсутствие

удобрения), корректно

было

бы

выполнить

анализ

статистической значимости остальных случайных факторов(таких, как все возможные

места размещения пробных площадок, периоды эксперимента, варианты видов растений и

т.д.) по всем возможным их уровням. Модели со смешанными эффектами широко

используются во многих био- и социологических исследованиях(Zuur et al., 2009), где

случайный фактор – "обследуемая группа респондентов", либо "проба из смеси видов".

Пример с морскими животными: несколько частных моделей

Рассмотрим небольшой пример, представленный в книге А. Цуура с соавторами

(Zuur et al., 2009). Файлы с исходными данными и комплект скриптов R к главам книги

можно скачать на сайте авторов highstat.com.

Все вы, вероятно, любите бродить по морскому берегу и собирать мелких морских

животных (ракушек, рачков, морских звезд, гребешков, крабов, ланцетиков). Именно этим

и занимался институт RIKZ,

специалисты которого собрали данные по бентосу в девяти

областях приливной зоны на Голландском побережье: Beach = {1, …, 9}. Для каждой из

45 площадок сбора проб(Sample)

была учтена высота пляжа над средним уровнем

прилива

NAP

подсчитано

число

обнаруженных

видов

Richnessбентоса .

Дополнительно был рассчитан индекс степени морских возмущенийExposure,

учитывающий интенсивность приливной волны, наклон дна, зернистость грунта, толщину

анаэробного слоя и т.д. Этот индекс был приведен к фактору с двумя уровнями: ”a” при

значениях

Exposure

“b”

при

Exposure =

Необходимо

оценить

статистическую зависимость богатства видовRichness от высоты NAP и возмущения

Exposure.

RIKZ <- read.table(file = "RIKZ.txt", header = TRUE, dec = ".") head(RIKZ)

1	Sample Richness Exposure			NAP Beach
1	1	11	10	0.045	1
2	2	10	10	-1.036	1
3	3	13	10	-1.336	1
4	4	11	10	0.616	1
5	5	10	10	-0.684	1

338

6 6 8 8 1.190 2

ExposureBeach <- c("a","a","b","b","a","b","b","a","a")

Наивный подход приведет нас к мысли описать искомую зависимость знакомой нам моделью линейной регрессии с гауссовым распределением остатков:

Rij = α + β1 × NAPij + β2 × Exposurei + εij ,

εij ~ N(0, σ2),

где Rij - богатство видов участка j на пляже i, NAPij и Exposurei – предикторы модели и εij – случайные остатки. Однако эта модель не учитываетэффекта вложенности (nested) данных: на каждом пляже сделано по5 проб и, скорее всего, число видов на участках одного пляжа будет более схожим, чем на участках различных местообитаний. Эту модель целесообразно забраковать.

Вторая мысль (более плодотворная, но, все же, не оптимальная) приведет нас к выполнению так называемого двухэтапного анализ. На первом этапе рассчитаем значения коэффициентов регрессии βi для каждого i-го пляжа по совокупности из 5 проб:

Rij = α + βi × NAPij + εij ,	j = 1 ,..., 5.
На втором шаге мы найдем параметры общей	линейной модели, которая оценивает

ˆ
зависимость коэффициентов b i, полученных на первом этапе, от предиктора Exposure:
ˆ	i = 1,..., 9.
b i = η + τ × Exposurei + bi ,

Эта модель соответствует тривиальному однофакторному дисперсионному анализу.

Beta<-vector(length=9) # Первый этап for (i in 1:9){

tmpout<-summary(lm(Richness~NAP,

subset = (Beach==i),data=RIKZ)) Beta[i] <- tmpout$coefficients[2,1]

}

print(Beta,3)

[1] -0.372 -4.175 -1.755 -1.249 -8.900 -1.389 -1.518 -1.893 -2.968

#Второй этап

tmp2 <- lm(Beta ~ factor(ExposureBeach),data=RIKZ) summary(tmp2)

Coefficients:

(Intercept)	Estimate Std. Error t value Pr(>\|t\|)				*
(Intercept)	-3.662	1.099	-3.332	0.0126	*
factor(ExposureBeach)b	2.184	1.649	1.325	0.2268

Кроме огорчившей нас статистической незначимости факт, отражающего абиотические условия, двухэтапный анализ имеет и другие недостатки:

°вариация всех данных для каждого берега сводится к одному параметру;

°на втором шаге мы анализируем параметры регрессии, а не наблюдаемые данные (т.е. не моделируем непосредственно интересующий нас отклик);

°итоговая статистическая величина не зависит от числа наблюдений(их может быть

5, 50, или 50 000).

Наконец, в качестве третей версии можно представить нашу модель как линейную

зависимость богатства видов от высоты NAP, где свободный член изменяется для каждого пляжа Beachi, номер которого выступает в качестве фактора с девятью фиксированными уровнями: Rij = (α + β1 × Beachi ) + β2 × NAPij + εij.

Однако мы вовсе не интересуемся знанием точной природы "эффекта пляжа", хотя платить за включение этого члена в модель приходится восемью степенями свободы(слишком высока цена!).

339

Все	перечисленные	проблемы	решаются	с	использованием	моделей	с
смешанными эффектами, которые комбинируют действия обеих шагов в одну простую
модель:		Ri = Xi×β + Zi×bi.			(1)

Здесь Ri является оценкой богатства видов на пляжеi, i = 1, ..., 9. Предикторы модели включают фиксированный компонентXi×β и случайный компонентZi×bi. Даже для этого небольшого примера есть несколько вариантов наполнения матрицXi и Zi, которые мы обсудим ниже. Пока нам только важно, что эти матрицы имеют размерности ni×p и ni×q соответственно, где ni - число наблюдений Ri, p - число предикторов в Xi, и q - число объясняющих переменных в Zi.

Переходя к обсуждению модели LMEM, рассмотрим последовательно три примера: а) Модель со случайным свободным членом зависимости между Ri и NAPi;

б) Модель со случайными свободным членом и коэффициентом угла наклона; в) Различные модели со смешанными эффектами, включающими все предикторы.

Модель со случайным свободным членомиспользует местоположение пляжа

Beachi как случайный фактор, однако предполагает, что весь эффект его влияния

сконцентрирован в сдвиге свободного члена:	Ri = NAPi×β + bi.
В развернутой форме эта модель имеет вид:

т.е. матрица случайных эффектовZi в выражении(1) представляет собой единичный вектор.

Для расчета воспользуемся функцией lme() из пакета nlme, которая, в отличие от функции lm(), позволяет задать случайные эффекты. В частности, параметр ~1|fBeach определяет случайный свободный член модели (справа от знака ‘|’ задается предикторная переменная):

library(nlme)

RIKZ$fBeach <- factor(RIKZ$Beach)

Mlme1 <- lme(Richness ~ NAP, random = ~1 | fBeach,data=RIKZ) summary(Mlme1)

Linear mixed-effects model fit by REML Data: RIKZ

AIC BIC logLik 247.4802 254.525 -119.7401

Random effects: Formula: ~1 | fBeach

(Intercept) Residual StdDev: 2.944065 3.05977

Fixed effects: Richness ~ NAP					t-value p-value
(Intercept)		Value Std.Error DF
		6.581893	1.0957618	35	6.006682	0
NAP		-2.568400	0.4947246	35 -5.191574		0
В	первой	части блока выведенных результатов приведены информационные
критерии AIC и BIC, а также достигнутый максимум функции правдоподобияlogLik. Эти
показатели	могут	потребоваться нам для селекции моделей. Вторая и третья части
содержат	анализ	случайных	и фиксированных		эффектов. Часть,	связанная с Fixed

effects, определяет зависимость числа видов от высоты пляжа как6.58 – 2.56×NAPi ,

340

причем к свободному члену этой функции добавляется величина случайного эффектаbi.
Стандартное отклонение этого приращения свободного											члена(StdDev: 2.94)
определено выше в части, связанной						с Random		effects,		и	почти		совпадает	со
стандартным отклонением для остатков Residual.
Приведем график, отражающий смысл этой модели:
F0 <- fitted(Mlme1,level=0)
F1 <- fitted(Mlme1,level=1)
I <- order(RIKZ$NAP) ; NAPs <- sort(RIKZ$NAP)
plot(NAPs,F0[I],lwd=2, col="blue" ,type="l",ylim=c(0,22),
ylab="Число видов",xlab="NAP")
for (i in 1:9){
x1<-RIKZ$NAP[RIKZ$Beach==i]
y1<-F1[RIKZ$Beach==i] ; K<-order(x1)
lines(sort(x1),y1[K])
}
text(RIKZ$NAP,RIKZ$Richness,RIKZ$Beach,cex=0.9)
			5
	20				2
					2
		2
	15
видов		1
видов					19		1
Число	10				19		1
		1	1
							2
							2	2
		8		9
	5	3 6			5		5
	5		6	8		8
			6	8		8
			4	6	3	7	6
			3		749	3	4	5		8
							97
	0							47	3	47		6
	0								5		8	9
									5		8	9
		-1.0	-0.5		0.0		0.5	1.0	1.5		2.0
						NAP
Жирная синяя линия определяет центральную тенденцию зависимости числа видов
от высоты над уровнем прибоя. К свободному члену этой зависимости добавлены(с
учетом знака!) случайные эффекты местоположения каждого пляжа, вызывающие
параллельные сдвиги остальных9 прямых. Цифрами показаны координаты точек по
исходным данным для каждого пляжа (по 5 точек повторностей).

Модель со случайными свободным членом и коэффициентом угла наклона также использует местоположение пляжаBeachi как случайный фактор, однако выдвигает дополнительное предположение о том, что характер зависимостей между числом видовRi и высотой NAPi различен для каждого пляжа. Иными словами, для каждого значения фактора Beachi должен корректироваться не только свободный член зависимости между Ri и NAPi, но и коэффициент угла наклона. Модель имеет следующий вид:

341

т.е. в матрицу Zi, определяющую конфигурацию случайных эффектов, дополнительно включается набор значений NAPi. Это выражается в изменении вида аргумента ~1 + NAP | fBeach для параметра random функции lme():

Mlme2 <- lme(Richness ~ NAP, method = "REML",

random = ~1 + NAP | fBeach, data = RIKZ) summary(Mlme2)

Random effects: Formula: ~1 + NAP | fBeach

Structure: General positive-definite, Log-Cholesky parametrization

(Intercept)	StdDev	Corr
(Intercept)	3.549100	(Intr)
NAP	1.715015	-0.99
Residual	2.702785
Fixed effects: Richness ~ NAP			t-value p-value
(Intercept)	Value Std.Error DF		t-value p-value
(Intercept)	6.588729 1.2647708 35		5.209425	0e+00
NAP	-2.830029 0.7229514 35 -3.914549			4e-04
Correlation:

(Intr) NAP -0.819

#Блок кода R для вывода графика в целом идентичен

#представленному выше

			5
	20
					2
		2
	15
видов		1
видов					19		1
Число	10				19		1
		1	1
								2
								2
							2	2
		8		9
		3 6			5			5
	5		6	8		8
			6	8		8
			4	6	3		7	6
			3		749	3	4	5		8
								97
								47	3	47	6
	0								5	8	9
									5	8	9
		-1.0	-0.5		0.0		0.5	1.0	1.5	2.0
							NAP

342

Изменению подвергся блок выводимых результатов для случайных эффектов, который стал включать уже два члена. Первый b1, как и в предыдущей модели, определяет оценку стандартного отклонения свободного члена(Intercept) для модели с фиксированными эффектами. Второй b2 определяет изменчивость угла наклона прямых зависимости Ri от NAPi для всех девяти пляжей:

Можно отметить также, что вариация, сконцентрированная в случайном эффекте b1, в четыре раза превышает дисперсию, заключенную в b2, при высоком коэффициенте корреляции между ними (-0.99).

Другое наше замечание связано с упоминанием загадочной аббревиатуры метода REML, который используется по умолчанию при подгонке смешанных моделей. Он расшифровывается как метод максимального правдоподобия с ограничениями(restricted maximum likelihood). Относительно возможного вопроса о том, чем он отличается от обычного метода максимального правдоподобия(кстати, его также можно использовать, если задать параметрmethod = "ML"), большинство книг на эту тему приводит несколько страниц не слишком дружелюбных формул в духе матричной алгебры, либо избегает деталей и представляетREML, как некий мистический путь"корректировки степеней свободы". Ограничимся этим и мы.

Смешанные модели с использованием всех предикторов

Преобразуем индекс интенсивности абиотических возмущенийExposure в фактор fExp и выполним построение линейной модели, в фиксированной части которой учтем как дифференциальные эффекты, так и эффект парного взаимодействияNAP и fExp:

RIKZ$fExp<-RIKZ$Exposure RIKZ$fExp[RIKZ$fExp==8]<-10 RIKZ$fExp<-factor(RIKZ$fExp,levels=c(10,11)) Mlme4 <- lme(Richness ~1 + NAP * fExp,

random = ~1 + NAP | fBeach, data = RIKZ) summary(Mlme4)

Random effects: Formula: ~1 + NAP | fBeach StdDev Corr

(Intercept) 2.421276 (Intr) NAP 1.507835 -0.801 Residual 2.607753

Fixed effects: Richness ~ 1 + NAP * fExp
(Intercept)	Value Std.Error DF				t-value p-value
	9.118945		1.2242357	34	7.448684	0.0000
NAP	-3.879203 0.8816476 34 -4.399947					0.0001
fExp11	-5.534743 1.8510032			7 -2.990132		0.0202
NAP:fExp11	2.429496		1.3327641	34	1.822900	0.0771
Correlation:			fExp11
NAP	(Intr) NAP
	-0.637	0.421
fExp11	-0.661
NAP:fExp11	0.421	-0.662 -0.658

Общий смысл представленной модели заключается в следующем. Как всегда при построении модели регрессии, мы имеем некоторую неопределенность искомой зависимости числа обнаруженных видов морских животныхRi от высоты пляжаNAPi и

343

интенсивности приливных возмущенийfExpi (фиксированные факторы). Некоторую часть этой неопределенности мы можем объяснитьвариацией между местообитаниями. Объявив для этого в качестве случайного эффектаfBeach, мы оцениваем вклад этого фактора в виде стандартного отклонения соответствующего нормального распределения StdDev. Иными словами, местообитание перестает быть самостоятельным предиктором модели, но, внося свой вклад в общую дисперсию, наряду с необъясняемыми остатками e, ограничивает возможность совершения ошибки1-го рода (отклонение верной нулевой гипотезы).

Здесь, конечно, естественен вопрос: является ли найденная модель оптимальной? Рассчитаем еще две модели: в первой из них исключим член NAP:fExp11, оценивающий парное взаимодействие, который по t- критерию оказался незначимым:

Mlme5 <- lme(Richness			~1 + NAP + fExp,
		random = ~1 + NAP \| fBeach, data = RIKZ)
summary(Mlme5)
Fixed effects: Richness ~ 1 + NAP + fExp
(Intercept)		Value Std.Error DF			t-value p-value
(Intercept)		8.407714	1.183419	35	7.104595	0.0000
NAP	-2.808422		0.759642	35	-3.697034	0.0007
fExp11	-3.704917		1.517669	7	-2.441189	0.0447
Correlation:
NAP	(Intr) NAP
NAP	-0.500	-0.024
fExp11 -0.573		-0.024

Вторая модель возвращает нас к модели со случайным свободным членом:

Mlme6 <- lme(Richness ~1 + NAP + fExp, data = RIKZ, random = ~1 | fBeach, method = "REML")

summary(Mlme6)

Random effects: Formula: ~1 | fBeach (Intercept) Residual

StdDev: 1.907175 3.059089

Для сравнения полученных моделей используем знакомую нам функцию anova(), которая для смешанных моделей приобретает более расширенный вид:

anova(Mlme4, Mlme5, Mlme6)

Mlme4	Model df		AIC	BIC	logLik		Test		L.Ratio p-value
Mlme4	1	8	237.1331	250.8416	-110.5665	1	vs	2	5.399608	0.0201
Mlme5	2	7	240.5327	252.6964	-113.2663	1	vs	2	5.399608	0.0201
Mlme6	3	5	240.5538	249.2422	-115.2769	2	vs	3	4.021142	0.1339

Очевидно, что по минимумуAIC-критерия наилучшей моделью являетсяMlme5, которая статистически значимо отличается от остальных двух .моделейОбобщая изложенное, приведем сравнительную таблицу измененияAIC-критерия для всех построенных моделей. Здесь первая модель с одним случайным эффектом, ранее не обсуждавшаяся нами, вообще не включает абиотических факторов, а показывает лишь изменчивость числа видов морских организмов для различных пляжей:

344

<<< < Предыдущая 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 2122 / 2722 23 24 25 26 27 > Следующая >>>

Соседние файлы в предмете Планирование медико-биологического эксперимента

#
25.12.201910.99 Mб206Mastitsky_and_Shitikov_2014.pdf
#
25.12.20192.73 Mб160Манило (метода).pdf
#
25.12.2019206.92 Кб61Статистическая теория (R).pdf
#
25.12.201915.55 Кб23Шифр к пособию.png