
- •ПРЕДИСЛОВИЕ
- •1.ОСНОВНЫЕ КОМПОНЕНТЫ СТАТИСТИЧЕСКОЙ СРЕДЫ R
- •1.2.Работа с командной консолью интерфейса R
- •1.3.Работа с меню пакета R Commander
- •1.4.Объекты, пакеты, функции, устройства
- •2.ОПИСАНИЕ ЯЗЫКА R
- •2.3.Факторы
- •2.4.Списки и таблицы
- •2.5.Импортирование данных в R
- •2.6.Представление даты и времени; временные ряды
- •2.7.Организация вычислений: функции, ветвления, циклы
- •2.8.Векторизованные вычисления в R с использованием apply-функций
- •3.6.Категоризованные графики
- •4.ОПИСАТЕЛЬНАЯ СТАТИСТИКА И ПОДГОНКА РАСПРЕДЕЛЕНИЙ
- •4.2.Использование функций summary() и дополнительных пакетов
- •4.4.Заполнение пропущенных значений в таблицах данных
- •4.6.Законы распределения вероятностей, реализованные в R
- •5.КЛАССИЧЕСКИЕ МЕТОДЫ И КРИТЕРИИ СТАТИСТИКИ
- •5.1.Гипотеза о равенстве средних двух генеральных совокупностей
- •5.4.Гипотеза об однородности дисперсий
- •5.9.Оценка статистической мощности при сравнении долей
- •6.2.Линейные модели дисперсионного анализа
- •6.3.Структура модельных объектов дисперсионного анализа
- •6.4.Оценка адекватности модели дисперсионного анализа
- •6.8.Проблема множественных проверок статистических гипотез
- •7.4.Критерии выбора моделей оптимальной сложности
- •7.7.Процедуры диагностики моделей множественной регрессии
- •8.5.Ковариационный анализ
- •8.7.Индуктивные модели (метод группового учета аргументов)
- •9.2.Анализ пространственного размещения точек
- •9.4.Создание картограмм при помощи R
- •БИБЛИОГРАФИЯ И ИНТЕРНЕТ-РЕСУРСЫ
- •Основные литературные ссылки по тексту книги
- •Библиографический указатель литературы по использованию R
- •Основные Интернет-ресурсы
8.5.Ковариационный анализ
Вотличие от дисперсионного и регрессионного анализов, рассмотренных в главах 5-7, ковариационный анализ (ANCOVA) оперирует с набором предикторов, включающим как качественные группообразующие переменные, так и количественные переменные, измеренные в непрерывных шкалах и называемыековариатами. Если исследуется
характер взаимосвязи между реализациями зависимой величиныY = {y1, …, yn} и определенной совокупностью предикторов, то строится ковариационная модель, которая является как бы синтезом регрессионного и дисперсионного анализов:
yi = åkj =1 fijqj + åmj =1b j xi( j ) + eij ,
где k – возможные типы условий (в данном случае, однофакторного) эксперимента, F = {f1,… , fk}; m – число независимых ковариат, X = {x(1), …, x(m)}. Как обычно для общей
линейной модели, индикаторные переменные fij равны 1, если j-е условие эксперимента имеет место при наблюденииyi, и 0 в противном случае. Коэффициенты qi определяют эффект влияния j-го условия, а bj – значения соответствующих коэффициентов регрессии Y по x(j), eij – независимые случайные ошибки с нулевым математическим ожиданием. При включении в модель второго, третьего и последующих факторов в правой части уравнения
появятся слагаемые, отвечающие за эффекты их уровней. |
|
|
|
|||
|
Ковариационный анализ позволяет разложить общую |
вариацию |
зависимой |
|||
переменной на две составляющие: |
|
|
|
|
||
° |
степень |
случайной изменчивости откликаY, |
связанную с эффектамиF, т.е. |
с |
||
влиянием категориальных предикторов и их комбинаций; если значимой взаимосвязи |
||||||
здесь |
нет, то |
для оценки степени воздействия ковариат |
на |
отклик |
достаточно |
|
воспользоваться обычным регрессионным анализом; |
|
|
|
|
||
° долю изменчивости отклика за счет влияния непрерывных предикторовX; если при |
||||||
этом воздействие ковариат оказывается статистически незначимым, то |
достаточно |
|||||
воспользоваться обычным дисперсионным анализом. |
|
|
|
|
||
|
Основное |
назначение ковариационного |
анализа– получение |
статистических |
оценок q1,… , qk и b1,… , bp, а также статистических критериев для проверки различных гипотез относительно значений этих параметров. Основные теоретические и прикладные процедуры ковариационного анализа относятся к линейным моделям, но имеются некоторые особенности касательно интерпретации результатов.
Поскольку в приведённой формуле модели коэффициенты регрессии зависимой переменной Y на сопутствующую переменную x не зависят от качественных факторов, то
можно сделать предположение, что для каждого |
уровняfj кривые |
регрессииx |
|||||
параллельны. Можно также сделать предположение, что линейная зависимость имеет |
|||||||
одинаковые коэффициенты для каждого значения качественного фактора, т.е. проверить |
|||||||
гипотезу: |
|
H0(F): q1 = q2 =… = qk. |
|
|
|
|
|
В случае одной независимой переменной(m = 1) эта гипотеза предполагает, что линии |
|||||||
регрессии совпадают. |
|
|
|
|
|
|
|
Другая |
гипотеза, которая |
проверяется |
значительно |
, режеотносится |
к |
||
статистической значимости влияния ковариат, т.е. все их регрессионные коэффициенты |
|||||||
равны 0: |
|
H0(X): bj = 0 |
|
анализа |
на |
примере. |
|
Рассмотрим особенности |
проведения ковариационного |
||||||
Таблица hellung из пакетаISwR содержит данные о численностиconc (экз/мл) и |
|||||||
диаметре diameter особей ресничных инфузорий Tetrahymena, которые выращивались в |
|||||||
питательной среде без (glucose = 0) и с добавлением (glucose = 1) глюкозы. Нужно |
|||||||
ответить на вопрос: оказывает ли |
наличие глюкозы влияние на связьdiameter ~ |
||||||
conc? Для |
определенности |
конвертируем |
переменнуюglucose |
в |
фактор, |
принимающий значения "Да/Нет", и оценим характер распределения данных:
332

data(hellung, package = "ISwR") head(hellung)
1 |
glucose |
conc |
diameter |
1 |
631000 |
21.2 |
|
2 |
1 |
592000 |
21.5 |
3 |
1 |
563000 |
21.3 |
4 |
1 |
475000 |
21.0 |
5 |
1 |
461000 |
21.5 |
6 |
1 |
416000 |
21.3 |
hellung$glucose <- factor(hellung$glucose,
labels = c("Да", "Нет"))
attach(hellung)
tethym.gluc <- hellung[glucose == "Да", ] tethym.nogluc <- hellung[glucose == "Нет", ]
Для визуализации воспользуемся комплексной функциейscatterplot() из пакета car, которая покажет нам характер линейной зависимостиdiameter ~ conc, кривую аппроксимации локальной регрессией с доверительными интервалами и графики boxplot для обоих переменных:
library(car) scatterplot(diameter ~ conc)
points(tethym.gluc$conc,tethym.gluc$diameter, pch = 17)
legend("topright", legend = c("без глюкозы","с глюкозой"), pch = c(1, 17))
|
|
|
|
|
|
|
без глюкозы |
|
26 |
|
|
|
|
|
с глюкозой |
|
25 |
|
|
|
|
|
|
|
24 |
|
|
|
|
|
|
diameter |
23 |
|
|
|
|
|
|
|
22 |
|
|
|
|
|
|
|
21 |
|
|
|
|
|
|
|
20 |
|
|
|
|
|
|
|
19 |
|
|
|
|
|
|
|
0e+00 |
1e+05 |
2e+05 |
3e+05 |
4e+05 |
5e+05 |
6e+05 |
|
|
|
|
conc |
|
|
|
333

Поскольку на графике наблюдается выраженная обратная экспоненциальная зависимость, то перед построением линейных моделей будем трансформировать данные путем логарифмирования, что может привести к нормализации распределения переменных и гомоскедастичности дисперсии остатков. Проверим это предположение и выведем графики зависимости величины остатков от прогнозируемого значения отклика до и после преобразования:
plot(aov(diameter ~ conc + glucose, hellung), with=1) plot(aov(log10(diameter) ~ log10(conc) + glucose, hellung),
which = 1)
Некоторая |
неопределенность |
относительно |
однородности |
распределения |
остатков |
остается, но этот пункт протокола проверки предположений был нами честно выполнен. |
|
Для реализации ANCOVA в R используется все та же функцияlm(). Выполним построение линейных моделей зависимости размера клеток от плотности популяции отдельно для каждого способа выращивания инфузорий:
(lm.nogluc <- lm(log10(diameter)~log10(conc),data=tethym.nogluc))
Coefficients: (Intercept) log10(conc)
1.63476 -0.05968
# Найдем доверительные интервалы коэффициентов confint(lm.nogluc)
2.5 % 97.5 % (Intercept) 1.59212391 1.67739837 log10(conc) -0.06837895 -0.05097448
(lm.gluc <- lm(log10(diameter)~ log10(conc), data = tethym.gluc))
Coefficients: (Intercept) log10(conc)
1.6313 -0.0532 confint(lm.gluc)
2.5 % |
97.5 |
% |
(Intercept) 1.60387478 |
1.65881239 |
|
log10(conc) -0.05875114 |
-0.04764137 |
|
# Выводим распределение точек для |
преобразованных данных |
|
p_symb = c(17,1) |
|
|
plot(conc, diameter, pch = p_symb[as.numeric(glucose)], log = "xy")
334

# Добавляем регрессионные линии для каждой группы |
|||||
abline(lm.nogluc, col="blue", lwd=2) ; |
|
||||
abline(lm.gluc, col="green", lwd=2) |
|
|
|||
abline(lm(log10(diameter)~ log10(conc), data = hellung), |
|||||
|
|
|
col="red", lty=2) |
||
legend("topright", legend=c("без глюкозы","с глюкозой","для обеих |
|||||
групп"), lwd=c(2,2,1), lty=c(1,1,2),col = c("blue", "green","red")) |
|||||
26 |
|
|
|
|
без глюкозы |
25 |
|
|
|
|
с глюкозой |
|
|
|
|
для обеих |
|
|
|
|
|
|
групп |
24 |
|
|
|
|
|
diameter 22 23 |
|
|
|
|
|
21 |
|
|
|
|
|
20 |
|
|
|
|
|
19 |
|
|
|
|
|
1e+04 |
2e+04 |
5e+04 |
1e+05 |
2e+05 |
5e+05 |
|
|
|
conc |
|
|
Основные вопросы, которые ставит ковариационный анализ в данном случае: |
°Различаются ли линии по углам наклона, (т.е. по степени влияния ковариат)?
°Различаются ли группы по среднему размеру клеток?
Линии |
на рисунке располагаются |
примерно параллельно и |
доверительные |
||
интервалы обоих коэффициентов пересекаются, что позволяет |
сделать |
вывод об |
|||
отсутствии |
влияния |
глюкозы. Подкрепим, |
однако, проверку |
нулевой |
гипотезы |
проведением стандартного дисперсионного анализа. |
|
|
|||
ANCOVA предполагает одинаковые групповые дисперсии. Это условие можно |
|||||
проверить и убедиться в справедливости нулевой гипотезы |
о равенстве дисперсий |
||||
следующим образом: |
|
|
|
|
var.test(lm.gluc, lm.nogluc)
F test to compare two variances data: lm.gluc and lm.nogluc
F = 0.8482, num df = 30, denom df = 17, p-value = 0.6731 alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.3389901 1.9129940 sample estimates: ratio of variances
0.8481674
Функция lm() дает возможность построить общую линейную модель для любых комбинаций факторов и ковариат. Матрица плана А (design matrix – см. раздел 6.2) в этом
335
случае получается добавлением новых столбцовХ к матрице плана однофакторного анализа F без ковариации. Построим вначале модель AN1 с учетом взаимодействий фактора с ковариатой:
AN1 <- lm(log10(diameter) ~ log10(conc)*glucose) summary(AN1)
Coefficients: |
Estimate Std. Error t value Pr(>|t|) |
|
|||
(Intercept) |
|
||||
1.631344 |
0.013879 |
117.543 |
<2e-16 *** |
||
log10(conc) |
-0.053196 |
0.002807 |
-18.954 |
<2e-16 |
*** |
glucoseНет |
0.003418 |
0.023695 |
0.144 |
0.886 |
|
log10(conc):glucoseНет -0.006480 |
0.004821 |
-1.344 |
0.185 |
|
Интерпретация модели AN1 может быть выполнена следующим образом:
1. Первые две строки содержат свободный член |
и регрессионный коэффициент |
|||||
модели |
для |
культуры |
с |
глюкоз(пойказаны |
зеленым |
цветом), т.е. при |
концентрации C ожидаемое среднее значение логарифма диаметра клетокD будет выражено зависимостью:
log10D = 1.6313 – 0.0532´log10C .
2. Остальные две строки содержат разницу между группами по свободному члену и регрессионному коэффициенту при выращивании культуры без добавления глюкозы, и зависимость будет иметь вид:
log10D = (1.6313+0.0034) – (0.0532+0.0064)´log10C
Поскольку инкремент регрессионного коэффициента для культур без глюкозы статистически незначим, то линии модели можно принять параллельными.
Построим теперь модель AN2 без учета взаимодействия между фактором и ковариатой:
AN2 <- lm(log10(diameter) ~ log10(conc) + glucose) summary(AN2)
Coefficients:
Estimate Std. Error t value Pr(>|t|) (Intercept) 1.642132 0.011417 143.83 < 2e-16 ***
log10(conc) -0.055393 0.002301 -24.07 < 2e-16 ***
glucoseНет -0.028238 0.002647 -10.67 2.93e-14 ***
В соответствии с summary(AN2), имеем две ситуации:
° культура с глюкозой: |
log10D = 1.6421 – 0.0554´log10C ; |
°культура без глюкозы: log10D = (1.6421-0.0282) – 0.0554´log10C.
Таким образом, |
клетки в |
культуре |
без |
глюкозы |
в |
среднем6.3%на |
мельче |
||
(10 -0.0282 = 0.937). |
|
|
|
|
|
|
|
|
|
Статистическую |
|
значимость различий |
групп |
по |
среднему |
размеру клеток |
|||
подтверждает таблица дисперсионного анализа: |
|
|
|
|
|
||||
anova(AN2) |
|
|
|
|
|
|
|
|
|
Response: log10(diameter) |
|
|
Pr(>F) |
|
|||||
log10(conc) |
Df |
|
Sum Sq |
Mean Sq F value |
|
||||
1 |
0.046890 |
0.046890 |
561.99 < 2.2e-16 *** |
|
|||||
glucose |
1 |
0.009494 |
0.009494 |
113.78 2.932e-14 *** |
|
||||
Residuals |
48 |
0.004005 |
0.000083 |
|
|
|
|
|
|
--- |
|
|
0 ‘***’ |
0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 |
|||||
Signif. codes: |
|
336
8.6.Модели со смешанными эффектами для иерархически
организованных данных
Основные идеи |
|
|
|
|
|
|
|
|
|
|
|
|
|
||
В разделе 6.5 нами |
подчеркивалось, что |
если |
при |
проведении |
многофакторного |
|
|||||||||
дисперсионного анализа с учетом взаимодействий число |
уровней |
категориальных |
|||||||||||||
переменных достигает пяти и более, возникает необходимость оценки значительного |
|
||||||||||||||
количества коэффициентов модели. Было бы ошибкой механически включать в анализ |
|
||||||||||||||
весь набор возможных параметров и скрупулезно оценивать связанные с ними эффекты. |
|
||||||||||||||
Как правило, многое зависит от постановки задачи и природы анализируемых факторов. |
|
|
|||||||||||||
Например, мы хотим сравнить удои молока у различных пород коров (Рокицкий, |
|
||||||||||||||
1973). В таблице данных имеется два фактора: порода скота F1 и различные пастбища F2, |
|
||||||||||||||
на которых производится их выпас. Можно построить модель с двумя факторами и |
|
||||||||||||||
проделать все предусмотренные протоколом действия. Однако, есть ли необходимость, |
|
||||||||||||||
наравне с интересующим нас факторомF1, выполнять полный цикл вычислений и для |
|
||||||||||||||
фактора F2: сравнивать групповые средние, оценивать коэффициенты модели и т.д.? Во- |
|
||||||||||||||
первых, у нас нет такой задачи– сравнивать между собой пастбища. Во-вторых, если |
|
||||||||||||||
порода скота имеет строго фиксированные уровни, определенные исследователем, то |
|
||||||||||||||
список пастбищ, на которых паслись коровы, может быть выбран случайно (например, на |
|
||||||||||||||
следующий год места выпаса могли поменяться). По условию задачи нам было бы вполне |
|
||||||||||||||
достаточно оценить долю общей дисперсии надоев молока , обусловленную фактором F2. |
|
|
|||||||||||||
Независимые переменные, уровни которых надежно определены исследователем и |
|
||||||||||||||
могут быть воспроизведены при реализации повторностей, называются фиксированными |
|
||||||||||||||
факторами. Модели на их основе, рассмотренные в главе 6, называются моделями I типа, |
|
||||||||||||||
или моделями с фиксированными эффектами (fixed effects). В них значение объясняемой |
|
||||||||||||||
переменной Y определяется генеральной среднейm, |
дифференциальными |
эффектами |
|
||||||||||||
воздействия индивидуальных факторов, а также комбинаторными эффектами их парных, |
|
||||||||||||||
тройных (и остальных, до m) взаимодействий. |
|
|
|
|
|
|
|
|
|
|
|||||
Другой тип эффектов, часто вызывающий интерес исследователей, представляют |
|
||||||||||||||
случайные |
эффекты (random effects). |
Здесь |
предполагается, |
что |
при |
|
реализации |
|
|||||||
повторного эксперимента выборки каждый раз могут извлекатся с |
|
иным |
составом |
||||||||||||
группировки наблюдаемых объектов. Следовательно уровни изучаемого фактора будут |
|
||||||||||||||
формироваться |
случайно |
из |
некоторой |
совокупности |
|
возможных |
градаций |
или |
|||||||
назначаться по субъективным соображениям. Модели II типа со случайными эффектами |
|
||||||||||||||
используются в случаях, когда исследователя интересует не значимость вкладов уровней |
|
||||||||||||||
факторов, а оценка и сравнение компонентов дисперсии распределения включенных в |
|
||||||||||||||
модель дифференциальных эффектов. Это позволяет обобщить |
наши |
заключения о |
|
||||||||||||
природе факторов и значимости их влияния |
вне |
связи |
с |
конкретными |
, уровнями |
||||||||||
заданными в плане эксперимента. Включение в модель случайного эффекта позволяет |
|
||||||||||||||
выделить из независимых остатковe с дисперсиейs долю вариации, "в среднем" |
|
||||||||||||||
объясняемую влиянием этого фактора. |
|
|
|
|
|
|
|
|
|
|
|
||||
В рамках линейной модели II типа, например, для двух факторов с k повторностями |
|
||||||||||||||
|
|
|
yijk = m + ai + bj + (ab)ij + eijk |
|
|
|
|
|
|
|
|
||||
случайные эффекты ai на i |
уровнях воздействия фактораA, bj на j |
уровнях воздействия |
|
||||||||||||
фактора B, а также эффект их взаимодействия (ab)ij, должны |
|
быть независимы |
в |
|
|||||||||||
совокупности и иметь нормальное распределение с нулевым средним и дисперсиямиsa, |
|
||||||||||||||
sb и s(ab) |
соответственно. |
Если |
это |
условие |
выполняется, то |
проверяются |
нулевые |
|
|||||||
гипотезы |
|
Н0(А): sa = 0; |
Н0(B): sb = 0; |
|
H0(AB): s(ab) = 0, |
|
|
т.е. дисперсия случайного фактора на всех его уровнях равна нулю и не вносит дополнительно вклада в изменчивость наблюдаемой случайной величины.
337
Модели III типа со смешанными эффектами(Pinheiro, Bates, 2000; Demidenko, 2004; Wood, 2006) включают как фиксированные, так и случайные факторы. Для простой схемы группировки по уровням линейную модель LMEM (linear mixed-e ects model) со смешанными эффектами удобно представить в матричной форме:
|
|
|
y = X b + Z b + e, |
|
b ~ N(0, yq) , e ~ N(0, Ls2), |
|
|
|
||||||||
где y – |
N-мерный вектор |
зависимой переменной, N – число |
ячеек |
дисперсионного |
|
|||||||||||
комплекса, X и Z – матрицы, состоящие из нулей и единиц и описывающие группировку |
|
|||||||||||||||
фиксированных и случайных факторов по уровням в соответствии с планом эксперимента, |
|
|||||||||||||||
b – вектор фиксированных |
эффектов(параметров |
модели). |
Распределение |
вектора |
|
|||||||||||
случайных |
эффектов b |
описывается |
вектором нулевых |
средних0 |
и |
положительно |
|
|||||||||
определенной ковариационной матрицей ψθ, зависящей от вектора параметровq, оценка |
|
|||||||||||||||
которых является основной целью статистического |
вывода |
о |
природе случайных |
|||||||||||||
эффектов. Наконец, Λ – положительно определенная матрица простой структуры, которая |
|
|||||||||||||||
обычно используется при моделировании автокорреляции остатковe, но часто это просто |
|
|||||||||||||||
единичная матрица. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
Включение случайных факторов в модели с фиксированными эффектами часто |
|
|||||||||||||||
существенно повышает обобщаемость заключений о главном результате исследования при |
|
|||||||||||||||
распространении его на другие пространственные, временные или биологические уровни |
|
|||||||||||||||
организации. Например, сделав вывод о влиянии одного целевого фактора(например, |
|
|||||||||||||||
добавка |
|
или |
отсутствие |
удобрения), корректно |
было |
бы |
выполнить |
анализ |
о |
|||||||
статистической значимости остальных случайных факторов(таких, как все возможные |
|
|||||||||||||||
места размещения пробных площадок, периоды эксперимента, варианты видов растений и |
|
|||||||||||||||
т.д.) по всем возможным их уровням. Модели со смешанными эффектами широко |
|
|||||||||||||||
используются во многих био- и социологических исследованиях(Zuur et al., 2009), где |
|
|||||||||||||||
случайный фактор – "обследуемая группа респондентов", либо "проба из смеси видов". |
|
|||||||||||||||
Пример с морскими животными: несколько частных моделей |
|
|
|
|
||||||||||||
Рассмотрим небольшой пример, представленный в книге А. Цуура с соавторами |
|
|||||||||||||||
(Zuur et al., 2009). Файлы с исходными данными и комплект скриптов R к главам книги |
|
|||||||||||||||
можно скачать на сайте авторов highstat.com. |
|
|
|
|
|
|
|
|
||||||||
Все вы, вероятно, любите бродить по морскому берегу и собирать мелких морских |
|
|||||||||||||||
животных (ракушек, рачков, морских звезд, гребешков, крабов, ланцетиков). Именно этим |
|
|||||||||||||||
и занимался институт RIKZ, |
специалисты которого собрали данные по бентосу в девяти |
|
||||||||||||||
областях приливной зоны на Голландском побережье: Beach = {1, …, 9}. Для каждой из |
|
|||||||||||||||
45 площадок сбора проб(Sample) |
была учтена высота пляжа над средним уровнем |
|
||||||||||||||
прилива |
NAP |
и |
подсчитано |
|
число |
обнаруженных |
видов |
Richnessбентоса . |
|
|||||||
Дополнительно был рассчитан индекс степени морских возмущенийExposure, |
|
|||||||||||||||
учитывающий интенсивность приливной волны, наклон дна, зернистость грунта, толщину |
|
|||||||||||||||
анаэробного слоя и т.д. Этот индекс был приведен к фактору с двумя уровнями: ”a” при |
|
|||||||||||||||
значениях |
Exposure |
< |
11 |
и |
“b” |
при |
Exposure = |
1. |
Необходимо |
оценить |
|
статистическую зависимость богатства видовRichness от высоты NAP и возмущения
Exposure.
RIKZ <- read.table(file = "RIKZ.txt", header = TRUE, dec = ".") head(RIKZ)
1 |
Sample Richness Exposure |
NAP Beach |
|||
1 |
11 |
10 |
0.045 |
1 |
|
2 |
2 |
10 |
10 |
-1.036 |
1 |
3 |
3 |
13 |
10 |
-1.336 |
1 |
4 |
4 |
11 |
10 |
0.616 |
1 |
5 |
5 |
10 |
10 |
-0.684 |
1 |
338
6 6 8 8 1.190 2
ExposureBeach <- c("a","a","b","b","a","b","b","a","a")
Наивный подход приведет нас к мысли описать искомую зависимость знакомой нам моделью линейной регрессии с гауссовым распределением остатков:
Rij = α + β1 × NAPij + β2 × Exposurei + εij , |
εij ~ N(0, σ2), |
где Rij - богатство видов участка j на пляже i, NAPij и Exposurei – предикторы модели и εij – случайные остатки. Однако эта модель не учитываетэффекта вложенности (nested) данных: на каждом пляже сделано по5 проб и, скорее всего, число видов на участках одного пляжа будет более схожим, чем на участках различных местообитаний. Эту модель целесообразно забраковать.
Вторая мысль (более плодотворная, но, все же, не оптимальная) приведет нас к выполнению так называемого двухэтапного анализ. На первом этапе рассчитаем значения коэффициентов регрессии βi для каждого i-го пляжа по совокупности из 5 проб:
Rij = α + βi × NAPij + εij , |
j = 1 ,..., 5. |
На втором шаге мы найдем параметры общей |
линейной модели, которая оценивает |
ˆ |
|
зависимость коэффициентов b i, полученных на первом этапе, от предиктора Exposure: |
|
ˆ |
i = 1,..., 9. |
b i = η + τ × Exposurei + bi , |
Эта модель соответствует тривиальному однофакторному дисперсионному анализу.
Beta<-vector(length=9) # Первый этап for (i in 1:9){
tmpout<-summary(lm(Richness~NAP,
subset = (Beach==i),data=RIKZ)) Beta[i] <- tmpout$coefficients[2,1]
}
print(Beta,3)
[1] -0.372 -4.175 -1.755 -1.249 -8.900 -1.389 -1.518 -1.893 -2.968
#Второй этап
tmp2 <- lm(Beta ~ factor(ExposureBeach),data=RIKZ) summary(tmp2)
Coefficients:
(Intercept) |
Estimate Std. Error t value Pr(>|t|) |
* |
|||
-3.662 |
1.099 |
-3.332 |
0.0126 |
||
factor(ExposureBeach)b |
2.184 |
1.649 |
1.325 |
0.2268 |
|
Кроме огорчившей нас статистической незначимости факт, отражающего абиотические условия, двухэтапный анализ имеет и другие недостатки:
°вариация всех данных для каждого берега сводится к одному параметру;
°на втором шаге мы анализируем параметры регрессии, а не наблюдаемые данные (т.е. не моделируем непосредственно интересующий нас отклик);
°итоговая статистическая величина не зависит от числа наблюдений(их может быть
5, 50, или 50 000).
Наконец, в качестве третей версии можно представить нашу модель как линейную
зависимость богатства видов от высоты NAP, где свободный член изменяется для каждого пляжа Beachi, номер которого выступает в качестве фактора с девятью фиксированными уровнями: Rij = (α + β1 × Beachi ) + β2 × NAPij + εij.
Однако мы вовсе не интересуемся знанием точной природы "эффекта пляжа", хотя платить за включение этого члена в модель приходится восемью степенями свободы(слишком высока цена!).
339
Все |
перечисленные |
проблемы |
решаются |
с |
использованием |
моделей |
с |
смешанными эффектами, которые комбинируют действия обеих шагов в одну простую |
|
||||||
модель: |
|
Ri = Xi×β + Zi×bi. |
|
(1) |
|
|
Здесь Ri является оценкой богатства видов на пляжеi, i = 1, ..., 9. Предикторы модели включают фиксированный компонентXi×β и случайный компонентZi×bi. Даже для этого небольшого примера есть несколько вариантов наполнения матрицXi и Zi, которые мы обсудим ниже. Пока нам только важно, что эти матрицы имеют размерности ni×p и ni×q соответственно, где ni - число наблюдений Ri, p - число предикторов в Xi, и q - число объясняющих переменных в Zi.
Переходя к обсуждению модели LMEM, рассмотрим последовательно три примера: а) Модель со случайным свободным членом зависимости между Ri и NAPi;
б) Модель со случайными свободным членом и коэффициентом угла наклона; в) Различные модели со смешанными эффектами, включающими все предикторы.
Модель со случайным свободным членомиспользует местоположение пляжа
Beachi как случайный фактор, однако предполагает, что весь эффект его влияния
сконцентрирован в сдвиге свободного члена: |
Ri = NAPi×β + bi. |
В развернутой форме эта модель имеет вид: |
|
,
т.е. матрица случайных эффектовZi в выражении(1) представляет собой единичный вектор.
Для расчета воспользуемся функцией lme() из пакета nlme, которая, в отличие от функции lm(), позволяет задать случайные эффекты. В частности, параметр ~1|fBeach определяет случайный свободный член модели (справа от знака ‘|’ задается предикторная переменная):
library(nlme)
RIKZ$fBeach <- factor(RIKZ$Beach)
Mlme1 <- lme(Richness ~ NAP, random = ~1 | fBeach,data=RIKZ) summary(Mlme1)
Linear mixed-effects model fit by REML Data: RIKZ
AIC BIC logLik 247.4802 254.525 -119.7401
Random effects: Formula: ~1 | fBeach
(Intercept) Residual StdDev: 2.944065 3.05977
Fixed effects: Richness ~ NAP |
|
t-value p-value |
||||
(Intercept) |
Value Std.Error DF |
|||||
6.581893 |
1.0957618 |
35 |
6.006682 |
0 |
||
NAP |
|
-2.568400 |
0.4947246 |
35 -5.191574 |
0 |
|
В |
первой |
части блока выведенных результатов приведены информационные |
||||
критерии AIC и BIC, а также достигнутый максимум функции правдоподобияlogLik. Эти |
||||||
показатели |
могут |
потребоваться нам для селекции моделей. Вторая и третья части |
||||
содержат |
анализ |
случайных |
и фиксированных |
эффектов. Часть, |
связанная с Fixed |
effects, определяет зависимость числа видов от высоты пляжа как6.58 – 2.56×NAPi ,
340

причем к свободному члену этой функции добавляется величина случайного эффектаbi. |
|
|||||||||||||
Стандартное отклонение этого приращения свободного |
члена(StdDev: 2.94) |
|
||||||||||||
определено выше в части, связанной |
с Random |
effects, |
и |
почти |
совпадает |
со |
||||||||
стандартным отклонением для остатков Residual. |
|
|
|
|
|
|
|
|||||||
Приведем график, отражающий смысл этой модели: |
|
|
|
|
|
|
||||||||
F0 <- fitted(Mlme1,level=0) |
|
|
|
|
|
|
|
|
|
|||||
F1 <- fitted(Mlme1,level=1) |
|
|
|
|
|
|
|
|
|
|||||
I <- order(RIKZ$NAP) ; NAPs <- sort(RIKZ$NAP) |
|
|
|
|
||||||||||
plot(NAPs,F0[I],lwd=2, col="blue" ,type="l",ylim=c(0,22), |
|
|||||||||||||
ylab="Число видов",xlab="NAP") |
|
|
|
|
|
|
|
|||||||
for (i in 1:9){ |
|
|
|
|
|
|
|
|
|
|
|
|
||
x1<-RIKZ$NAP[RIKZ$Beach==i] |
|
|
|
|
|
|
|
|
||||||
y1<-F1[RIKZ$Beach==i] ; K<-order(x1) |
|
|
|
|
|
|
||||||||
lines(sort(x1),y1[K]) |
|
|
|
|
|
|
|
|
|
|||||
} |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
text(RIKZ$NAP,RIKZ$Richness,RIKZ$Beach,cex=0.9) |
|
|
|
|
||||||||||
|
|
|
5 |
|
|
|
|
|
|
|
|
|
|
|
|
20 |
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
15 |
|
|
|
|
|
|
|
|
|
|
|
|
|
видов |
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
19 |
|
1 |
|
|
|
|
|
|
|
|
Число |
10 |
|
|
|
|
|
|
|
|
|
|
|
||
1 |
1 |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
2 |
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
2 |
2 |
|
|
|
|
|
|
|
|
8 |
|
9 |
|
|
|
|
|
|
|
|
|
|
|
5 |
3 6 |
|
|
5 |
|
5 |
|
|
|
|
|
|
|
|
|
6 |
8 |
|
8 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
4 |
6 |
3 |
7 |
6 |
|
|
|
|
|
|
|
|
|
|
3 |
|
749 |
3 |
4 |
5 |
|
8 |
|
|
|
|
|
|
|
|
|
|
|
97 |
|
|
|
|
|
|
|
|
0 |
|
|
|
|
|
|
47 |
3 |
47 |
|
6 |
|
|
|
|
|
|
|
|
|
|
5 |
8 |
9 |
|
|
||
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
-1.0 |
-0.5 |
|
0.0 |
|
0.5 |
1.0 |
1.5 |
|
2.0 |
|
|
|
|
|
|
|
|
|
NAP |
|
|
|
|
|
|
|
|
Жирная синяя линия определяет центральную тенденцию зависимости числа видов |
|
|||||||||||||
от высоты над уровнем прибоя. К свободному члену этой зависимости добавлены(с |
|
|||||||||||||
учетом знака!) случайные эффекты местоположения каждого пляжа, вызывающие |
|
|||||||||||||
параллельные сдвиги остальных9 прямых. Цифрами показаны координаты точек по |
||||||||||||||
исходным данным для каждого пляжа (по 5 точек повторностей). |
|
|
|
|
|
Модель со случайными свободным членом и коэффициентом угла наклона также использует местоположение пляжаBeachi как случайный фактор, однако выдвигает дополнительное предположение о том, что характер зависимостей между числом видовRi и высотой NAPi различен для каждого пляжа. Иными словами, для каждого значения фактора Beachi должен корректироваться не только свободный член зависимости между Ri и NAPi, но и коэффициент угла наклона. Модель имеет следующий вид:
341

т.е. в матрицу Zi, определяющую конфигурацию случайных эффектов, дополнительно включается набор значений NAPi. Это выражается в изменении вида аргумента ~1 + NAP | fBeach для параметра random функции lme():
Mlme2 <- lme(Richness ~ NAP, method = "REML",
random = ~1 + NAP | fBeach, data = RIKZ) summary(Mlme2)
Random effects: Formula: ~1 + NAP | fBeach
Structure: General positive-definite, Log-Cholesky parametrization
(Intercept) |
StdDev |
Corr |
|
|
3.549100 |
(Intr) |
|
|
|
NAP |
1.715015 |
-0.99 |
|
|
Residual |
2.702785 |
|
|
|
Fixed effects: Richness ~ NAP |
t-value p-value |
|||
(Intercept) |
Value Std.Error DF |
|||
6.588729 1.2647708 35 |
5.209425 |
0e+00 |
||
NAP |
-2.830029 0.7229514 35 -3.914549 |
4e-04 |
||
Correlation: |
|
|
|
(Intr) NAP -0.819
#Блок кода R для вывода графика в целом идентичен
#представленному выше
|
|
|
5 |
|
|
|
|
|
|
|
|
|
20 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
15 |
|
|
|
|
|
|
|
|
|
|
видов |
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
19 |
|
1 |
|
|
|
|
|
Число |
10 |
|
|
|
|
|
|
|
|
||
1 |
1 |
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
2 |
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
2 |
|
|
|
|
|
8 |
|
9 |
|
|
|
|
|
|
|
|
|
3 6 |
|
|
5 |
|
|
5 |
|
|
|
|
5 |
|
6 |
8 |
|
8 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
4 |
6 |
3 |
|
7 |
6 |
|
|
|
|
|
|
3 |
|
749 |
3 |
4 |
5 |
|
8 |
|
|
|
|
|
|
|
|
|
97 |
|
|
|
|
|
|
|
|
|
|
|
47 |
3 |
47 |
6 |
|
0 |
|
|
|
|
|
|
|
5 |
8 |
9 |
|
|
|
|
|
|
|
|
|
|||
|
|
-1.0 |
-0.5 |
|
0.0 |
|
0.5 |
1.0 |
1.5 |
2.0 |
|
|
|
|
|
|
|
|
NAP |
|
|
|
|
342
Изменению подвергся блок выводимых результатов для случайных эффектов, который стал включать уже два члена. Первый b1, как и в предыдущей модели, определяет оценку стандартного отклонения свободного члена(Intercept) для модели с фиксированными эффектами. Второй b2 определяет изменчивость угла наклона прямых зависимости Ri от NAPi для всех девяти пляжей:
Можно отметить также, что вариация, сконцентрированная в случайном эффекте b1, в четыре раза превышает дисперсию, заключенную в b2, при высоком коэффициенте корреляции между ними (-0.99).
Другое наше замечание связано с упоминанием загадочной аббревиатуры метода REML, который используется по умолчанию при подгонке смешанных моделей. Он расшифровывается как метод максимального правдоподобия с ограничениями(restricted maximum likelihood). Относительно возможного вопроса о том, чем он отличается от обычного метода максимального правдоподобия(кстати, его также можно использовать, если задать параметрmethod = "ML"), большинство книг на эту тему приводит несколько страниц не слишком дружелюбных формул в духе матричной алгебры, либо избегает деталей и представляетREML, как некий мистический путь"корректировки степеней свободы". Ограничимся этим и мы.
Смешанные модели с использованием всех предикторов
Преобразуем индекс интенсивности абиотических возмущенийExposure в фактор fExp и выполним построение линейной модели, в фиксированной части которой учтем как дифференциальные эффекты, так и эффект парного взаимодействияNAP и fExp:
RIKZ$fExp<-RIKZ$Exposure RIKZ$fExp[RIKZ$fExp==8]<-10 RIKZ$fExp<-factor(RIKZ$fExp,levels=c(10,11)) Mlme4 <- lme(Richness ~1 + NAP * fExp,
random = ~1 + NAP | fBeach, data = RIKZ) summary(Mlme4)
Random effects: Formula: ~1 + NAP | fBeach StdDev Corr
(Intercept) 2.421276 (Intr) NAP 1.507835 -0.801 Residual 2.607753
Fixed effects: Richness ~ 1 + NAP * fExp |
|
|||||
(Intercept) |
Value Std.Error DF |
t-value p-value |
||||
9.118945 |
1.2242357 |
34 |
7.448684 |
0.0000 |
||
NAP |
-3.879203 0.8816476 34 -4.399947 |
0.0001 |
||||
fExp11 |
-5.534743 1.8510032 |
7 -2.990132 |
0.0202 |
|||
NAP:fExp11 |
2.429496 |
1.3327641 |
34 |
1.822900 |
0.0771 |
|
Correlation: |
|
fExp11 |
|
|
|
|
NAP |
(Intr) NAP |
|
|
|
||
-0.637 |
0.421 |
|
|
|
||
fExp11 |
-0.661 |
|
|
|
||
NAP:fExp11 |
0.421 |
-0.662 -0.658 |
|
|
|
Общий смысл представленной модели заключается в следующем. Как всегда при построении модели регрессии, мы имеем некоторую неопределенность искомой зависимости числа обнаруженных видов морских животныхRi от высоты пляжаNAPi и
343
интенсивности приливных возмущенийfExpi (фиксированные факторы). Некоторую часть этой неопределенности мы можем объяснитьвариацией между местообитаниями. Объявив для этого в качестве случайного эффектаfBeach, мы оцениваем вклад этого фактора в виде стандартного отклонения соответствующего нормального распределения StdDev. Иными словами, местообитание перестает быть самостоятельным предиктором модели, но, внося свой вклад в общую дисперсию, наряду с необъясняемыми остатками e, ограничивает возможность совершения ошибки1-го рода (отклонение верной нулевой гипотезы).
Здесь, конечно, естественен вопрос: является ли найденная модель оптимальной? Рассчитаем еще две модели: в первой из них исключим член NAP:fExp11, оценивающий парное взаимодействие, который по t- критерию оказался незначимым:
Mlme5 <- lme(Richness |
~1 + NAP + fExp, |
|
||||
|
|
random = ~1 + NAP | fBeach, data = RIKZ) |
||||
summary(Mlme5) |
|
|
|
|
||
Fixed effects: Richness ~ 1 + NAP + fExp |
|
|||||
(Intercept) |
Value Std.Error DF |
t-value p-value |
||||
8.407714 |
1.183419 |
35 |
7.104595 |
0.0000 |
||
NAP |
-2.808422 |
0.759642 |
35 |
-3.697034 |
0.0007 |
|
fExp11 |
-3.704917 |
1.517669 |
7 |
-2.441189 |
0.0447 |
|
Correlation: |
|
|
|
|
|
|
NAP |
(Intr) NAP |
|
|
|
|
|
-0.500 |
-0.024 |
|
|
|
|
|
fExp11 -0.573 |
|
|
|
|
Вторая модель возвращает нас к модели со случайным свободным членом:
Mlme6 <- lme(Richness ~1 + NAP + fExp, data = RIKZ, random = ~1 | fBeach, method = "REML")
summary(Mlme6)
Random effects: Formula: ~1 | fBeach (Intercept) Residual
StdDev: 1.907175 3.059089
Для сравнения полученных моделей используем знакомую нам функцию anova(), которая для смешанных моделей приобретает более расширенный вид:
anova(Mlme4, Mlme5, Mlme6)
Mlme4 |
Model df |
AIC |
BIC |
logLik |
|
Test |
L.Ratio p-value |
|||
1 |
8 |
237.1331 |
250.8416 |
-110.5665 |
1 |
vs |
2 |
5.399608 |
0.0201 |
|
Mlme5 |
2 |
7 |
240.5327 |
252.6964 |
-113.2663 |
|||||
Mlme6 |
3 |
5 |
240.5538 |
249.2422 |
-115.2769 |
2 |
vs |
3 |
4.021142 |
0.1339 |
Очевидно, что по минимумуAIC-критерия наилучшей моделью являетсяMlme5, которая статистически значимо отличается от остальных двух .моделейОбобщая изложенное, приведем сравнительную таблицу измененияAIC-критерия для всех построенных моделей. Здесь первая модель с одним случайным эффектом, ранее не обсуждавшаяся нами, вообще не включает абиотических факторов, а показывает лишь изменчивость числа видов морских организмов для различных пляжей:
344