Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
RCoreTeam2014.docx
Скачиваний:
46
Добавлен:
08.10.2015
Размер:
539.13 Кб
Скачать
  1. Статистические модели в r

Этот раздел предполагает, что у читателя есть некоторые познания в статистической методологии, в особенности в регрессионном анализе и дисперсионном анализе. Позже сделаем некоторые более честолюбивые предположения, а именно, что что-то известно об общей линейной модели и нелинейной регрессии.

Требования для подгонки статистической модели достаточно хорошо определены для разработки универсального, применимого для широкого спектра задач инструментария.

Rобеспечивает набор взаимосвязанных инструментов, который делает очень простой подгонку статистических моделей. Как упоминалось во введении, по умолчанию отображается минимальный набор результатов, и нужно запрашивать подробности при обращении к функциям вывода.

    1. Определение статистических моделей; формулы

Шаблон для статистической модели - линейная регрессионная модель с независимыми, гомоскедастичными ошибками:

В матричном виде можно записать:

y = Xβ + e

где y- вектор отклика,Xматрица модели или матрица проектаи имеет столбцыx0; x1 …. ; xpопределяющих переменных. Очень частоx0 будет столбцом, дающий параметр смещения.

Примеры

Прежде чем дать формальное определение, несколько примеров помогут составить общее представление. Предположим, что y, x, x0, x1, x2... числовые переменные,Xматрица иA, B, C...

являются факторами. Ниже следующие формулы задают статистические модели, справа даны описания моделей.

y ~ x y ~ 1 + x

Обе подразумевают одинаковую простую линейную регрессионную модель yна

x. У первой есть неявный параметр смещения, а у второй - явный.

y ~ 0 + x y ~-1 + x y ~ x - 1

Простая линейная регрессия yнаxчерез источник (то есть, без параметра смещения).log (y) ~ x1 + x2

Множественная регрессия преобразованной переменной log(y)наx1иx2(с неявным параметром смещения).

y ~ poly (x, 2) y ~ 1 + x + I(x^2) Параболическая регрессияyнаxстепени 2. Первая форма использует ортогональные полиномы, вторая использует явную степень, как основание.y ~ X + poly (x, 2)

Множественная регрессия yс модельной матрицей, состоящей из матрицыX, включая параметр полиномаx степени 2.y ~ A

Модель дисперсионного анализа одиночной классификации yс классами, определенными A.y ~ A+ x

Модель ковариационного анализа одиночной классификации yс классами, определеннымиA, и с ковариантомx.

y ~ A*B y ~ + B + A:B y ~ B %in % A y ~ A/B

Модель двух факторного дисперсионного анализа yпоAиB. Первые две специфицируют одинаковую кросс классификацию, а вторые две специфицируют одинаковую вложенную классификацию.

В абстрактных понятиях все четыре специфицируют одинаковое подмножество моделей. y ~ (A+ B + C) ^2 y ~ A*B*C - A:B:C

Трех факторный эксперимент, но с моделью, содержащей основные эффекты и факторы попарного взаимодействия. Обе формулы специфицируют одинаковую модель. y ~ A * x y ~ A/x y ~ A / (1 + x) - 1

Изолированные модели простой линейной регрессии yнаxв пределах уровней заданных вA различными метками. В последнем виде производит четко столько вычислений различных отсекаемых отрезков и коэффициентов наклона, сколько имеется уровнейA.

y ~ A*B + Error(C)

Эксперимент с двумя факторами воздействия A и B,и стратифицированной ошибкой, определяемой факторомC. Например, разделить отображение эксперимента на участки (и, следовательно, части рисунка), определяемые факторомC.

Оператор ~используется для определения формулы модели в R . Форма для простой линейной модели:response ~ op_1 term_1 op_2 term_2 op_3 term_3 ... где:

response - вектор или матрица (или оценка выражения к вектору или матрице), определяющая переменную (ые) отклика.

op_i- оператор, или “+” или “-“, подразумевая включение или исключение параметра в модели (первое является дополнительным).term_iтакже является либо:

  • векторным или матричным выражением, или 1, либо

  • фактор, либо

  • выражением формулы, состоящей из факторов, векторов или матриц, соединенных операторами формулы.

Во всех случаях каждый параметр определяет набор столбцов либо для добавления к матрице модели, либо для удаления из матрицы модели. 1 устанавливается для столбца смещения и по умолчанию включена в матрицу модели, если явно не удалена.

Операторы формулы подобны нотации Уилкинсона и Роджерса, используемой такими программами как Glim и Genstat. Одно неизбежное изменение то, что оператор '.' становится ‘:’ так как точка является допустимым символом имени в R.

В итоге ниже получена нотация (основано на Chambers & Hastie, 1992, p.29):

Y ~ М Y смоделирован как М.

M_1 + M_2 Включают М_1 и М_2.

M_1 - M_2 Включают М_1 и исключают параметр М_2.

M_1: M_2 Тензорное произведение М_1 и М_2. Если оба параметра - факторы, то фактор "подклассов". M_1 %in % M_2

Подобно M_1:M_2, но с различным синтаксисом.

M_1 * M_2 M_1 + M_2 + M_1:M_2. M_1 / M_2 M_1 + M_2 %in % M_1.

M^nВсе параметры вМвместе со "взаимодействиями" до порядка nI(M)ИзолированноеМ.ВнутриМвсе операторы имеют свое обычное арифметическое значение, и этот параметр появляется в матрице модели.

Заметим, что в круглых скобках, которые обычно включают аргументы функции, у всех операторов есть свое нормальное арифметическое значение. Функция I()является зеркальным отображением, используемым для придания определенности параметрам в формулах модели, используя арифметические операторы.

В частности заметим, что формулы модели описывают столбцы матрицы модели, определение подразумевающихся параметров. Дело обстоит не так в других контекстах, например в определении нелинейных моделей.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]