Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Звіт на практику.docx
Скачиваний:
10
Добавлен:
08.10.2015
Размер:
98.03 Кб
Скачать
    1. Обобщенные линейные модели

Обобщенное линейное моделирование это разработка линейных моделей для учета чистым и простым способом, как не-нормальных распределений отклика, так и линеаризующих преобразований. Обобщенная линейная модель может быть описана в терминах следующей последовательности предположений:

  • Есть отклик y и воздействующие переменные x1, x2 …., чье значение влияет на распределение отклика.

  • Воздействующие переменные влияют на распределение y только через единственную линейную функцию. Эту линейную функцию называют линейным предиктором, и обычно записывают как:

следовательно, Xi не имеет никакого влияния на распределение y если и только если βi = 0.

  • Распределение y имеет форму

то, где ϕ коэффициент масштабирования (возможно известный), и является постоянным для всех наблюдений, A представляет собой предшествующий вес, предположительно известный, но возможно меняющийся в зависимости от наблюдений, и μ является средним y. Таким образом, предполагается, что распределение y определено его средним, а также, возможно, коэффициентом масштабирования.

  • Среднее μ, гладкая обратимая функция линейного предиктора:

и эта обратная функция l(μ) называется функцией ссылки.

Эти предположения достаточно неточны, чтобы охватить широкий класс моделей, полезных в статистической практике, но достаточно жесткие для разработки, по крайней мере, приблизительной объединенной методологии оценки и вывода. Читатель отсылается в любую из текущих ссылочных работ по предмету для полного изложения, например, McCullagh & Nelder (1989) или Добсон (1990).

      1. Семейства

Класс обобщенных линейных моделей, обработанных средствами, предоставленными в R, включает gaussian, binomial, poisson, inverse gaussian и gamma response распределения, а также модели квазиправдоподобия, где распределение отклика явно не указывается. В последнем случае функция дисперсии должна специфицироваться как функция среднего, но в других случаях эта функция подразумевается распределением отклика.

Каждое распределение отклика допускает, что множество функций ссылки соединяет среднее с линейным предиктором. Автоматически доступные распределения

показаны в следующей таблице:

Имя семейства

Функции связи

binomial

logit, probit, log, cloglog

gaussian

identity, log, inverse

Gamma

identity, inverse, log

inverse.gaussian

1/mu^2, identity, inverse, log

poisson

identity, log, sqrt

quasi

logit, probit, cloglog, identity, inverse,

log, 1/mu^2, sqrt

Комбинация распределения отклика, функции ссылки и различные другие необходимые сведения для выполнения задач моделирования, называются семейством обобщенной линейной модели.

      1. Функция glm()

Поскольку распределение отклика определяется воздействующими переменными посредством только одной линейной функции, тот же механизм, который был использован для линейных моделей, может быть использован для задания линейной части обобщенной модели. В семействе это задается различными способами.

Функция R для подгонки обобщенной линейной модели называется glm() и имеет вид:

> fitted.model <- glm(formula, family=family.generator, data=data.frame)

Единственная новая функция - family.generator, которая является инструментом для описания семейства. Это - имя функции, которая генерирует список функций и выражений, которые вместе определяют и управляют моделью и процессом оценки. Хотя это может казаться немного усложненным на первый взгляд, использование довольно просто.

Имена стандартных, предоставленных генераторов семейства даны под "Фамилией" в таблице в Разделе 11.6.1 [семейства]. Где есть выбор ссылок, имя ссылки может также быть предоставлено фамилией в круглых скобках в качестве параметра. В случае квази семейства функция дисперсии может также специфицироваться таким образом.

Некоторые примеры ясно дают понять процесс.