- •Version 3.1.0 (2014-04-10)
- •1.Введение и предварительные замечания 8
- •6.Списки и фреймы данных 37
- •11.Статистические модели в r 64
- •12.Графические процедуры 78
- •13.Пакеты 97
- •Предисловие
- •Предложения читателю
- •О переводе
- •Введение и предварительные замечания
- •Среда r
- •Связанное программное обеспечение и документация
- •R и статистика
- •R и оконная система
- •Использование r в интерактивном режиме
- •Первый сеанс
- •Получение справки по функциям и средствам
- •Команды r,учет регистра и т.Д.
- •Повтор и коррекция предыдущих команд
- •Выполнение команд из файла или перенаправление вывода в файл
- •Сохранение данных и удаление объектов
- •Простые манипуляции; числа и векторы
- •Вектора и присваивания
- •Векторная арифметика
- •Генерация регулярных последовательностей
- •Логические векторы
- •Пропущенные значения
- •Векторы символов
- •Векторы индексов; выбор и изменение подмножеств наборов данных
- •Другие типы объектов
- •Объекты, их режимы и атрибуты
- •Внутренние атрибуты: режим и длина
- •Изменяющаяся длина объекта
- •Получение и установка атрибутов
- •Класс объекта
- •Упорядоченные и неупорядоченные факторы
- •Специальный пример
- •Функция tapply () и массивы с переменной длиной строк
- •Упорядоченные факторы
- •Массивы и матрицы
- •Массивы
- •Индексация массива. Подразделы массива
- •Индекс матрицы
- •Функция array()
- •Смешанный вектор и арифметика массива. Правило рециркуляции
- •Внешнее произведение двух массивов
- •Обобщенное транспонирование массива
- •Матричные инструменты
- •Умножение матриц
- •Линейные уравнения и инверсия
- •Собственные значения и собственные векторы
- •Сингулярное разложение и определители
- •Подгонка методом наименьших квадратов и qr разложение
- •Формирование разделенных матриц cbind () и rbind ()
- •Функция связывания массивовc()
- •Таблицы частот от факторов
- •Списки и фреймы данных
- •Построение и изменение списков
- •Конкатенация списков
- •Фреймы данных
- •Создание фреймов данных
- •Attach() и detach()
- •Работа с фреймами данных
- •Присоединение произвольных списков
- •Управление путем поиска
- •Чтение данных из файлов
- •Функция read.Table()
- •Функция scan()
- •Доступ к встроенным наборам данных
- •Загрузка данных из других пакетов r
- •Редактирование данных
- •Распределение вероятности
- •R как ряд статистических таблиц
- •Исследование распределения набора данных
- •Тесты на одной и двух выборках
- •Группировка, циклы и условное выполнение
- •Группирующие выражения
- •Проверка утверждения
- •Условное выполнение: операторы if
- •Повторное выполнение: for, loops, repeat и while
- •Написание собственных функций
- •Простые примеры
- •Определение новых бинарных операторов
- •Именованные параметры и умолчания
- •Параметр ‘...’
- •Присвоения в пределах функций
- •Более сложные примеры
- •Фактор эффективности при проектировании блоков
- •Отбрасывание всех имен при печатании массива
- •Рекурсивное числовое интегрирование
- •Область действия
- •Настройка окружения
- •Классы, универсальные функции и объектно-ориентированное программирование
- •Статистические модели в r
- •Определение статистических моделей; формулы
- •Примеры
- •Противопоставления
- •Линейные модели
- •Универсальные функции для извлечения информации о модели
- •Дисперсионный анализ и сравнение модели
- •Таблицы anova
- •Обновление подогнанных моделей
- •Обобщенные линейные модели
- •Семейства
- •Функция glm()
- •Нелинейные наименьшие квадраты и модели наибольшего правдоподобия
- •Наименьшие квадраты
- •Метод максимального правдоподобия
- •Некоторые нестандартные модели
- •Графические процедуры
- •Высокоуровневые команды рисования
- •Функция plot()
- •Отображение многомерных данных
- •Графический вывод
- •Параметры для высокоуровневых графических функций
- •Низкоуровневые команды рисования
- •Математическая аннотация
- •Векторные шрифты Херши
- •Интерактивная графика
- •Использование графических параметров
- •Постоянные изменения: функция par()
- •Временные изменения: параметры для графических функций
- •Список графических параметров
- •Графические элементы
- •Оси и метки
- •Поля рисунка
- •Окружение составных фигур
- •Устройства вывода
- •PostScript диаграммы для типографии
- •Несколько графических устройств одновременно
- •Динамическая графика
- •Стандартные пакеты
- •Сторонние пакеты и cran
- •Пространства имен
- •Пакеты для анализа временных рядов
- •Основные пакеты - Basics
- •Время и даты -Times and Dates
- •Классы временных рядов - Time Series Classes
- •Прогноз и одномерное моделирование -Forecasting and Univariate Modeling
- •Ресэмплирование - Resampling
- •Декомпозиция и фильтрация - Decomposition and Filtering
- •Стационарность, единичный корень и коинтеграция - Stationarity, Unit Roots, and Cointegration
- •Нелинейный анализ временных рядов -Nonlinear Time Series Analysis
- •Модели динамических регрессий - Dynamic Regression Models
- •Модели многомерных временных рядов - Multivariate Time Series Models
- •Модели непрерывного времени - Continuous time models
- •Исходные временные ряды - Time Series Data
- •Разное - Miscellaneous
- •Перечень пакетов для анализа временных рядов:
- •• Aer • afmtools • bayesGarch
- •Приложение a. Примерный сеанс
- •Приложения b. Вызов r
- •В.1. Вызов r из командной строки
- •В.2. Вызов r под Windows
- •В.3. Вызов r под os X
- •В.4. Скрипты r
- •Приложение c. Редактор командной строки
- •Приложение f. Ссылки
Противопоставления
Мы нуждаемся, по крайней мере, в некоторой идее, как формулы модели описывают столбцы матрицы модели. Это просто для непрерывных переменных, поскольку каждая обеспечивает один столбец матрицы модели (и свободный член задает столбец из единиц, если он включен в модель).
Что относительно k-уровневого фактораA? Ответ отличается для неупорядоченных и упорядоченных факторов. Для неупорядоченных факторовk-1столбец генерируются для показатели второго, ...,k-гоуровней фактора. (Таким образом, применяемая параметризация создает на каждом уровне такой же контраст откликов, что и на первом.) Для упорядоченных факторов,k-1столбцы являются ортогональными полиномами по основанию1, ..., k, исключая параметры константы.
Хотя ответ уже дан, но это еще не все. Во-первых, если смещение опущено в модели, которая содержит факторный параметр, первое, такой параметр закодирован в kстолбцов, дающих индикаторы для всех уровней. Во-вторых, поведение в целом может быть изменено установкой опций для противоположностей. По умолчанию в R установлено:
options(contrasts = c("contr.treatment", "contr.poly"))
Главная причина этого упоминания состоит в том, что у R иS есть различия по умолчанию для неупорядоченных факторов,S использует противоположности Helmert. Так, если необходимо сравнить результаты с таковыми из учебника или статьи, которая использовала S-Plus, то следует установить:
options(contrasts = c("contr.helmert", "contr.poly"))
Это - преднамеренная разность, поскольку обработка противоположностей (по умолчанию R) будет легче для понимания новичками.
Мы все еще не закончили, поскольку схема противопоставления для использования может быть установлена для каждого параметра в модели, используя противоположности функций и C.
Мы еще не рассмотрели параметры взаимодействия: они генерируют произведения столбцов, представленных для компонентов этих параметров.
Хотя сложные особенности и сохраняют некоторую маргинальность, формулы модели в R будут обычно генерировать модели, которые ожидал бы опытный статистик, при условии, что принцип малых приращений сохранен. Подгонка, например, модели взаимодействия, не включающая соответствующих главных эффектов, в целом приведет к неожиданным результатам, и предназначена только для экспертов.
Линейные модели
Основная функция для подгонки обычным многоуровневым моделям является lm(),а усовершенствованный вариант вызова выглядит следующим образом:
> fitted.model <- lm(formula, data = data.frame)
Например:
> fm2 <- lm(y ~ x1 + x2, data = production)
будет соответствовать подгонке множественной регрессионной модели yнаx1иx2(с неявным параметром смещения).
Важный (но технически дополнительный) параметр data = productionуказывает, что любые переменные, необходимые для создания модели, должны быть в первую очередь изфрейма данных production.Это не зависит от того, был ли фрейм данных production присоединен к пути поиска или нет.
Универсальные функции для извлечения информации о модели
Значением lm() является подогнанный объектmodel; технически это список результатов класса "lm". В этом случае информация о подогнанной модели может быть выведена на экран, извлечена, графически изображена и так далее при использовании универсальных функций, которые относятся к объектам класса"lm". Они включают: add1 deviance formula predict step alias drop1 kappa print summary
anova effects labels proj vcov coef family plot residuals
Краткое описание наиболее часто используемых функций дано ниже. anova(object_1, object_2)
Сравните подмодель с внешней моделью и произведите таблицу дисперсионного анализа.
coef(object)
Извлеките коэффициент регрессии (матрицу).
Длинная форма: coefficients(object)
deviance(object)
Сумма квадратов остатков, взвешенная если возможно.
formula(object)
Извлеките формулу модели.
plot(object)
Произведите четыре рисунка, показав остатки, подогнанное значение и некоторую диагностику.
predict(object, newdata=data.frame)
Предоставленному фрейму данных нужно было специфицировать переменные с теми же самыми метками как оригинал. Значение - вектор или матрица ожидаемых значений, соответствующих значениям определенных переменных в data.frame.
print(object)
Напечатайте краткую версию объекта. Чаще всего используется неявно.
residuals(object) Извлеките (матрицу) остатков, взвешенных если возможно.
Краткая форма: resid (объект).
step(object)
Выберите подходящую модель, добавляя или отбрасывая параметры и сохраняя иерархии. Возвращается модель с наименьшим значением AIC (информационный критерий), обнаруженным в пошаговом поиске.
summary(object)
Напечатайте общую сводку результатов регрессионного анализа.
vcov(object)
Возвращает матрицу ковариации дисперсии основных параметров подогнанного объекта модели.