- •Version 3.1.0 (2014-04-10)
- •1.Введение и предварительные замечания 8
- •6.Списки и фреймы данных 37
- •11.Статистические модели в r 64
- •12.Графические процедуры 78
- •13.Пакеты 97
- •Предисловие
- •Предложения читателю
- •О переводе
- •Введение и предварительные замечания
- •Среда r
- •Связанное программное обеспечение и документация
- •R и статистика
- •R и оконная система
- •Использование r в интерактивном режиме
- •Первый сеанс
- •Получение справки по функциям и средствам
- •Команды r,учет регистра и т.Д.
- •Повтор и коррекция предыдущих команд
- •Выполнение команд из файла или перенаправление вывода в файл
- •Сохранение данных и удаление объектов
- •Простые манипуляции; числа и векторы
- •Вектора и присваивания
- •Векторная арифметика
- •Генерация регулярных последовательностей
- •Логические векторы
- •Пропущенные значения
- •Векторы символов
- •Векторы индексов; выбор и изменение подмножеств наборов данных
- •Другие типы объектов
- •Объекты, их режимы и атрибуты
- •Внутренние атрибуты: режим и длина
- •Изменяющаяся длина объекта
- •Получение и установка атрибутов
- •Класс объекта
- •Упорядоченные и неупорядоченные факторы
- •Специальный пример
- •Функция tapply () и массивы с переменной длиной строк
- •Упорядоченные факторы
- •Массивы и матрицы
- •Массивы
- •Индексация массива. Подразделы массива
- •Индекс матрицы
- •Функция array()
- •Смешанный вектор и арифметика массива. Правило рециркуляции
- •Внешнее произведение двух массивов
- •Обобщенное транспонирование массива
- •Матричные инструменты
- •Умножение матриц
- •Линейные уравнения и инверсия
- •Собственные значения и собственные векторы
- •Сингулярное разложение и определители
- •Подгонка методом наименьших квадратов и qr разложение
- •Формирование разделенных матриц cbind () и rbind ()
- •Функция связывания массивовc()
- •Таблицы частот от факторов
- •Списки и фреймы данных
- •Построение и изменение списков
- •Конкатенация списков
- •Фреймы данных
- •Создание фреймов данных
- •Attach() и detach()
- •Работа с фреймами данных
- •Присоединение произвольных списков
- •Управление путем поиска
- •Чтение данных из файлов
- •Функция read.Table()
- •Функция scan()
- •Доступ к встроенным наборам данных
- •Загрузка данных из других пакетов r
- •Редактирование данных
- •Распределение вероятности
- •R как ряд статистических таблиц
- •Исследование распределения набора данных
- •Тесты на одной и двух выборках
- •Группировка, циклы и условное выполнение
- •Группирующие выражения
- •Проверка утверждения
- •Условное выполнение: операторы if
- •Повторное выполнение: for, loops, repeat и while
- •Написание собственных функций
- •Простые примеры
- •Определение новых бинарных операторов
- •Именованные параметры и умолчания
- •Параметр ‘...’
- •Присвоения в пределах функций
- •Более сложные примеры
- •Фактор эффективности при проектировании блоков
- •Отбрасывание всех имен при печатании массива
- •Рекурсивное числовое интегрирование
- •Область действия
- •Настройка окружения
- •Классы, универсальные функции и объектно-ориентированное программирование
- •Статистические модели в r
- •Определение статистических моделей; формулы
- •Примеры
- •Противопоставления
- •Линейные модели
- •Универсальные функции для извлечения информации о модели
- •Дисперсионный анализ и сравнение модели
- •Таблицы anova
- •Обновление подогнанных моделей
- •Обобщенные линейные модели
- •Семейства
- •Функция glm()
- •Нелинейные наименьшие квадраты и модели наибольшего правдоподобия
- •Наименьшие квадраты
- •Метод максимального правдоподобия
- •Некоторые нестандартные модели
- •Графические процедуры
- •Высокоуровневые команды рисования
- •Функция plot()
- •Отображение многомерных данных
- •Графический вывод
- •Параметры для высокоуровневых графических функций
- •Низкоуровневые команды рисования
- •Математическая аннотация
- •Векторные шрифты Херши
- •Интерактивная графика
- •Использование графических параметров
- •Постоянные изменения: функция par()
- •Временные изменения: параметры для графических функций
- •Список графических параметров
- •Графические элементы
- •Оси и метки
- •Поля рисунка
- •Окружение составных фигур
- •Устройства вывода
- •PostScript диаграммы для типографии
- •Несколько графических устройств одновременно
- •Динамическая графика
- •Стандартные пакеты
- •Сторонние пакеты и cran
- •Пространства имен
- •Пакеты для анализа временных рядов
- •Основные пакеты - Basics
- •Время и даты -Times and Dates
- •Классы временных рядов - Time Series Classes
- •Прогноз и одномерное моделирование -Forecasting and Univariate Modeling
- •Ресэмплирование - Resampling
- •Декомпозиция и фильтрация - Decomposition and Filtering
- •Стационарность, единичный корень и коинтеграция - Stationarity, Unit Roots, and Cointegration
- •Нелинейный анализ временных рядов -Nonlinear Time Series Analysis
- •Модели динамических регрессий - Dynamic Regression Models
- •Модели многомерных временных рядов - Multivariate Time Series Models
- •Модели непрерывного времени - Continuous time models
- •Исходные временные ряды - Time Series Data
- •Разное - Miscellaneous
- •Перечень пакетов для анализа временных рядов:
- •• Aer • afmtools • bayesGarch
- •Приложение a. Примерный сеанс
- •Приложения b. Вызов r
- •В.1. Вызов r из командной строки
- •В.2. Вызов r под Windows
- •В.3. Вызов r под os X
- •В.4. Скрипты r
- •Приложение c. Редактор командной строки
- •Приложение f. Ссылки
Статистические модели в r
Этот раздел предполагает, что у читателя есть некоторые познания в статистической методологии, в особенности в регрессионном анализе и дисперсионном анализе. Позже сделаем некоторые более честолюбивые предположения, а именно, что что-то известно об общей линейной модели и нелинейной регрессии.
Требования для подгонки статистической модели достаточно хорошо определены для разработки универсального, применимого для широкого спектра задач инструментария.
Rобеспечивает набор взаимосвязанных инструментов, который делает очень простой подгонку статистических моделей. Как упоминалось во введении, по умолчанию отображается минимальный набор результатов, и нужно запрашивать подробности при обращении к функциям вывода.
Определение статистических моделей; формулы
Шаблон для статистической модели - линейная регрессионная модель с независимыми, гомоскедастичными ошибками:
В матричном виде можно записать:
y = Xβ + e
где y- вектор отклика,Xматрица модели или матрица проектаи имеет столбцыx0; x1 …. ; xpопределяющих переменных. Очень частоx0 будет столбцом, дающий параметр смещения.
Примеры
Прежде чем дать формальное определение, несколько примеров помогут составить общее представление. Предположим, что y, x, x0, x1, x2... числовые переменные,Xматрица иA, B, C...
являются факторами. Ниже следующие формулы задают статистические модели, справа даны описания моделей.
y ~ x y ~ 1 + x
Обе подразумевают одинаковую простую линейную регрессионную модель yна
x. У первой есть неявный параметр смещения, а у второй - явный.
y ~ 0 + x y ~-1 + x y ~ x - 1
Простая линейная регрессия yнаxчерез источник (то есть, без параметра смещения).log (y) ~ x1 + x2
Множественная регрессия преобразованной переменной log(y)наx1иx2(с неявным параметром смещения).
y ~ poly (x, 2) y ~ 1 + x + I(x^2) Параболическая регрессияyнаxстепени 2. Первая форма использует ортогональные полиномы, вторая использует явную степень, как основание.y ~ X + poly (x, 2)
Множественная регрессия yс модельной матрицей, состоящей из матрицыX, включая параметр полиномаx степени 2.y ~ A
Модель дисперсионного анализа одиночной классификации yс классами, определенными A.y ~ A+ x
Модель ковариационного анализа одиночной классификации yс классами, определеннымиA, и с ковариантомx.
y ~ A*B y ~ + B + A:B y ~ B %in % A y ~ A/B
Модель двух факторного дисперсионного анализа yпоAиB. Первые две специфицируют одинаковую кросс классификацию, а вторые две специфицируют одинаковую вложенную классификацию.
В абстрактных понятиях все четыре специфицируют одинаковое подмножество моделей. y ~ (A+ B + C) ^2 y ~ A*B*C - A:B:C
Трех факторный эксперимент, но с моделью, содержащей основные эффекты и факторы попарного взаимодействия. Обе формулы специфицируют одинаковую модель. y ~ A * x y ~ A/x y ~ A / (1 + x) - 1
Изолированные модели простой линейной регрессии yнаxв пределах уровней заданных вA различными метками. В последнем виде производит четко столько вычислений различных отсекаемых отрезков и коэффициентов наклона, сколько имеется уровнейA.
y ~ A*B + Error(C)
Эксперимент с двумя факторами воздействия A и B,и стратифицированной ошибкой, определяемой факторомC. Например, разделить отображение эксперимента на участки (и, следовательно, части рисунка), определяемые факторомC.
Оператор ~используется для определения формулы модели в R . Форма для простой линейной модели:response ~ op_1 term_1 op_2 term_2 op_3 term_3 ... где:
response - вектор или матрица (или оценка выражения к вектору или матрице), определяющая переменную (ые) отклика.
op_i- оператор, или “+” или “-“, подразумевая включение или исключение параметра в модели (первое является дополнительным).term_iтакже является либо:
векторным или матричным выражением, или 1, либо
фактор, либо
выражением формулы, состоящей из факторов, векторов или матриц, соединенных операторами формулы.
Во всех случаях каждый параметр определяет набор столбцов либо для добавления к матрице модели, либо для удаления из матрицы модели. 1 устанавливается для столбца смещения и по умолчанию включена в матрицу модели, если явно не удалена.
Операторы формулы подобны нотации Уилкинсона и Роджерса, используемой такими программами как Glim и Genstat. Одно неизбежное изменение то, что оператор '.' становится ‘:’ так как точка является допустимым символом имени в R.
В итоге ниже получена нотация (основано на Chambers & Hastie, 1992, p.29):
Y ~ М Y смоделирован как М.
M_1 + M_2 Включают М_1 и М_2.
M_1 - M_2 Включают М_1 и исключают параметр М_2.
M_1: M_2 Тензорное произведение М_1 и М_2. Если оба параметра - факторы, то фактор "подклассов". M_1 %in % M_2
Подобно M_1:M_2, но с различным синтаксисом.
M_1 * M_2 M_1 + M_2 + M_1:M_2. M_1 / M_2 M_1 + M_2 %in % M_1.
M^nВсе параметры вМвместе со "взаимодействиями" до порядка nI(M)ИзолированноеМ.ВнутриМвсе операторы имеют свое обычное арифметическое значение, и этот параметр появляется в матрице модели.
Заметим, что в круглых скобках, которые обычно включают аргументы функции, у всех операторов есть свое нормальное арифметическое значение. Функция I()является зеркальным отображением, используемым для придания определенности параметрам в формулах модели, используя арифметические операторы.
В частности заметим, что формулы модели описывают столбцы матрицы модели, определение подразумевающихся параметров. Дело обстоит не так в других контекстах, например в определении нелинейных моделей.