- •Version 3.1.0 (2014-04-10)
- •1.Введение и предварительные замечания 8
- •6.Списки и фреймы данных 37
- •11.Статистические модели в r 64
- •12.Графические процедуры 78
- •13.Пакеты 97
- •Предисловие
- •Предложения читателю
- •О переводе
- •Введение и предварительные замечания
- •Среда r
- •Связанное программное обеспечение и документация
- •R и статистика
- •R и оконная система
- •Использование r в интерактивном режиме
- •Первый сеанс
- •Получение справки по функциям и средствам
- •Команды r,учет регистра и т.Д.
- •Повтор и коррекция предыдущих команд
- •Выполнение команд из файла или перенаправление вывода в файл
- •Сохранение данных и удаление объектов
- •Простые манипуляции; числа и векторы
- •Вектора и присваивания
- •Векторная арифметика
- •Генерация регулярных последовательностей
- •Логические векторы
- •Пропущенные значения
- •Векторы символов
- •Векторы индексов; выбор и изменение подмножеств наборов данных
- •Другие типы объектов
- •Объекты, их режимы и атрибуты
- •Внутренние атрибуты: режим и длина
- •Изменяющаяся длина объекта
- •Получение и установка атрибутов
- •Класс объекта
- •Упорядоченные и неупорядоченные факторы
- •Специальный пример
- •Функция tapply () и массивы с переменной длиной строк
- •Упорядоченные факторы
- •Массивы и матрицы
- •Массивы
- •Индексация массива. Подразделы массива
- •Индекс матрицы
- •Функция array()
- •Смешанный вектор и арифметика массива. Правило рециркуляции
- •Внешнее произведение двух массивов
- •Обобщенное транспонирование массива
- •Матричные инструменты
- •Умножение матриц
- •Линейные уравнения и инверсия
- •Собственные значения и собственные векторы
- •Сингулярное разложение и определители
- •Подгонка методом наименьших квадратов и qr разложение
- •Формирование разделенных матриц cbind () и rbind ()
- •Функция связывания массивовc()
- •Таблицы частот от факторов
- •Списки и фреймы данных
- •Построение и изменение списков
- •Конкатенация списков
- •Фреймы данных
- •Создание фреймов данных
- •Attach() и detach()
- •Работа с фреймами данных
- •Присоединение произвольных списков
- •Управление путем поиска
- •Чтение данных из файлов
- •Функция read.Table()
- •Функция scan()
- •Доступ к встроенным наборам данных
- •Загрузка данных из других пакетов r
- •Редактирование данных
- •Распределение вероятности
- •R как ряд статистических таблиц
- •Исследование распределения набора данных
- •Тесты на одной и двух выборках
- •Группировка, циклы и условное выполнение
- •Группирующие выражения
- •Проверка утверждения
- •Условное выполнение: операторы if
- •Повторное выполнение: for, loops, repeat и while
- •Написание собственных функций
- •Простые примеры
- •Определение новых бинарных операторов
- •Именованные параметры и умолчания
- •Параметр ‘...’
- •Присвоения в пределах функций
- •Более сложные примеры
- •Фактор эффективности при проектировании блоков
- •Отбрасывание всех имен при печатании массива
- •Рекурсивное числовое интегрирование
- •Область действия
- •Настройка окружения
- •Классы, универсальные функции и объектно-ориентированное программирование
- •Статистические модели в r
- •Определение статистических моделей; формулы
- •Примеры
- •Противопоставления
- •Линейные модели
- •Универсальные функции для извлечения информации о модели
- •Дисперсионный анализ и сравнение модели
- •Таблицы anova
- •Обновление подогнанных моделей
- •Обобщенные линейные модели
- •Семейства
- •Функция glm()
- •Нелинейные наименьшие квадраты и модели наибольшего правдоподобия
- •Наименьшие квадраты
- •Метод максимального правдоподобия
- •Некоторые нестандартные модели
- •Графические процедуры
- •Высокоуровневые команды рисования
- •Функция plot()
- •Отображение многомерных данных
- •Графический вывод
- •Параметры для высокоуровневых графических функций
- •Низкоуровневые команды рисования
- •Математическая аннотация
- •Векторные шрифты Херши
- •Интерактивная графика
- •Использование графических параметров
- •Постоянные изменения: функция par()
- •Временные изменения: параметры для графических функций
- •Список графических параметров
- •Графические элементы
- •Оси и метки
- •Поля рисунка
- •Окружение составных фигур
- •Устройства вывода
- •PostScript диаграммы для типографии
- •Несколько графических устройств одновременно
- •Динамическая графика
- •Стандартные пакеты
- •Сторонние пакеты и cran
- •Пространства имен
- •Пакеты для анализа временных рядов
- •Основные пакеты - Basics
- •Время и даты -Times and Dates
- •Классы временных рядов - Time Series Classes
- •Прогноз и одномерное моделирование -Forecasting and Univariate Modeling
- •Ресэмплирование - Resampling
- •Декомпозиция и фильтрация - Decomposition and Filtering
- •Стационарность, единичный корень и коинтеграция - Stationarity, Unit Roots, and Cointegration
- •Нелинейный анализ временных рядов -Nonlinear Time Series Analysis
- •Модели динамических регрессий - Dynamic Regression Models
- •Модели многомерных временных рядов - Multivariate Time Series Models
- •Модели непрерывного времени - Continuous time models
- •Исходные временные ряды - Time Series Data
- •Разное - Miscellaneous
- •Перечень пакетов для анализа временных рядов:
- •• Aer • afmtools • bayesGarch
- •Приложение a. Примерный сеанс
- •Приложения b. Вызов r
- •В.1. Вызов r из командной строки
- •В.2. Вызов r под Windows
- •В.3. Вызов r под os X
- •В.4. Скрипты r
- •Приложение c. Редактор командной строки
- •Приложение f. Ссылки
Метод максимального правдоподобия
Максимальное правдоподобие - метод подгонки нелинейной модели, который применяется, даже если ошибки не нормальны. Метод находит значение параметра, которое максимизирует логарифмическое правдоподобия, или что эквивалентно, которое минимизируют отрицательное логарифмическое правдоподобие. Вот пример от Добсона (1990), стр 108-111. Этот пример подгоняет логистической модели к данным отклика дозы, которые ясно могли также быть подогнаны glm(). Данные таковы:
> x <- c(1.6907, 1.7242, 1.7552, 1.7842, 1.8113,
1.8369, 1.8610, 1.8839)
> y <- c( 6, 13, 18, 28, 52, 53, 61, 60)
> n <- c(59, 60, 62, 56, 63, 59, 62, 60)
Отрицательная логарифмическая функция правдоподобия, подлежащая минимизации, равна: > fn <- function(p)
sum( - (y*(p[1]+p[2]*x) - n*log(1+exp(p[1]+p[2]*x))
+ log(choose(n, y)) ))
Возьмем разумное начальное значение для подгонки:
> out <- nlm(fn, p = c(-50,20), hessian = TRUE)
После подгонки out$minimumравно отрицательному логарифмическому правдоподобию, иout$estimateявляется наибольшим правдоподобием оценки параметров. Чтобы получить приблизительную оценку SE, выполним:
> sqrt(diag(solve(out$hessian)))
95% доверительный интервал получим при SE ±1.96
Некоторые нестандартные модели
Завершается эта глава кратким упоминанием о некоторых других средствах, доступных в R, для специальной регрессии и проблем анализа данных.
Смешанные модели.Рекомендуемый пакетnlmeобеспечивает функцииlme()иnlme()для линейных и нелинейных моделей смешанных эффектов, который является линейными и нелинейными регрессиями, в которых некоторые из коэффициентов соответствуют случайным эффектам. Эти функции интенсивно используют формулы для спецификации модели.
Локально подогнанные регрессии.Функцияloess()подгоняет непараметрическую регрессию использованием локально взвешенной регрессии. Такие регрессии полезны для выделения тренда в зашумленных данных или для снижения объема данных для обзора большого набора данных.
Функция loess() находится в стандартном пакетеstatsвместе с кодом для прогноза следящей регрессии.
Устойчивая (робастная) регрессия. Есть несколько функций для подгонки моделей, устойчивых к влиянию экстремальных выбросов в данных. Функцияlqsв рекомендуемом пакете MASS обеспечивает современные алгоритмы для чрезвычайно устойчивой подгонки. Менее устойчивые, но статистически более эффективные методы, доступны в пакетах, например функцияrlmв пакете MASS.
Аддитивные модели.Этот метод стремится создавать функцию регрессии из аддитивных функций сглаживания детерминированных переменных, как правило, по одной для каждой независимой переменной. Функцииavasиaceв пакетеacepackи функциях brutoиmars в пакетеmdaобеспечивают некоторые примеры этих методов в пользовательских пакетахR. Расширением является Обобщено Аддитивная Модель, реализованная в пользовательских пакетахgam и mgcv.
Древовидные модели. Вместо поиска явно глобальной линейной модели для прогноза или интерпретации, древовидные модели стремятся рекурсивно разбить данные в критических точках независимых переменных для раздела данных, в конечном счете, на группы, которые являются настолько однородны, насколько возможно внутри группы, и настолько неоднородными, насколько возможно между группами. Результаты часто приводят к пониманию, к которому другие методы анализа данных не предоставляют.
Модели еще специфицируются в обычной форме линейной модели. Функция подгонки называется tree(), но много других универсальных функций, таких какplot() и text(), хорошо адаптированных к отображению результатов древовидной модели в графической виде. Древовидные модели доступны в R через пользовательские пакетыrpartиtree.