Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Mastitsky_and_Shitikov_2014.pdf
Скачиваний:
177
Добавлен:
25.12.2019
Размер:
10.99 Mб
Скачать

С.Э. Мастицкий, В.К. Шитиков

СТАТИСТИЧЕСКИЙ АНАЛИЗ И ВИЗУАЛИЗАЦИЯ ДАННЫХ С ПОМОЩЬЮ R

трава

корни

плоды

листва

Хайдельберг – Лондон – Тольятти

2014

Ó 2014, Сергей Эдуардович Мастицкий, Владимир Кириллович Шитиков

Веб-сайт: http://r-analytics.blogspot.com

Данная работа распространяется в рамках лицензии

Creative Commons «Атрибуция – Некоммерческое

 

использование –

На тех же

условиях4.0

Всемирная». Согласно этой

лицензии, Вы

можете

свободно

копировать, распространять

и

видоизменять данное произведение при условии точного указания его

авторов

и

источника. При

изменении

этого

произведения

или

использовании

его в

своих

работах, Вы

можете

распространять

результат только по такой же

или подобной лицензии. Запрещается

 

использовать

эту работу

в

коммерческих

целях

без согласования с

авторами. Более подробная информация о лицензии представлена на сайте www.creativecommons.com

Пожалуйста, ссылайтесь на эту книгу следующим образом:

Мастицкий С.Э., Шитиков В.К. (2014) Статистический анализ и визуализация данных с помощью R. – Электронная книга, адрес доступа: http://r-analytics.blogspot.com

 

СОДЕРЖАНИЕ

 

ПРЕДИСЛОВИЕ

5

1. ОСНОВНЫЕ КОМПОНЕНТЫ СТАТИСТИЧЕСКОЙ СРЕДЫ R

8

1.1. История возникновения и основные принципы организации

8

 

среды R

 

1.2. Работа с командной консолью интерфейса R

11

1.3. Работа с меню пакета R Commander

13

1.4. Объекты, пакеты, функции, устройства

17

2. ОПИСАНИЕ ЯЗЫКА R

23

2.1. Типы данных языка R

23

2.2.

Векторы и матрицы

24

2.3.

Факторы

29

2.4.

Списки и таблицы

31

2.5. Импортирование данных в R

37

2.6. Представление даты и времени; временные ряды

40

2.7.

Организация вычислений: функции, ветвления, циклы

46

2.8. Векторизованные вычисления в R с использованием apply-

50

 

функций

 

3. БАЗОВЫЕ ГРАФИЧЕСКИЕ ВОЗМОЖНОСТИ R

58

3.1. Диаграммы рассеяния plot() и параметры графических

58

 

функций

 

3.2. Гистограммы, функции ядерной плотности и функция

66

 

cdplot()

 

3.3.

Диаграммы размахов

74

3.4. Круговые и столбиковые диаграммы

77

3.5.Диаграммы Кливленда и одномерные диаграммы рассеяния 84

3.6.

Категоризованные графики

92

4. ОПИСАТЕЛЬНАЯ СТАТИСТИКА И ПОДГОНКА

97

РАСПРЕДЕЛЕНИЙ

 

4.1.

Оценка выборочных параметров с использованием

97

 

специальных функций

 

4.2.

Использование функций summary() и дополнительных

100

 

пакетов

 

4.3.

Анализ выбросов

103

4.4.

Заполнение пропущенных значений в таблицах данных

106

4.5.

Воспроизводимость результатов при использовании

111

 

генератора случайных чисел

 

4.6.

Законы распределения вероятностей, реализованные в R

113

4.7.

Подбор закона и параметров распределения в R

115

4.8.

Проверка на нормальность распределения

123

5. КЛАССИЧЕСКИЕ МЕТОДЫ И КРИТЕРИИ СТАТИСТИКИ

128

5.1.

Гипотеза о равенстве средних двух генеральных

128

 

совокупностей

 

5.2.

Использование ранговых критериев Уилкоксона-Манна-

133

 

Уитни

 

5.3.

Рандомизация, бутстреп и оценка статистической мощности

136

 

(на примере двухвыборочного t-критерия)

 

5.4.

Гипотеза об однородности дисперсий

143

5.5.

Введение в дисперсионный анализ

145

5.6.

Оценка корреляции двух случайных величин

153

5.7.

Критерий хи-квадрат

156

3

5.8. Точный тест Фишера; критерии Мак-Немара и Кохрана-

159

 

Мантеля-Хензеля

 

5.9. Оценка статистической мощности при сравнении долей

167

6. ЛИНЕЙНЫЕ МОДЕЛИ В ДИСПЕРСИОННОМ АНАЛИЗЕ

172

6.1. Протокол разведочного анализа данных

172

6.2. Линейные модели дисперсионного анализа

184

6.3. Структура модельных объектов дисперсионного анализа

191

6.4. Оценка адекватности модели дисперсионного анализа

194

6.5. Дисперсионный анализ по Краскелу-Уоллису

202

6.6. Модели двух- и многофакторного дисперсионного анализа

203

6.7. Контрасты в линейных моделях, содержащих

210

 

категориальные предикторы

 

6.8.

Проблема множественных проверок статистических гипотез 218

6.9. Методы сравнения групповых средних в дисперсионном

225

 

анализе

 

7. РЕГРЕССИОННЫЕ МОДЕЛИ ЗАВИСИМОСТЕЙ МЕЖДУ

235

КОЛИЧЕСТВЕННЫМИ ПЕРЕМЕННЫМИ

 

7.1.

О понятии "статистическая модель"

235

7.2. Простая линейная регрессия: каков возраст Вселенной?

244

7.3. Модели регрессии при различных видах функции потерь

255

7.4. Критерии выбора моделей оптимальной сложности

261

7.5. Полиномиальные и нелинейные модели регрессии

264

7.6.

Модель множественной регрессии и выбор ее спецификации 271

7.7. Процедуры диагностики моделей множественной регрессии

278

7.8. Гребневая и лассо-регрессия; использование главных

285

 

компонент

 

7.9. Сравнение эффективности различных моделей при

293

 

прогнозировании

 

8. ОБОБЩЕННЫЕ, СТРУКТУРНЫЕ И ИНЫЕ МОДЕЛИ

303

РЕГРЕССИИ

 

8.1.

Модели сглаживания

303

8.2.

Обобщенные модели регрессии

311

8.3.

Модели пробит- и логит-регрессии

315

8.4. Обобщенные модели для оценки показателей экологической

325

 

толерантности

 

8.5.

Ковариационный анализ

332

8.6. Модели со смешанными эффектами для иерархически

337

 

организованных данных

 

8.7. Индуктивные модели (метод группового учета аргументов)

345

8.8.

Моделирование структурными уравнениями

351

9. ПРОСТРАНСТВЕННЫЙ АНАЛИЗ И СОЗДАНИЕ КАРТОГРАММ 360

9.1. Простая карта: использование растрового рисунка и подсчет

360

расстояний

 

9.2. Анализ пространственного размещения точек

367

9.3. Использование сервисов картографической системы Google

371

Maps

 

9.4. Создание картограмм при помощи R

375

БИБЛИОГРАФИЯ И ИНТЕРНЕТ-РЕСУРСЫ

 

Основные литературные ссылки по тексту книги

388

Библиографический указатель литературы по использованию R

390

Основные Интернет-ресурсы

400

4

В целях природы обуздания, Чтобы рассеять незнания тьму, Берем картину мироздания И тупо смотрим, что к чему.…

А. и Б. Стругацкие «Понедельник начинается в субботу»

ПРЕДИСЛОВИЕ

Одним из основных инструментов познания мира является обработка данных, получаемых человеком из различных источников. Суть современного статистического анализа состоит в интерактивном процессе, состоящем из исследования, визуализации и интерпретации потоков поступаемой информации.

История последних 50 лет – это

и история развития технологии анализа данных.

Один из авторов с умилением вспоминает конец60-х годов и свою первую программу

расчета парной

корреляции, которая

набиралась металлическими штырёчками на

"операционном поле" из 150 ячеек персональной ЭВМ "Промiнь-2" весом более 200 кг. В

наше время высокопроизводительные компьютеры и доступное программное обеспечение

позволяют

реализовать

полный

цикл

информационно-технологического

процесса,

состоящего, в общем случае, из следующих шагов:

 

 

° доступ

к

обрабатываемым

данным(их загрузка из разных источников и

комплектация совокупности взаимосвязанных исходных таблиц);

 

°редактирование загруженных показателей(замена или удаление пропущенных значений, преобразование признаков в более удобный вид);

°аннотирование данных (чтобы помнить, что представляет собой каждый их фрагмент);

°

получение

общих сведений о структуре данн(выхчисление описательных

статистик для того, чтобы охарактеризовать анализируемые показатели);

 

°

графическое

представление данных и результатов вычислений в понятной

информативной форме (одна картинка на самом деле иногда стоит тысячи слов);

 

° моделирование данных (нахождение зависимостей и тестирование статистических

гипотез);

 

 

 

 

 

°

оформление

результатов (подготовка

таблиц

и

диаграмм

приемлемого

публикационного качества).

 

 

 

 

 

В условиях,

когда к услугам пользователя

имеются

десятки

пакетов прикладных

программ, актуальна проблема выбора(иногда трагичная, если вспомнить "буриданова осла"): какое программное обеспечение анализа данных следует предпочесть для своей практической работы? Здесь обычно принимается во внимание специфика решаемой задачи, эффективность настройки алгоритмов обработки, издержки на покупку программ, а также вкусы и личные предпочтения аналитика. При этом, например, шаблонная

Statistica с ее

механическим

комплексом кнопок ,менюдалеко не

всегда может

удовлетворить

творческого

исследователя, предпочитающего

самостоятельно

контролировать ход вычислительного процесса. Комбинировать различные типы анализа, иметь доступ к промежуточным результатам, управлять стилем отображения данных, добавлять собственные расширения программных модулей и оформлять итоговые отчеты в необходимом виде позволяют коммерческие вычислительные системы, включающие высокоуровневые средства командного языка, такие как Matlab, SPSS и др. Прекрасной альтернативой им является бесплатная программная средаR, являющаяся современной и постоянно развивающейся статистической платформой общего назначения.

Сегодня R является безусловным лидером среди свободно распространяемых систем статистического анализа, о чем говорит, например, тот факт, что в 2010 году система R стала победителем ежегодного конкурса открытых программных продуктов

5

Bossie Awards в нескольких номинациях. Ведущие университеты мира, аналитики крупнейших компаний и исследовательских центров постоянно используютR при проведении научно-технических расчетов и создании крупных информационных проектов. Широкое преподавание статистики на базе пакетов этой среды и всемерная поддержка научным сообществом обусловили то, что приведение скриптов R постепенно становится общепризнанным "стандартом" как в журнальных публикациях, так и при неформальном общении ученых всего мира.

Главным препятствием

для

русскоязычных

пользователей при освоенииR,

безусловно, является то, что

почти

вся документация

по этой среде существует на

английском языке. Лишь с 2008 г. усилиями А.В. Шипунова, Е.М. Балдина, С.В. Петрова, И.С. Зарядова, А.Г. Буховца и других энтузиастов появились методические пособия и книги на русском языке(ссылки на них можно найти в списке литературы в конце этой книги; там же представлены и ссылки на образовательные ресурсы, авторами которых

делается посильный вклад в продвижение R среди русскоязычных пользователей).

 

Настоящее

пособие

обобщает

совокупность

методических

, сообщений

опубликованных одним из авторов с2011 г. в блоге «R: Анализ и визуализация данных» (http://r-analytics.blogspot.com). Нам показалась целесообразной идея представить для удобства читателей весь этот несколько разобщенный материал в концентрированной форме, а также расширить некоторые разделы для полноты изложения.

Впервых трех главах содержатся подробные указания по работе с интерактивными компонентами R, детальное описание языка и базовых графических возможностей среды. Эта часть книги вполне доступна новичкам в области программирования, хотя читатель, уже знакомый с языком R, может найти там интересные фрагменты кода или использовать приведенные описания графических параметров как справочное пособие.

Впоследующих главах(4-8) приведено описание распространенных процедур обработки данных и построения статистических моделей, которое иллюстрировано несколькими десятками примеров. Они включают краткое описание алгоритмов анализа, основные полученные результаты и их возможную интерпретацию. Мы старались, по

возможности, обойтись без злоупотребления"ритуальными" словооборотами, характерными для многочисленных руководств по прикладной статистике, цитирования общеизвестных теорем и приведения многоэтажных расчетных формул. Акцент делался, в первую очередь, на практическое применение– на то, чтобы читатель, руководствуясь прочитанным, мог проанализировать свои данные и изложить результаты коллегам.

Разделы этой части выстроены по мере усложнения представленного материала. Главы 4 и 5 ориентированы на читателя, интересующегося статистикой лишь в рамках

начального университетского курса. В

главах 6

и

7 в рамках

единой

теории

общих

линейных моделей представлены дисперсионный и регрессионный анализы и приведены

различные алгоритмы исследования и структурной идентификации моделей. Глава 8

посвящена

некоторым

современным

 

методам

построения

и

 

анализа

обобщенных

регрессионных моделей.

 

 

 

 

 

 

 

 

 

 

 

Поскольку неизменный интерес у исследователя

вызывает

пространственный

анализ и

отображение

результатов

на

географических

картах

и

, схемахвглаве 9

приведены некоторые примеры таких приемов визуализации.

 

 

 

 

 

 

Мы адресуем наше методическое пособие студентам, аспирантам, а также молодым

и состоявшимся ученым, желающим

освоить анализ и визуализацию данных с

использованием среды R. Мы надеемся, что по окончании чтения этого руководства вы

получите

некоторое представление

о

, томкак

 

работает R, где

можно

получить

дальнейшую информацию, а также как справиться с простыми и достаточно сложными

задачами анализа данных.

 

 

 

 

 

 

 

 

 

 

 

Файлы со скриптами кодов R по всем главам книги, а также необходимые таблицы

исходных

данных для

их выполнения, свободно

доступны

для

скачивания

GitHubс -

6

репозитория https://github.com/ranalytics/r-tutorials, а также с сайта Института экологии Волжского бассейна РАН по ссылке http://www.ievbras.ru/ecostat/Kiril/R/Scripts.zip.

Следует отметить, что текст в этом пособии представлен в авторской редакции и потому, несмотря на все наши усилия, имеется вероятность наличия в нем опечаток, грамматических неточностей и неудачных оборотов. Мы будем благодарны Вам, Читатель, за сообщение об этих, а также других обнаруженных недочетах по электронной почте rtutorialsbook@gmail.com. Мы также будем благодарны за любые другие Ваши замечания и пожелания касательно этой работы.

Сергей Мастицкий, Лондон Владимир Шитиков, Тольятти 14 декабря 2014 г.

7