- •ПРЕДИСЛОВИЕ
- •1.ОСНОВНЫЕ КОМПОНЕНТЫ СТАТИСТИЧЕСКОЙ СРЕДЫ R
- •1.2.Работа с командной консолью интерфейса R
- •1.3.Работа с меню пакета R Commander
- •1.4.Объекты, пакеты, функции, устройства
- •2.ОПИСАНИЕ ЯЗЫКА R
- •2.3.Факторы
- •2.4.Списки и таблицы
- •2.5.Импортирование данных в R
- •2.6.Представление даты и времени; временные ряды
- •2.7.Организация вычислений: функции, ветвления, циклы
- •2.8.Векторизованные вычисления в R с использованием apply-функций
- •3.6.Категоризованные графики
- •4.ОПИСАТЕЛЬНАЯ СТАТИСТИКА И ПОДГОНКА РАСПРЕДЕЛЕНИЙ
- •4.2.Использование функций summary() и дополнительных пакетов
- •4.4.Заполнение пропущенных значений в таблицах данных
- •4.6.Законы распределения вероятностей, реализованные в R
- •5.КЛАССИЧЕСКИЕ МЕТОДЫ И КРИТЕРИИ СТАТИСТИКИ
- •5.1.Гипотеза о равенстве средних двух генеральных совокупностей
- •5.4.Гипотеза об однородности дисперсий
- •5.9.Оценка статистической мощности при сравнении долей
- •6.2.Линейные модели дисперсионного анализа
- •6.3.Структура модельных объектов дисперсионного анализа
- •6.4.Оценка адекватности модели дисперсионного анализа
- •6.8.Проблема множественных проверок статистических гипотез
- •7.4.Критерии выбора моделей оптимальной сложности
- •7.7.Процедуры диагностики моделей множественной регрессии
- •8.5.Ковариационный анализ
- •8.7.Индуктивные модели (метод группового учета аргументов)
- •9.2.Анализ пространственного размещения точек
- •9.4.Создание картограмм при помощи R
- •БИБЛИОГРАФИЯ И ИНТЕРНЕТ-РЕСУРСЫ
- •Основные литературные ссылки по тексту книги
- •Библиографический указатель литературы по использованию R
- •Основные Интернет-ресурсы
С.Э. Мастицкий, В.К. Шитиков
СТАТИСТИЧЕСКИЙ АНАЛИЗ И ВИЗУАЛИЗАЦИЯ ДАННЫХ С ПОМОЩЬЮ R
трава |
корни |
плоды |
листва |
Хайдельберг – Лондон – Тольятти
2014
Ó 2014, Сергей Эдуардович Мастицкий, Владимир Кириллович Шитиков
Веб-сайт: http://r-analytics.blogspot.com
Данная работа распространяется в рамках лицензии
Creative Commons «Атрибуция – Некоммерческое |
|
|||
использование – |
На тех же |
условиях4.0 |
Всемирная». Согласно этой |
|
лицензии, Вы |
можете |
свободно |
копировать, распространять |
и |
видоизменять данное произведение при условии точного указания его
авторов |
и |
источника. При |
изменении |
этого |
произведения |
или |
||
использовании |
его в |
своих |
работах, Вы |
можете |
распространять |
|||
результат только по такой же |
или подобной лицензии. Запрещается |
|
||||||
использовать |
эту работу |
в |
коммерческих |
целях |
без согласования с |
авторами. Более подробная информация о лицензии представлена на сайте www.creativecommons.com
Пожалуйста, ссылайтесь на эту книгу следующим образом:
Мастицкий С.Э., Шитиков В.К. (2014) Статистический анализ и визуализация данных с помощью R. – Электронная книга, адрес доступа: http://r-analytics.blogspot.com
|
СОДЕРЖАНИЕ |
|
ПРЕДИСЛОВИЕ |
5 |
|
1. ОСНОВНЫЕ КОМПОНЕНТЫ СТАТИСТИЧЕСКОЙ СРЕДЫ R |
8 |
|
1.1. История возникновения и основные принципы организации |
8 |
|
|
среды R |
|
1.2. Работа с командной консолью интерфейса R |
11 |
|
1.3. Работа с меню пакета R Commander |
13 |
|
1.4. Объекты, пакеты, функции, устройства |
17 |
|
2. ОПИСАНИЕ ЯЗЫКА R |
23 |
|
2.1. Типы данных языка R |
23 |
|
2.2. |
Векторы и матрицы |
24 |
2.3. |
Факторы |
29 |
2.4. |
Списки и таблицы |
31 |
2.5. Импортирование данных в R |
37 |
|
2.6. Представление даты и времени; временные ряды |
40 |
|
2.7. |
Организация вычислений: функции, ветвления, циклы |
46 |
2.8. Векторизованные вычисления в R с использованием apply- |
50 |
|
|
функций |
|
3. БАЗОВЫЕ ГРАФИЧЕСКИЕ ВОЗМОЖНОСТИ R |
58 |
|
3.1. Диаграммы рассеяния plot() и параметры графических |
58 |
|
|
функций |
|
3.2. Гистограммы, функции ядерной плотности и функция |
66 |
|
|
cdplot() |
|
3.3. |
Диаграммы размахов |
74 |
3.4. Круговые и столбиковые диаграммы |
77 |
3.5.Диаграммы Кливленда и одномерные диаграммы рассеяния 84
3.6. |
Категоризованные графики |
92 |
4. ОПИСАТЕЛЬНАЯ СТАТИСТИКА И ПОДГОНКА |
97 |
|
РАСПРЕДЕЛЕНИЙ |
|
|
4.1. |
Оценка выборочных параметров с использованием |
97 |
|
специальных функций |
|
4.2. |
Использование функций summary() и дополнительных |
100 |
|
пакетов |
|
4.3. |
Анализ выбросов |
103 |
4.4. |
Заполнение пропущенных значений в таблицах данных |
106 |
4.5. |
Воспроизводимость результатов при использовании |
111 |
|
генератора случайных чисел |
|
4.6. |
Законы распределения вероятностей, реализованные в R |
113 |
4.7. |
Подбор закона и параметров распределения в R |
115 |
4.8. |
Проверка на нормальность распределения |
123 |
5. КЛАССИЧЕСКИЕ МЕТОДЫ И КРИТЕРИИ СТАТИСТИКИ |
128 |
|
5.1. |
Гипотеза о равенстве средних двух генеральных |
128 |
|
совокупностей |
|
5.2. |
Использование ранговых критериев Уилкоксона-Манна- |
133 |
|
Уитни |
|
5.3. |
Рандомизация, бутстреп и оценка статистической мощности |
136 |
|
(на примере двухвыборочного t-критерия) |
|
5.4. |
Гипотеза об однородности дисперсий |
143 |
5.5. |
Введение в дисперсионный анализ |
145 |
5.6. |
Оценка корреляции двух случайных величин |
153 |
5.7. |
Критерий хи-квадрат |
156 |
3
5.8. Точный тест Фишера; критерии Мак-Немара и Кохрана- |
159 |
|
|
Мантеля-Хензеля |
|
5.9. Оценка статистической мощности при сравнении долей |
167 |
|
6. ЛИНЕЙНЫЕ МОДЕЛИ В ДИСПЕРСИОННОМ АНАЛИЗЕ |
172 |
|
6.1. Протокол разведочного анализа данных |
172 |
|
6.2. Линейные модели дисперсионного анализа |
184 |
|
6.3. Структура модельных объектов дисперсионного анализа |
191 |
|
6.4. Оценка адекватности модели дисперсионного анализа |
194 |
|
6.5. Дисперсионный анализ по Краскелу-Уоллису |
202 |
|
6.6. Модели двух- и многофакторного дисперсионного анализа |
203 |
|
6.7. Контрасты в линейных моделях, содержащих |
210 |
|
|
категориальные предикторы |
|
6.8. |
Проблема множественных проверок статистических гипотез 218 |
|
6.9. Методы сравнения групповых средних в дисперсионном |
225 |
|
|
анализе |
|
7. РЕГРЕССИОННЫЕ МОДЕЛИ ЗАВИСИМОСТЕЙ МЕЖДУ |
235 |
|
КОЛИЧЕСТВЕННЫМИ ПЕРЕМЕННЫМИ |
|
|
7.1. |
О понятии "статистическая модель" |
235 |
7.2. Простая линейная регрессия: каков возраст Вселенной? |
244 |
|
7.3. Модели регрессии при различных видах функции потерь |
255 |
|
7.4. Критерии выбора моделей оптимальной сложности |
261 |
|
7.5. Полиномиальные и нелинейные модели регрессии |
264 |
|
7.6. |
Модель множественной регрессии и выбор ее спецификации 271 |
|
7.7. Процедуры диагностики моделей множественной регрессии |
278 |
|
7.8. Гребневая и лассо-регрессия; использование главных |
285 |
|
|
компонент |
|
7.9. Сравнение эффективности различных моделей при |
293 |
|
|
прогнозировании |
|
8. ОБОБЩЕННЫЕ, СТРУКТУРНЫЕ И ИНЫЕ МОДЕЛИ |
303 |
|
РЕГРЕССИИ |
|
|
8.1. |
Модели сглаживания |
303 |
8.2. |
Обобщенные модели регрессии |
311 |
8.3. |
Модели пробит- и логит-регрессии |
315 |
8.4. Обобщенные модели для оценки показателей экологической |
325 |
|
|
толерантности |
|
8.5. |
Ковариационный анализ |
332 |
8.6. Модели со смешанными эффектами для иерархически |
337 |
|
|
организованных данных |
|
8.7. Индуктивные модели (метод группового учета аргументов) |
345 |
|
8.8. |
Моделирование структурными уравнениями |
351 |
9. ПРОСТРАНСТВЕННЫЙ АНАЛИЗ И СОЗДАНИЕ КАРТОГРАММ 360
9.1. Простая карта: использование растрового рисунка и подсчет |
360 |
расстояний |
|
9.2. Анализ пространственного размещения точек |
367 |
9.3. Использование сервисов картографической системы Google |
371 |
Maps |
|
9.4. Создание картограмм при помощи R |
375 |
БИБЛИОГРАФИЯ И ИНТЕРНЕТ-РЕСУРСЫ |
|
Основные литературные ссылки по тексту книги |
388 |
Библиографический указатель литературы по использованию R |
390 |
Основные Интернет-ресурсы |
400 |
4
В целях природы обуздания, Чтобы рассеять незнания тьму, Берем картину мироздания И тупо смотрим, что к чему.…
А. и Б. Стругацкие «Понедельник начинается в субботу»
ПРЕДИСЛОВИЕ
Одним из основных инструментов познания мира является обработка данных, получаемых человеком из различных источников. Суть современного статистического анализа состоит в интерактивном процессе, состоящем из исследования, визуализации и интерпретации потоков поступаемой информации.
История последних 50 лет – это |
и история развития технологии анализа данных. |
|||||
Один из авторов с умилением вспоминает конец60-х годов и свою первую программу |
||||||
расчета парной |
корреляции, которая |
набиралась металлическими штырёчками на |
||||
"операционном поле" из 150 ячеек персональной ЭВМ "Промiнь-2" весом более 200 кг. В |
||||||
наше время высокопроизводительные компьютеры и доступное программное обеспечение |
||||||
позволяют |
реализовать |
полный |
цикл |
информационно-технологического |
процесса, |
|
состоящего, в общем случае, из следующих шагов: |
|
|
||||
° доступ |
к |
обрабатываемым |
данным(их загрузка из разных источников и |
|||
комплектация совокупности взаимосвязанных исходных таблиц); |
|
°редактирование загруженных показателей(замена или удаление пропущенных значений, преобразование признаков в более удобный вид);
°аннотирование данных (чтобы помнить, что представляет собой каждый их фрагмент);
° |
получение |
общих сведений о структуре данн(выхчисление описательных |
||||
статистик для того, чтобы охарактеризовать анализируемые показатели); |
|
|||||
° |
графическое |
представление данных и результатов вычислений в понятной |
||||
информативной форме (одна картинка на самом деле иногда стоит тысячи слов); |
|
|||||
° моделирование данных (нахождение зависимостей и тестирование статистических |
||||||
гипотез); |
|
|
|
|
|
|
° |
оформление |
результатов (подготовка |
таблиц |
и |
диаграмм |
приемлемого |
публикационного качества). |
|
|
|
|
||
|
В условиях, |
когда к услугам пользователя |
имеются |
десятки |
пакетов прикладных |
программ, актуальна проблема выбора(иногда трагичная, если вспомнить "буриданова осла"): какое программное обеспечение анализа данных следует предпочесть для своей практической работы? Здесь обычно принимается во внимание специфика решаемой задачи, эффективность настройки алгоритмов обработки, издержки на покупку программ, а также вкусы и личные предпочтения аналитика. При этом, например, шаблонная
Statistica с ее |
механическим |
комплексом кнопок ,менюдалеко не |
всегда может |
удовлетворить |
творческого |
исследователя, предпочитающего |
самостоятельно |
контролировать ход вычислительного процесса. Комбинировать различные типы анализа, иметь доступ к промежуточным результатам, управлять стилем отображения данных, добавлять собственные расширения программных модулей и оформлять итоговые отчеты в необходимом виде позволяют коммерческие вычислительные системы, включающие высокоуровневые средства командного языка, такие как Matlab, SPSS и др. Прекрасной альтернативой им является бесплатная программная средаR, являющаяся современной и постоянно развивающейся статистической платформой общего назначения.
Сегодня R является безусловным лидером среди свободно распространяемых систем статистического анализа, о чем говорит, например, тот факт, что в 2010 году система R стала победителем ежегодного конкурса открытых программных продуктов
5
Bossie Awards в нескольких номинациях. Ведущие университеты мира, аналитики крупнейших компаний и исследовательских центров постоянно используютR при проведении научно-технических расчетов и создании крупных информационных проектов. Широкое преподавание статистики на базе пакетов этой среды и всемерная поддержка научным сообществом обусловили то, что приведение скриптов R постепенно становится общепризнанным "стандартом" как в журнальных публикациях, так и при неформальном общении ученых всего мира.
Главным препятствием |
для |
русскоязычных |
пользователей при освоенииR, |
безусловно, является то, что |
почти |
вся документация |
по этой среде существует на |
английском языке. Лишь с 2008 г. усилиями А.В. Шипунова, Е.М. Балдина, С.В. Петрова, И.С. Зарядова, А.Г. Буховца и других энтузиастов появились методические пособия и книги на русском языке(ссылки на них можно найти в списке литературы в конце этой книги; там же представлены и ссылки на образовательные ресурсы, авторами которых
делается посильный вклад в продвижение R среди русскоязычных пользователей). |
|
||||
Настоящее |
пособие |
обобщает |
совокупность |
методических |
, сообщений |
опубликованных одним из авторов с2011 г. в блоге «R: Анализ и визуализация данных» (http://r-analytics.blogspot.com). Нам показалась целесообразной идея представить для удобства читателей весь этот несколько разобщенный материал в концентрированной форме, а также расширить некоторые разделы для полноты изложения.
Впервых трех главах содержатся подробные указания по работе с интерактивными компонентами R, детальное описание языка и базовых графических возможностей среды. Эта часть книги вполне доступна новичкам в области программирования, хотя читатель, уже знакомый с языком R, может найти там интересные фрагменты кода или использовать приведенные описания графических параметров как справочное пособие.
Впоследующих главах(4-8) приведено описание распространенных процедур обработки данных и построения статистических моделей, которое иллюстрировано несколькими десятками примеров. Они включают краткое описание алгоритмов анализа, основные полученные результаты и их возможную интерпретацию. Мы старались, по
возможности, обойтись без злоупотребления"ритуальными" словооборотами, характерными для многочисленных руководств по прикладной статистике, цитирования общеизвестных теорем и приведения многоэтажных расчетных формул. Акцент делался, в первую очередь, на практическое применение– на то, чтобы читатель, руководствуясь прочитанным, мог проанализировать свои данные и изложить результаты коллегам.
Разделы этой части выстроены по мере усложнения представленного материала. Главы 4 и 5 ориентированы на читателя, интересующегося статистикой лишь в рамках
начального университетского курса. В |
главах 6 |
и |
7 в рамках |
единой |
теории |
общих |
||||||
линейных моделей представлены дисперсионный и регрессионный анализы и приведены |
||||||||||||
различные алгоритмы исследования и структурной идентификации моделей. Глава 8 |
||||||||||||
посвящена |
некоторым |
современным |
|
методам |
построения |
и |
|
анализа |
обобщенных |
|||
регрессионных моделей. |
|
|
|
|
|
|
|
|
|
|
|
|
Поскольку неизменный интерес у исследователя |
вызывает |
пространственный |
||||||||||
анализ и |
отображение |
результатов |
на |
географических |
картах |
и |
, схемахвглаве 9 |
|||||
приведены некоторые примеры таких приемов визуализации. |
|
|
|
|
|
|
||||||
Мы адресуем наше методическое пособие студентам, аспирантам, а также молодым |
||||||||||||
и состоявшимся ученым, желающим |
освоить анализ и визуализацию данных с |
|||||||||||
использованием среды R. Мы надеемся, что по окончании чтения этого руководства вы |
||||||||||||
получите |
некоторое представление |
о |
, томкак |
|
работает R, где |
можно |
получить |
|||||
дальнейшую информацию, а также как справиться с простыми и достаточно сложными |
||||||||||||
задачами анализа данных. |
|
|
|
|
|
|
|
|
|
|
|
|
Файлы со скриптами кодов R по всем главам книги, а также необходимые таблицы |
||||||||||||
исходных |
данных для |
их выполнения, свободно |
доступны |
для |
скачивания |
GitHubс - |
6
репозитория https://github.com/ranalytics/r-tutorials, а также с сайта Института экологии Волжского бассейна РАН по ссылке http://www.ievbras.ru/ecostat/Kiril/R/Scripts.zip.
Следует отметить, что текст в этом пособии представлен в авторской редакции и потому, несмотря на все наши усилия, имеется вероятность наличия в нем опечаток, грамматических неточностей и неудачных оборотов. Мы будем благодарны Вам, Читатель, за сообщение об этих, а также других обнаруженных недочетах по электронной почте rtutorialsbook@gmail.com. Мы также будем благодарны за любые другие Ваши замечания и пожелания касательно этой работы.
Сергей Мастицкий, Лондон Владимир Шитиков, Тольятти 14 декабря 2014 г.
7