
- •Федеральное агентство связи
- •Введение
- •Язык программирования r
- •Инсталляция r и rStudio
- •Интерфейс среды разработки
- •Упражнения
- •Импортирование данных
- •Функция read.Table()
- •Функция read.Csv()
- •Доступ к столбцам фрейма
- •Доступ к строкам фрейма
- •Анализ xml документов
- •Пример функции visitNode()
- •Функция xmlSApply()
- •Анализ html контента
- •Загрузка контента
- •Примеры анализа
- •Интерактивный JavaScript
- •Создание консоли
- •Пример использования
- •Построение wordcloud
- •Подготовка корпуса
- •Построение облака
- •Кластерный анализ
- •Алгоритмы Кластерного Анализа
- •Алгоритм k-средних
- •Иерархическая кластеризация
- •Алгоритмы основанные на теории графов
- •Статистические алгоритмы
- •Пример использования функции kmeans()
- •Пример использования функции hclust()
- •Отдыхай с функцией getXksd()
- •Контрольные задания
Отдыхай с функцией getXksd()
Мировое сообщество пользователей и почитателей платформы языка R весьма велико. Среди них найдется немало любителей хорошей шутки, анекдота, комикса, особенно в своей предметной области - технологии обработки информации. Примером тому может послужить специально созданный для этих целей веб-комикс сайт: http://xkcd.com/.
Хорошо поработав, можно приятно отдохнуть, вчитываясь и всматриваясь в материалы этого сайта. Для доступа к нему служит функция getXKSD() из пакета пакет RXKSD. Ниже приведен скрипт, который загрузит в панель Plot комикс под номером 1314:
> install.packages("RXKCD")
> library("RXKCD")
> q=getXKCD(1314, display=TRUE)
- Программа, написанная на языке Haskell, с гарантией не имеет никаких побочных эффектов.
- … это потому, что никто не сможет даже запустить ее?
Попробуйте запустить другие комиксы, их там немало.
Делу время – потехе час! Пора приниматься за контрольные задания.
Контрольные задания
Задание 1
Исходные данные
American Community Survey предоставляет для скачивания данные, взятые из различных обследований в Соединенных Штатах. Cкачайте данные из опроса о жилье в штате Айдахо в 2006 г. с сайта : https://d396qusza40orc.cloudfront.net/getdata%2Fdata%2Fss06hid.csv
Загрузите эти данные в RStudio с помощью команды read.csv(). Книга кодирования, описывающая термины используемых в таблице переменных находится на: https://d396qusza40orc.cloudfront.net/getdata%2Fdata%2FPUMSDataDict06.pdf
Задача
Используя исходные данные определите общее количество предложений недвижимости с кодом расположения PUMA = 800 (Public Use Microdata Area code).
Ответ
Укажите правильный ответ: (231 1077 851 104)
Задание 2
Исходные данные
Скачать Excel таблицу из данных Natural Gas Aquisition Program по адресу: http://www.gsa.gov/dg/pbs/DATA.gov_NGAP.xlsx (оригинальный источник данных: http://catalog.data.gov/dataset/natural-gas-acquisition-program)
Задача
Используя исходные данные запишите строки 18-22 и столбцы 7-12 в переменную dat. Используя оператор for(), найдите максимальное значение в столбце NA..5 фрейма dat.
Задание 3
Исходные данные
Загрузите XML данные о ресторанах Балтимора в переменную res с сайта:
https://d396qusza40orc.cloudfront.net/getdata%2Fdata%2Frestaurants.xml
Задача
Сколько ресторанов описано в загруженных данных? В переменную zip прочитайте все zipcode. Посчитайте число ресторанов с zipcode = 21218?
Ответ
Укажите правильный ответ: (96 83 69 122)
Ссылки
Полная информация о доступных пакетах:
http://cran.r-project.org/web/packages/
http://cran.r-project.org/doc/manuals/r-release/R-intro.pdf
http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
http://cran.r-project.org/manuals.html
http://cran.r-project.org
http://dirk.eddelbuettel.com/cranberries/
http://planetr.stderr.org
www.r-bloggers.com
stat.ethz.ch/mailman/listinfo/r
http://rstudio.org/download/desktop
Полезные функции можно найти здесь:
http://r-analytics.blogspot.ru/p/blog-page_06.html#.VPG2_GSsURA
Ответы на простые вопросы можно найти здесь:
http://www.uic.unn.ru/~zny/ml/Labs/lab1.pdf
Много файлов в разных форматах для упражнений:
http://rstudio-pubs-static.s3.amazonaws.com/1776_dbaebbdbde8d46e693e5cb60c768ba92.html
Пакет xlsx для чтения файлов xlsx и примеры его использования:
http://cran.r-project.org/web/packages/xlsx/xlsx.pdf
http://www.r-bloggers.com/importexport-data-to-and-from-xlsx-files/
XPath выражения:
http://www.w3schools.com/xpath/xpath_intro.asp
Поддержка интерактивной консоли JavaScript:
http://www.r-bloggers.com/interactive-javascript-in-r-with-v8-a-crossfilter-example/
Примеры алгоритмов кластеризации:
http://www.algorithmist.ru/2011/05/clustering-with-example-in-r.html