
- •Федеральное агентство связи
- •Введение
- •Язык программирования r
- •Инсталляция r и rStudio
- •Интерфейс среды разработки
- •Упражнения
- •Импортирование данных
- •Функция read.Table()
- •Функция read.Csv()
- •Доступ к столбцам фрейма
- •Доступ к строкам фрейма
- •Анализ xml документов
- •Пример функции visitNode()
- •Функция xmlSApply()
- •Анализ html контента
- •Загрузка контента
- •Примеры анализа
- •Интерактивный JavaScript
- •Создание консоли
- •Пример использования
- •Построение wordcloud
- •Подготовка корпуса
- •Построение облака
- •Кластерный анализ
- •Алгоритмы Кластерного Анализа
- •Алгоритм k-средних
- •Иерархическая кластеризация
- •Алгоритмы основанные на теории графов
- •Статистические алгоритмы
- •Пример использования функции kmeans()
- •Пример использования функции hclust()
- •Отдыхай с функцией getXksd()
- •Контрольные задания
Функция read.Csv()
Аналогом функции read.table() для считывания csv-файлов является функция read.csv():
> data_1 = read.csv(file = "new_data.csv", header = TRUE)
Если подлежащий загрузке файл хранится в папке, отличной от рабочей папки R, то следует указать полный путь к нему. При этом пользователям операционных систем Windows необходимо помнить, что для указания полных путей к файлам в программе R используется не обратный одинарный слэш (\), а прямой одинарный (/) либо двойной обратный слеш (\\). Например, следующие две команды будут успешно восприняты R и приведут к идентичному результату – загрузке файла new_data.txt и сохранению его в виде объекта data_1:
> data_1= read.csv(file = "D:\\Documents\\data_1.txt", header = TRUE)
> data_1 = read.csv(file = "D:/Documents/data_1.txt", header = TRUE)
Для интерактивного выбора загружаемого файла, который хранится вне рабочей папки R, можно применить вспомогательную функцию file.choose() (выбрать файл). Выполнение этой команды приводит к открытию обычного диалогового окна операционной системы Windows, в котором пользователь выбирает папку с необходимым файлом. Очень удобно совмещать file.choose() с командами read.table() или read.csv(), например:
> data_1 = read.table(file = file.choose(), header = TRUE, sep = ",")
Фреймы
Изучая интерфейс среды разработки, мы частично познакомились с понятием фрейма. Исходя из того, что эти объекты чрезвычайно часто используются при обработке данных рассмотрим их более детально.
Фреймы используются для хранения данных в виде таблиц. Они представляют собой набор векторов одинаковой длины, причем типы данных каждого вектора могут быть разными. Например, сформируем три вектора a, b и c:
> a = c(1, 2, 3)
> b = c(“x”, ”y”, ”z”)
> c = c(FALSE, TRUE, FALSE)
и с помощью команды data.frame() создадим фрейм df:
> df = data.frame(a, b. c)
> df
a b c
1 1 x FALSE
2 2 y TRUE
3 3 z FALSE
Для демонстрации основных приемов работы с фреймами используем встроенный в R фрейм с именем mtcars. Посмотрим три первые строки фрейма mtcars:
> mtcars[1:3,]
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Верхняя строка таблицы, называемая заголовок (header), содержит имена столбцов фрейма. Для доступа к различным ячейкам фрейма можно использовать их координаты [строка,столбец] в квадратных скобках. Координаты можно задавать как номерами соответствующей строки и столбца:
> mtcars[2,6]
[1] 2.875
так и с помощью их имен:
> mtcars["Mazda RX4 Wag","wt"]
[1] 2.875
Число строк и столбцов фрейма можно узнать с помощью следующих двух команд:
> nrow(mtcars)
[1] 32
> ncol(mtcars)
[1] 11
Видно, что встроенный в R фрейм с именем mtcars имеет размерность 32х11. Подробную информацию о данных, размещенных во фрейме mtcars можно получить с помощью команды: > help(mtcars).