ТСХА_ Лекц_2_R__2018_испр
.pdfЧто такое data frame ?
- Структура данных: таблица из нескольких
таблиц/векторов (по столбцам), в разных подтаблицах/ столбцах могут быть данные разных типов
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
71 |
|
|
NA -отсутствующее значение (Not Available); |
||
|
|||||
|
|
|
|
|
Специальные переменные
Inf бесконечность: положительная ( Inf) и отрицательная ( -Inf);
NA - отсутствующее значение (Not Available);
NaN - не число (Not a Number);
NULL – ничто
> x=5/0;x
[1] Inf
72
Как создать свой data frame? –
спомощью команды data.frame
>n =c(2, 3, 5); n
>s =c("aa", "bb", "cc") ; s
> b = c(TRUE, FALSE,TRUE) ; b |
|
|
> df |
||
> df =data.frame(n, s, b) |
||
n s b |
||
|
1 2 aa TRUE |
|
|
2 3 bb FALSE |
|
|
3 5 cc TRUE |
Или короче:
> df =data.frame(n=c(2, 3, 5), s=c("aa", "bb", "cc"), b= c(TRUE, FALSE,TRUE))
73
74
# Знак $ позволяет обращаться к переменной |
||
> df$n |
|
|
> df |
||
[1] 2 3 5 |
||
n s b |
||
|
||
> colnames(df) # имена колонок |
1 2 aa TRUE |
|
[1] "n" "s" "b" можно просто names(df) |
2 3 bb FALSE |
|
|
3 5 cc TRUE |
|
|
|
>rownames(df) -имена строк (объектов)
[1] "1" "2" "3”
>dim(df) – размерность таблицы: число строк и число столбцов
75 [1] 3 3
> dim(df) – размерность таблицы: число строк и число столбцов
[1] 3 3
Команда summary выдаст общую статистическую
характеристику, по содержащимся в таблице векторам (столбцам).
>summary(df) |
|
|
n |
s |
b |
Min. :2.000 |
aa:1 |
Mode: logical |
1st Qu.:2.500 |
bb:1 |
FALSE:1 |
Median :3.000 |
cc:1 |
TRUE: 2 |
Mean :3.333 |
|
NA's: 0 |
3rd Qu.:4.000 |
|
|
Max. :5.000 |
|
|
76
Формат CSV
от англ. Comma-Separated Values — значения,
разделённые запятыми) — текстовый формат,
предназначенный для представления табличных данных.
Каждая строка файла — это одна строка таблицы.
Для R – разделитель по умолчанию– точка с запятой
Загрузка внешних данных (теория )
1.Сохранить данные в Excel в формате csv, в качестве разделителя используйте точку с запятой.
2.Прочтем наши данные из csv файла в переменную dat
data = read.table("data.csv", header =
TRUE, sep = ";", dec = ".")
Параметр header=TRUE надо добавлять для тех файлов, где первая строка отдана под обозначение имен переменных.
Параметр dec обозначает, что для чисел десятичная часть отделена запятой или точкой
78
Считать таблицу данных из файла
# Проверим, в какой директории мы работаем
>getwd()
#При необходимости, изменим рабочую директорию
>setwd(“E:/R/Practica”)
Посмотрим файл pole123.csv в блокноте
79
#Считаем данные из файла pole123.csv в переменную pole
>pole = read.table(“pole123.csv", header = TRUE, sep = ";", dec = ".")
#Посмотрим, что находится в переменной pole >pole
#краткое содержание файла
>summary (pole) >dim(pole) >names(pole)
#просмотр переменной Humus pole$Humus
#строим график
plot(pole$Humus, pole$A1)
80