Анализ данных и знаний / 3 лаба / 3
.docСпециальность – Технологии производства авиационных двигателей и энергетических установок.
#2
data=read.table("aviadvig.csv", sep=";", dec=".", header=TRUE,
row.names=1, col.names=c("ФИО", "Атестат", "Физика", "Математика", "Укр.мова"))
dat=c(data[,2], data[,3], data[,4])
#3
len=length(dat)
dat_max=max(dat)
dat_min = min(dat)
dat_mean = mean(dat)
harm = length(dat)/sum(1/dat)
geom = prod(dat^(1/length(dat)))
dat_quad = (sum(dat^2)/length(dat))^0.5
dat_med = median(dat)
dat_cent = (quantile(dat)[2] + quantile(dat)[4])/2
dat_disp = var(dat)
dat_sd = sd(dat)
dat_md = sum(abs(dat - mean(dat)))/length(dat)
dat_mad = mad(dat)
dat_iqr = IQR(dat)
dat_as = length(dat)/(length(dat)-1)/(length(dat)-2)*sum(((dat-mean(dat))/sd(dat))^3)
dat_ex = length(dat)*(length(dat)+1)/(length(dat)-1)/(length(dat)-2)/(length(dat)-3)*sum(((dat - mean(dat))/sd(dat))^4)- 3*((length(dat)-1)^2)/(length(dat)-2)/(length(dat)-3)
var_coef = sd(dat)/mean(dat)*100
quant1=quantile(dat, probs = 0.05)
quant2=quantile(dat, probs = 0.58)
quant3=quantile(dat, probs = 0.67)
quant4=quantile(dat, probs = 0.95)
x1 = c("Довжина", "Мінімум", "Максимум", "0.05 квантиль", "0.2
квантиль", "0.7 квантиль",
"0.95 квантиль", "Середнє арифметичне", "Середнє гармонічне",
"Середнє геометричне", "Середнє квадратичне",
"Медіана", "Центр розмаху", "Дисперсія", "Стандартне відхилення",
"Середнє відхилення", "Медіанне відхилення",
"Інтерквартильний розмах", "Асиметрія", "Ексцес", "Коефіцієнт
варіації")
x2 = c(len, dat_min, dat_max, quant1, quant2, quant3, quant4,
dat_mean, harm, geom, dat_quad, dat_med,
dat_cent, dat_disp, dat_sd, dat_md, dat_mad, dat_iqr, dat_as, dat_ex,
var_coef)
rez = data.frame(x1, x2)
rez
x1 x2
1 Довжина 252.00000000
2 Мінімум 124.50000000
3 Максимум 199.00000000
4 0.05 квантиль 135.32500000
5 0.2\nквантиль 162.00000000
6 0.7 квантиль 165.50000000
7 0.95 квантиль 180.72500000
8 Середнє арифметичне 158.92063492
9 Середнє гармонічне 157.68957044
10 Середнє геометричне 158.30939504
11 Середнє квадратичне 159.52304282
12 Медіана 158.50000000
13 Центр розмаху 159.06250000
14 Дисперсія 192.59726175
15 Стандартне відхилення 13.87794155
16 Середнє відхилення 11.20175107
17 Медіанне відхилення 13.34340000
18 Інтерквартильний розмах 19.12500000
19 Асиметрія -0.06440033
20 Ексцес -0.17520563
21 Коефіцієнт\nваріації 8.73262403
#4
k_int = round(1 + 1.44*log(length(dat)))
hist(dat, breaks = seq(dat_min, dat_max, len = k_int + 1), main =
"Гістограма розподілу результатів абітурієнтів", xlab = "Бал ЗНО", ylab =
"Частка абітурієнтів", col = "coral", border = "brown", col.main = "blue", freq =
FALSE, cex.main = 1.5)
dat1 = sort(dat)
edf = seq(1/length(dat), 1, len = length(dat))
plot(dat1, edf, type = "s", col = "green", main = "Емпірична функція
розподілу", col.main = "blue", cex.main = 1.5, xlab = "Бал ЗНО", ylab = "ЕФР")
plot(density(dat), xlab = "Бал ЗНО", ylab = "ЕФЩР", col = "red", lwd = 2,
main = "Щільність розподілу", col.main = "blue", cex.main = 1.5)
boxplot(dat, col = "tomato", main = "Розкид результатів ЗНО", col.main = "blue", cex.main = 1.5, ylab = "Бал ЗНО", border = "brown")