Листинг 1 – обработка таблицы значений
#берем год с индексом 146 в первоначальной табличке, 100 в окончательной (той, которая без NA строк) print(years[146, ]) for (i in 1:104){ year <- table[i, ]; year<-as.numeric(year) res <- shapiro.test(year) if (res['p.value'] <= 0.1){ print(res) print(i) print(year[1]) } } year <- as.numeric(table[100, ]) year <- year[! year %in% year[13]] |
Данные за этот год приведены в таблице:
Таблица 1 - данные за 2018 год
-
Месяц
Значение
1
-5,1
2
-7,5
3
-5,9
4
8,8
5
18,2
6
19
7
22
8
21,4
9
17,6
10
9,4
11
-1,4
12
-5,1
Для оценки нормальности данных использовался критерий Шапиро-Уилка. После проведения теста, был получен результат, что p-value, соответствующее данной выборке, близко к 0.05 (был принят уровень значимости 0.05). Это говорит о том, что данные имеют нормальное распределение.
Для визуализации распределения данных была построена гистограмма:
Рисунок 1 - гистограмма распределения
Построение доверительного интервала.
Построить доверительный интервал уровня 1–α для средней (среднегодовой по месяцам) температуры в городе Воронеж.
В данном случае, α = 31/200 = 0.155. так как максимальное число рождения в нашей бригаде составляет 31.
Был проведён t-тест для выборки из 12 значений среднемесячной температуры за определенный год. Результаты теста позволили построить доверительный интервал, который составил от 2.818276 до 12.412494, среднее значение температуры равно 7.615385.
Для визуализации данных был построен график, на котором по оси x отображены номера месяцев, а по оси y - средние температуры. Зеленые горизонтальные линии на графике представляют границы доверительного интервала, а красная линия обозначает среднее значение температуры.
Рисунок 2 – доверительный интервал
