
статан1
.docxМИНОБРНАУКИ РОССИИ
Санкт-Петербургский государственный
электротехнический университет
«ЛЭТИ» им. В.И. Ульянова (Ленина)
Кафедра Алгоритмической математики
отчет
по лабораторной работе №1
по дисциплине «Статистический анализ»
Тема: Разведочный анализ данных
Вариант: Воронеж
Номер бригады: 6
Студенты гр. |
|
|
Преподаватель |
|
Бурков Е.А. |
Доля вклада исполнителей:
Ответственный за подготовку отчета:
Дата сдачи отчёта:
Санкт-Петербург
2023
Цель работы: анализ предложенного набора данных с помощью базовых статистических характеристик и методов.
Задание:
1. Взять с сайта www.pogodaiklimat.ru/history.php данные о среднемесячной температуре воздуха в произвольном городе, причем:
число известных наблюдений должно быть не менее 50 (в каждом месяце).
2. Привести в отчете таблицу входных данных (только ее начальный и конечный фрагменты в случае, если число наблюдений для месяцев превышает 100).
3. Для каждого месяца рассчитать и представить в отчете в виде удобочитаемой таблицы:
объем выборки
минимальное значение,
максимальное значение,
первый квартиль,
медиану
третий квартиль,
межквартильный размах,
среднее,
стандартное отклонение,
стандартную ошибку среднего,
коэффициент вариации,
коэффициент асимметрии.
4.1. Построить и привести в отчете на одном графике блочные диаграммы (с визуализацией выбросов) для всех двенадцати месяцев.
4.2. Идентифицировать все выбросы и составить таблицу выбросов, в которой следует указать значение, год и месяц каждого выброса.
5. Для каждого месяца привести гистограмму (график распределения) и сделать обоснованный вывод о наличии и степени выраженности свойства симметричности данных (положительная или отрицательная, сильная или слабая; при необходимости можно дополнительно воспользоваться коэффициентом асимметрии).
6.1. Для каждого месяца рассмотреть гипотезу о том, подчиняется ли распределение данных нормальному закону на основе:
1) визуального анализа гистограммы (наличие симметрии и колоколообразности);
2) визуального анализа графика квантилей;
3) анализа численных характеристик набора данных (совпадение моды, медианы и среднего; соотношение между межквартильным размахом и стандартным отклонением; попадание всех значений в диапазон «шести сигм»);
4) выбранного статистического критерия (например, Шапиро-Уилка) при α = 0,05.
6.2. Сформировать итоговый вывод о нормальности данных (для каждого месяца), используя совокупные результаты пунктов 6.1.1 – 6.1.4
Выполнение работы
Входные данные
Для выполнения работы бригадой был выбран город Воронеж. Число известных наблюдений для каждого месяца после очистки таблицы от отсутствующих данных – 104.
Таблица входных данных
Для получения входных данных воспользуемся библиотекой XML. Мы считываем две таблицы: одна из них содержит месяцы и значения температуры, вторая года. Таблицу значений обработаем следующим образом: так как значение 999.99 является заглушкой для отсутствующих данных, все его вхождения заменим на NA и воспользуемся встроенной функцией na.omit() для исключения строк с пропущенными значениями.
Листинг 1 – обработка таблицы значений
url <- " http://www.pogodaiklimat.ru/history/34123.htm" years <- readHTMLTable(url, which = 1) table <- readHTMLTable(url, which = 2) table[table == 999.9] <- NA table <- na.omit(table) |
Результат работы представлен в таблице.
Таблица 1 - входные данные
Месяц Номер |
янв |
фев |
мар |
апр |
май |
июн |
июл |
авг |
сен |
окт |
ноя |
дек |
за год |
1 |
-4.2 |
-9.9 |
-4.6 |
4.8 |
12.8 |
19.8 |
20 |
18.2 |
11.5 |
6.6 |
-2.3 |
-2.9 |
5.8 |
2 |
-6.3 |
-9.7 |
-4.6 |
5.7 |
11.6 |
17.8 |
18.9 |
19.6 |
13.7 |
7.2 |
0.4 |
-0.2 |
6.2 |
3 |
-8.2 |
-11.3 |
-8.6 |
1.5 |
13.9 |
19.4 |
20.2 |
18.7 |
10.6 |
4.3 |
-1.8 |
-14.7 |
3.7 |
4 |
-8.0 |
-11.8 |
-0.5 |
10.6 |
17.3 |
16.7 |
21.2 |
21.7 |
13.3 |
0.9 |
-4.7 |
-11.1 |
5.5 |
5 |
-7.8 |
-10.5 |
0.2 |
10.3 |
19.3 |
18.8 |
18.2 |
18.9 |
10.9 |
4.4 |
-4.5 |
-8.8 |
5.8 |
6 |
-8.3 |
-9.9 |
-2.3 |
6.3 |
15.3 |
16.8 |
21.5 |
18.1 |
11.0 |
3.2 |
1.4 |
-4.0 |
5.8 |
7 |
-7.6 |
-11.0 |
-2.9 |
3.2 |
16.5 |
17.4 |
18.1 |
15.9 |
15.1 |
8.0 |
3.8 |
-6.0 |
5.9 |
8 |
-12.7 |
-14.2 |
-7.1 |
5.0 |
17.0 |
22.0 |
18.7 |
19.0 |
15.1 |
5.4 |
-1.2 |
-9.0 |
4.8 |
9 |
-4.0 |
-2.0 |
0.3 |
7.3 |
16.6 |
16.4 |
19.7 |
18.3 |
12.4 |
4.2 |
0.7 |
-4.9 |
7.1 |
Таблица 1 – входные данные
Месяц Номер |
янв |
фев |
мар |
апр |
май |
июн |
июл |
авг |
сен |
окт |
ноя |
дек |
за год |
10 |
-9.1 |
-10.0 |
-4.7 |
4.7 |
14.3 |
17.4 |
19.7 |
14.7 |
11.4 |
5.2 |
3.3 |
-5.2 |
5.1 |
11 |
-13.8 |
-10.8 |
-4.0 |
5.3 |
13.2 |
18.9 |
18.7 |
19.9 |
14.4 |
7.1 |
-1.5 |
-10.6 |
4.7 |
12 |
-9.2 |
-12.7 |
-8.9 |
3.0 |
13.2 |
15.0 |
18.8 |
15.4 |
12.3 |
4.6 |
1.8 |
-6.2 |
3.9 |
13 |
-11.2 |
-19.7 |
-7.8 |
-0.8 |
15.6 |
15.7 |
20.3 |
22.8 |
10.6 |
10.5 |
0.7 |
-8.0 |
4.1 |
14 |
-6.7 |
-10.1 |
0.7 |
8.8 |
15.3 |
14.3 |
18.8 |
21.3 |
10.9 |
6.9 |
1.1 |
-9.6 |
6.0 |
15 |
-11.4 |
-16.1 |
-3.9 |
3.6 |
15.5 |
17.7 |
22.5 |
18.5 |
12.0 |
5.6 |
-3.0 |
-7.5 |
4.5 |
16 |
-3.2 |
-14.5 |
-7.6 |
5.6 |
16.8 |
19.5 |
19.8 |
20.0 |
14.5 |
7.2 |
0.0 |
-2.9 |
6.3 |
17 |
-13.2 |
-10.9 |
-5.2 |
5.1 |
12.6 |
15.2 |
20.9 |
16.9 |
12.5 |
6.4 |
-0.9 |
-14.2 |
3.8 |
18 |
-10.9 |
-7.0 |
-2.5 |
7.7 |
16.9 |
14.9 |
19.7 |
18.8 |
13.9 |
9.0 |
1.2 |
-10.2 |
6.0 |
19 |
-11.1 |
-5.2 |
-3.3 |
7.1 |
12.8 |
17.7 |
18.8 |
17.4 |
13.5 |
10.5 |
-3.9 |
-5.9 |
5.7 |
20 |
-3.9 |
-12.7 |
-3.7 |
5.3 |
14.6 |
20.7 |
24.3 |
20.5 |
11.9 |
3.5 |
1.0 |
-3.1 |
6.5 |
.. |
.. |
.. |
.. |
.. |
.. |
.. |
.. |
.. |
.. |
.. |
.. |
.. |
.. |
85 |
-6.2 |
-9.9 |
-3.6 |
6.1 |
16.8 |
15.0 |
20.2 |
18.7 |
12.7 |
6.8 |
1.5 |
-2.5 |
6.3 |
86 |
-3.8 |
-4.9 |
2.3 |
7.1 |
13.5 |
16.7 |
19.0 |
20.0 |
14.1 |
7.4 |
0.7 |
-2.5 |
7.5 |
87 |
-2.2 |
-8.5 |
-5.1 |
9.0 |
17.3 |
17.3 |
20.0 |
19.7 |
15.2 |
7.9 |
1.7 |
-2.9 |
7.5 |
88 |
-11.4 |
-12.3 |
-2.8 |
8.1 |
14.6 |
19.9 |
18.9 |
20.9 |
14.4 |
8.4 |
1.5 |
0.6 |
6.7 |
89 |
0.1 |
-7.6 |
3.8 |
7.1 |
17.0 |
19.2 |
21.0 |
22.4 |
14.1 |
8.5 |
-1.1 |
-4.2 |
8.4 |
90 |
-8.5 |
-2.8 |
4.0 |
11.2 |
13.7 |
17.2 |
21.1 |
21.0 |
13.1 |
9.7 |
2.7 |
-3.3 |
8.3 |
91 |
-5.4 |
-4.4 |
-0.2 |
7.4 |
14.6 |
20.2 |
21.6 |
17.5 |
16.6 |
8.8 |
2.8 |
-5.4 |
7.8 |
92 |
-14.8 |
-6.4 |
-1.3 |
9.4 |
17.3 |
22.4 |
26.4 |
25.4 |
14.6 |
5.1 |
5.9 |
-3.3 |
8.4 |
93 |
-8.7 |
-11.8 |
-3.4 |
7.3 |
17.1 |
20.6 |
23.7 |
20.2 |
14.0 |
7.0 |
-1.0 |
-0.2 |
7.1 |
94 |
-6.8 |
-12.1 |
-2.5 |
11.9 |
18.4 |
20.1 |
22.1 |
20.3 |
14.4 |
9.8 |
2.7 |
-5.9 |
7.7 |
95 |
-5.5 |
-3.2 |
-3.3 |
9.7 |
19.5 |
21.2 |
20.1 |
20.5 |
11.6 |
7.4 |
4.8 |
-2.5 |
8.4 |
96 |
-8.6 |
-4.1 |
2.9 |
8.8 |
18.5 |
17.9 |
22.3 |
21.8 |
14.4 |
5.9 |
-0.8 |
-3.4 |
8.0 |
97 |
-4.7 |
-3.3 |
1.7 |
8.1 |
16.3 |
20.7 |
21.1 |
19.8 |
17.6 |
5.1 |
2.4 |
0.0 |
8.7 |
98 |
-8.0 |
-3.3 |
2.6 |
10.3 |
15.2 |
19.6 |
22.6 |
21.9 |
13.0 |
6.1 |
-1.1 |
-5.9 |
8.1 |
99 |
-6.4 |
-5.4 |
3.7 |
8.5 |
14.0 |
17.2 |
20.4 |
21.6 |
15.1 |
6.6 |
0.6 |
1.5 |
8.1 |
100 |
-5.1 |
-7.5 |
-5.9 |
8.8 |
18.2 |
19.0 |
22.0 |
21.4 |
17.6 |
9.4 |
-1.4 |
-5.1 |
7.6 |
101 |
-6.8 |
-2.5 |
1.3 |
10.2 |
17.1 |
22.2 |
19.2 |
19.4 |
14.4 |
10.5 |
1.9 |
0.3 |
8.9 |
102 |
-0.4 |
-0.6 |
5.7 |
7.5 |
13.4 |
21.3 |
21.9 |
20.1 |
16.9 |
11.3 |
1.6 |
-5.3 |
9.5 |
103 |
-3.9 |
-7.8 |
-0.5 |
8.9 |
16.2 |
21.0 |
23.9 |
23.9 |
12.7 |
6.8 |
3.1 |
-4.2 |
8.3 |
104 |
-5.3 |
-0.9 |
-1.8 |
10.2 |
11.8 |
20.5 |
20.9 |
23.4 |
11.9 |
8.7 |
0.7 |
-2.1 |
8.2 |
X
Представлен начальный и конечный фрагменты таблицы, так как количество измерений превышает 100.
Расчёты по каждому месяцу
Необходимо представить ряд расчётов для каждого месяца.
Рассчитать: объём выборки, минимальное значение, максимальное значение, первый квартиль, медиану, третий квартиль, межквартильный размах, среднее, стандартное отклонение, стандартную ошибку среднего, коэффициент вариации, коэффициент асимметрии.
Необходимые характеристики были вычислены следующим образом: - объём выборки: функция length(); - минимальное значение: функция min(); - максимальное значение: функция max(); - первый квартиль: функция quantile() с параметром 0.25; - медиана: функция quantile() с параметром 0.5; - третий квартиль: функция quantile() с параметром 0.75; - межквартильный размах: разность между значениями первого и третьего квартиля; - среднее: функция mean(); - стандартное отклонение: функция sd(); - стандартная ошибка среднего: функция std.error() библиотеки plotrix; - коэффициент вариации: отношение стандартного отклонения к среднему значению; - коэффициент асимметрии: функция skewness() библиотеки moments.
Полученные данные были собраны в единый data frame.
Таблица 2 - расчёты по месяцам
Таблица 2 - расчёты по месяцам
4.1. Блочные диаграммы
Необходимо построить на одном графике блочные диаграммы с визуализацией выбросов для всех двенадцати месяцев
Блочные диаграммы были построены при помощи функции boxplot().
Результат работы представлен на рисунке.
Температура
Месяц
Рисунок 1 - блочные диаграммы
4.2. Идентификация выбросов
Необходимо идентифицировать все выбросы и составить таблицу выбросов, в которой нужно указать значение, год и месяц каждого выброса.
Выбросы были получены при помощи функции boxplot.stats() и собраны в один data frame.
Результат работы представлен в таблице.
Значение |
Год |
Месяц |
13 |
1929 |
апр |
92 |
2010 |
июл |
92 |
2010 |
авг |
103 |
2021 |
авг |
4 |
1920 |
окт |
28 |
1946 |
окт |
58 |
1976 |
окт |
102 |
2020 |
окт |
75 |
1993 |
ноя |
80 |
1998 |
ноя |
92 |
2010 |
ноя |
3 |
1875 |
дек |
X
5. Гистограммы
Для каждого месяца привести гистограмму (график распределения) и сделать обоснованный вывод о наличии и степени выраженности свойства симметричности данных (положительная или отрицательная, сильная или слабая).
Для построения гистограмм использовали функцию hist(). На основании построенных гистограмм можно судить о симметричности данных.
Результат работы представлен на рисунках.
Frequency – частота, month – месяц.
Рисунок 2 - гистограмма январь
Январь - слабая симметрия, отрицательная асимметрия.
Рисунок 3 - гистограмма февраль
Февраль - средняя симметрия (относительно других месяцев), отрицательная асимметрия.
Рисунок 4 - гистограмма март
Март - сильная симметрия, положительная асимметрия.
Рисунок 5 - гистограмма апрель
Апрель - сильная симметрия, отрицательная асимметрия.
Рисунок 6 - гистограмма май
Май - средняя симметрия, положительная асимметрия.
Рисунок 7 - гистограмма июнь
Июнь - сильная симметрия, положительная асимметрия.
Рисунок 8 - гистограмма июль
Июль - слабая симметрия, положительная асимметрия.
Рисунок 9 - гистограмма август
Август - слабая симметрия, положительная асимметрия.
Рисунок 10 - гистограмма сентябрь
Сентябрь - средняя симметрия, положительная асимметрия.