Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

статан1

.docx
Скачиваний:
0
Добавлен:
28.12.2024
Размер:
922.78 Кб
Скачать

МИНОБРНАУКИ РОССИИ

Санкт-Петербургский государственный

электротехнический университет

«ЛЭТИ» им. В.И. Ульянова (Ленина)

Кафедра Алгоритмической математики

отчет

по лабораторной работе №1

по дисциплине «Статистический анализ»

Тема: Разведочный анализ данных

Вариант: Воронеж

Номер бригады: 6

Студенты гр.

Преподаватель

Бурков Е.А.

Доля вклада исполнителей:

Ответственный за подготовку отчета:

Дата сдачи отчёта:

Санкт-Петербург

2023

Цель работы: анализ предложенного набора данных с помощью базовых статистических характеристик и методов.

Задание: 

1. Взять с сайта www.pogodaiklimat.ru/history.php данные о среднемесячной температуре воздуха в произвольном городе, причем:

число известных наблюдений должно быть не менее 50 (в каждом месяце).

2. Привести в отчете таблицу входных данных (только ее начальный и конечный фрагменты в случае, если число наблюдений для месяцев превышает 100).

3. Для каждого месяца рассчитать и представить в отчете в виде удобочитаемой таблицы: 

  • объем выборки

  • минимальное значение, 

  • максимальное значение,

  • первый квартиль, 

  • медиану

  • третий квартиль, 

  • межквартильный размах, 

  • среднее,

  • стандартное отклонение, 

  • стандартную ошибку среднего,

  • коэффициент вариации, 

  • коэффициент асимметрии.

4.1. Построить и привести в отчете на одном графике блочные диаграммы (с визуализацией выбросов) для всех двенадцати месяцев. 

4.2. Идентифицировать все выбросы и составить таблицу выбросов, в которой следует указать значение, год и месяц каждого выброса. 

5. Для каждого месяца привести гистограмму (график распределения) и сделать обоснованный вывод о наличии и степени выраженности свойства симметричности данных (положительная или отрицательная, сильная или слабая; при необходимости можно дополнительно воспользоваться коэффициентом асимметрии).

6.1. Для каждого месяца рассмотреть гипотезу о том, подчиняется ли распределение данных нормальному закону на основе:

1) визуального анализа гистограммы (наличие симметрии и колоколообразности);

2) визуального анализа графика квантилей;

3) анализа численных характеристик набора данных (совпадение моды, медианы и среднего; соотношение между межквартильным размахом и стандартным отклонением; попадание всех значений в диапазон «шести сигм»);

4) выбранного статистического критерия (например, Шапиро-Уилка) при α = 0,05.

6.2. Сформировать итоговый вывод о нормальности данных (для каждого месяца), используя совокупные результаты пунктов 6.1.1 – 6.1.4

Выполнение работы

  1. Входные данные

Для выполнения работы бригадой был выбран город Воронеж. Число известных наблюдений для каждого месяца после очистки таблицы от отсутствующих данных – 104.

  1. Таблица входных данных

Для получения входных данных воспользуемся библиотекой XML. Мы считываем две таблицы: одна из них содержит месяцы и значения температуры, вторая года. Таблицу значений обработаем следующим образом: так как значение 999.99 является заглушкой для отсутствующих данных, все его вхождения заменим на NA и воспользуемся встроенной функцией na.omit() для исключения строк с пропущенными значениями.

Листинг 1 – обработка таблицы значений

url <- " http://www.pogodaiklimat.ru/history/34123.htm"

years <- readHTMLTable(url, which = 1)

table <- readHTMLTable(url, which = 2)

table[table == 999.9] <- NA

table <- na.omit(table)

Результат работы представлен в таблице.

Таблица 1 - входные данные

Месяц Номер

янв

фев

мар

апр

май

июн

июл

авг

сен

окт

ноя

дек

за год

1

-4.2

-9.9

-4.6

4.8

12.8

19.8

20

18.2

11.5

6.6

-2.3

-2.9

5.8

2

-6.3

-9.7

-4.6

5.7

11.6

17.8

18.9

19.6

13.7

7.2

0.4

-0.2

6.2

3

-8.2

-11.3

-8.6

1.5

13.9

19.4

20.2

18.7

10.6

4.3

-1.8

-14.7

3.7

4

-8.0

-11.8

-0.5

10.6

17.3

16.7

21.2

21.7

13.3

0.9

-4.7

-11.1

5.5

5

-7.8

-10.5

0.2

10.3

19.3

18.8

18.2

18.9

10.9

4.4

-4.5

-8.8

5.8

6

-8.3

-9.9

-2.3

6.3

15.3

16.8

21.5

18.1

11.0

3.2

1.4

-4.0

5.8

7

-7.6

-11.0

-2.9

3.2

16.5

17.4

18.1

15.9

15.1

8.0

3.8

-6.0

5.9

8

-12.7

-14.2

-7.1

5.0

17.0

22.0

18.7

19.0

15.1

5.4

-1.2

-9.0

4.8

9

-4.0

-2.0

0.3

7.3

16.6

16.4

19.7

18.3

12.4

4.2

0.7

-4.9

7.1

Таблица 1 – входные данные

Месяц Номер

янв

фев

мар

апр

май

июн

июл

авг

сен

окт

ноя

дек

за год

10

-9.1

-10.0

-4.7

4.7

14.3

17.4

19.7

14.7

11.4

5.2

3.3

-5.2

5.1

11

-13.8

-10.8

-4.0

5.3

13.2

18.9

18.7

19.9

14.4

7.1

-1.5

-10.6

4.7

12

-9.2

-12.7

-8.9

3.0

13.2

15.0

18.8

15.4

12.3

4.6

1.8

-6.2

3.9

13

-11.2

-19.7

-7.8

-0.8

15.6

15.7

20.3

22.8

10.6

10.5

0.7

-8.0

4.1

14

-6.7

-10.1

0.7

8.8

15.3

14.3

18.8

21.3

10.9

6.9

1.1

-9.6

6.0

15

-11.4

-16.1

-3.9

3.6

15.5

17.7

22.5

18.5

12.0

5.6

-3.0

-7.5

4.5

16

-3.2

-14.5

-7.6

5.6

16.8

19.5

19.8

20.0

14.5

7.2

0.0

-2.9

6.3

17

-13.2

-10.9

-5.2

5.1

12.6

15.2

20.9

16.9

12.5

6.4

-0.9

-14.2

3.8

18

-10.9

-7.0

-2.5

7.7

16.9

14.9

19.7

18.8

13.9

9.0

1.2

-10.2

6.0

19

-11.1

-5.2

-3.3

7.1

12.8

17.7

18.8

17.4

13.5

10.5

-3.9

-5.9

5.7

20

-3.9

-12.7

-3.7

5.3

14.6

20.7

24.3

20.5

11.9

3.5

1.0

-3.1

6.5

..

..

..

..

..

..

..

..

..

..

..

..

..

..

85

-6.2

-9.9

-3.6

6.1

16.8

15.0

20.2

18.7

12.7

6.8

1.5

-2.5

6.3

86

-3.8

-4.9

2.3

7.1

13.5

16.7

19.0

20.0

14.1

7.4

0.7

-2.5

7.5

87

-2.2

-8.5

-5.1

9.0

17.3

17.3

20.0

19.7

15.2

7.9

1.7

-2.9

7.5

88

-11.4

-12.3

-2.8

8.1

14.6

19.9

18.9

20.9

14.4

8.4

1.5

0.6

6.7

89

0.1

-7.6

3.8

7.1

17.0

19.2

21.0

22.4

14.1

8.5

-1.1

-4.2

8.4

90

-8.5

-2.8

4.0

11.2

13.7

17.2

21.1

21.0

13.1

9.7

2.7

-3.3

8.3

91

-5.4

-4.4

-0.2

7.4

14.6

20.2

21.6

17.5

16.6

8.8

2.8

-5.4

7.8

92

-14.8

-6.4

-1.3

9.4

17.3

22.4

26.4

25.4

14.6

5.1

5.9

-3.3

8.4

93

-8.7

-11.8

-3.4

7.3

17.1

20.6

23.7

20.2

14.0

7.0

-1.0

-0.2

7.1

94

-6.8

-12.1

-2.5

11.9

18.4

20.1

22.1

20.3

14.4

9.8

2.7

-5.9

7.7

95

-5.5

-3.2

-3.3

9.7

19.5

21.2

20.1

20.5

11.6

7.4

4.8

-2.5

8.4

96

-8.6

-4.1

2.9

8.8

18.5

17.9

22.3

21.8

14.4

5.9

-0.8

-3.4

8.0

97

-4.7

-3.3

1.7

8.1

16.3

20.7

21.1

19.8

17.6

5.1

2.4

0.0

8.7

98

-8.0

-3.3

2.6

10.3

15.2

19.6

22.6

21.9

13.0

6.1

-1.1

-5.9

8.1

99

-6.4

-5.4

3.7

8.5

14.0

17.2

20.4

21.6

15.1

6.6

0.6

1.5

8.1

100

-5.1

-7.5

-5.9

8.8

18.2

19.0

22.0

21.4

17.6

9.4

-1.4

-5.1

7.6

101

-6.8

-2.5

1.3

10.2

17.1

22.2

19.2

19.4

14.4

10.5

1.9

0.3

8.9

102

-0.4

-0.6

5.7

7.5

13.4

21.3

21.9

20.1

16.9

11.3

1.6

-5.3

9.5

103

-3.9

-7.8

-0.5

8.9

16.2

21.0

23.9

23.9

12.7

6.8

3.1

-4.2

8.3

104

-5.3

-0.9

-1.8

10.2

11.8

20.5

20.9

23.4

11.9

8.7

0.7

-2.1

8.2

X

Представлен начальный и конечный фрагменты таблицы, так как количество измерений превышает 100.

  1. Расчёты по каждому месяцу

Необходимо представить ряд расчётов для каждого месяца.

Рассчитать: объём выборки, минимальное значение, максимальное значение, первый квартиль, медиану, третий квартиль, межквартильный размах, среднее, стандартное отклонение, стандартную ошибку среднего, коэффициент вариации, коэффициент асимметрии.

Необходимые характеристики были вычислены следующим образом: - объём выборки: функция length(); - минимальное значение: функция min(); - максимальное значение: функция max(); - первый квартиль: функция quantile() с параметром 0.25; - медиана: функция quantile() с параметром 0.5; - третий квартиль: функция quantile() с параметром 0.75; - межквартильный размах: разность между значениями первого и третьего квартиля; - среднее: функция mean(); - стандартное отклонение: функция sd(); - стандартная ошибка среднего: функция std.error() библиотеки plotrix; - коэффициент вариации: отношение стандартного отклонения к среднему значению; - коэффициент асимметрии: функция skewness() библиотеки moments.

Полученные данные были собраны в единый data frame.

Таблица 2 - расчёты по месяцам

Таблица 2 - расчёты по месяцам

4.1. Блочные диаграммы

Необходимо построить на одном графике блочные диаграммы с визуализацией выбросов для всех двенадцати месяцев

Блочные диаграммы были построены при помощи функции boxplot().

Результат работы представлен на рисунке.

Температура

Месяц

Рисунок 1 - блочные диаграммы

4.2. Идентификация выбросов

Необходимо идентифицировать все выбросы и составить таблицу выбросов, в которой нужно указать значение, год и месяц каждого выброса.

Выбросы были получены при помощи функции boxplot.stats() и собраны в один data frame.

Результат работы представлен в таблице.

Значение

Год

Месяц

13

1929

апр

92

2010

июл

92

2010

авг

103

2021

авг

4

1920

окт

28

1946

окт

58

1976

окт

102

2020

окт

75

1993

ноя

80

1998

ноя

92

2010

ноя

3

1875

дек

Таблица 3 - выбросы

X

5. Гистограммы

Для каждого месяца привести гистограмму (график распределения) и сделать обоснованный вывод о наличии и степени выраженности свойства симметричности данных (положительная или отрицательная, сильная или слабая).

Для построения гистограмм использовали функцию hist(). На основании построенных гистограмм можно судить о симметричности данных.

Результат работы представлен на рисунках.

Frequency – частота, month – месяц.

Рисунок 2 - гистограмма январь

Январь - слабая симметрия, отрицательная асимметрия.

Рисунок 3 - гистограмма февраль

Февраль - средняя симметрия (относительно других месяцев), отрицательная асимметрия.

Рисунок 4 - гистограмма март

Март - сильная симметрия, положительная асимметрия.

Рисунок 5 - гистограмма апрель

Апрель - сильная симметрия, отрицательная асимметрия.

Рисунок 6 - гистограмма май

Май - средняя симметрия, положительная асимметрия.

Рисунок 7 - гистограмма июнь

Июнь - сильная симметрия, положительная асимметрия.

Рисунок 8 - гистограмма июль

Июль - слабая симметрия, положительная асимметрия.

Рисунок 9 - гистограмма август

Август - слабая симметрия, положительная асимметрия.

Рисунок 10 - гистограмма сентябрь

Сентябрь - средняя симметрия, положительная асимметрия.

Соседние файлы в предмете Статистический анализ