Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
2
Добавлен:
19.01.2025
Размер:
6.84 Mб
Скачать

Примечание: Москва и Московская область исключены из рассмотрения как аномальные

Рис. 1.14. Гистограмма численности населения регионов ЦФО за 2014 г., с числом «карманов», определенных по формуле Стерджеса

21

Лабораторная работа №2. Проверка на соответствие нормальному закону распределения

ИСХОДНЫЕ ДАННЫЕ.

Из файла «Данные _Задание 2_Эконометрика.xlsx выберите вариант, согласно номеру в группе по списку.

В Лабораторной работе №2 необходимо провести проверку эмпирических данных на соответствие их нормальному закону распределения. Для описания пояснений в методических указаниях используются измерения времени полета в рейсах, совершенных в 2015 году различными авиакомпаниями. Иллюстративный пример выборки для анализа представлен в Приложении №1. Каждое наблюдение – это продолжительность определенного авиарейса в минутах.

ВАРИАНТ определяется по номеру студента в группе (см. файл Списки групп)

Максимальный балл – 9.

ЗАДАНИЕ.

Задание 1. Представьте информацию о переменной, используя надстройку «Анализ данных» Описательные статистики. Постройте гистограмму с использованием диаграмм Excel.

Задание 2. Постройте функцию плотности распределения. Нанесите линию на гистограмму (3 балла). На основании визуального анализа, можно ли предполагать, что случайная величина распределена по нормальному закону распределения.

Задание 3. Проверьте ряд данных на наличие аномальных значений. Если аномальные значения идентифицированы, исключите их из выборки. Повторите п.1-4 после исключения аномальных значений (3 балла).

Задание 4. Проверьте ряд данных, полученный после исключения аномалий, на нормальный закон распределения с использованием коэффициентов асимметрии и эксцесса. Подтвердилсялирезультатвизуального анализа? (3 балла).

МЕТОДИЧЕСКИЕ УКАЗАНИЯ К ВЫПОЛНЕНИЮ ЛАБОРАТОРНОЙ РАБОТЫ

Для первичного анализа данных рассчитаем описательные статистики с помощью пакета «Анализ данных», как это было показано в Лабораторной работе №1. Результат представлен на рисунке 2.11.

1 Здесь отмечена опция «Метки в первой строке» и выделен интервал B1:B415

Рис. 2.1. Результаты расчета описательных статистик по данным о длительности авиарейсов

Иллюстративный набор данных состоит из 414 наблюдений. Однородными их считать нельзя – коэффициент вариации составляет более 44%. Значения медианы и выборочного среднего отличаются друг от друга, а значения коэффициентов асимметрии и эксцесса отличаются от нуля. Значит, похоже, что эмпирическое распределение отклоняется от нормального.

Рассмотрим подробнее интерпретацию характеристик асимметрии As и эксцесса Е. Их основной смысл заключается в оценке разницы между эмпирическим распределением и нормальным распределением, что проиллюстрировано на рисунках 2.2 и 2.3. В нашем случае Е > 0,то есть распределение вытянуто вверх, и As > 0, то есть смещение в правую сторону.

Остановимся на порядке расчета коэффициентов асимметрии и эксцесса. Это, соответственно, третий и четвертый центральные моменты распределения, тогда как второй центральный момент – это дисперсия, а начальный – математическое ожидание. Из формулы четвертого центрального момента часто

вычитается число «3», поскольку

это

– значение

эксцесса

наиболее

часто

встречающегося нормального распределения.

 

 

 

 

 

 

 

 

 

Непосредственно формула

расчета

коэффициента

асимметрии –

(2.1),

коэффициента эксцесса – (2.2).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

̅

,

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

̅

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где – объем выборки, ̅– выборочное

среднее,

 

– стандартное отклонение.

 

23

 

 

 

 

Рис. 2.2. Иллюстрация левосторонней (As < 0) и правосторонней (As > 0) асимметрии относительно кривой плотности нормального распределения

Рис. 2.3. Иллюстрация плосковершинности (Е < 0) и вытянутости (Е > 0) относительно кривой плотности нормального распределения

24

Воспользуемся формулами (2.1) и (2.2), чтобы найти значения коэффициентов вручную. Для этого нам необходимо для каждого наблюдения найти его отклонения от среднего, затем оценить его отношение к стандартному отклонению. Полученное число далее возводится в третью степень для расчета коэффициента эксцесса или в четвертую степень для расчета коэффициента асимметрии. Сумма полученных значений подставляется в соответствующую формулу. На рисунке 2.4 приведена иллюстрация этапа расчетов.

Рис. 2.4. Этап ручного расчета коэффициентов асимметрии и эксцесса

В результате получаем сумму по столбцу «^3» (Рис. 2.4) – 534,24;а по столбцу «^4» (Рис. 2.4) – 2560,01. Подставляем эти числа в формулы (2.1), (2.2), получаем:

 

534,24 1,2998,

 

2560,01

оба значения сошлись.

,

3,267

Теперь визуализируем эмпирическое распределение, построив гистограмму одним из способов, приведенных в Лабораторной работе №2. Результат представим на рисунке 2.5. Для большей наглядности нанесем на график линию плотности нормального распределения.

Функция плотности нормального распределения рассчитывается по формуле (2.3)1.

 

 

 

 

 

 

 

 

,

 

 

 

 

 

 

 

 

 

Здесь:

– математическое ожидание,

– дисперсия случайной величины.

 

 

 

 

 

 

 

 

Посчитаем значение функции в середине каждого из интервалов. Середина интервала – это среднее между его верхней и нижней границами. Подставляем значения рассчитанные значения центров интервалов в формулу (2.3) (Рис. 2.6).

1 В MS Excel для таких расчетов есть встроенная функция НОРМ.РАСП

25

Рис. 2.5. Гистограмма длительностей авиарейсов по иллюстративному примеру

Рис. 2.6. Этап расчета функции плотности нормального распределения

Теперь добавим полученных ряд данных «F(X)» на график. Для этого нужно в главном меню зайти в раздел «Работа с диаграммами» → «Конструктор диаграмм» → «Выбрать данные», и далее «Добавить» ряд со значениями функции. Затем необходимо выбрать: «Работа с диаграммами» → «Конструктор диаграмм» → «Изменить тип диаграммы» и в открывшемся окне задать настройки, указанные на рисунке 2.7.

Итоговый результат – на рисунке 2.8.

По графику можно видеть, что предположения о вытянутости эмпирического распределения вверх и о его сдвиге вправо, сделанные на основе анализа описательных статистик, подтверждаются. Также на графике можно видеть аномально высокие значения в крайне правом интервале.

Тем не менее, на основе такого анализа нельзя сделать окончательный вывод о соответствии исследуемой величины нормальному закону распределения. Чтобы решить, является ли распределение нормальным, нам необходимо провести проверку статистических гипотез.

Тестирование данных на нормальность является достаточно частым этапом первичного анализа данных, так как большое количество статистических методов использует тот факт, что данные распределены нормально.

26

Рис. 2.7. Настройка комбинированного графика

Рис. 2.8. Визуализация эмпирического распределения

27

Существует множество тестов, позволяющих провести такое тестирование

– например, критерий χ2, тест Шапиро-Уилка и др. [2].

Одним из наиболее простых способов тестирования является критерий асимметрии и эксцесса. Необходимо проверить, выполняются ли следующие соотношения (формулы 2.4а, 2.4б).

 

 

 

 

| |

1.5

,

 

а)

 

 

 

 

 

 

 

1.5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

| |

2

,

 

б)

где

 

– стандартная

 

 

 

2

 

 

– стандартная

 

 

 

ошибка асимметрии (формула 2.5),

ошибка

 

 

 

 

 

 

 

 

 

 

эксцесса (формула 2.6).

 

 

 

 

 

3

 

5

(2.5)

(2.6)

Если выполняются оба условия в соотношении (2.4а), значит, нет оснований отвергнуть гипотезу о нормальном распределении выборочных данных. Если хотя бы одно из условий не выполняется, то необходимо проверить группу условий (2.4б) – если они выполняются, то распределение не является нормальным. В противном случае определенный вывод сделать нельзя, требуется использовать другие способы проверки.

Подставляем данные примера:

 

3

 

5

 

3

 

.

0,358,

 

 

 

 

0,058

 

 

 

 

Проверяем условия (2.4а):

|1,2998| 0,537, 3,267 0,087, неверно.

Проверяем условия (2.4б):

|1,2998| 0,716, 3,267 0,116, верно.

28

Следовательно, данные не соответствуют нормальному закону распределения.

Проверим предположение, что в данном случае близость к нормальному распределению зависит от выбросов, замеченных на гистограмме. Аномальные значения (выбросы) – это единичные значения, сильно отличающиеся от основной выборки. Обрабатывать выбросы необходимо, так как они влияют на выводы, получаемые на основе анализа выборки. Простейшие способы основаны на межквартильном расстоянии — например, всё, что не попадает в определенный диапазон, считается аномальным.

Известно, что при распределении, близком к нормальному, в интервал «трех сигм» 3σ попадает 99,8% процентов всей выборки, а остальные можно считать аномальными.

Обычно для определения выбросов используется «двухсигменный» 2σ интервал: в него попадает 95% процентов от всей выборки (Рисунок 2.9). Суть метода состоит в том, что любые значения ряда, отличающиеся от среднего больше, чем на два стандартных отклонения, являются потенциальными аномалиями.

Тогда алгоритм состоит в следующих шагах:

1)рассчитаем среднее и стандартное отклонение,

2)рассчитаем интервал сравнения: ̅ 2 ; ̅ 2 ;

3)проверим, входит ли каждое наблюдение в этот интервал; если не входит, его можно считать аномальным:

4)сформируем новую выборку, убрав из исходной обнаруженные аномальные значения.

Применим этот алгоритм и пометим каждое наблюдение «1», если оно окажется аномальным, и «0» в обратном случае. Интервал равен [19,96; 326,74]. Иллюстрация расчетов приведена на рисунке 2.10. В результате получаем, что 20 наблюдений из 414 являются аномальными значениями.

29

Рис. 2.9. Иллюстрация интервалов на функции плотности нормального распределения

Рис. 2.10. Этап определения аномальных значений

Сформируем новую выборку, исключив из исходной аномальные значения1, и проверим ее на нормальность. Результаты расчета описательных статистик и гистограмма представлены на рисунке 2.11.

Визуально понятно, что сейчас гистограмма более точно соответствует кривой плотности нормального распределения. Видно, что авиакомпания осуществляет только малую часть рейсов на ближние или дальние дистанции, большая часть в среднем составляет от 2 до 5 часов.

Коэффициент вариации снизился до 36%, а значения коэффициентов асимметрии и эксцесса стали значительно ближе к 0.

Повторяем все предыдущие вычисления, но с поправкой на новую выборку. Проверяем условия (2.4а):

1 Для этого можно включить «Фильтр» на заголовках столбцов и выбрать только строки, в которых

содержится «0» в столбце «Аномалии?» и далее скопировать полученную выборку на новый лист.

30