Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
4
Добавлен:
19.01.2025
Размер:
6.84 Mб
Скачать

|0,238|

0,55,

, второе условие не выполняется.

0,275

 

0,09

 

 

 

Проверяем условия (2.4б):

|0,238|

0,734,

, первое условие не выполняется.

0,275

 

0,12

 

 

 

На основании расчетов по критерию асимметрии и эксцесса нельзя сделать окончательный вывод о соответствии выборочных данных нормальному закону распределения. Тем не менее, очевидно, что исключение аномальных значений позволило повысить однородность данных.

Рис. 2.11. Анализ новой выборки после исключения аномальных значений

Пример реализации лабораторной работы №2

Задание 1.

В качестве исходных данных рассматриваются данные по кредитным картам, предоставленные на сайте Kaggle. В качестве исследуемой переменной выбрана переменная «текущая задолженность по кредиту в долях относительно исходной суммы». Обозначим случайную величину как V1. Описательные статистики представлены на рисунке 2.12, гистограмма представлена на рисунке

2.13.

31

Рис. 2.12. Описательные статистики для исходных данных лабораторной работы №2

Рис. 2.13. Гистограмма по переменной V1

Задание 2.

На рисунке 2.14 представлена гистограмма частот с нанесенной функцией плотности нормального распределения. На основании визуального анализа, можно предполагать, что случайная величина V1 имеет закон распределения отличный от нормального закона распределения.

Для построения гистограммы частот рассчитаем карманы. По формуле Стерджеса должно быть получено 14 карманов. Фрагмент расчетов представлен на рисунке 2.15.

32

Рис. 2.14. Функция плотности распределения и гистограмма случайной величины V1 по заданию 2 лабораторной работы 2

Рис. 2.15. Фрагмент расчета карманов в Excel для задания 2 лабораторной работы

2.

Столбец «Частота» определим следующим выражением: =СЧЁТЕСЛИМН($A$2:$A$7507;">="&M2;$A$2:$A$7507;"<="&N2).

Определим функцию плотности распределения и построим комбинированную диаграмму.

Проверим ряд данных V1 на нормальный закон распределения. Фрагмент расчетов в Excel представлен на рисунке 2.16.

33

Рис. 2.16. Проверка на нормальный закон распределения. Задание 2 Лабораторная работа 2.

Так как значение асимметрии и эксцесса превышают двукратную стандартную ошибку асимметрии и эксцесса, распределение даже приближенно не является нормальным.

Задание 3.

Проверим ряд данных на наличие аномальных значений. Для этого рассчитаем среднее значение и стандартное отклонение. Исключим аномальные значения переменной V1, не входящие в диапазон 2,25 1 2,855. Для этого сформируем столбец, который будет принимать значение «1», если значение переменой V1 выходит за указанные границы. Далее с помощью фильтра исключим эти значения. Число наблюдений после исключения аномалий составит 7212. Таким образом, было исключено 295 наблюдений.

Задание 4.

Проверим ряд данных с учетом исключения аномальных значений на нормальный закон распределения. Фрагмент расчетов в Excel представлен на рисунке 2.17.

Рис. 2.17. Проверка на нормальный закон распределения. Задание 4 Лабораторная работа 2.

34

Так как значение асимметрии и эксцесса не превышают двукратную стандартную ошибку асимметрии и эксцесса, гипотезу о нормальном распределении случайной величины нет оснований отвергнуть.

Функция плотности распределения случайной величин V1 без аномалий и гистограмма частот представлены на рисунке 2.18.

Рис. 2.18. Функция плотности распределения и гистограмма случайной величины V1 по заданию 4 лабораторной работы 2 без аномалий

35

Лабораторная работа №3. Проверка статистических гипотез

ИСХОДНЫЕ ДАННЫЕ.

Данные, лабораторной работы №2.

Максимальный балл – 8.

ЗАДАНИЕ.

Задание 1. Проверьте гипотезу о нормальном законе распределения с помощью критерия согласия Пирсона на данных лабораторной работы №2 после исключения аномальных значений (2 балла).

Задание 2. Разделите ряд данных, полученный после исключения аномалий, на 2 подвыборки примерно равного объема. Проверьте гипотезу о равенстве средних и дисперсий двух сформированных подвыборок. Выполните проверку для различных значений доверительной вероятности (0,95;09;0,99).

Изменилсяливыводприразныхзначенияхдоверительнойвероятности. (3 балла) Задание 3. По ряду данных, полученных после исключения аномалий найдите точечную и интервальную оценки среднего. Найдите доверительные интервалы для различных значений доверительной вероятности (0,95;09;0,99).

При каком значении доверительной вероятности доверительный интервал шире. Почему ? (3 балла)

МЕТОДИЧЕСКИЕ УКАЗАНИЯ К ВЫПОЛНЕНИЮ ЛАБОРАТОРНОЙ РАБОТЫ

При обосновании выводов о генеральной совокупности возникает необходимость постановки и проверки набора статистических гипотез. Под статистической гипотезой понимается всякое высказывание о генеральной совокупности, проверенное по результатам наблюдений. Не располагая сведениями о генеральной совокупности, сформулированную гипотезу по определенным правилам сопоставляют с оценками по выборке и делают вывод о том, можно ли принять гипотезу. Процедура сопоставления называется

проверкой гипотезы.

Для проверки необходимо на основе имеющейся выборки, руководствуясь конкретными условиями задачи, сформулировать базовую гипотезу Н0 и конкурирующую с ней (альтернативную) гипотезу Н1. Далее задаются некоторой малой вероятностью α, которая называется также «ошибкой первого рода». Обычно по умолчанию уровень значимости α принимается равным 0,05. При заданном уровне значимости необходимо ответить на вопрос, какую из гипотез Н0 или Н1 следует принять и какую, соответственно, отвергнуть. Конкретный метод проверки зависит от характеристик выборки (например, ее объема) и от решаемой задачи.

Продолжим работать с набором данных из Лабораторной работы №2, очищенным от аномальных значений. Прежде всего, проверим соответствие этой выборки нормальному закону распределения с помощью критерия согласия Пирсона (критерия χ2).

Сформулируем проверяемые гипотезы:

Н0: Х = N(a, σ2), случайная величина Х соответствует нормальному закону распределения N(a, σ2), где a – математическое ожидание, σ2 – дисперсия;

Н1: Х N(a, σ2), случайная величина Х не соответствует нормальному закону распределения N(a, σ2).

Рассмотрим все этапы проверки.

Шаг 1: необходимо разделить выборку на интервалы и оценить частоты. Это уже было получено для построения гистограммы.

Шаг 2: найти середину каждого интервала и стандартизировать (нормировать) ее. Середину интервала легко найти как среднее между левой и правой границами (Рисунок 3.1). Для процедуры нормирования нам понадобятся значения среднего и стандартного отклонения: в Лабораторной работе №2 эти

значения были оценены как

̅ 162,4

и

 

58,8

. Для каждого наблюдения

необходимо выполнить

 

 

 

 

преобразование по формуле (3.1).

 

 

 

 

 

 

̅

 

 

 

 

 

 

 

Шаг 3: рассчитать значение функции плотности нормального распределения ф(Х) для стандартизированных значений (Рисунок 3.1). Можно воспользоваться формулой (2.3) или применить встроенную функцию MS ExcelНОРМ.СТ.РАСП(Х, ЛОЖЬ). Если второй аргумент функции равен «ИСТИНА», то в результате будут рассчитаны значения функции распределения.

Шаг 4: рассчитать теоретические частоты по формуле (3.2).

 

∙ ф ,

где – длина интервала (шаг); – количество наблюдений, сумма эмпирических

частот

:

 

;

.

функция плотности

 

 

– количество интервалов. ф(Х)

нормального распределения

 

Значения

округляются до целого.

 

37

Рис. 3.1. Расчет нормированных значений

Шаг 5: сравнить теоретические и эмпирические частоты. При расчете критерия Пирсона необходимо соблюдать условия: число наблюдений должно быть достаточно велико (n > 50);если теоретические частоты в некоторых интервалах меньше 5, то интервалы объединяют так, чтобы частоты были больше 5.

На рисунке 3.2 представлены итоговые расчеты частот.

Рис. 3.2. Получение итоговых частот

Для каждого наблюдения необходимо найти отношение вида (3.3). Сумма этих значений по каждому из интервалов составляет расчетную статистику распределения

(формула (3.4)).

 

 

 

 

,

 

 

 

 

 

 

где

– количество интервалов после

объединения (если оно требуется).

 

 

,

 

38

 

 

 

Критическое значение статистики определяется уровнем значимости α и количеством степеней свободы – 1: ; – 1). Значение статистики можно найти в таблицах распределения или воспользоваться встроенной функцией MS

Excel ХИ2ОБР. Результаты расчетов представлены на рисунке 3.3:

36,2.

Рис. 3.3. Оценка расчетного значения статистики Хи-квадрат

Если расчетное значение окажется меньше критического (табличного), значит, нет оснований отвергнуть базовую гипотезу Н0. В обратном случае базовая гипотеза отвергается, и принимается альтернативная гипотеза Н1. Мы можем получить разные результаты в зависимости от того, каким уровнем значимости задаемся.

Согласно расчетам на рисунке 3.4, только при уровне значимости 0,001 гипотеза о нормальном распределении не отвергается; при более высоких уровнях значимости предположения о нормальности не принимаются.

Исследователей также часто интересует вопрос об однородности выборки относительно дисперсии и относительного среднего, или, иными словами, о равенстве дисперсий и средних в двух подвыборках.

Базовый способ проверки равенства дисперсий – двухвыборочный критерий Фишера (F-тест).

Рассмотрим подробнее порядок расчета.

39

Рис. 3.4. Расчет критического значения статистики

Шаг 1: отсортировать значения в выборке и разделить на две группы (как правило, делят примерно пополам). Иллюстрация разделения выборки из предыдущего примера на две группы «1» и «2» представлена на рисунке 3.5.

Рис. 3.5. Разделение выборки на две части

Шаг 2: сформулировать проверяемые гипотезы. Базовая гипотеза состоит в предположении о равенстве дисперсий по группе «1» 12 и по группе «2» 22 ; альтернативная гипотеза состоит в обратном:

H0 : 12 22

H1 : 12 22

Шаг 3: найти расчетное и критического значение статистики Фишера. Расчетное значение определяется по формуле (3.5).

 

 

 

 

 

 

,

где

 

– выборочные дисперсии,

.

 

 

Критическое,

значение определяется

1

 

 

уровнем значимости α, а также

количеством наблюдений в группе «1» n1 и в группе «2» n2: F(α, n1– 1; n2 – 1). Два последних параметра являются степенями свободы и обозначаются буквами

«df».

1 Выборкой «номер 1» здесь считается та, где выборочная дисперсия больше: это гарантирует, что

расчетное значение статистики Фишера будет больше 1.

40