- •Міністерство освіти та науки україни
- •Інформаційні системи в менеджменті
- •Содержание
- •Лабораторная работа №1 Проверка гипотезы о нормальном распределении
- •Лабораторная работа №2 Проверка гипотезы о математическом ожидании
- •Задание
- •Лабораторная работа №3 Двухвыборочные критерии
- •Задания
- •Лабораторная работа №4 Проверка гипотезы об однородности дисперсий
- •Задания
- •Лабораторная работа №5 Однофакторный дисперсионный анализ
- •Задания
- •Лабораторная работа №6 Ранговый критерий
- •Задания
- •Лабораторная работа №7 Двухфакторный дисперсионный анализ
- •Задания.
- •Продолжительности проявления.
- •Лабораторная работа №8 Проверка гипотезы об однородности выборок
- •Содержание контрольного задания
- •Литература
Лабораторная работа №2 Проверка гипотезы о математическом ожидании
Для проверки гипотезы о математическом ожидании генеральной совокупности при неизвестной дисперсии используется критерий, подчиняющийся
t-распределению Стьюдента. Одновыборочный t-критерий применяется в тех случаях, когда стандартное отклонение генеральной совокупности неизвестно и оценивается с помощью выборочного стандартного отклонения. Этот критерий является классическим параметрическим критерием. Его применение ограничено выборками из нормально распределенных совокупностей или достаточно близкими к ним, что требует обязательной предварительной проверки.
Если случайная величина X является нормально распределенной, то статистика
(1)
имеет t-распределение с n-1 степенями свободы (n – объем выборки). Однако t-критерий можно применять при достаточно большом объеме выборки и не слишком асимметричном распределении. Небольшие выборки следует проверять с помощью построения гистограммы, графика нормального распределения и описательных статистик ( см. ЛР №1). Критические значения для t-распределения в зависимости от степеней свободы сведены в таблицу и могут быть вычислены средствами Excel с помощью функции СТЬЮДРАСПОБР.
Доверительный интервал, содержащий математическое ожидание генеральной совокупности при неизвестном стандартном отклонении с вероятностью 1- , вычисляется по формуле:
(2)
где tкр – критическое значение t-распределения с n-1 степенями свободы, соответствующее площади, ограниченной правым хвостом и равной /2;
– стандартная
ошибка среднего(выборочное стандартное
отклонение).
Применение одновыборочного t-критерия рассмотрим на примере задачи об оценках.
Задача. В ходе проверки успеваемости студентов по результатам сдачи экзаменов после традиционного курса обучения требуется доказать, что средняя оценка составит 75 баллов.
Для проверки гипотезы с помощью двустороннего критерия необходимо выполнить следующие действия.
Формулируем нулевую и альтернативную гипотезы:
H0 : = 75,
H1 : 75.
Полагаем = 0,05.
Из генеральной совокупности оценок извлекается случайная выборка, содержащая результаты 9 студентов.
Поскольку, как установлено в ЛР №1, генеральная совокупность распределена приближенно нормально, применим t-критерий.
Выполним все необходимые расчеты в среде Excel, для чего исходные данные разместим на рабочем листе следующим образом:
|
A |
B |
1 |
N |
Оценки |
2 |
1 |
55 |
3 |
2 |
57 |
4 |
3 |
60 |
5 |
4 |
63 |
6 |
5 |
72 |
7 |
6 |
73 |
8 |
7 |
79 |
9 |
8 |
85 |
10 |
9 |
92 |
В результате получим:
|
D |
E |
1 |
Проверка гипотезы |
|
2 |
|
|
3 |
|
Данные |
4 |
Нулевая гипотеза: = |
75 |
5 |
Уровень значимости |
0,05 |
6 |
Объем выборки |
9 |
7 |
Выборочное среднее |
70,66666667 |
8 |
Выборочное станд. откл. |
12,95183385 |
9 |
|
|
10 |
|
|
11 |
Станд. ошибка среднего |
4,317277949 |
12 |
Степени свободы |
8 |
13 |
t - статистика |
-1,003718867 |
14 |
|
|
15 |
Двухсторонний критерий |
|
16 |
Нижняя доверит. граница |
-2,306004133 |
17 |
Верхняя доверит. граница |
2,306004133 |
18 |
p -значение |
0,344903769 |
19 |
H0 не отклоняется |
|
Рис. 1. Результаты проверки гипотезы
Введены такие формулы:
-
E
6
=СЧЁТ(B2:B10)
7
=СРЗНАЧ(B2:B10)
8
=СТАНДОТКЛОН(B2:B10)
9
10
11
=E8/КОРЕНЬ(E6)
12
=E6-1
13
=(E7-E4)/E11
14
15
16
=-СТЬЮДРАСПОБР(E5;E12)
17
=СТЬЮДРАСПОБР(E5;E12)
18
=СТЬЮДРАСП(ABS(E13);E12;2)
Рис. 2. Расчетные формулы
В ячейке E19 формула: =ЕСЛИ(E18<E5;"H0 отклоняется"; " H0 не отклоняется").
Поскольку t = -1,0037 и выполняется двустороннее неравенство
-2, 306 < t < 2,306,
тестовая статистика попадает в область принятия гипотезы, следовательно, нулевая гипотеза не отвергается.
В последние годы все большую популярность приобретают критерии проверки гипотез по наблюдаемому уровню значимости, который часто называют p–значением. Эта величина соответствует минимальной вероятности того, что нулевая гипотеза H0 будет отклонена на основе анализа исходного набора данных. Правило отклонения гипотезы H0 в этом случае выглядит так: если p-значение больше или равно , нулевая гипотеза не отклоняется; если p-значение меньше , нулевая гипотеза отклоняется.
Наблюдаемый уровень значимости, или p-значение, представляет собой вероятность того, что тестовая статистика лежит в области отклонения гипотезы при условии, что нулевая гипотеза H0 верна. Если статистика, лежащая в основе критерия, не имеет нормального распределения, вычислить p-значение очень трудно. По этой причине в статистическом программном обеспечении ( и в Microsoft Excel) предусмотрены специальные процедуры для вычисления p-значений.
Применяя подход, основанный на вычислении наблюдаемого уровня значимости (p-значение), приходим к такому же выводу. Наблюдаемый уровень значимости p = 0,3449 больше уровня значимости = 0,05. Поскольку p-значение является условной вероятностью, вычисленной при условии, что нулевая гипотеза верна, можно утверждать следующее: шанс обнаружить выборку, которая противоречит нулевой гипотезе, равен p100%.
Таким образом, нет оснований утверждать, что средняя оценка успеваемости отличается от 75 баллов. Более того, p-значение означает, что если бы нулевая гипотеза была верна, вероятность того, что выборочное среднее 9 оценок отличается от 75 баллов на величину не меньшую t = 4,3333, равна 0,3449. Иначе говоря, если математическое ожидание генеральной совокупности оценок студентов действительно равно 75 баллам, то в 34,5% случаев наблюдаемое выборочное среднее лежит за пределами интервала [70,667; 79,333].
Доверительный интервал для математического ожидания генеральной совокупности оценок студентов на экзамене в соответствии с формулой (2) при tкр = 2,306 и = 4,3173 : [ 60,71; 80,62].
При проверке гипотезы с помощью критического значения размер критической области принимается равным уровню значимости. Это дает возможность установить критические значения нормального распределения при известном ϭ или t-распределения при неизвестном ϭ, выраженные через стандартизованные величины Z или T. При формулировке альтернативной гипотезы в виде неравенства вида «≠» критерий двусторонний, и критическая область делится на две равные части. Следовательно, площадь, ограниченная хвостом t-распределения и нижним критическим значением , равна 0,025 при уровне значимости α =0,05. Соответственно, площадь области, ограниченная кривой и верхним критическим значением, равна 0,975. Для рассмотренной задачи критические значения равны -2,306 и 2,306.
В тех ситуациях, когда альтернативная гипотеза формулируется конкретно и предполагает, что параметр генеральной совокупности строго больше заданного значения или строго меньше, следует применять односторонний критерий. При этом область отклонения гипотезы целиком ограничена только одним хвостом распределения. Если альтернативная гипотеза содержит знак «<», критическое значение тестовой статистики должно быть отрицательным. Площадь области отклонения гипотезы ограничена левым хвостом t-распределения и критическим значением тестовой статистики и должна быть равной 0,05.
Все расчеты выполняются средствами Excel, но в отличие от проверки гипотезы с помощью двустороннего критерия необходимо воспользоваться односторонним критерием.
Расчетные формулы отличаются от приведенных на рис.2 , начиная с 15 строки. Обратите внимание на аргумент функции СТЬЮДРАСПОБР в ячейке E16: критическая область должна быть вдвое больше, чем для каждой из двух частей критической области в случае двустороннего критерия.
|
E |
16 |
=-СТЬЮДРАСПОБР(2*E5;E12) |
17 |
|
18 |
=ЕСЛИ(E13<0;G17;G18) |
|
G |
17 |
=СТЬЮДРАСП(ABS(E13);E12;1) |
18 |
=1-G17 |
Рис.3. Расчетные формулы для одностороннего критерия
Для доказательства альтернативной гипотезы H1: < 75 рабочий лист Excel может иметь такой вид (размещение исходных данных не изменилось):
|
D |
E |
F |
G |
1 |
Проверка гипотезы |
"<" |
|
|
2 |
|
|
|
|
3 |
|
Данные |
|
|
4 |
Нулевая гипотеза: = |
75 |
|
|
5 |
Уровень значимости |
0,05 |
|
|
6 |
Объем выборки |
9 |
|
|
7 |
Выборочное среднее |
70,66666667 |
|
|
8 |
Выбор. станд. откл. |
12,95183385 |
|
|
9 |
|
|
|
|
10 |
|
|
|
|
11 |
Станд. ошибка среднего |
4,317277949 |
|
|
12 |
Степени свободы |
8 |
|
|
13 |
t - статистика |
-1,00371886 |
|
|
14 |
|
|
|
|
15 |
Односторонний критерий |
"<" |
|
|
16 |
Нижнее критич. значение |
-1,85954803 |
|
|
17 |
|
|
t-расп |
0,172452 |
18 |
p -значение |
0,172451885 |
1 – t-расп |
0,827548 |
19 |
H0 не отклоняется |
|
|
|
Рис.4. Односторонний критерий
Поскольку t = -1,0037 и выполняется неравенство t > -1,85954803 , тестовая статистика попадает в область принятия гипотезы, следовательно, нулевая гипотеза не отвергается. Альтернативная гипотеза считается не доказанной, т.е. нет оснований утверждать, что средняя оценка составит меньше 75 баллов. Этот же вывод подтверждается значением p = 0,172452, которое значительно больше уровня значимости α =0,05.
Для проверки гипотезы о математическом ожидании, когда альтернативная гипотеза имеет вид строгого неравенства типа «>» ( H1 : > 75) в ячейку E16 следует ввести функцию с теми же аргументами, но без знака « – ».
