- •Міністерство освіти та науки україни
- •Інформаційні системи в менеджменті
- •Содержание
- •Лабораторная работа №1 Проверка гипотезы о нормальном распределении
- •Лабораторная работа №2 Проверка гипотезы о математическом ожидании
- •Задание
- •Лабораторная работа №3 Двухвыборочные критерии
- •Задания
- •Лабораторная работа №4 Проверка гипотезы об однородности дисперсий
- •Задания
- •Лабораторная работа №5 Однофакторный дисперсионный анализ
- •Задания
- •Лабораторная работа №6 Ранговый критерий
- •Задания
- •Лабораторная работа №7 Двухфакторный дисперсионный анализ
- •Задания.
- •Продолжительности проявления.
- •Лабораторная работа №8 Проверка гипотезы об однородности выборок
- •Содержание контрольного задания
- •Литература
Лабораторная работа №6 Ранговый критерий
Методы оценки разности между средними значениями или медианами выборок, извлеченных из двух или нескольких генеральных совокупностей, работают при условии, что объемы выборок достаточно велики и генеральные совокупности распределены нормально. В противном случае можно применить непараметрическую процедуру, не зависящую от предположения о нормальном распределении генеральных совокупностей. Оценить разность между медианами двух генеральных совокупностей позволяет критерий Уилкоксона. Критерий Уилкоксона можно применять даже тогда, когда доступны лишь ранговые показатели. Эта ситуация довольно часто встречается в маркетинговых исследованиях, когда отсутствуют числовые данные, что не позволяет применять t-критерии. Обобщением рангового критерия Уилкоксона является ранговый критерий Крускала-Уоллиса для оценки разностей между c медианами ( c>2).
Альтернативой F-критерию в однофакторном дисперсионном анализе является критерий Крускала-Уоллиса. Ранговый критерий Крускала-Уоллиса применяется для проверки гипотезы, что c независимых выборок извлечены из генеральных совокупностей, имеющих одинаковые медианы. Другими словами, нулевая и альтернативная гипотезы формулируется следующим образом:
H0 : M1 = M2 = … = Mc
H1 : не все Mj (j = 1,2,…,c) являются одинаковыми. (1)
Для этого необходимо знать ранги, вычисленные по всем выборкам, а c генеральных совокупностей, из которых они извлечены, должны иметь одинаковые изменчивость и вид.
Для того, чтобы применить критерий Крускала-Уоллиса, сначала необходимо заменить наблюдения в c выборках их объединенными рангами. При этом первый ранг соответствует наименьшему наблюдению, а ранг n – наибольшему (n = n1 + n2 + … + nc). Если некоторые значения повторяются, им присваивается среднее значение их рангов.
H-статистика
в критерии Крускала-Уоллиса аналогична
величине SSB – межгрупповой вариации,
по которой вычисляется F-статистика.
Вместо сравнения средних значений
j
всех с
групп с общим средним
,
в критерии
Крускала-Уоллиса средние ранги каждой
из с
групп сравниваются с общим рангом,
вычисленным на основе всех n
наблюдений. Если существует статистически
значимый эффект эксперимента, средние
ранги каждой группы будут значительно
отличаться друг от друга и от общего
ранга. При возведении этих разностей в
квадрат H-статистика увеличивается. С
другой стороны, если эффект эксперимента
не наблюдается, статистика H
теоретически должна быть равна нулю.
Однако на практике вследствие случайных
изменений статистика H
будет ненулевой, но достаточно малой.
Формула для вычисления H-статистики
имеет вид:
,
(2)
где n – общее количество наблюдений в объединенных выборках, nj - количество наблюдений в j-ой выборке ( j = 1,2,…,c), Tj – сумма рангов j-ой выборки.
При достаточно большом объеме выборки ( > 5) H-статистику можно аппроксимировать 2-распределением с c-1 степенями свободы. Таким образом, при заданном уровне значимости решающее правило формулируется так: гипотеза H0 отклоняется, если H > 2U, в противном случае нулевая гипотеза о равенстве медиан не отклоняется. Критические значения 2U находят по таблице в зависимости от уровня значимости и степени свободы.
Задача 1. Парашюты изготовляются из синтетических волокон, поставляемых четырьмя разными поставщиками. Необходимо оценить, зависит ли прочность парашюта от поставщика синтетических волокон. В каждой из групп данных по пять парашютов. Группы разделены по поставщикам. Прочность парашютов измеряется с помощью специального устройства, испытывающего ткань с двух сторон. Сила, необходимая для разрыва парашюта, измеряется по особой шкале. Чем выше сила разрыва, тем прочнее парашют. Результаты эксперимента и некоторые описательные статистики представлены в таблице:
|
Поставщик |
|||
|
П1 |
П2 |
П3 |
П4 |
|
18,5 |
26,3 |
20,6 |
25,4 |
|
24 |
25,3 |
25,2 |
19,9 |
|
17,2 |
24 |
20,8 |
22,6 |
|
19,9 |
21,2 |
24,7 |
17,5 |
|
18 |
24,5 |
22,9 |
20,4 |
Среднее |
19,52 |
24,26 |
22,84 |
21,16 |
Станд. откл. |
2,690167 |
1,919114 |
2,133776 |
2,98379 |
Рис.1. Исходные данные.
Анализ данных показывает, что между выборочными средними наблюдается некоторая разница. Можно ли считать эту разницу статистически значимой?
Нулевая гипотеза заключается в том, что прочность всех парашютов одинакова (с=4):
H0 : M1 = M2 = M3 = M4
Альтернативная гипотеза:
H1 : не все Mj (j = 1,2,3,4) являются одинаковыми.
Для определения рангов сгруппируем таблицу данных и отсортируем ее по возрастанию, а затем определим ранги:
Поставщик |
Почность |
Ранг |
П1 |
17,2 |
1 |
П4 |
17,5 |
2 |
П1 |
18 |
3 |
П1 |
18,5 |
4 |
П1 |
19,9 |
5,5 |
П4 |
19,9 |
5,5 |
П4 |
20,4 |
7 |
П3 |
20,6 |
8 |
П3 |
20,8 |
9 |
П2 |
21,2 |
10 |
П4 |
22,6 |
11 |
П3 |
22,9 |
12 |
П1 |
24 |
13,5 |
П2 |
24 |
13,5 |
П2 |
24,5 |
15 |
П3 |
24,7 |
16 |
П3 |
25,2 |
17 |
П2 |
25,3 |
18 |
П4 |
25,4 |
19 |
П2 |
26,3 |
20 |
Вернемся к исходной таблице, но добавим в нее ранги:
|
F |
G |
H |
I |
J |
K |
L |
M |
N |
O |
1 |
П1 |
|
П2 |
|
П3 |
|
П4 |
|
|
|
2 |
Проч- ность |
Ранг |
Проч- ность |
Ранг |
Проч- ность |
Ранг |
Проч- ность |
Ранг |
c |
n |
3 |
18,5 |
4 |
26,3 |
20 |
20,6 |
8 |
25,4 |
19 |
4 |
20 |
4 |
24 |
13,5 |
25,3 |
18 |
25,2 |
17 |
19,9 |
5,5 |
|
|
5 |
17,2 |
1 |
24 |
13,5 |
20,8 |
9 |
22,6 |
11 |
|
|
6 |
19,9 |
5,5 |
21,2 |
10 |
24,7 |
16 |
17,5 |
2 |
|
210 |
7 |
18 |
3 |
24,5 |
15 |
22,9 |
12 |
20,4 |
7 |
|
|
8 |
Tj |
27 |
|
76,5 |
|
62 |
|
44,5 |
210 |
|
9 |
Tj2 |
729 |
|
5852,25 |
|
3844 |
|
1980,25 |
|
|
10 |
Tj2/nj |
145,8 |
|
1170,45 |
|
768,8 |
|
396,05 |
2481,1 |
|
11 |
|
|
|
|
|
|
|
|
|
|
12 |
H |
7,88857 |
2U |
7,814728 |
p-знач. |
0,048372 |
|
|
|
|
Рис. 4.20. Результаты применения критерия Крускала-Уоллиса.
Здесь кроме исходных данных приведены результаты расчета H-статистики. В ячейках G8, I8, K8 и M8 находятся суммы рангов по каждой группе (поставщикам), а в ячейках G9,I9,K9 и M9 – их квадраты. В ячейках G10,I10,K10 и M10 - отношения квадратов сумм рангов к объемам выборок, т.е. к 5. В столбце N находятся суммы рангов всех выборок (N8) и сумма квадратов отношений (N10). В ячейке O3 находится общий объем всех выборок. В ячейке O6 – контрольная сумма всех рангов, с которой должна совпадать сумма рангов в ячейке N8: =O3*(O3+1)/2. В ячейке G12 находится вычисленное значение H-статистики: =N10*12/O3/(O3+1)-3*(O3+1). В ячейке K12 p-значение, найденное по формуле =ХИ2РАСП(G12;N3-1), а в N3 – значение c.
При уровне значимости 0,05 и количестве степеней свободы c-1=4–1=3 находим по таблице верхнее критическое значение 2U = 7,815. Найти критическое значение 2U можно с помощью статистической функции =ХИ2ОБР(0,05;3), которая и введена в ячейку I12. Поскольку вычисленное значение H = 7,889 и превышает критическое значение, нулевая гипотеза отвергается. Это подтверждается и p-значением, которое меньше уровня значимости. Следовательно, не все фирмы поставляют синтетическое волокно, прочность которого имеет одинаковую медиану.
Для применения критерия Крускала-Уоллиса должны выполняться следующие условия: все выборки случайно и независимо друг от друга извлекаются из соответствующих генеральных совокупностей; анализируемая переменная является непрерывной; наблюдения допускают ранжирование как внутри, так и между группами; все генеральные совокупности имеют одинаковую изменчивость и одинаковый вид. Процедура Крускала-Уоллиса имеет меньше ограничений, чем F-критерий. Для применения F-критерия переменная должна быть числовой, а выборки должны извлекаться из нормально распределенных генеральных совокупностей, имеющих одинаковую дисперсию. Если эти условия не выполняются, более мощным становится критерий Крускала-Уоллиса, и следует пользоваться именно им.
Индивидуальные задания к лабораторным работам №5-№8 выбираются в соответствии с вариантом по таблице, приведенной в конце ЛР №8.
