Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИСМ-ЛР-1.doc
Скачиваний:
3
Добавлен:
01.04.2025
Размер:
1.8 Mб
Скачать

Лабораторная работа №6 Ранговый критерий

Методы оценки разности между средними значениями или медианами выборок, извлеченных из двух или нескольких генеральных совокупностей, работают при условии, что объемы выборок достаточно велики и генеральные совокупности распределены нормально. В противном случае можно применить непараметрическую процедуру, не зависящую от предположения о нормальном распределении генеральных совокупностей. Оценить разность между медианами двух генеральных совокупностей позволяет критерий Уилкоксона. Критерий Уилкоксона можно применять даже тогда, когда доступны лишь ранговые показатели. Эта ситуация довольно часто встречается в маркетинговых исследованиях, когда отсутствуют числовые данные, что не позволяет применять t-критерии. Обобщением рангового критерия Уилкоксона является ранговый критерий Крускала-Уоллиса для оценки разностей между c медианами ( c>2).

Альтернативой F-критерию в однофакторном дисперсионном анализе является критерий Крускала-Уоллиса. Ранговый критерий Крускала-Уоллиса применяется для проверки гипотезы, что c независимых выборок извлечены из генеральных совокупностей, имеющих одинаковые медианы. Другими словами, нулевая и альтернативная гипотезы формулируется следующим образом:

H0 : M1 = M2 = … = Mc

H1 : не все Mj (j = 1,2,…,c) являются одинаковыми. (1)

Для этого необходимо знать ранги, вычисленные по всем выборкам, а c генеральных совокупностей, из которых они извлечены, должны иметь одинаковые изменчивость и вид.

Для того, чтобы применить критерий Крускала-Уоллиса, сначала необходимо заменить наблюдения в c выборках их объединенными рангами. При этом первый ранг соответствует наименьшему наблюдению, а ранг n – наибольшему (n = n1 + n2 + … + nc). Если некоторые значения повторяются, им присваивается среднее значение их рангов.

H-статистика в критерии Крускала-Уоллиса аналогична величине SSB – межгрупповой вариации, по которой вычисляется F-статистика. Вместо сравнения средних значений j всех с групп с общим средним , в критерии Крускала-Уоллиса средние ранги каждой из с групп сравниваются с общим рангом, вычисленным на основе всех n наблюдений. Если существует статистически значимый эффект эксперимента, средние ранги каждой группы будут значительно отличаться друг от друга и от общего ранга. При возведении этих разностей в квадрат H-статистика увеличивается. С другой стороны, если эффект эксперимента не наблюдается, статистика H теоретически должна быть равна нулю. Однако на практике вследствие случайных изменений статистика H будет ненулевой, но достаточно малой. Формула для вычисления H-статистики имеет вид:

, (2)

где n – общее количество наблюдений в объединенных выборках, nj - количество наблюдений в j-ой выборке ( j = 1,2,…,c), Tj – сумма рангов j-ой выборки.

При достаточно большом объеме выборки ( > 5) H-статистику можно аппроксимировать 2-распределением с c-1 степенями свободы. Таким образом, при заданном уровне значимости  решающее правило формулируется так: гипотеза H0 отклоняется, если H > 2U, в противном случае нулевая гипотеза о равенстве медиан не отклоняется. Критические значения 2U находят по таблице в зависимости от уровня значимости и степени свободы.

Задача 1. Парашюты изготовляются из синтетических волокон, поставляемых четырьмя разными поставщиками. Необходимо оценить, зависит ли прочность парашюта от поставщика синтетических волокон. В каждой из групп данных по пять парашютов. Группы разделены по поставщикам. Прочность парашютов измеряется с помощью специального устройства, испытывающего ткань с двух сторон. Сила, необходимая для разрыва парашюта, измеряется по особой шкале. Чем выше сила разрыва, тем прочнее парашют. Результаты эксперимента и некоторые описательные статистики представлены в таблице:

 

 Поставщик

 

П1

П2

П3

П4

 

18,5

26,3

20,6

25,4

 

24

25,3

25,2

19,9

 

17,2

24

20,8

22,6

 

19,9

21,2

24,7

17,5

 

18

24,5

22,9

20,4

Среднее

19,52

24,26

22,84

21,16

Станд. откл.

2,690167

1,919114

2,133776

2,98379

Рис.1. Исходные данные.

Анализ данных показывает, что между выборочными средними наблюдается некоторая разница. Можно ли считать эту разницу статистически значимой?

Нулевая гипотеза заключается в том, что прочность всех парашютов одинакова (с=4):

H0 : M1 = M2 = M3 = M4

Альтернативная гипотеза:

H1 : не все Mj (j = 1,2,3,4) являются одинаковыми.

Для определения рангов сгруппируем таблицу данных и отсортируем ее по возрастанию, а затем определим ранги:

Поставщик

Почность

Ранг

П1

17,2

1

П4

17,5

2

П1

18

3

П1

18,5

4

П1

19,9

5,5

П4

19,9

5,5

П4

20,4

7

П3

20,6

8

П3

20,8

9

П2

21,2

10

П4

22,6

11

П3

22,9

12

П1

24

13,5

П2

24

13,5

П2

24,5

15

П3

24,7

16

П3

25,2

17

П2

25,3

18

П4

25,4

19

П2

26,3

20

Вернемся к исходной таблице, но добавим в нее ранги:

F

G

H

I

J

K

L

M

N

O

1

П1

П2

П3

П4

2

Проч-

ность

Ранг

Проч-

ность

Ранг

Проч-

ность

Ранг

Проч-

ность

Ранг

c

n

3

18,5

4

26,3

20

20,6

8

25,4

19

4

20

4

24

13,5

25,3

18

25,2

17

19,9

5,5

5

17,2

1

24

13,5

20,8

9

22,6

11

6

19,9

5,5

21,2

10

24,7

16

17,5

2

210

7

18

3

24,5

15

22,9

12

20,4

7

8

Tj

27

76,5

62

44,5

210

9

Tj2

729

5852,25

3844

1980,25

10

Tj2/nj

145,8

1170,45

768,8

396,05

2481,1

11

12

H

7,88857

2U

7,814728

p-знач.

0,048372

Рис. 4.20. Результаты применения критерия Крускала-Уоллиса.

Здесь кроме исходных данных приведены результаты расчета H-статистики. В ячейках G8, I8, K8 и M8 находятся суммы рангов по каждой группе (поставщикам), а в ячейках G9,I9,K9 и M9 – их квадраты. В ячейках G10,I10,K10 и M10 - отношения квадратов сумм рангов к объемам выборок, т.е. к 5. В столбце N находятся суммы рангов всех выборок (N8) и сумма квадратов отношений (N10). В ячейке O3 находится общий объем всех выборок. В ячейке O6 – контрольная сумма всех рангов, с которой должна совпадать сумма рангов в ячейке N8: =O3*(O3+1)/2. В ячейке G12 находится вычисленное значение H-статистики: =N10*12/O3/(O3+1)-3*(O3+1). В ячейке K12 p-значение, найденное по формуле =ХИ2РАСП(G12;N3-1), а в N3 – значение c.

При уровне значимости 0,05 и количестве степеней свободы c-1=4–1=3 находим по таблице верхнее критическое значение 2U = 7,815. Найти критическое значение 2U можно с помощью статистической функции =ХИ2ОБР(0,05;3), которая и введена в ячейку I12. Поскольку вычисленное значение H = 7,889 и превышает критическое значение, нулевая гипотеза отвергается. Это подтверждается и p-значением, которое меньше уровня значимости. Следовательно, не все фирмы поставляют синтетическое волокно, прочность которого имеет одинаковую медиану.

Для применения критерия Крускала-Уоллиса должны выполняться следующие условия: все выборки случайно и независимо друг от друга извлекаются из соответствующих генеральных совокупностей; анализируемая переменная является непрерывной; наблюдения допускают ранжирование как внутри, так и между группами; все генеральные совокупности имеют одинаковую изменчивость и одинаковый вид. Процедура Крускала-Уоллиса имеет меньше ограничений, чем F-критерий. Для применения F-критерия переменная должна быть числовой, а выборки должны извлекаться из нормально распределенных генеральных совокупностей, имеющих одинаковую дисперсию. Если эти условия не выполняются, более мощным становится критерий Крускала-Уоллиса, и следует пользоваться именно им.

Индивидуальные задания к лабораторным работам №5-№8 выбираются в соответствии с вариантом по таблице, приведенной в конце ЛР №8.