Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

УМК Б ОГД 1 МатСтат 3 УЧПОС Воронов И.А

.pdf
Скачиваний:
44
Добавлен:
02.04.2015
Размер:
3.01 Mб
Скачать

Распределение случайно изменяющихся величин

Формула закона нормального распределения

 

 

1

 

 

 

( xi

M ) 2

 

f ( xi

)

 

 

e

2 SD 2

,

 

 

 

 

 

SD

2

 

 

 

 

 

 

 

 

 

где: f(xi) – высота подъема кривой (плотность вероятности для значения xi); е – основание натурального логарифма (2,718); π – число «пи» (3,14159); М – среднее арифметическое; SD – стандартное отклонение.

Знание формы распределения, в частности нормального, позволяет сделать правильный выбор критериев сравнения выборок. В случае нормального распределения можно использовать параметрические критерии. В иных случаях – непараметрические. Форма распределения определяется по величинам эксцесса (kurtosis) и асимметрии (skewness). Последние должны быть в диапазоне от – 1 до + 1 при точных вычислениях и от – 2 до + 2 – при вычислениях, не требующих высокой точности. А так же по Z-критерию Колмогорова-Смирнова – если он определен на уровне значимости p > 0,05, то распределение не отличается от нормального.

Параметрические критерии

Параметрические методы обладают высокой чувствительностью. К ним относятся критерии t-Стьюдента и F-Фишера (ANOVA).

Условия применения параметрических методов: 1) соответствие распределения значений в генеральной выборке нормальному закону; 2) достаточно большая выборка, чтобы судить о законе распределения; 3) выполнение требования о гомогенности дисперсии при сравнении средних значений для независимых выборок; 4) наличие или отсутствие в выборке выбросов (экстремально больших или экстремально малых значений).

31

ПРИМЕНЕНИЕ t-КРИТЕРИЯ

Для вычисления уровня статистической достоверности различия между двумя средними2, в случае, если эти значения измерены в интервальной шкале или шкале отношений, используется t-критерий. Существует три типа t-критерия: для одной выборки, для независимых и зависимых выборок.

Критерий t-Стьюдента для одной выборки

t

 

M

 

A

 

,

 

 

 

 

 

df

 

 

 

n

1,

 

где ошибка среднего

m

SD

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Критерий t-Стьюдента для независимых выборок (примерный)

 

 

 

 

 

 

 

 

 

 

t

 

 

M 2

M 1

 

 

 

,

 

 

 

 

df

 

n1

 

n2 2 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m 2

m 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Критерий t-Стьюдента для независимых выборок (точный) для выбо-

рок разных объемов

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

M 2

 

M1

 

 

 

 

 

 

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(n

1)

2

 

(n

 

1) 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

1

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

1

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n1

 

n2

2

 

 

 

n1

 

n2

 

 

 

 

 

 

 

Критерий t-Стьюдента для зависимых выборок

 

 

 

 

 

 

 

 

 

 

 

 

t

 

 

 

 

M d

 

,

 

 

 

 

 

 

 

 

 

 

df

n 1.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

md

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Чтобы определить величину t, потребуются формулы для вычисления SS – сумм квадратов, δ2 – дисперсии, SD – стандартного отклонения и df – степеней свободы (см. выше):

 

 

2 SS

 

 

 

 

 

SS

(xi M )2 ,

,

SD

SS

.

 

 

 

 

n 1

 

 

 

n 1

 

 

 

 

 

 

 

Задача 2.20 (вариант с одной выборкой). Выделяются ли ученики с высо-

ким осенним СБ из всей массы учеников?

Вначале вычисляем среднее арифметическое показателя Х5, А = 4,418 После этого формируем матрицу для учеников с высоким осенним СБ и

вычисляем среднее арифметическое M, отклонения D, квадраты отклонений D2, сумму квадратов отклонений SS, дисперсию δ2, стандартное отклонение SD и ошибку среднего m.

Затем определяем t-критерий Стьюдента и сравниваем его с табличным.

2Также говорят: для определения того, является ли различие в распределении значений между двумя группами случайным или статистически значимым.

32

Номер учащихся с

СБ осенний

D

D2

хорошими знаниями

 

 

 

2

4,6

–0,022

0,0005

3

4,7

0,078

0,0060

4

4,2

–0,422

0,1783

5

5,0

0,378

0,1427

6

3,7

–0,922

0,8505

10

4,9

0,278

0,0772

11

5,0

0,378

0,1427

13

4,6

–0,022

0,0005

16

4,9

0,278

0,0772

 

М = 4,622

ΣD = 0,000

SS = 1,4756

n = 9

 

 

δ2 = 0,1844

df = 8

 

 

SD = 0,4295

 

 

 

m = 0,1432

t

 

M A

4,622 4,418

1,429.

 

 

 

 

 

 

 

m

0,143

 

 

 

 

 

Обращаясь к табл. П 3.4 и имея df = 8, а уровень значимости p = 0,05, мы получаем критическое значение 2,306, которое выше рассчитанного нами.

Вывод. Средние баллы тех, кто занимается лучше, статистически значимо не отличаются от СБ всей выборки (от ожидаемого среднего значения).

Задача 2.21 (вариант с независимыми выборками). Имеют ли учащиеся с

высоким уровнем знаний более высокие осенние СБ, чем учащиеся, которые занимаются хуже? Для решения задачи необходимо сформировать матрицы для учеников с высоким осенним СБ и для учеников с низким осенним СБ, затем вычислить для каждой из выборок среднее арифметическое M, отклонения D, квадраты отклонений D2, сумму квадратов отклонений SS, дисперсию δ2, стандартное отклонение SD и ошибку среднего m. После чего определить t-крите- рий Стьюдента и сравнить его с табличным. Матрицу для учеников с высоким осенним СБ мы уже обработали в примере выше, осталось повторить аналогичные вычисления для матрицы для учеников с низким осенним СБ.

Номер учащихся

СБ осенний

D

D2

со слабыми знаниями

 

 

 

1

3,9

–0,375

0,1406

7

3,7

–0,475

0,2256

8

4,4

0,225

0,0506

9

4,6

0,425

0,1806

12

4,0

–0,175

0,0306

14

4,2

0,025

0,0006

15

4,0

–0,175

0,0306

17

4,7

0,525

0,2756

n = 9

М = 4,175

ΣD = 0,000

SS = 0,9350

df = 8

 

 

δ2 = 0,1336

 

 

 

SD = 0,3655

df = 9 + 8 – 2 = 15

 

 

m = 0,1292

33

По формуле для вычисления примерного критерия t-Стьюдента для независимых выборок получаем:

t

 

M

2

M1

4,622

4,175

 

2,318 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m22

m12

0,1432 2

0,1292 2

 

 

 

 

 

По формуле для вычисления точного критерия t-Стьюдента для незави-

симых выборок разных объемов получаем

t

 

 

 

M 2

M1

 

 

 

 

 

 

 

 

4,622

4,188

 

 

 

 

 

 

 

2,317

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1) 22 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(n1 1) 12

 

(n2

1

 

(9 1)0,1844 (8

1)0,1086 1

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

9 8 2

 

 

9

 

8

 

 

 

 

 

n1

n2 2

 

 

 

n1

 

n2

 

 

 

Обращаясь к табл. П 3.4 и имея df = 15, а уровень значимости р = 0,05, мы выбираем критическое значение 2,131. Полученная нами величина t = 2,317 превышает 2,131 и может считаться статистически значимой на уровне 0,05. Поэтому мы заключаем, что средние баллы тех, кто занимается лучше, статистически значимо отличаются от СБ тех, кто занимается хуже.

t-критерий для зависимых выборок (для повторных измерений), как правило, используется в тех случаях, когда: 1) до и после некоторого воздействия анализируются пары результатов от каждого человека или 2) подбираются пары испытуемых, идентичных по таким характеристикам, как возраст, пол, интеллект или уровень выполнения задания. В отличие от t-критерия для независимых выборок, когда количественная переменная (СБ) разбита на группы с помощью двух уровней категориальной переменной (знания), t-критерий для зависимых выборок оценивает разность (D) между двумя количественными измерениями.

Задача 2.22 (вариант с зависимыми выборками). Отличается ли весенний СБ от осеннего СБ у учащихся с высоким уровнем знаний?

X9

X5

X6

 

 

Номер учащихся

Осенний СБ

Осенний СБ

D = X5 – X6

D2

с хорошими знаниями

 

 

 

 

2

4,6

4,0

0,600

0,360

3

4,7

5,0

–0,300

0,090

4

4,2

4,0

0,200

0,040

5

5,0

4,9

0,100

0,010

6

3,7

3,9

–0,200

0,040

10

4,9

5,0

–0,100

0,010

11

5,0

5,0

0,000

0,000

13

4,6

3,7

0,900

0,810

16

4,9

4,8

0,100

0,010

 

 

 

Мd = 0,144

SS = 1,370

n = 9

 

 

 

δ2 = 0,171

df = 8

 

 

 

SD = 0,414

 

 

 

 

m = 0,138

t

M d

 

0,144

1,047.

 

 

 

 

md

 

0,138

 

 

34

Обращаясь к табл. П 3.4 и имея df = 8, а уровень значимости 0,05, выбираем критическое значение 2,306. Подсчитанная нами величина t = 1,047 не превышает 2,306 и не может считаться статистически значимой на уровне 0,05.

Вывод. Между весенними и осенними СБ отсутствуют статистически значимые различия.

Задача 2.23 (дополнительный пример). Какая методика эффективнее для

развития параметра А (кистевая динамометрия) путем вычисления уровня статистической достоверности различия между двумя средними по t-критерию Стьюдента на уровне значимости p < 0,05. Перед проведением эксперимента были сформированы две группы – контрольная и экспериментальная – по 12 испытуемых, которые прошли тест по параметру А.

КГ

68

65

71

69

64

62

62

67

59

61

65

64

ЭГ

67

68

72

65

67

61

64

61

62

69

60

65

По соответствующим формулам вычисляем степень свободы df и t-критерий для независимых выборок. Значения заносим в соответствующие ячейки таблицы:

 

 

До

dfзавис=11

После

 

 

эксперимента

tзавистаб=2,201

эксперимента

Контрольная группа

 

t11-12= 2,259

 

dfНЕзавис = 22

tНЕзавистаб=2,074

t11-21= 0,227

 

t12-22= 2,304

Экспериментальная группа

 

t21-22= 2,828

 

Выполняем расчеты, как это показано в таблице ниже (например, в про-

грамме MS Excel).

Обращаясь к табл. П 3.4 и имея df = 22 для независимых выборок, а уровень значимости 0,05, выбираем критическое значение 2,074. Рассчитанное в примере t11-21= 0,227 меньше табличного, поэтому: тесты по параметру А, выполненные перед проведением эксперимента, показали, что статистически достоверных различий между группами КГ и ЭГ по параметру А нет.

Вывод. В таких условиях МОЖНО начинать проводить эксперимент.

В течение двух недель испытуемые КГ тренировались по методике F, а экспериментальной по методике G. Затем было проведено повторное тестирование параметра А:

КГ

72

68

71

69

67

64

63

67

61

62

64

65

ЭГ

69

70

74

72

69

65

68

70

64

72

68

68

По соответствующим

формулам

вычисляем

степень

свободы df и

t-критерий для зависимых выборок.

35

Подсчитанные нами величины t указывают, что после 2 недель тренировок в обеих группах произошли статистически достоверные изменения. Статистически достоверно (t12-22= 2,304) стали различаться и данные КГ и ЭГ, а показатель экспериментальной группы t21-22= 2,828 больше показателя контрольной

группы t11-12= 2,259.

Обращаясь к табл. П 3.4 и имея df = 22 для независимых и df = 22 для зависимых выборок, а уровень значимости 0,05, выбираем критические значения

– соответственно 2,074 для независимых и 2,201 для зависимых выборок. Вывод. Методика G экспериментальной группы оказалась более эффек-

тивной, чем методика F, которая применялась для развития параметра А в контрольной группе.

КГ

A1

D

D2

 

A2

D

D2

 

Dзавис

D2

1

68

3,3

10,6

 

72

5,9

35,0

 

–4

16

2

65

0,3

0,1

 

68

1,9

3,7

 

–3

9

3

71

6,3

39,1

 

71

4,9

24,2

 

0

0

4

69

4,3

18,1

 

69

2,9

8,5

 

0

0

5

64

–0,8

0,6

 

67

0,9

0,8

 

–3

9

6

62

–2,8

7,6

 

64

–2,1

4,3

 

–2

4

7

62

–2,8

7,6

 

63

–3,1

9,5

 

–1

1

8

67

2,3

5,1

 

67

0,9

0,8

 

0

0

9

59

–5,8

33,1

 

61

–5,1

25,8

 

–2

4

10

61

–3,8

14,1

 

62

–4,1

16,7

 

–1

1

11

65

0,3

0,1

 

64

–2,1

4,3

 

1

1

12

64

–0,8

0,6

 

65

–1,1

1,2

 

–1

1

 

М = 64,8

0,0

SS = 136,3

 

М = 66,1

0,0

SS = 134,9

 

М = –1,3

SS = 46

 

 

 

δ2 = 12,4

 

 

 

δ2 =12,3

 

 

δ2 = 4,2

 

 

 

m = 1,0

 

 

 

m = 1,0

 

 

m = 0,6

 

 

 

 

 

 

 

 

 

 

 

ЭГ

A1

D

D2

 

A2

D

D2

 

Dзавис

D2

13

67

1,9

3,7

 

69

–0,1

0,0

 

–2

4

14

68

2,9

8,5

 

70

0,9

0,8

 

–2

4

15

72

6,9

47,8

 

74

4,9

24,2

 

–2

4

16

65

–0,1

0,0

 

72

2,9

8,5

 

–7

49

17

67

1,9

3,7

 

69

–0,1

0,0

 

–2

4

18

61

–4,1

16,7

 

65

–4,1

16,7

 

–4

16

19

64

–1,1

1,2

 

68

–1,1

1,2

 

–4

16

20

61

–4,1

16,7

 

70

0,9

0,8

 

–9

81

21

62

–3,1

9,5

 

64

–5,1

25,8

 

–2

4

22

69

3,9

15,3

 

72

2,9

8,5

 

–3

9

23

60

–5,1

25,8

 

68

–1,1

1,2

 

–8

64

24

65

–0,1

0,0

 

68

–1,1

1,2

 

–3

9

 

М = 65,1

0,0

SS = 148,9

 

М = 69,1

0,0

SS = 88,9

 

М = –4,0

SS = 264

 

 

 

δ2 =13,5

 

 

 

δ2 = 8,1

 

 

δ2 = 24,0

 

 

 

m = 1,1

 

 

 

m = 0,8

 

 

m = 1,4

36

Дисперсионный анализ

Дисперсионный анализ (ANOVA) является одним из наиболее полезных и универсальных статистических методов, применяемых в психологии в настоящее время. Его можно использовать в экспериментах с межгрупповыми (bg) и внутригрупповыми (wg) планами и в экспериментах, которые имеют несколько уровней категориальной независимой переменной, но только одну количественную зависимую переменную. Дисперсионный анализ основан на F-распределении. Основные формулы для подсчета F приведены в таблице.

Формулы

 

 

 

 

 

Сумма квадратов

 

 

Число степе-

 

Средние

 

 

 

 

 

 

 

 

 

 

 

ней свободы

 

квадраты

Общая

SStotal

SSwg

SSbg

 

 

 

dftotal = N 1

 

 

 

 

 

 

Total

 

 

 

 

 

 

 

 

 

 

Межгрупповая

SSbg

n(M j Group

MTotal )

2

dfbg = k 1

 

 

 

SS

Between Group

 

 

 

MSbg

 

bg

 

 

 

 

 

dfbg

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Внутригрупповая

 

 

 

 

 

 

k

n

 

 

dfwg=

 

 

 

SS

Within Group

SSwg

SStotal

SSbg

(xi

M j Group )2

= dftotal – dfbg =

 

MSwg

 

wg

 

 

 

dfwg

 

 

 

 

 

 

 

j

1 i 1

 

 

= N k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Коэффициент

 

2

 

SSbg

 

 

 

 

 

 

F-отношение

 

 

MSbg

детерминации

R

 

 

 

 

 

 

Фишера

 

Fэ

 

SStotal

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

MS wg

 

 

 

 

 

 

 

 

 

 

 

Задача 2.24. Зависит

ли

количество

отработанных часов Х7

от уровня

удовлетворенности учебой Х8? Для проведения этого анализа нам потребуется данные Х7 всех испытуемых (n=17) расположить в 3 группы (k=3), каждая из которых будет соответствовать определенному уровню удовлетворенности учебой X8.

Вначале вычисляем общее средние арифметические Mtotal = 24 и группо-

вые Mgroup1 = 25, Mgroup2 = 24, Mgroup3. = 22.

Затем вычисляем отклонения D от Mtotal и квадраты отклонений D2.

Вычисляем общую сумму квадратов отклонений SStotal=1776.

По формуле вычисляем межгрупповую (Between Group) сумму квадратов отклонений

SSbg

n(M j Group

MTotal )2

6(25

24)

5(24

24) 6(22

24) 23.

Вычисляем внутригрупповую (Within Group) сумму квадратов отклонений

 

SS wg

SStotal

SSbg

1776

23

1753 .

 

 

 

 

 

Определяем степени свободы: dfbg = k – 1 = 3 – 1 = 2;

 

dftotal = N – 1 = 16;

 

dfwg = dftotal – dfbg = 16 – 2 = N – k = 17 – 3 = 14.

 

 

 

 

Теперь вычисляем межгрупповой (Between Group) средний квадрат:

 

 

 

MSbg

 

SSbg

23

11.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

dfbg

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

И внутригрупповой (Within Group) средний квадрат:

MSwg

SSwg

1753

125.

 

 

 

 

dfwg

14

 

 

 

 

 

 

 

 

 

 

 

 

 

 

37

X8

X7

D

D2

 

Mgroup

1

38

14

209

 

1

30

6

 

42

 

1

10

–14

184

 

1

30

6

 

42

 

1

30

6

 

42

 

1

10

–14

184

25

2

15

-9

 

73

 

2

10

–14

184

 

2

30

6

 

42

 

2

30

6

 

42

 

2

35

11

131

24

3

12

–12

134

 

3

35

11

131

 

3

20

–4

 

13

 

3

20

–4

 

13

 

3

35

11

131

 

3

10

–14

184

22

 

Mtotal = 24

 

SStotal = 1776

 

 

 

 

SSbg =

23

 

 

 

 

SSwg = 1753

 

 

 

 

R2 = 0,01

 

 

 

 

dfbg =

2

 

 

 

 

dfwg = 14

 

 

 

 

MSbg=

11

 

 

 

 

MSwg= 125

 

 

 

 

F = 0,091

 

 

p = 0,05

 

FT= 3,316

 

Наконец, вычисляем критерий Фишера

Fэ

MSbg

 

11

 

0,091.

MSwg

125

 

 

После того как рассчитана величина F, необходимо обратиться к табл. П 3.5, в которой величины даны парами, где верхнее число соответствует критическому значению на уровне 0,05, а нижнее – критическому значению на уровне 0,01. Столбцы расположены в соответствии со степенями свободы между группами (dfbg), а строки – в соответствии со степенями свободы внутри групп (dfwg). Чтобы получить критическое значение для нашего анализа, двигайтесь вниз по столбцу для dfbg = 2, пока не достигнете строки, соответствующей dfwg = 14. Перед нами две величины, 3,74 и 6,51, Поскольку полученная нами величина F (0,091) не превышает 3,74, делаем вывод, что наши результаты статистически незначимы, т. е. между количеством отработанных часов и уровнем удовлетворенности учебой нет никакой связи.

38

Непараметрические критерии

Непараметрические методы обладают меньшей чувствительностью, чем параметрические. Применение рассмотренных в предыдущем разделе параметрических критериев было связано с целым рядом допущений. Например, сравнивая выборочные средние значения с помощью t-критерия, принимались следующие предположения: обе выборки являются случайными, т. е. каждая из них получена в результате независимых измерений; обе выборки получены из генеральных совокупностей, имеющих нормальное распределение; дисперсии генеральных совокупностей равны между собой.

На практике эти предположения строго никогда не выполняются, поэтому применение параметрических критериев всегда связано с опасностью ошибочных выводов, возникающей из-за нарушения принятых допущений. В математической статистике в этом случае применяются непараметрические методы, применение которых зависит от меньшего числа допущений.

Условия применения непараметрических методов: 1) несоответствие распределения значений в генеральной выборке нормальному закону;

2)

слишком малая выборка,

чтобы судить о законе распределения;

3)

невыполнение требования о

гомогенности дисперсии при сравнении

средних значений для независимых выборок; 4) наличие в выборке выбросов (экстремально больших или экстремально малых значений).

Важную группу непараметрических критериев составляют ранговые критерии. Ниже рассматриваются некоторые из ранговых критериев. Но предварительно следует познакомиться с понятием «ранг», играющим здесь ключевую роль.

Ранги

Ранжированная выборка получается, если расположить выборочные данные в порядке возрастания или убывания. Рангом выборочного значения называется порядковый номер этого значения. Ранг однозначно определен порядковым номером, если в выборке нет совпадающих значений. Если же они есть, то их ранги определяются как среднее арифметическое порядковых номеров совпадающих значений. Рангами могут быть представлены данные, выраженные в порядковой шкале, в том числе результаты наблюдения качественных признаков, когда невозможно измерить точное численное значение признака, но можно определить очередность значений по принципу «больше-меньше» (например, места в спортивных состязаниях, результаты судейства в баллах, оценки за экзамен и т. п.).

Пример. Получена выборка (n = 10), после ранжирования она выглядит следующим образом:

Номер

1

2

3

4

5

6

7

8

9

10

п/п

 

 

 

 

 

 

 

 

 

 

xi

12

14

15

15

15

16

18

19

19

22

R

1

2

4

4

4

6

7

8,5

8,5

10

 

 

 

 

 

 

 

 

 

 

 

Значения с порядковыми номерами 3, 4, 5 и 8, 9 совпали, поэтому их ранги R определяются как R = (3 + 4 + 5)/3 = 4 и R = (8 + 9)/2. Таким образом, ранг не обязательно будет целым числом.

39

Сравнение двух независимых выборок (критерий U-Манна-Уитни)

Считается, что критерий U-Манна-Уитни самый простой ранговый критерий (в отечественной литературе этот критерий иногда называют также критерий Вилкоксона для независимых выборок или критерием Уайта).

Применение критерия U-Манна-Уитни основано на единственном предположении: выборки получены из однотипных непрерывных распределений. При этом вид распределения генеральных совокупностей X и Y никак не оговаривается. Допущение о непрерывности распределений может быть принято, когда исследуемый признак имеет большое число возможных градаций. Гипотеза Но: F(x) = F(y) – это утверждение о том, что функции распределения обеих генеральных совокупностей одинаковы. Иначе говоря, обе выборки получены из одной и той же генеральной совокупности и эффект обработки отсутствует.

Поясним это более подробно. Поскольку функции распределения F(х) и F(у) равны, то, следовательно, равны и характеристики положения этих распределений (среднее значение и медиана). Поэтому, если эффект оценивается по различию средних арифметических двух выборок, то нулевую гипотезу можно было бы записать в виде Но: μx = μy. В этом случае критерий U-Манна-Уитни является непараметрическим аналогом t-критерия для независимых выборок.

Ниже рассматривается применение критерия U-Манна-Уитни на конкретном примере.

Задача 2.25 [17]. Результаты в беге на 100 м контрольной и экспериментальной групп студентов вузов на занятиях по физической культуре:

КГ

xi

12,6

12,3

11,8

12,1

12,8

13,2

13,8

12,8

12,6

13,0

ЭГ

yi

11,3

12,8

12,2

11,7

12,4

13,3

11,4

12,0

11,8

12,5

Номер

 

xi yi

 

Ri

Объем выборки для контрольной группы – nх = 10 и для

1

11,3

1

 

 

экспериментальной – nу = 10.

2

11,4

2

 

 

Проверим гипотезу Но: Мех = Меy против двусторонней

3

11,7

3

 

 

альтернативы Н1: Мех=Mеу. Уровень значимости р = 0,05.

4

 

11,8

 

 

4,5

 

5

 

11,8

 

 

4,5

 

Порядок применения критерия U-Манна-Уитни:

6

 

12,0

 

 

6,5

 

1. Объединяем обе выборки в одну. Объем объединен-

7

 

12,0

 

 

6,5

 

ной выборки будет n = nх+ nу = 20.

8

12,1

 

8

 

 

 

2. Ранжируем объединенную выборку, располагая дан-

9

12,2

9

 

 

 

10

12,3

 

10

 

ные в порядке возрастания. При этом отмечаем полужир-

11

12,4

11

 

ным шрифтом данные, относящиеся к одной из выборок

12

12,5

12

 

(все равно какой), например, КГ.

13

 

 

 

 

 

 

 

12,6

 

 

13,5

 

 

 

 

 

3. Находим ранги Ri объединенной выборки. Отмечаем

14

 

12,6

 

 

13,5

 

15

 

12,8

 

 

15,5

 

ранги, относящиеся, например, к КГ.

16

 

12,8

 

 

15,5

 

4. Суммируем по отдельности ранги, относящиеся к

17

13,0

 

17

 

первой и второй выборкам, т. е. находим суммы рангов:

18

13,2

18

 

 

RX = ΣRXi = 127,5; RY = ΣRYi = 82,5.

19

13,3

 

19

 

 

 

RX + RY = 127,5 + 82,5 = 210.

20

13,8

 

20

 

40

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]