Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Matematicheskaya_statistika_v_meditsine

.pdf
Скачиваний:
120
Добавлен:
19.02.2016
Размер:
5.63 Mб
Скачать

мой

Tk

c(c 1)

n .

2

 

 

6. Определить эмпирическое значение критерия по формуле:

 

2

r

12

c

2

3n(c 1) .

 

nc(c 1)

Tj

 

 

 

j 1

 

 

7. Найти критические значения (см. таблицы 16 или 17), нанести их на ось значимости. Отметить там же эмпирическое значение критерия, сделать выводы.

9.5. L-критерий тенденций Пейджа

Назначение критерия: данный критерий предназначен для выявления тенденции изменения признака в одной выборке при переходе от условия к условию. В отличие от критерия Фридмана, он не только показывает, значимо ли изменяется признак, но и показывает, как он изменяется.

Условия применения критерия:

Минимальное количество условий – 3 (c≥3), минимальное количество измерений – 2

(n≥2).

Максимальное количество условий – 6 (c≤6), максимальное количество измерений –

12 (n≤12).

Как и в случае с критерием тенденций Джонкира, градации условий, при которых находится выборка, должны быть ранжируемыми.

Гипотезы:

H0: Увеличение признака в выборке при переходе от условия к условию является случайным.

H1: Увеличение признака в выборке при переходе от условия к условию не является случайным.

Порядок расчета критерия:

1.Проверить условия применения критерия.

2.Проранжировать индивидуальные значения для каждого испытуемого.

3.Найти ранговую сумму для каждого условия: T j .

c

4. Найти общую ранговую сумму T Tj и сравнить ее с контрольной ранговой сум-

j 1

мой T c(c 1) n .

k

2

 

5.Переписать таблицу с данными, расположив их по возрастанию ранговых сумм.

6.Сформулировать гипотезы.

7.Найти эмпирическое значение критерия по формуле:

c

Lэмп Tj j , где

j 1

T j

– соответствующая ранговая сумма, j – номер ранговой суммы в

переписанной таблице.

8. Найти критические значения (см. таблицу 18), нанести их на ось значимости. Отметить там же эмпирическое значение критерия, сделать выводы.

71

Примеры решения задач

Пример 25. Группе спортсменов был предложен новый вариант проведения тренировок. Для выяснения эффективности нового варианта измерялось время прохождения дистанции до нового варианта и после. Результаты измерений занесены в таблицу:

Исп. №

1

2

3

4

5

6

7

8

9

Старый ва-

44

44

42

43

45

46

44

42

43

риант

 

 

 

 

 

 

 

 

 

Новый вари-

44

41

40

44

43

45

42

43

41

ант

 

 

 

 

 

 

 

 

 

Является ли новый вариант тренировок более эффективным?

Решение:

1.Так как в данной задаче нужно выявить изменение признака в одной и той же выборке, при двух разных условиях, то для решения задачи можно использовать либо критерий G- знаков, либо T-критерий Вилкоксона. Используем маломощный критерий G-знаков. Если он не выявит изменение признака, используем более мощный критерий T-Вилкоксона.

2.Находим сдвиг значений признака для каждого испытуемого и заносим в таблицу:

Исп. №

 

1

2

3

4

 

5

6

7

8

9

Старый ва-

 

44

44

42

43

 

45

46

44

42

43

риант

 

 

 

 

 

 

 

 

 

 

 

 

 

Новый вари-

 

44

41

40

44

 

43

45

42

41

41

ант

 

 

 

 

 

 

 

 

 

 

 

 

 

Сдвиг

 

0

–3

–2

1

 

–2

–1

–2

–1

–2

3. Определяем число положительных сдвигов:

Nпол 1, отрицательных – Nотр 7 , ну-

левых – N0 1

. Испытуемого №1 исключаем из выборки, а объем выборки, следовательно,

уменьшаем на Как видно, отрицательных сдвигов больше, поэтому их считаем типичными, а положительные сдвиги – нетипичными.

4.Так как объем рассматриваемой выборки все еще превосходит 5, и число положительных сдвигов не совпадает с числом отрицательных, то G-критерий применим.

5.Формулируем гипотезы:

H0: Преобладание типичного отрицательного сдвига является случайным. H1: Преобладание типичного отрицательного сдвига не является случайным.

6. Находим эмпирическое значение критерия – оно будет равно количеству нетипичных сдвигов:

 

Gэмп 1.

 

n 8

7. По таблице критических значений (см. таблицу 14) находим для объема выборки

(не забываем, что объем уменьшился на 1) критические значения:

 

 

G0.05

1,

 

 

G0.01

0 .

 

 

Построим ось значимости и отметим их на оси, обозначим на ней

Gэмп :

72

Как видно из рисунка, уровень значимости для

Gэмп

0.05

, поэтому на уровне значи-

мости p=0.05 принимаем гипотезу H1, что преобладание типичного отрицательного сдвига не является случайным. Следовательно, имеет место уменьшение времени преодоления дистанции, и новый вариант тренировок является более эффективным.

Пример 26. При изучении влияния неуспеха на выбор уровня трудности задач испытуемым предлагалось после ошибочного решения выбрать в качестве следующей задачи более легкую или более трудную по сравнению с неправильно решенной. Испытуемыми были сделаны следующие выборы:

Испытуемые

Коэффициент трудности ошибоч-

Коэффициент трудности следу-

но решенной

ющей задачи

 

задачи

 

 

1

0.63

0.71

2

0.74

0.64

3

0.57

0.42

4

0.66

0.53

5

0.83

0.45

6

0.48

0.22

7

0.63

0.31

8

0.67

0.45

9

0.91

0.21

10

0.47

0.41

11

0.77

0.75

12

0.62

0.66

13

0.83

0.82

14

0.79

0.43

Оцените, влияет ли ситуация неуспеха на выбор испытуемыми уровня трудности задач.

Решение:

Так как в данной задаче нужно выявить изменение признака в одной и той же выборке при двух разных условиях, то для решения задачи можно использовать либо критерий G- знаков, либо T-критерий Вилкоксона. Используем для учебных целей T-критерий Вилкоксона, хотя уже при использовании маломощного критерия G-знаков уже были бы выявлены различия на уровне значимости p=0.01.

Вычислим разности между значениями коэффициента трудности следующей задачи и ошибочно решенной, запишем их в четвертый столбец таблицы.

73

 

Коэффициент труд-

Коэффициент трудно-

 

 

 

Испытуемые

ности ошибочно ре-

сти следующей зада-

 

d

 

шенной задачи

чи

 

 

 

 

 

 

 

 

1

0.63

0.71

 

0.08

 

2

0.74

0.64

-0.1

 

3

0.57

0.42

-0.15

4

0.66

0.53

-0.13

5

0.83

0.45

-0.38

6

0.48

0.22

-0.26

7

0.63

0.31

-0.32

8

0.67

0.45

-0.22

9

0.91

0.21

-0.7

 

10

0.47

0.41

-0.06

11

0.77

0.75

-0.02

 

 

 

 

 

12

0.62

0.66

 

0.04

 

13

0.83

0.82

-0.01

14

0.79

0.43

-0.36

 

 

 

 

 

 

d

0.08

0.1

0.15

0.13

0.38

0.26

0.32

0.22

0.7

0.06

0.02

0.04

0.01

0.36

Ri

5

6

8

7

13

10

11

9

14

4

2

3

1

12

Определяем, что «типичным» сдвигом будет отрицательный сдвиг, а «нетипичным» – положительный. Сформулируем соответствующие гипотезы.

Гипотезы:

H0: Интенсивность сдвигов в сторону выбора более легкой задачи по сравнению с неправильно решенной не превышает интенсивности сдвигов в сторону выбора более трудной.

H1: Интенсивность сдвигов в сторону выбора более легкой задачи по сравнению с неправильно решенной превышает интенсивность сдвигов в сторону выбора более трудной.

В пятом столбце таблицы запишем абсолютные значения разностей.

Проранжируем абсолютные значения разностей и запишем соответствующие ранги в шестой столбец таблицы.

Отметим заливкой ранги, соответствующие нетипичным сдвигам.

Подсчитаем сумму этих рангов (эмпирическое значение T-критерия):

Tэмп = 5 + 3 = 8

Определим критические значения Tкр для данного n=14 по таблице 15: T0.05=25, T0.01=15. Отметим их на оси значимости, эмпирическое значение критерия Tэмп=8 попало в зону зна-

чимости, значит, сдвиг в «типичную» сторону по интенсивности достоверно преобладает.

Принимаем альтернативную гипотезу (H1). Ситуация неуспеха в решении задачи влияет на выбор испытуемыми уровня трудности следующей задачи, они отдают предпочтение выбору более легкой задачи.

Пример 27. Испытуемым предлагалось решить 4 задачи. При этом фиксировалось время решения каждой задачи (см. таблицу):

74

Исп. №

Задача 1

Задача 2

Задача 3

Задача 4

1

45

46

45

49

2

43

50

51

52

3

35

43

50

50

4

33

30

36

39

5

56

58

60

61

Отличаются ли задачи по сложности (отличается ли время решения задач)?

Решение:

1.Так как в данной задаче рассматривается одна и та же выборка из 5 испытуемых

(n=5) при 4 разных условиях (c=4), и признак «Задача» на может быть ранжирован, то будем использовать χ2r-критерий Фридмана для выявления изменения признака.

2.Формулируем гипотезы:

H0: Изменение времени решения задач при переходе от задачи к задаче является случайным.

H1: Изменение времени решения задач при переходе от задачи к задаче не является случайным.

3. Ранжируем индивидуальные значения признака для каждого испытуемого (ранги вписываем в скобках справа от значений):

Исп. №

Задача 1

Ранг 1

Задача 2

Ранг 2

Задача 3

Ранг 3

Задача 4

Ранг 4

1

 

45

1.5

 

46

3

 

45

1.5

49

4

 

2

 

43

1

 

50

2

 

51

3

 

52

4

 

3

 

35

1

 

43

2

 

50

3.5

50

3.5

 

4

 

33

2

 

30

1

 

36

3

 

39

4

 

5

 

56

1

 

58

2

 

60

3

 

61

4

 

 

Σ

 

 

 

6.5

 

 

 

10

 

 

 

14

 

 

 

19.5

 

4.Находим ранговые суммы для каждого условия и заносим их в последнюю строку таблицы (они выделены серым):

5.Находим общую ранговую сумму:

T 6.5 10 14 19.5 50.

Находим сейчас контрольную ранговую сумму:

Tk

c(c 1)

n

4(4 1)

5

50 .

2

2

 

 

 

 

Так как общая и контрольная ранговые суммы совпадают, то ранжирование проведено верно.

6. Находим эмпирическое значение критерия:

 

 

 

 

12

 

c

 

2r эмп

 

 

 

Tj 2 3n(c 1)

 

nc(c 1)

 

 

 

 

j 1

 

 

 

12

 

 

6.52

102 142 19.52 3 5 (4 1) 11.22.

 

 

 

 

 

4(4

 

 

5

1)

 

 

 

7. Находим критические значения для данного критерия: так как в таблицах 16 и 17 нет такого сочетания числа условий (c) и числа измерений (n), то будем использовать таблицу критических значений распределения χ2-Пирсона. Число степеней свободы при этом будет равно f 4 1 3 .

2r 0.05 7.82 ,

 

2

r

0.01

11.35

.

Отмечаем критические значения на оси значимости, на нее наносим и эмпирическое значение:

75

Как видно из рисунка, эмпирическое значение критерия попадает в зону выборной значимости, в которой можно приять гипотезу H1 на уровне значимости меньшем 0.05, либо принять гипотезу H0 на уровне значимости большем 0.01. Уровня значимости 0.05 нам вполне достаточно, поэтому принимаем гипотезу H1, о значимости отличия времени решения задач. Так как время решения задач статистически изменяется, то можно считать, что задачи различаются по уровню сложности.

Пример 28. Группа пациентов принимает экспериментальный препарат, предназначенный для повышения массы тела. Результаты измерений массы тела на протяжении трех недель приведены в таблице:

№ пациента

Неделя 1

Неделя 2

Неделя 3

1

56

56

59

2

72

73

75

3

73

72

73

4

69

70

72

5

55

56

54

Эффективно ли действие препарата (есть ли тенденция повышения массы тела)?

Решение:

1.Так как в данной задаче требуется выявить тенденцию изменения признака в выборке при переходе от условия к условию, и количество испытуемых больше 2 и меньше 12, а количество условий меньше 10, и, кроме того, признак «Неделя» может быть ранжирован, то есть все основания использовать для решения L-критерий тенденций Пейджа.

2.Ранжируем индивидуальные значения признака для каждого испытуемого и результаты ранжирования заносим в столбцы «Ранг»:

№ пациента

Неделя 1

Ранг 1

Неделя 2

Ранг 2

Неделя 3

Ранг 3

1

 

56

1.5

56

1.5

 

59

3

 

2

 

72

1

 

73

2

 

75

3

 

3

 

73

2.5

72

1

 

73

2.5

 

4

 

69

1

 

70

2

 

72

3

 

5

 

55

2

 

56

3

 

54

1

 

 

Σ

 

 

 

8

 

 

 

9.5

 

 

 

12.5

 

3.Находим ранговые суммы для каждого условия и заносим их в последнюю строку таблицы (они выделены серым):

4.Находим общую ранговую сумму:

T 8 9.5 12.5 30 .

Находим сейчас контрольную ранговую сумму:

T

c(c 1)

n

3(3 1)

5 30 .

 

 

k

2

2

 

 

 

76

Так как общая и контрольная ранговые суммы совпадают, то ранжирование проведено верно.

5.Как видно по последней строке таблицы, ранговые суммы возрастают слева направо, поэтому таблицу переписывать, располагая их по возрастанию, не требуется.

6.Формулируем гипотезы:

H0: Увеличение массы тела по мере увеличения времени приема препарата является случайным.

H1: Увеличение массы тела по мере увеличения времени приема препарата не является случайным.

7. Находим эмпирическое значение критерия:

L

 

эмп

 

c

 

T

j

 

j 1

 

j

8 1 9.5 2 12.5 3

64.5

.

8. Находим критические значения для данного критерия по таблице 18:

L0.05

L0.01

66 ,

68 .

Отмечаем критические значения на оси значимости, на нее же наносим и эмпирическое значение:

Как видно из рисунка, эмпирическое значение критерия попадает в зону незначимости, поэтому принимаем на уровне значимости p>0.05 гипотезу H0, о том, что увеличение массы тела по мере увеличения времени приема препарата является случайным, следовательно, есть основания считать препарат неэффективным.

77

ГЛАВА 10. КРИТЕРИИ ВЫЯВЛЕНИЯ РАЗЛИЧИЙ В РАСПРЕДЕЛЕНИИ ПРИЗНАКА

10.1. Задачи выявления различий в распределении признака

Распределения могут различаться по средним, дисперсиям, асимметрии, эксцессу и по сочетаниям этих параметров. Рассмотрим несколько примеров.

На рисунке 1 представлены два распределения признака. Распределение 1 характеризуется меньшим диапазоном вариативности и меньшей дисперсией, чем распределение 2. В распределении 1 чаще встречаются значения признака, близкие к средней, а в распределении 2 чаще встречаются более высокие и более низкие, чем средняя, значения признака.

Рисунок 1 – Кривая распределения признака с меньшим диапазоном вариативности признака

(1)и кривая распределения признака

сбольшим диапазоном вариативности (2); x – значения признака;

f – относительная частота их встречаемости

На рисунке 2 представлены два распределения, различающиеся по знаку асимметрии: распределение 1 характеризуется положительной асимметрией (левосторонней), а распределение 2 – отрицательной (правосторонней).

78

Рисунок 2 – Кривые распределения признака с положительной (левосторонней) асимметрией (1) и

отрицательной (правосторонней) асимметрией (2); x – значения признака; f – относительная частота их встречаемости

Часто нам бывает полезно также сопоставить полученное эмпирическое распределение с теоретическим распределением. Например, для того, чтобы доказать, что оно подчиняется или, наоборот, не подчиняется нормальному закону распределения.

В практических целях эмпирические распределения должны проверяться на "нормальность" в тех случаях, когда мы намерены использовать параметрические методы и критерии.

Традиционные для отечественной математической статистики критерии определения

расхождения или согласия распределений – это метод

 

2

 

-Пирсона и критерий

-

Колмогорова-Смирнова.

Оба эти метода требуют тщательной группировки данных и довольно сложных вычислений. Кроме того, возможности данных критериев в полной мере проявляются на больших выборках (n>30). Например, они незаменимы в следующих двух случаях:

в задачах, требующих доказательства неслучайности предпочтений в выборе из нескольких альтернатив;

в задачах, требующих обнаружения точки максимального расхождения между двумя распределениями, которая затем используется для перегруппировки данных с целью приме-

нения критерия (углового преобразования Фишера).

10.2. χ2-критерий Пирсона

Назначение критерия: Критерий 2 позволяет решать большое число разных задач,

исходные данные для него могут быть представлены в любой шкале, начиная со шкалы наименований.

Критерий χ2 применяется:

для сопоставления эмпирического распределения признака с теоретическим – равномерным, нормальным или каким-то иным;

для сопоставления двух, трех или более эмпирических распределений одного и того же признака.

Критерий 2 отвечает на вопрос о том, с одинаковой ли частотой встречаются разные

значения признака в эмпирическом и теоретическом распределениях или в двух и более эмпирических распределениях.

79

При сопоставлении эмпирического распределения с теоретическим мы определяем степень расхождения между эмпирическими и теоретическими частотами.

При сопоставлении двух эмпирических распределений мы определяем степень расхождения между эмпирическими частотами и теоретическими частотами, которые наблюдались бы в случае совпадения двух этих эмпирических распределений. Формулы расчета теоретических частот будут специально даны для каждого варианта сопоставлений.

При полном совпадении экспериментального и теоретического (или двух экспериментальных) распределений величина эмпирического значения критерия равна нулю. Чем больше расхождение между двумя сопоставляемыми распределениями, тем больше эмпирическое

значение

 

2

.

 

Условия применения критерия:

Объем выборки должен быть достаточно большим: n 30. При n<30 критерий весьма приближенные значения. Точность критерия повышается при больших n.

Теоретическая частота для каждой ячейки таблицы не должна быть меньше 5:

 

2

 

fт

дает

5 .

Это означает, что если число разрядов задано заранее и не может быть изменено, то мы не

можем применять метод

 

2

 

, не накопив определенного минимального числа наблюдений.

Если, например, мы хотим проверить наши предположения о том, что частота обращений в телефонную службу Доверия неравномерно распределяется по 7 дням недели, то нам потребуется 5∙7=35 обращений. Таким образом, если количество разрядов (k) задано заранее, как в

данном случае, минимальное число наблюдений (nmin) определяется по формуле:

nmin

k

5

.

Выбранные разряды должны «вычерпывать» все распределение, то есть охватывать весь диапазон вариативности признаков. При этом группировка на разряды должна быть одинаковой во всех сопоставляемых распределениях.

Необходимо вносить «поправку на непрерывность» при сопоставлении распределений

признаков, которые принимают всего 2 значения. При внесении поправки значение 2 уменьшается.

Разряды должны быть неперекрещивающимися: если наблюдение отнесено к одному разряду, оно уже не может быть отнесено ни к какому другому разряду.

Сумма наблюдений по разрядам всегда должна быть равна общему количеству наблюдений.

Гипотезы:

Возможны несколько вариантов гипотез, в зависимости от задач, которые мы перед собой ставим.

Первый вариант:

Н0: Полученное эмпирическое распределение признака не отличается от теоретического (например, равномерного) распределения.

H1: Полученное эмпирическое распределение признака отличается от теоретического распределения.

Второй вариант:

Н0: Эмпирическое распределение 1 не отличается от эмпирического распределения 2. Н1: Эмпирическое распределение 1 отличается от эмпирического распределения 2.

Третий вариант:

Н0: Эмпирические распределения 1, 2, 3, ... не различаются между собой. Н1: Эмпирические распределения 1, 2, 3, ... различаются между собой.

Подсчет критерия 2 :

1. Занести в таблицу наименования разрядов (первый столбец). Соответствующие им эмпирические частоты занести во второй столбец.

80

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]