Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Вахитов статистика.doc
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
1.2 Mб
Скачать

Глава 9. Непараметрические критерии

Расчет средних величин и их сопоставление, как отмечалось в главах 7-8, строится на определении и использовании параметров вариационных рядов. Отсюда и название данного раздела статистики – параметрическая.

Однако, в тех же главах указывалось, что параметры вариационных рядов можно определять лишь при соответствии их ряду требований. И одно из требований – нормальное (или близкое к нему) распределение вариантов по соответствующим частотам.

Если распределение не нормальное, то для выявления связей между явлениями следует прибегать к непараметрическим методам. К преимуществам последних следует отнести то, что они могут использоваться и в случае нормального распределения и при оценке качественных признаков. Кроме того, использование многих непараметрических критериев не требует длительных и сложных расчетов, т.к. предполагает применение уже разработанных таблиц.

Однако непараметрические критерии требуют очень четкой постановки задачи и использования их в строго очерченных для каждого метода границах.

9.1. Критерий хи-квадрат (критерий Пирсона)

И

75

спользуется для оценки различий в распределениях в сопоставляемых группах. Рассмотрим методику использования на примерах.

Пример 1. В противотуберкулезном стационаре новый метод (НМ) лечения применялся у 42 пациентов, страдающих открытой формой туберкулеза: у 24 из них длительность лечения продолжалась до 6 месяцев, у 18 – свыше 6 месяцев; у 58 пациентов, применялся старый метод (СМ) лечения: у 16 из них лечение продолжалось до 6 мес., у 42 – свыше 6 месяцев. Вопрос: эффективен ли новый метод лечения больных туберкулезом?

Представим данные задачи в таблице 9.1.1.

Таблица 9.1.1.

Распределение больных с туберкулезом легких по длительности лечения и наличию БК в мокроте

Длительность лечения

НМ

СМ

Всего

До 6 месяцев

24

16

40

Свыше 6 месяцев

18

42

60

Итого

42

58

100

Приведенная таблица называется таблицей "четырех полей" (или 2х2), т.к. вся основная информация содержится в четырех клетках, обозначенных буквами a, b, c, d.

Значение критерия хи-квадрат рассчитывается в данном случае по следующей формуле.

=

где n – общее число наблюдений

= = 8,9

Определено, что:

Если 3,84, то различия достоверны с (p<0,05);

Если 6,64, то различия достоверны с (p<0,01);

Если 10,83, то различия достоверны с (p<0,001);

Вывод: новый метод лечения более эффективен, чем старый (p<0,01).

76

Пример 2.

В эндокринологическом диспансере при наличии нарушений углеводного обмена обследовано 1500 человек, в том числе 800 человек с факторами риска.

Распределение обследованных по наличию факторов риска и уровню нарушения углеводного обмена приведено в таблице 9.1.2.

Вопрос: влияют ли факторы риска на нарушение углеводного обмена?

Таблица 9.1.2.

Распределение обследованных по уровню нарушений углеводного обмена и наличию факторов риска

Факторы риска

Нарушения углеводного обмена

явные

сомнительные

отсутствуют

Всего

Есть

225

70

505

800

Нет

70

30

600

700

Итого:

295

100

1105

1500

Величина критерия в таблицах, где хотя бы у одного признака градаций более, чем две, определяется по формуле:

где

n – общее число наблюдений;

r – число градаций в результативном признаке

s – число градаций в факторном признаке

i – 1, 2, ….,r;

j – 1, 2, …., s;

nijчисло, стоящее на пересечении строки i и графы j;

ni - сумма по i-ой строке;

nj сумма по j-ой графе;

На практике эта формула реализуется так:

= 1500 х = 99,4

П

77

риведенные в примере 1 пограничные значения могут использоваться лишь для таблиц "2х2". В примере 2 информация о распределении обследованных представлена в виде таблицы "2х3", т.е. в одном из признаков градаций более двух.

В общем виде таблицы, в которых хотя бы один признак имеет градации числом более двух, принято обозначать как таблицы "n x m", где n и m могут быть любыми числами и будут обозначать соответственно число градаций в одном и другом признаках. В таблицах "n x m" критические значения находят в два этапа:

Первый – определяют так называемое число степеней свободы n1 = (n – m) (m – 1). В примере 2 n1 = (2 – 1) (3 – 1) = 2.

Второй – по таблице 9.1.3 находят критические , превышение которых свидетельствует о наличии связи между изучаемыми факторами.

Таблица 9.1.3

Критические значения

n’

p=0,05

p=0,01

n’

p=0,05

p=0,01

n’

p=0,05

p=0,01

1

3,84

6,63

18

28,9

34,8

35

49,8

57,3

2

5,99

9,21

19

30,1

36,2

36

51,0

58,6

3

7,81

11,3

20

31,4

37,6

37

52,2

59,9

4

9,49

13,3

21

32,7

38,9

38

53,4

61,2

5

11,1

15,1

22

33,9

40,3

39

54,6

62,4

6

12,6

16,8

23

35,2

41,6

40

55,8

63,7

7

14,1

18,5

24

36,4

43,0

41

56,9

65,0

8

15,5

20,1

25

37,7

44,3

42

58,1

66,2

9

16,9

21,7

26

38,9

45,6

43

59,3

67,5

10

18,3

23,2

27

40,1

47,0

44

60,5

68,7

11

19,7

24,7

28

41,3

48,3

45

61,7

70,0

12

21,0

26,2

29

42,6

49,6

46

62,8

71,2

13

22,4

27,7

30

43,8

50,9

47

64,0

72,4

14

23,7

29.1

31

45,0

52,2

48

65,2

73,7

15

25,0

30,6

32

46,2

53,5

49

66,3

74,9

16

26,3

32,0

33

47,4

54,8

50

67,5

76,2

17

27,6

33,4

34

48,6

56,1

Вывод по примеру 2: факторы риска влияют на нарушение углеводного обмена (p<0,001). Однако здесь может возникнуть вопрос: а какая связь между факторами риска и нарушением углеводного обмена?

Для определения силы связи между факторным и результативным признаком используются критерии Крамера (К).

78

К =

n - число единиц наблюдения;

Z – число градаций одного признака;

S – число градаций другого признака.

Первый признак в нашей задаче - факторы риска, имеет две градации:

2 – 1 =1, второй признак – нарушение углеводного обмена, имеет три градации: 3 – 1 = 2. Следовательно, число единиц наблюдения умножаем на 1.

К = = 0,26

Если К<0,3, то связь сильная;

Если К находится в пределах от 0,3 до 0,6 – связь средняя;

Если К >0,6, то связь сильная.

Вывод: между факторами риска и нарушением углеводного обмена связь сильная.

Примечание: если в таблице с данными задачи хотя бы в одной клетке встречается число меньше 5, то вычисление не корректно.

9.2. Точный метод Фишера (ТМФ)

В случаях, когда в таблицах вида "n x m" встречаются числа, меньше 5 (до 0 включительно), расчет величины , как отмечалось, не будет корректным. выход может быть в том, чтобы объединить определенные графы или строки и получить суммарно большие числа.

Однако могут возникать ситуации, когда даже в таблице "2х2" будут встречаться малые (от 0 до 4) числа. В этих случаях очень удобно использовать ТМФ.

Заключается он в следующем.

Выдвигается "нулевая гипотеза", в соответствии с которой влияние фактора на результат равно нулю. Затем с помощью ТМФ оценивается вероятность ошибочности этой гипотезы – РТМФ.

Если РТМФ > 0,05, то вероятность ошибочности гипотезы велика и связь признается достоверной. Если РТМФ < 0,05 – гипотеза подтверждается и наличие связи между изучаемыми признаками отрицается.

Рассчитывается РТМФ по формуле:

РТМФ = ,

где

a

79

, b, c, d – буквенные обозначения чисел в таблице "2х2"

n – общее число наблюдений

! – знак факториала, означающий необходимость последовательного перемножения чисел от 1 до обозначенного.

Например, 5! = 1  2  3  4  5 = 120

7! = 1  2  3  4  5  6  7 = 5040

Принято считать 0! = 1

Рассмотрим ТМФ на примерах.

Пример 1.

В стационаре язвенную болезнь желудка первым способом лечили у 8 человек, осложнений ни у кого не наблюдалось. Вторым способом то же заболевание лечили у 12 человек, из них у двоих наблюдались осложнения. Вопрос: влияет ли способ лечения на частоту осложнений?

Представим данные задачи в таблице 9.2.1.

Таблица 9.2.1.

Распределение больных язвенной болезнью желудка, лечившихся различными способами по наличию или отсутствию осложнений

Способы лечения

Осложн. есть

осложн.нет

Всего

Первый

0

8

8

Второй

2

10

12

Итого

2

18

20

= = 0,37

Вывод: нулевая гипотеза не подтверждается, связь есть. Следовательно, способ лечения влияет на частоту осложнений.

Пример 2.

В стационаре острый инфаркт миокарда первым способом лечили у 11 человек, осложнений ни у кого не наблюдалось. Вторым способом то же заболевание лечили также у 11 человек, из них у 4 наблюдались осложнения. Вопрос: влияет ли способ лечения на частоту осложнений?

Представим данные задачи в таблице 9.2.2.

Т

80

аблица 9.2.2.

Распределение больных острым инфарктом миокарда, лечившихся различными способами по наличию или отсутствию осложнений

Способы лечения

Осложн. есть

осложн.нет

Всего

Первый

0

11

11

Второй

4

7

11

Итого

4

18

22

= = 0,04

Вывод: нулевая гипотеза подтверждается, связи нет. Следовательно, способ лечения не влияет на частоту осложнений.

9.3. Критерий знаков (КЗ).

Применяется для выявления различий в средних тенденциях в связанных выборках, т.е. в выборках, в которых каждому наблюдению соответствует свой контроль (очень часто – исходный уровень какого-либо параметра и конечный, после проведения определенных мероприятий).

Пример 1.

Исследуется эффективность новой моющей добавки. Проведено 8 опытов, в 7 из них получено лучшее очищение, в 1 – худшее, чем без добавки. Необходимо установить, является ли улучшение очищения статистически достоверным или наблюдаемые изменения можно отнести к случайным колебаниям?

Алгоритм определения КЗ:

1. Определить, какое изменение (состояние) будет обозначаться знаком (+) или (-).

2. Проставить знаки и подсчитать общее количество наблюдений (n0) и количество знаков, встречающееся меньшее количество раз (nм).

3. По таблице 9.3.1 определить, при каком максимальном числе менее часто встречающихся знаков различия можно считать существенными.

4. Сопоставить табличные данные с опытными и сделать вывод.

Решение примера:

1. Обозначим знаком (+) каждый случай лучшей очистки при использовании новой моющей добавки. Знаком (-) – случай хорошей очистки.

2. В примере получается общее число наблюдений n0 = 8, количество менее часто встречающихся знаков nм = 1.

3. По таблице 9.3.1 находим, что при n0 = 8, nм = 1, т.е. если из 8 наблюдений в одном встретился отрицательный результат, а в 7 – положительный, можно с 95 – процентной уверенностью (р<0,05) утверждать, что получение лучшего эффекта в данном случае достоверно, не случайно.

4

81

. В примере получен результат, соответствующий табличному. Следовательно, улучшение очистки при использовании новой моющей добавки достоверно (р<0,05).

Пример 2.

В клинику поступило за месяц 27 больных с нарушениями мозгового кровообращения. Для их лечения использовали новый способ, который оказался в 21 случае более эффективным, а в 6 случаях – таким же эффективным, чем старый.

Решение примера:

1. Обозначим знаком (+) случаи более эффективного лечения, знаком (-) – прочие.

2. Общее число наблюдений n0 = 27, nм = 6.

3. По таблице 9.3.1 находим, что при n0 = 27, nм = 8.

В примере nм = 6, следовательно, с достоверностью, превышающей 95% (р<0,05) можно говорить о большей эффективности нового способа лечения.

Таблица 9.3.1.

Определение максимального числа менее часто встречающихся знаков, при которых различия в парных сравнениях можно считать существенными (р<0,05).

n0

n0

5 – 7

0

44 – 46

16

8 – 10

1

47 – 48

17

11 – 12

2

49 – 50

18

13 – 15

3

52

19

16 – 17

4

60

23

18 – 20

5

70

27

21 – 22

6

80

32

23 – 25

7

90

36

26 – 28

8

100

41

29

9

120

50

30 – 32

10

140

59

33 – 34

11

150

64

35 – 36

12

180

78

37 – 39

13

200

87

40 – 41

14

260

116

42 - 43

15

300

135

9.4. Критерий Q Розенбаума (критерий "хвостов")

Применяется для оценивания различий в средних тенденциях двух независимых выборок.

Пример.

И

82

зучается сравнительная эффективность двух методик лечения кишечных инфекций. Сроки нормализации состояния больных приведены ниже в форме общего упорядоченного ряда.

М етодика 1

(13 человек) 9 9 10 10 10 11 11 11 11 11 12 12 12

Методика 2

(15 человек) 8 8 8 9 9 10 10 10 10 10 11 11 11 11 11

Определим: S1 – число наблюдений первого ряда, превышающих по своему значению максимальную величину второго ряда: S1 = 3;

S2 – число наблюдений второго ряда, меньших, чем минимальная величина первого ряда: S2 = 3.

Q = S1 + S2 = 3 + 3 =6

По таблице 9.4.1. находим, что при n1 = 13 и n2 = 15 минимальное значение Q, при котором различия в сравниваемых выборках можно считать существенными, равняется 6.

В примере Q = 6, следовательно методика 2 в целом позволяет в более короткие сроки нормализовать состояние больных (р = 0,05).

Ограничения и условия применения критерия Q

1. При числе наблюдений в каждой группе меньше 11 критерий Q не применяется.

2. При числе наблюдений от 11 до 26 используется таблица 2. Причем n1 и n2 должны быть если не равны, то очень близки, отличаясь лишь на несколько единиц.

3. При n1 и n2 больших, чем 26, различия в сравниваемых выборках считаются значимыми с р<0,05 при Q > 8, и с р<0,01 при Q > 11.

При этом, если n1 и n2 не превышают 50, различия между ними должны быть в пределах 10 единиц; если n1 и n2 в границах от 51 до 100 – различия могут достигать 15 – 20 единиц; при n1 и n2 > 100 – различие между ними допустимы в 1,5 – 2 раза.

Т

83

аблица 9.4.1.

Минимальные значения Q, при которых различия между выборками можно считать значимыми (р<0,05)

n1

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

n2

11

6

12

6

6

13

6

6

6

14

7

7

6

6

15

7

7

6

6

6

16

7

7

7

7

6

6

17

7

7

7

7

7

7

7

18

7

7

7

7

7

7

7

7

19

7

7

7

7

7

7

7

7

7

20

7

7

7

7

7

7

7

7

7

7

21

8

7

7

7

7

7

7

7

7

7

7

22

8

7

7

7

7

7

7

7

7

7

7

7

23

8

8

7

7

7

7

7

7

7

7

7

7

7

24

8

8

8

8

8

8

8

8

8

8

7

7

7

7

25

8

8

8

8

8

8

8

8

8

8

7

7

7

7

7

26

8

8

8

8

8

8

8

8

8

8

7

7

7

7

7

7