Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Глава 4 параграф 2, 3.docx
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
280.34 Кб
Скачать

5. Статистические методы анализа связей

Регрессионный и корреляционный анализ

Анализ взаимосвязей между показателями внешней среды и здоровья представляет собой основную задачу социально-гигиенического мониторинга. Наиболее широкие возможности для такого анализа предоставляют количественные переменные. Если в непрерывных шкалах измеряются как фактор риска X, так и показатель здоровья Y, то взаимосвязь между ними может быть представлена в виде явной функиональной зависимости:

Y = f(X) + Ɛ,

где Ɛ — отклонение от однозначно определенной функции, связанное с влиянием других факторов и погрешностями наблюдения.

В терминах теории рисков такая зависимость называется зависимостью «доза—эффект». В статистике такое представление называется регрессионной зависимостью Y от X, или регрессией Y на X, а функция f регрессионной функцией. Переменная X в этом случае называется независимой, а переменная Y — зависимой. Задачей регрессионного анализа является поиск функции f, максимально точно описывающей связь между этими переменными.

Если по экспериментальным данным удается с удовлетворительной степенью точности (т. е. с достаточно малой величиной отклонения) выразить зависимую переменную в виде явной функции от независимой, то полученная регрессионная зависимость может быть использована в целях прогнозирования значений зависимой переменной при таких уровнях фактора риска, для которых ее измерения не проводились. Точность такого прогноза зависит как от величины отклонения Ɛ (точности аппроксимации), так и от интервала, для которого построена регрессионная зависимость. В различных диапазонах изменения независимой переменной характер ее связи с зависимыми переменными может быть различным. Так, например, для многих факторов риска характерно наличие порога чувствительности и порога насыщения. Изменению уровня фактора риска в интервале между пороговыми значениями соответствуют выраженные изменения показателей здоровья, тогда как в области ниже порога чувствительности и выше порога насыщения (эти пороговые значения могут быть различными для разных показателей здоровья) такого влияния не наблюдается.

Простейшим видом функциональной зависимости является линейная зависимость:

Y =a + bX,

где a и b коэффициенты (называемые регрессионными коэффициентами ими параметрами регрессии). График такой зависимости в координатной плоскости (X, Y) представляет собой прямую линию. В точке с координатами (0, а) эта прямая пересекает ось ординат (поскольку Y (0) = а), поэтому коэффициент а называется также точкой пересечения (intercept). Коэффициент b называется коэффициентом углового наклона (slоре). Его величина равна тангенсу угла между осью абсцисс и данной прямой.

Поиск зависимостей между факторами риска и показателями здоровья в линейном виде целесообразен не только по причине максимальной простоты такой зависимости, но еще и потому, что любую непрерывную зависимость в некотором диапазоне можно с достаточной степенью точности представить как линейную (при этом вид этой зависимости, т.е. значения коэффициентов регрессии, могут быть неодинаковыми для различных интервалов).

Мерой тесноты линейной связи между выборками служит выборочный коэффициент корреляции (или коэффициент корреляции Пирсона) r, определяемый по формуле

r =

где n — объем выборок X и Y; xi, уi i-ые значения этих выборок; Мx, Му — выборочные средние; SХ, Sу — выборочные стандартные уклонения.

В вычислениях удобно использовать другое (эквивалентное первому) выражение для коэффициента корреляции:

r = .

Можно показать, что коэффициент корреляции может принимать значения в диапазоне от -1 до +1. Знак коэффициента корреляции характеризует направленность связи между переменными X и Y. Положительный коэффициент корреляции соответствует ситуации, когда c ростом X увеличивается Y (положительная корреляционная связь), а отрицательный — убыванию Y с ростом X (отрицательная корреляционная связь). Абсолютная величина коэффициента корреляции характеризует степень тесноты линейной зависимости — чем ближе значение r к 1 или - 1, тем сильнее значения выборочных пар (xi, yi) сконцентрированы около регрессионной прямой (рис. 4.23, 4.24). Все значения выборочных пар (xi, yi) лежат на одной прямой тогда и только тогда, когда коэффициент корреляции между выборками X и Y равен ±1.

Рис. 4.23. Положительная корреляция Рис. 4.24. Отрицательная корреляции

между выборками между выборками

Для нормально распределенных случайных величин верно утверждение о том, что они некоррелированы в том и только в том случае, когда независимы. Поэтому близкое к 0 значение коэффициент корреляции между двумя выборками из нормальных генеральных совокупностей позволяет сделать вывод о независимости соответствующих переменных. Если же распределения исследуемых переменных не являются нормальными, некоррелированность выборок не дает достаточных оснований для вывода о независимости.

Коэффициенты а и b для прямой, для которой сумма расстояний от выборочных точек (xi, yi) минимальна, выражаются следующим образом:

a = My - bMx,

b = .

Можно показать, что линейное преобразование выборки, т. е. изменение масштаба и начала отсчета, не влияет на величину ее коэффициента корреляции с любой другой выборкой, если коэффициент изменения масштаба b положителен, и меняет знак коэффициента корреляции на противоположный при отрицательных значениях b.

Параметры линейной регрессии при таких преобразованиях изменяются: изменения начала отсчета приводят к изменению параметра а, и изменения масштаба — к изменению коэффициента наклона регрессионной прямой b.

Пример 12. В табл. 4.2 приведены данные о числе случаев возникновении инфекционных заболеваний в школах-интернатах за 5 лет в зависимости от численности учащихся.

Несмотря на то, что разброс показателя заболеваемости при одинаковых значениях численности достаточно велик (что свидетельствует о существовании других факторов, влияющих на заболеваемость), налицо факт увеличения числа заболеваний с ростом численности. Можно оценить интенсивность этой связи с помощью коэффициента корреляции, а также вычислить коэффициенты регрессии для зависимости заболеваемости от численности. Для упрощения расчетов воспользуемся свойством независимости коэффициента корреляции от преобразований масштаба переменных и выразим численность учащихся в сотнях. Исходные данные и необходимые для расчетов промежуточные значения приведены в табл. 4.3.

Мх = 54/12 = 4,5,

Му = 244/12 =20,33,

- nMxMy = 1 237 – 12 * 4,5 * 20,33 = 139,

- nMx2 = 278 – 12 * 4,52 = 35,

- nMy2 = 5 690 – 12 * 20,332 = 728,67,

r = 139/ = 0,87;

b = 139/35 = 3,97 (если численность выражать не в сотнях, а в единицах, то этот коэффициент следует уменьшить в 100 раз, т.е. b = 0,0397); а = 20,33 - 3,97 * 4,5 = 2,46.

Полученное значение коэффициента корреляции достаточно близко к 1. Это свидетельствует о том, что между численностью школьников в интернате и частотой возникновения инфекционных заболеваний существует положительная корреляционная связь.

Если для каждого значения независимой переменной хі, вычислить соответствующее ему регрессионное значение

yiрегр. = a + bxi,

то можно показать, что для построенной таким образом выборки регрессионных значений Yрегр. сумма квадратов отклонений от ее среднего значения не превосходит суммы квадратов отклонений для выборки Y, а квадрат коэффициента корреляции равен отношению квадратов отклонений выборок Yрегр. и Y. Поэтому квадрат коэффициента корреляции служит мерой точности линейной аппроксимации зависимой переменной. Сумму квадратов отклонений выборки регрессионных значений называют объясняемой, или модельной, составляющей рассеяния выборки Y, поскольку она объясняет рассеяние зависимой переменной, обусловленное ее связью с независимой переменной. Разность между суммами квадратов выборок Y и Yрегр. называют остаточным рассеянием. Квадрат коэффициента корреляции показывает, какую долю рассеяния зависимой переменной можно объяснить влиянием независимой переменной. В рассмотренном примере r2 = 0,76, т. е. более 3/4 рассеяния заболеваемости можно отнести к эффекту численности.

Чем меньше число наблюдений, тем ниже точность оценки любых выборочных характеристик, в том числе и коэффициента корреляции, поэтому высокое значение коэффициента корреляции не обязательно означает наличие достоверной связи между переменными. Для нормального распределенных переменных существует статистический критерий, позволяющий оценить вероятность отличия их коэффициента корреляции от 0. Во всех современных статистических пакетах процедуры корреляционного анализа обеспечивают выдачу уровней значимости для гипотезы о равенстве 0 выборочного коэффициента корреляции, а процедуры регрессионного анализа — вычисление стандартных ошибок регрессионных коэффициентов и вероятностей равенства этих коэффициентов 0. Для рассмотренного выше примера Р(r = 0) = 0,002, а значения параметров регрессии с учетом ошибки равны: а = 2,46 ± 3,42; b = 3,97 ± 0,71; Р(а = 0) = 0,49; Р(b = 0) < 0,001 (вычисления выполне­ны с помощью пакета Statgraphics). Следовательно, несмотря на высокое значение коэффициента корреляции и достоверно отличный от 0 коэф­фициент наклона регрессионной прямой, регрессионная зависимость не является надежной. Такой результат связан с тем, что зависимость между численностью и заболеваемостью не вполне линейна (рис. 4.25) и лучше аппроксимируется экспоненциальной функцией (рис. 4.26).

Процедура экспоненциальной регрессии, т. е. поиск параметров зависимости в виде

Y =

реализованная во всех статистических пакетах, сводится к задаче линейной регрессии логарифмированием переменной Y:

ln Y = а + bХ.

Таблица 4.2

Численность учащихся и число инфекционных заболеваний за 5 лет

в школах-интернатах

Номер

школы

Число учащихся (округ­ление до сотен)

Число случаев инфек­ционных заболеваний

1

200

12

2

200

15

3

300

11

4

300

16

5

400

13

6

400

21

7

500

17

8

500

20

9

600

24

10

600

28

11

700

29

12

700

38

Таблица 4.3

Расчет выборочного коэффициента корреляции Пирсона

i

xi

yi

xi yi

xi2

yi2

1

2

12

24

4

144

2

2

15

30

4

225

3

3

11

33

9

121

4

3

16

48

9

256

5

4

13

52

16

169

6

4

21

84

16

441

7

5

17

85

25

289

8

5

20

100

25

400

9

6

24

144

36

576

10

6

28

168

36

784

11

7

29

203

49

841

12

7

38

266

49

1444

Суммы

54

244

1237

278

5690

Рис. 4.25. Линейная регрессия и 95 %-е Рис. 4.26. Экспоненциальная регрессия

доверительные интервалы регрессии и 95 %-е доверительные интервалы рег-

рессии

Очевидно, что такое преобразование допустимо, только если в выборке Y содержатся только положительные значения, и что удовлетворяющие такой зависимости переменные X и Y не могут одновременно иметь нормальное распределение. Наилучшие результаты экспоненциальная регрессия дает в случае, если переменная X распределена по нормальному закону, а Y — по логнормальному (в этом случае корректны вычисления ошибок параметров регрессии и доверительных интервалов для регрессионных значений). Для рассмотренного примера экспоненциальная регрессия дает следующие результаты:

а = 2,09 ± 0,16,

Р(а=0) ˂ 0,0001,

b = 0,0019 ± 0,003,

Р(b=0) ˂ 0,0003,

r = 0,88, r2 = 0,78.

По сравнению с линейной регрессией увеличилась и доля объясняемого рассеяния, и достоверность полученных оценок.

При решении задач социально-гигиенического мониторинга нередки случаи, когда невозможно с удовлетворительной степенью точности выразить исследуемый показатель здоровья через единственный показатель внешней среды. В этом случае необходимо использовать методы множественной регрессии, т. е. искать выражение показателя здоровья Y в виде

Y = f(X1, X2, … , Xn) + Ɛ,

где X1, X2, … , Xn — различные показатели среды. Простейшим видом такой зависимости является линейная зависимость вида:

Y = a +b1X1 + b2X2 + … + bnXn .

Для того чтобы коэффициенты этой зависимости можно было определить однозначно, необходимо, чтобы факторы были взаимно независимы (если все они распределены по нормальному закону, для этого достаточно, чтобы они были некоррелированы). Процедуры множественной линейной регрессии содержатся во всех статистических пикетах.

Если распределения исследуемых величин отличаются от нормального, для оценки тесноты связи между ними используются непараметрические методы: ранговый коэффициент корреляции Спирмена и ранговый коэффициент корреляции Кендалла. Оба метода работают не с численными значениями переменных, а с их рангами. Первый из этих методов используется для непрерывных случайных величин, распределения которых сильно отличаются от нормального, а второй — для случайных величин, измеряемых в балльных шкалах с большим числом градаций, но не обязательно равноценными интервалами между соседними градациями, т.е. для переменных, более близких к ординальным, чем к чисто количественным.

Ранговый коэффициент корреляции Спирмена основан на независимом ранжировании обеих исследуемых выборок. Каждому значению в этих выборках присваивается ранг (rk), т.е. порядковый номер этого значения (по возрастанию). Если в выборке имеются равные значения, используется модифицированная формула для расчета коэффициента корреляции Спирмена. Вместо использования этой модификации, существенно усложняющей расчеты, можно присваивать равным значениям одинаковые ранги, равные среднему арифметическому соответствующих номеров. Ранги в таком случае могут принимать дробные значения, а точность вычисления коэффициента ранговой корреляции практически не страдает. Для каждого значения индекса і рассчитывается величина di, равная разности рангов xi и yi. Формула для рангового коэффициента корреляции Спирмена R имеет следующий вид:

R = 1 -

Пример 13. Для данных из примера 12 ранговый коэффициент корреляции Спирмена рассчитывается следующим образом (см. табл. 4.4):

R =

Значение рангового коэффициента корреляции Спирмена оказалось несколько выше коэффициента корреляции Пирсона и совпало с коэффициентом корреляции между логарифмом численности и заболеваемостью. Вообще оценка корреляции по Спирмену дает более высокие результаты, чем обычный коэффициент корреляции в случае, когда связь между переменными монотонна, но при этом нелинейна.

Задача 4. Для 5 населенных пунктов интегральная оценка загрязнения окружающей среды составила 2, 3, 4, 5 и 7 баллов, а состояние здоровья населения — соответственно, 7, 6, 4, 5 и 3 балла (оба показателя измеряли по 10-балльным шкалам). Вычислить коэффициенты корреляции Пирсона и Спирмена между показателями загрязнения и состояния здоровья.

Решение. Вспомогательные величины для расчетов приведены в табл. 4.5.

Таблица 4.4

Расчет рангового коэффициента корреляции Спирмена

i

xi

yi

rk (xi)

rk (yi)

di

di2

1

200

12

1,3

2

-0,5

0,25

2

200

15

1,5

4

-2,5

6,25

3

300

11

3,5

1

2,5

6,25

4

300

16

3,5

5

-1,5

2,25

5

400

13

5,5

3

2,5

6,25

6

400

21

5,5

8

-2,5

6,25

7

500

17

7,5

6

1.5

2,25

8

500

20

7,5

7

0,5

0,25

9

600

24

9,5

9

0,5

0,25

10

600

28

9,5

10

-0,5

0,25

11

700

29

11,5

11

0,5

0,25

12

700

30

11,5

12

-0,5

0,25

Сумма

33,5

Таблица 4.5

i

xi

yi

xi yi

xi2

yi2

rk (xi)

rk (yi)

di

di2

1

2

7

14

4

49

1

5

-4

16

2

3

6

18

9

36

2

4

-2

4

3

4

4

16

16

16

3

2

1

1

4

5

5

25

25

25

4

3

1

1

5

7

3

21

45

9

5

1

4

16

Суммы

21

25

94

103

135

38

Расчет выборочного коэффициента корреляции Пирсона:

Мх = 21,5 = 4,2,

Му = 25/5,

135-5*5*5 = 10,

r = 0,904.

Расчет рангового коэффициента корреляции Спирмена:

R = = -0,9.

Дисперсионный анализ

Дисперсионный анализ (английский термин — analysis of variance, сокращенно — ANOVA) при анализе рисков здоровью используется в том случае, если факторы риска регистрируются в порядковых или качественных шкалах, а показатели здоровья — в количественной. Сущность метода сводится к разбиению суммы квадратов отклонений зависимой переменной от своего среднего на несколько компонент, связанных с различными источниками вариабельности — действием отдельных факторов риска, их взаимодействиями — а также остаточную сумму квадратов. Затем суммы квадратов, соответствующие факторам, сопоставляются с остаточной сумой квадратов. Гипотеза о том, что некоторый фактор не оказывает влияния на зависимую переменную, отвергается, если сумма квадратов, соответствующая этому фактору, существенно больше остаточной суммы квадратов. В этом метод дисперсионного анализа сходен с регрессионным. В дисперсионном анализе применяется терминология несколько иная, чем в других разделах статистики: независимые переменные называются факторами, их значения — уровнями фактора, а зависимые переменные — переменными отклика.

Однофакторный дисперсионный анализ используется в случае, когда требуется оценить влияние единственного фактора на переменную отклика. Если имеется I уровней фактора риска, а для i-го уровня фактора — ni наблюдений переменной отклика уij, где индекс j принимает значения от 1 до ni то средние значения переменной отклика по i-му уровню (обозначаемые как yi.) выражаются в виде:

а генеральное среднее (обозначаемое как y..) равно

y..=

то полную сумму квадратов SST можно представить в виде:

SST =

где первая сумма называется межгрупповой (она характеризует степень разброса данных между уровнями фактора), а вторая — внутригрупповой, или остаточной, поскольку она характеризует разброс данных внутри уровней факторов, обусловленных действием неучтенных факторов и случайных причин.

В качестве нулевой гипотезы в однофакторном дисперсионном анализе рассматривается предложение о равенстве средних переменной отклика для всех уровней фактора. Альтернативой является наличие хотя бы одной пары уровней, для которых средние значения переменной отклика различны.

В теории дисперсионного анализа доказывается, что если нулевая гипотеза верна, то отношение имеет F-распределение Фишера с числами степеней свободы (I — 1), (n I),

F =

поэтому критической областью при заданном уровне значимости α является область значений F, превышающих квантиль порядка 1 — α распределения Фишера с (I— 1), (n I) степенями свободы.

Пример 14. В примере 12 каждому значению численности школьников соответствуют два значения частоты заболеваний, поэтому степень влияния численности на частоту заболеваний можно оценить с помощью дисперсионного анализа. Расчеты приведены в табл. 4.6.

у.. = 244/12 = 20,33,

SST = 728,67, = 626,67, = 102,

I = 6, I - 1= 5, п - I = 6,

F5,6 = =

Таблица 4.6

Однофакторный дисперсионный анализ

i

j

yij

yi.

yij - yi.

(yij - yi.)2

yij - yi..

(yij - yi..)2

yi. - yi..

(yi. - yi..)2

200

1

12

13,5

-1,5

2,25

-8,33

69,44

-6,83

46,69

200

2

15

13,5

1,5

2,25

-5,33

28,44

-6,82

46,69

300

1

11

13,5

-2,5

6,25

-9,33

87,11

-6,83

46,69

300

2

16

13,5

2,5

6,25

-4,33

18,78

-6,83

46,69

400

I

13

17

-4

16

-7,33

53,78

-3,33

11,11

400

2

21

17

4

16

0,67

0,44

-3,33

11,11

500

1

17

18,5

-1,5

2,25

-3,33

11,11

-1,83

3,36

500

2

20

18,5

1,5

2,25

-0,33

0,11

-1,83

3,36

600

1

24

26

-2

4

3,67

13,44

5,67

32,11

600

2

28

26

2

4

7,67

58,78

5,67

32,11

700

1

29

33,5

-4,5

20,25

8,67

75,11

13,17

173,36

700

2

38

33,5

4,5

20,25

17,67

312,11

13,17

173,36

Cуммы

244

102

728,67

626,67

В таблицах распределения Фишера, имеющихся в любом справочнике по статистике, можно найти значение квантилей статистики для любого заданного уровня значимости. Квантиль порядка 0,95 равна 4,39, а квантиль порядка 0,99 — 8,75. Таким образом, гипотеза о равенстве средних по всем уровням (т. е. об отсутствии влияния фактора на переменную отклика) должна быть отвергнута, если уровень значимости α = 0,05, но не при уровне значимости α = 0,01. Таким образом, результаты дисперсионного анализа с достаточно вы­соким доверительным уровнем (> 95 %) указывают на наличие связи между численностью учащихся и числом возникновений инфекционных заболеваний в школах, т.е. качественно совпадают с результатами корреляционного анализа.

На рис. 4.27 приведен традиционный способ графического представления результатов дисперсионного анализа: средние по уровням фактора значения переменной отклика и показатели внутригруппового рассеяния (в данном случае приведены диапазоны изменений; могут быть использованы и другие показатели: стандартные отклонения средних, стандартные ошибки средних, доверительные интервалы для заданного уровня значимости). График показывает, что для некоторых уровней фактора риска показатели заболеваемости различаются существенно (соответствующие им интервалы изменения переменной отклика не пересекаются), но существуют и такие пары уровней, для которых внутригрупповой разброс гораздо больше разности между средними по уровням. Именно вследствие этого доверительный уровень для гипотезы о различии средних по уровням не достигает 99%.

Типичной для социально-гигиенического мониторинга является задача исследования влияния множественных факторов. В таких случаях для определения влияния каждого из них на переменную отклика недостаточно провести однофакторный дисперсионный анализ по каждому из факторов, поскольку для некоторых факторов их непосредственный эффект может быть мал по сравнению с эффектами его взаимодействия с другими факторами. В случае, если на переменную отклика оказывают влияние 2 независимых фактора А и В, разбиение общей суммы квадратов осуществляется с учетом взаимодействия факторов:

SSт = SSА + SSB + SSАB + SSR.

Не вдаваясь в подробности вычисления статистик, проверяющих гипотезу о равенстве всех средних по уровням для каждого включенного в модель фактора, отметим, что, как и в случае однофакторного анализа, все они строятся на соотношении с остаточной суммой квадратов и имеют F-распределение. Процедуры двухфакторного дисперсионного анализа имеются во всех статистических пакетах, а в некоторых пакетах есть и программы многофакторного дисперсионного анализа для случая более чем 2 факторов.

На рис. 4.28 приведены результаты анализа показателя заболеваемости, который регистрировали на 3 территориях ежемесячно в течении. 4 лет наблюдения, по фактору «год наблюдения» (таким образом, на каждый уровень этого фактора приходится по 36 наблюдений). Рисунок показывает, что, несмотря на тенденцию к росту среднего уровня заболеваемости со временем, различия средних для любой пары уровней недостоверны (в качестве показателя разброса взяты 95 %-е доверительные интервалы средних). Дисперсионный однофакторный анализ показал, что для данного фактора вероятность равенства всех средних по уровням равна 0,49.

Для фактора «территория» вероятность равенства всех средних по уровням оказалась меньше 0,0001, так как средние за период наблюдения уровни заболеваемости для разных территорий оказались резко различными (рис. 4.29).

При учете взаимодействия факторов «территория» и «год наблюдения» (т. е. неодинаковости динамики заболеваемости на разных территориях) в качестве отдельного фактора вероятность отсутствия влияния этого фактора на переменную отклика оказалась менее 0,0001. Та кой же уровень значимости имел место и для фактора «территория», а для фактора «год наблюдения» уровень значимости составил 0,0002. Более высокий уровень значимости для фактора «год наблюдения» по сравнению с комбинацией факторов «территория» и «год наблюдения» обусловлен тем, что выраженная динамика заболеваемости имела место только для одной из территорий, тогда как для двух других она оставалась стабильной (рис. 4.30). Таким образом, двухфакторный дисперсионный анализ с учетом взаимодействия факторов выявил как значимые различия средних уровней заболеваемости на различных территориях (выявляемые также и однофакторным анализом), так и наличие выраженной динамики заболеваемости (которая не выявляется однофакторным анализом, так как, во-первых, не имеет одинакового характера для всех территорий, а во-вторых, маскируется различиями средних уровней заболеваемости по территориям).

Статистика Фишера, используемая в дисперсионном анализе, основана на предположении о нормальности распределения переменной отклика на каждом уровне фактора. Дисперсионный анализ нечувствителен к небольшим отклонениям от нормального вида распределения, и поэтому может применяться, когда выборочные распределений не очень сильно отличаются от нормальных. Однако для существенно асимметричных распределений и в особенности при наличии наблюдений, резко отклоняющихся от средних, метод дисперсионного анализа неприемлем. В таких случаях следует пользоваться непараметрическим аналогом этого метода — ранговым критерием Крускала—Уомиса, проверяющим гипотезу о равенстве медиан для всех уровней фактора против альтернативы — существования пары уровней с неравными медианами (критерий реализован во всех статистических пакетах).

Задача 5. Пользуясь результатами примера 14, оцените достоверность влияния численности школьников на заболеваемость для диапазона изменений численности от 400 до 700. Квантили порядка (1 - α) для статистики F3,4 равны 6,59 при α = 0,05 и 16,69 при α — 0,01.

Решение. Расчеты по схеме однофакторного дисперсионного анализа (см. табл. 4.7):

Таблица 4.7

i

j

yij

yi.

yij - yi.

(yij - yi.)2

yij - y..

(yij - y..)2

yi - y..

(yi. - y..)2

400

1

13

17

-4

16

-1075

115,56

-6,75

45,56

400

2

21

17

4

16

-2,75

7,56

-6,75

45,56

500

1

17

18,5

-1,5

2,25

-6,75

45,56

-5,25

27,56

500

2

20

18,5

1,5

2,25

-3,75

14,06

-5,25

27,56

600

1

24

26

-2

4

0,25

0,06

2,25

5,06

600

2

28

26

2

4

4,25

18,06

2,25

5,06

700

1

29

33,5

-4,5

20,25

5,25

27,56

9,75

95,06

700

2

38

33,5

4,5

20,25

14,25

203,06

9,75

95,06

Суммы

190

85

431,5

346,50

y.. = 190/8 = 23,75,

SST = 431,5, SSв = 346,5, SSR = 85,

I = 4, I-1=3, n — I = 4,

Полученное значение F-статистики немного ниже критического уровня (6.59), позволяющего отклонить гипотезу о равенстве всех средних по уровням с уровнем значимости а = 0,05. Таким образом, сокращение числа наблюдений привело к снижению достоверности вывода о зависимости заболеваемости в школах от численности школьников.

Анализ категоризованных данных

Этот метод анализа связей используется в случае, когда как независимые переменные (факторы риска), так и зависимые переменные (показатели здоровья) являются порядковыми, качественными, или же количественными, но выраженными не в абсолютных значениях, а разбитыми на небольшое число категорий. Категоризованные данные представляются в виде частот наблюдений, соответствующих различным категориям исследуемых показателей. Исходные данные для анализа взаимосвязи между двумя переменными А и В представляются в виде так называемых таблиц сопряженности признаков, число строк которой равно числу градаций переменной А, число столбцов — числу градаций переменной В, а в ячейке на пересечении i-й строки с jстолбцом стоит число nij, равное числу наблюдений, соответствующих i-й градации фактора А и j градации фактора В.

Пусть число градаций фактора А равно I, а число градаций фактора В равно J. Если верна нулевая гипотеза о независимости факторов А и В, то статистика

χ2 =

где eij — ожидаемое число наблюдений в ij-й ячейке — имеет χ2-распределение с (I-1)(J-1) степенями свободы, поэтому критической областью для нулевой гипотезы при заданном уровне значимости α являются значения статистики χ2 превышающие квантиль порядка (I - α) для χ2-распределения с (I - 1)(J - 1) степенями свободы.

Ожидаемое число наблюдений в ij-й ячейке при условии независимости факторов А и В равно сумме чисел наблюдений по i-й строке, умноженной на сумму чисел наблюдений по j-му столбцу и деленной на суммарное число наблюдений, поскольку если суммарное число наблюдений равно N, то

eij = NP(Ai|Bi).

Если события Аi и Вj независимы, то

P(Ai|Bi) = P(Ai)P(Bj).

причем вероятности событий Аi и Вj равны следующим выражениям:

P(Ai) =

P(Bj) =

Откуда и следует выражение для расчета ожидаемых значений числа наблюдений:

eij = N

Пример 15. Данные из примера 11 можно использовать для того, чтобы определить, существует ли взаимосвязь между загрязненностью окружающей среды и состоянием здоровья населения (табл. 4.8).

Таблица 4.8

Таблица сопряженности для показателей загрязнения окружающей среды

и состояния здоровья населения

Уровни состояния здоровья

Уровни загрязнения окружающей среды

Суммы по строкам

Незагрязненная территория

Загрязненная территория

Очень плохое

2(7)

12(7)

14

Плохое

18 (20)

22 (20)

40

Удовлетворительное

35 (38)

41 (38)

76

Хорошее

29 (24)

19 (24)

38

Очень хорошее

16(11)

6(11)

24

Суммы по столбцам

100

100

200

Примечание: в скобках приведены ожидаемые числа наблюдений для ячеек.

χ2 =

(I - 1)(J - 1) = 4 ∙ 1 = 4.

Для распределения χ2 с 4 степенями свободы табличное значение квантили порядка 0,99 равно 13,277. Таким образом, с 99 %-м доверительным уровнем, или с уровнем значимости α = 0,05, следует отвергнуть нулевую гипотезу, т.е. предположение о наличии связи между загрязнением окружающей среды и состоянием здоровья подтверждается имеющимися данными. Расчет статистики χ2 показывает, что основной вклад в нее вносят не центральные, а крайние значения показателя состояния здоровья.

Помимо анализа таблиц сопряженности, критерий χ2 имеет еще одну важную область использования — анализ соответствия между выборочным и теоретическим распределением. В этом случае диапазон изменений выборки разбивается на п интервалов и для каждого интервала определяется число попаданий в него выборочных значений. Ожидаемые числа попаданий для каждого интервала рассчитываются в соответствии с видом и параметрами теоретического распределения. Далее точно так же, как при анализе таблиц сопряженности, рассчитывается значение статистики χ2 с числом степеней (n — 1) и проводится её сравнение с квантилями распределения χ2 Для заданного уровня значимости.

Задача 6. Обследованы 2 группы людей с различным характером профессиональной деятельности. В группе из 40 обследуемых, чья работа связана с интенсивными эмоциональными нагрузками, различные проявления нарушений со стороны сердечно-сосудистой системы выявлены у 32 человек, тогда как среди 100 обследуемых, работающих в спокойной обстановке, такие нарушения выявлены у 10 человек. Проверить гипотезу о наличии связи между уровнем эмоциональной напряженности профессиональной деятельности и частотой сердечно-сосудистых нарушений, учитывая, что 95, 98, 99 и 99,9-процентные точки распределения χ2 с 1 степенью свободы равны соответственно 3,84, 5,41, 6,64 и 10,83.

Решение. Условия задачи можно представить в виде таблицы сопряжен­ности 4.9.

Расчет ожидаемых чисел наблюдений:

e11 = 42 ∙ e12 = 42 ∙

e21 = 98 ∙ e22 = 98 ∙

χ2 =

Таблица 4.9

Нарушения сердечно-сосудистой системы

Профессиональный стресс

Суммы по строкам

Имеется

Отсутствует

Имеются

32

10

42

Отсутствуют

8

90

98

Суммы по столбцам

40

100

140

Полученная величина χ2-статистики превосходит критическое значение (10,93) для уровня значимости α = 0,001, т.е. использованные данные с высоким доверительным уровнем подтверждают гипотезу о связи нарушений сердечно-сосудистой системы с профессионально обусловленными эмоциональными нагрузками.