Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Зайцев Лифляндский Медицинская_статистика 2000г...doc
Скачиваний:
21
Добавлен:
01.07.2025
Размер:
6.02 Mб
Скачать

6.1 Оценка взаимосвязи количественных признаков

6.1.1 Регрессия

При анализе количественных данных показателями формы связи служат линия регрессии и коэффициент регрессии. Уравнения линии регрессии относительно осей координат называют уравнениями регрессии. Иногда эти уравнения называют уравнениями корреляционной связи или уравнениями корреляции. Типуравнений зависит от формы связи, которая определяется по форме корреляционного поля. Корреляционное поле представляет собой график, отображающий значения Y и Х в виде точек с соответствующими абсциссами Охи ординатами 0y. Разброс точек на графике визуально представляет тесноту (плотность) связи.

Если связь слабая или отсутствует, то точки распределяются бессистемно по всей площади графика в пределах значений, которые могут принимать Y и X

х

Рисунок 76. Корреляционное поле с малой плотностью связи

Если связь сильная (плотная), то точки располагаются плотно, вдоль некоторой результирующей линии, которая называется линией регрессии.

Чем более тесна (плотна) корреляционная связь, тем более тесно около линии регрессии располагаются точки корреляционного поля. На графике можно увидеть и направление связи: прямая или обратная.

В случае линейной зависимости Y от X уравнением регрессии является уравнение прямой y=a+bx, где у – значение результативного признака (зависимая переменная), х- значения факторного признака (независимая переменная), a и b – коэффициенты.

Простейшим примером линейного уравнения регрессии может служить индекс Брока, который используется как росто-весовой индекс для исчисления нормального веса: из роставычитают 100 и получают нормальный вес соответствующий этому росту. Математически этот индекс записывается в виде уже приводившегося уравнения линейной регрессии y=a+bx, где у – вес, х- рост, a=-100, b – поправочный коэффициент (изменяется для разных возрастных групп). Иногда при измерении расстояний на местности прибегают к счету шагами. Длина шага человека описывается уравнением регрессии L=37+h/4, где h – рост человека в см, L – длина его шага.

Полная оценка взаимосвязи признаков требует нахождения уравнения регрессии не только для зависимости Y от X, но и для зависимости X от Y. В силу вероятностного характера статистических взаимосвязей результаты вычислений по этим уравнениям не будут зеркально похожими. Поскольку методика и порядок вычислений в обоих случаях во многом аналогичны, ограничимся рассмотрением основ обработки уравнения y=a+bx, (зависимость Y от X).

В уравнении y=a+bx, коэффициент b равен тангенсу угла наклона линии регрессии. Этот коэффициент, называемый «коэффициент регрессии», имеет большой статистический смысл. Он показывает, насколько изменяется значение одной величины (зависимой, результативной переменной), при изменении второй (не зависимой, факторной) на единицу. Например: при увеличении температуры тела человека на 1°С, частота пульса увеличивается в среднем на 10 ударов в минуту.

Статистический анализ подразумевает решение уравнения регрессии, т.е. отыскание параметров этого уравнения на основе исходных данных. Математически решение уравнения линейной регрессии сводится к вычислению параметров a и b таким образом, чтобы точки исходных данных корреляционного поля как модно ближе лежали к прямой регрессии. Для этого, вычисляют параметры по формулам, которые обеспечивают наименьший квадрат отклонений этих точек регрессии (метод наименьших квадратов):

и .

Пример: Найти выборочное уравнение регрессии по данным пяти наблюдений (n=5) зависимой и независимой переменных (Y и X).

Таблица56

Расчетная таблица параметров уравнения регрессии

i

Xi,

Yi,

X2i

Xi,* Yi,

1

2,0

2,6

4,0

5,2

2

4,0

1.8

16,0

7,2

3

7,0

1,3

49,0

9,1

4

5,0

1,1

25,0

5,5

5

3,0

2,4

9,0

7,2

s

21,0

9,2

103,0

34,2

у = а + bх

Согласно уравнению параметр . Искомое уравнение регрессии y=3.1+(-0.3)x. Коэффициент регрессии, соответственно, равен -0,3. Т.е. при изменении независимой переменной (X) на 1, зависимая переменная (Y) будет уменьшаться в среднем на 0,3.

Таблица 57

Разность фактического(Yi,) и вычисленного(Yрас,) параметров

i

Xi,

Yi,

Xрас

Xi,- Yрас,

1

2,0

2,6

2,5

0,1

2

4,0

1,8

1,9

-0,1

3

7,0

1,3

1,0

0,3

4

5,0

1,1

1,6

-0,5

5

3,0

2,4

2,2

0,2

Насколько близки расчетные и фактические данные по зависимому фактору Y, демонстрирует таблица 57. Где Урас для первого наблюдения (i=1) Y1 =3,1+(-0,3)*2,0=2,5 и т.д. Нетрудно заметить, что между фактическими и расчетными значениями (Урас и Yi) существует определенная разница. Эта разница может объясняться малым числом наблюдений и точностью самого метода.

Параметры уравнения регрессии, как и любые выборочные статистические характеристики, оцениваются в определенных интервалах. В том случае, если уравнение регрессии имеет вид у = а +bх, выборочные значения коэффициентов а и b являются оценкой соответствующих генеральных коэффициентов и отличаются от них в среднем на величину соответствующих им ошибок. Ошибка коэффициента а где σх- среднеквадратическое (стандартное) отклонение по ряду х, п - число наблюдений. Ошибка коэффициента b характеризует разброс значений угла наклона линии регрессии. Полная ошибка для результатов отдельных измерений Y:

Рассмотренный пример касается так называемой двухмерной зависимости. В этом случае рассматривается вариант, при котором взаимодействуют два признака зависимый (результативный) и независимый (факторный). В реальной ситуации чаще приходится сталкиваться с многофакторными зависимостями. Соответственно, если рассматривается большее число независимых признаков, то расчеты проводятся по другим формулам, с учетом трехмерного, четырехмерного и т.п. пространства распределения. С математической точки зрения число пространственных распределений, в принципе не ограничено. Обязательным условием такого подхода является независящее друг от друга распределение факторных признаков.

В общем виде формула для расчета коэффициента множественной регрессии для результативного показателя Y=R0+R1x1+R2x2+…+Rnxn,, где R0, R1, R2… Rn, - коэффициенты регрессии.

Например: должные, стандартные, величины показателей ЖЕЛ – жизненной емкости легких (Р.Ф. Клемент и др.) вычисляются для мужчин возрасте 18-25 лет по уравнению регрессии , где R0 – константа равная – 6,908, R1 коэффициент по росту равный 5,8, R2 – коэффициент по возрасту 0,085. С помощью этого уравнения, опираясь на фактические данные о конкретном человеке, путем несложных вычислений можно определить должную (стандартную) величину ЖЕЛ этого человека. Так, для мужчин в возрасте 19 лет, имеющему рост 1,8 метра, должна ЖЕЛ=-6,908+5,8*1,8+0,085*19=5,2. С точки зрения клинической практики, снижение фактической ЖЕЛ по сравнению с должной ЖЕЛ может говорить о рестриктивных нарушениях вентиляционной способности легких, являющихся следствием нарушения процесса распределения легких при вдохе.

Относительная простота применения уравнений регрессии, обеспечила их большое распространение для нахождения должных величин при оценке различных физиологических параметров, в гигиенических исследованиях для прогнозирования результатов воздействия различных факторов окружающей среды и т.п. Вместе с тем, получение точных исходных параметров уравнений регрессии требует большой и кропотливой работы.

Одной из причин снижающих точность параметров уравнения регрессии является не соответствие теоретического распределения, взятого за основу расчетов, и фактического распределения точек корреляционного поля. Например, линия регрессии может представлять собой не прямую, а какую либо кривую. Соответственно, форма уравнения регрессии должна соответствовать криволинейной зависимости.

Криволинейная зависимость может принимать различное математическое выражение в виде парабол 2 и 3 порядка. Например: для того чтобы найти параметры а, b и с в уравнении параболы второго порядка нужно решить систему уравнений:

и найти следующие промежуточные величины:

Σx, Σx2, Σx3, Σх4, Σху, Σх2у

В целом, вычисление и практическое использование этих параметров аналогичны операциям с параметрами прямой линии регрессии. Однако в связи с громоздкостью расчетов, рекомендуется их находить с помощью специальных программ статистической обработки данных.

Статистические таблицы, а также регрессионный анализ позволяют установить наличие или отсутствие связи между факторными и результативными признаками, описать обнаруженные связи и определить некоторые количественные характеристики. Различные коэффициенты корреляции позволяют выявить форму и силу (плотность, тесноту) этой связи.

6.1.2 Коэффициент ковариации.

В основу исчисления коэффициентов корреляции берется оценка совпадений колебаний значений признаков. Если объективно существующие колебания (вариации) этих значений совпадают, то можно говорить о наличии корреляции (Рисунок 80).

Рисунок 81. Колебания значений признаков не совпадают.

Рисунок 81. Колебания значений признаков не совпадают.

Если колебания не совпадают - корреляции нет (Рисунок 81). Рассмотрим пример оценки корреляционной связи длительности курения и частоты заболеваний органов дыхания за год (Таблица 58).

Таблица 58

Оценка взаимосвязи курения и частоты случаев респираторных заболеваний за год

Фамилии обследованных

Стаж курения (лет)

Число

заболеваний

(Х-Мх)(Y-Му)

X

X-Mx

Y

Y-Му

Васильев

2

-1

5

1

-1

Сидоров

4

1

6

2

2

Петрова

5

2

4

0

0

Иванов

1

-2

1

-3

6

В среднем (М)

3

-

4

-

1,75

В столбцах таблицы расположены значения учетных признаков X (длительность курения) и Y (число заболеваний) по каждому из группы обследованных. В соседних столбцах находятся отклонения этих признаков от своих групповых средних.

Для Васильева стаж курения Х=2, отклонение от среднего значения Х-М=2-3= -1 .Число заболеваний в году Y=5, отклонение от среднего значения Y-Мy =5-4=1. В качестве общей меры обоих отклонений использовано произведений отклонений (Х-МХ)(Y-Му)= -1*1 =-1. При прямой зависимости будет полное совпадение знаков всех произведений. При обратной - полное несовпадение. Для суммарной оценки всех отклонений находим среднее арифметическое всех произведений (1,75). Эта величина называется коэффициентом ковариации (Со), т.е. коэффициентом совместной вариации.

Проведенные вычисления можно записать в виде формулы: , где Рху частоты пары признаков (в простом ряду Рху=1), Мх - среднее ряда х, Му -среднее ряда у, п - число наблюдений (число пар признаков).

6.1.3 Коэффициент линейной корреляции (Пирсона)

Использование ковариации в качестве меры связи весьма ограничено. Это связано с тем, что числовое значение коэффициента ковариации зависит от размерности и характера анализируемых признаков. Поэтому в качестве меры корреляции используют не сами отклонения (Х-Мх) и (Yy), а безразмерное отношение отклонений к их дисперсиям. Отсюда следует, что значение коэффициента корреляции не зависит от единиц измерения. Например, корреляция между ростом и весом будет одной и той же, независимо от того, проводились измерения в дюймах и футах или в сантиметрах и килограммах.

После алгебраических преобразований формула для расчета коэффициента корреляции (Пирсона) выглядит следующим образом: или ,

Для удобства вычислений может применяться алгебраический аналог приведенных формул:

Все вожможные значения коэффициента r находятся в пределах от -1 до +1. Если связь между признаками прямая, то коэффициент корреляции положителен (положительное число).

Таблица 59

Распределение значений коэффициента линейной корреляции Пирсона

Характеристики связи

Прямая

Обратная

Связи нет

0

0

Слабая

От 0 до +0,3

От 0 до -0,3

Средняя

От +0,3 до +0,7

От -0,3 до -0,7

Сильная

От +0,7 до +1

От -0,7 до -1

Полная (функциональная)

+1

-1

Например: требуется определить зависимость числа ошибок (Х), допускаемых операторами в корректурных пробах, и длительности работы на компьютере (Y).

Таблица 60

Расчет коэффициента линейной корреляции Пирсона (n=10)

X

Y

X2

Y2

XY

6

1

36

1

6

8

1

64

1

8

7

2

49

4

14

6

3

36

9

18

6

3

36

9

18

5

4

25

16

20

8

5

64

25

40

6

5

36

25

30

9

6

81

36

54

9

6

81

36

54

sX=70

sY=36

sX2=508

sY2=162

sXY=262

Согласно формуле, получаем:

Как видно из полученного результата, между ошибок и длительностью работы есть прямая корреляционная связь средней силы. В данном случае, по всей вероятности, можно говорить о причинно-следственной связи между факторами.

Вместе с тем, утверждать, что показатели утомляемости связаны только с длительностью работы нельзя. С помощью коэффициента детерминации (r2) можно определить долю влияния анализируемого факторного признака на результативный признак. Если принять во внимание, что длительность рабочего дня является не единственным фактором, способствующим развитию усталости, и если принять во внимание, что на развитие усталости влияют и другие факторы (день недели, характер выполняемой работы и т.п.), то г2 показывает долю тех изменений, которые обусловлены анализируемым фактором. В данном случае r2 =0,412 =0,17. Таким образом, доля влияния продолжительности рабочего дня на развитие усталости у операторов 17%. Следовательно, на долю других факторов в развитии усталости приходится 83% влияния.

Оценка значимости коэффициента корреляции r производится с помощью преобразования: , где n-число наблюдений. В приведенном примере:

Для оценки достоверности корреляционной связи можно использовать коэффициент ,где -абсолютная величина коэффициента корреляции, а тr- ошибка коэффициента корреляции.

Ошибка вычисляется по формуле . В данном случае

В приведенном примере t=0,41/0,29=1,4, что соответствует уровню значимости Р=0,197 (по таблице критических значений t). Для того, чтобы признать значения коэффициента r статистически достоверным, Р должно быть не более 0,05.

Приближенная оценка статистической достоверности коэффициента корреляции осуществляется исходя из того, что абсолютное значение коэффициента r должно превышать ошибку не менее, чем в два раза.

Определение доверительного интервала коэффициента r можно проводить в двух аспектах. В первом, более грубом приближении можно удостовериться, что знак коэффициента определен правильно. Во вторых, определить непосредственные границы доверительного интервала.

Таблица 61

Число наблюдений, необходимое для подтверждения знака коэффициента корреляции (по Славину М.Б.,1989)

г

Р

г

Р

0.05

0.01

0.05

0.01

0.10

383

661

0.30

43

73

0.14

196

337

0.35

32

53

0.16

151

259

0.40

24

40

0.18

119

204

0.45

19

31

0.20

97

165

0.50

16

25

0.22

80

136

0.60

11

17

0.24

68

114

0.70

8

12

0.26

57

97

0.80

6

9

0.28

49

83

0.90

5

6

Рассматривая приведенный в примере коэффициент корреляции (г=0,41 ), нетрудно заметить, что необходимое минимальное число наблюдений, для того, что бы быть уверенным в правильности знака коэффициента, составляет около 20 человек.

При решении вопроса о доверительном интервале необходимо использовать величину 2. Эта величина связана с коэффициентом г соотношением . В приведенном примере .

Задаваясь значением P, вычисляем верхнюю и нижнюю границы величины Z:Z mах = Z + ασ. Zmin=Z-βσ.

Значение σ находится по формуле . В данном случае .

Соотношение доверительной вероятности (Р) и уровней значимости (а и b) представлены в таблице

Таблица 62

Соотношение коэффициентов Р, а и b.

Р

а

β

0,05

0,95

1.96

0,01

0,99

2,58

Принимая уровень значимости Р=0:05 находим: Zmax=0,43+0,95*0,380=0,79 и Zmin=0,43-1,96*0,38=0,31.

Границы коэффициента корреляции г, соответствующие полученным границам Z, можно установить, используя данные, представленные в приложении.

В таблице представлены значения Z. Значения соответствующих коэффициентов корреляции (r) складываются из данных столбца г (первый столбец), в котором находятся значения первого знака после запятой для r. В первой строке таблицы - значения для второго знака коэффициента r.

Например: полученные значения Zmах=0,79 соответствуют коэффициенту г=0,65. А значение Zmin=0,31, соответствуют г=0,30.

Таким образом при уровне значимости Р=0,05 можно считать, что величина коэффициента корреляции находится в диапазоне от 0.3J до 0,65.

Следует отметить, что надежность коэффициента корреляции увеличивается с увеличением его абсолютного значения: Чем больше коэффициенты, тем меньшие различия становятся значимыми. Например, разница 0,1 между коэффициентами корреляции, которые соответственно равны 0,14 и 0,24 может быть статистически не значимой. В той же выборке разность 0,1 мо­жет оказаться значимой для коэффициентов 0,80 и 0,98.

Общность и взаимосвязь, с точки зрения формальной логики, между различными статистическими показателями связи позволяет в процессе анализа данных переходить от одного коэффициента к другому или по числовым значениям одних, вычислять другие. Например, зная коэффициент корреляции, можно вычислить соответствующие коэффициенты регрессии: , , где - коэффициент регрессии y от x, - коэффициент регрессии x от y, r – коэффициент корреляции, σ -среднеквадратическое отклонение, соответственно по ряду х или у Зная коэффициенты регрессии, путем простейших алгебраических преобразований по этим формулам можно вычислить коэффициент корреляции.

6.1.4 Корреляционное отношение. Криволинейная корреляция

Если значение коэффициента корреляции оказалось не столь высоким, как ожидалось, это не означает, что связь действительно слабая. Возможно, что между факторным и результативным признаками связь носит криволинейный характер, которая не улавливается коэффициентом линейной корреляции Пирсона. Одним из способов оценки криволинейной связи является применение корреляционного отношения (h). Дополнительным отличием коэффициента h от коэффициента корреляции является возможность раздельной оценки влияния фактора Х на Y и Y на X, т.е. возможность выявить неравнозначность воздействия фактора X на Y и Y на X. Таким образом, обычно вычисляются два варианта: hX/Y hY/X. В общем виде, формула корреляционного отношения выглядит следующим образом: и , где - среднеквадратическое отклонение, представляющее изменчивость Y под влиянием только Х, - изменчивость X под влиянием только Y, σx σy среднеквадратические отклонения, характеризующие изменчивость признаков Х и Y в целом В практических вычислениях удобнее пользоваться следующими формулами:

и

где Mxk и Мyk групповые средние арифметические.

Например: при использовании коэффициента линейной корреляции Пирсона для оценки зависимости развития усталости (корректурный тест) от продолжительности рабочего времени получено невысокое значение коэффициента корреляции (0,41). Одной из причин получения такой оценки могла быть криволинейная зависимость этих факторов: работоспособность сначала повышается (происходит врабатывание), затем некоторое время держится на высоком уровне (плато), затем начинает прогрессивно снижаться. Для проверки этой рабочей гипотезы было проведено вычисление корреляционного отношения времени работы (X) и развития усталости (Y). Корреляционное отношение Y на Х не вычислялось из-за невозможности такой зависимости в объективной реальности.

Таблица 63

Расчет корреляционного отношения (hy/x}

Число ошибок x

Время работы у

Мук

Y-Му

(Y-Му)г

YYK

(Y-МYK)2

5

4

4

0

0,0

0.4

0,2

6

1

-2

4.0

-2.6

6.8

6

3

3

0

0,0

-0,6

0.4

6

3

0

0,0

-0,6

0.4

6

5

2

4,0

1,4

2,0

7

2

2

0

0,0

-1,6

2.6

8

1

-2

4,0

-2,6

6,8

8

5

3

2

4,0

1,4

2,0

9

6

0

0,0

2,4

5,8

9

6

6

0

0.0

2.4

5.8

Σx=70

Σy=36

Σ(Y-MY)=16.0

Σ(Y-MYK)=32.4

My=3.6

. Нетрудно заметить, что полученное значение корреляционного отношения почти в два раза больше линейной корреляции Пирсона, вычисленного на этих же данных. Расчет коэффициента детерминации на основе корреляционного отношения (0,712=0,51), свидетельствует о значительной роли фактора рабочего времени (51% среди всех факторов) в развитии усталости. Рассчитанный на основе коэффициента линейной корреляции Пирсона, этот показатель был в три раза меньше (17%).

Это соотношение является подтверждением того, что существует криволинейная связь В случае равенства корреляционного отношения η и коэффициента корреляции r можно говорить о линейном характере связи.

Коэффициент корреляции имеет одинаковое значение, рассматривается ли влияние X на Y или наоборот, Y на X Корреляционные же отношения hx/y и hy/x не равны, так как выявляют неравнозначность воздействия X на Y и Y на X.

6.1.5 Частная (парциальная) корреляция

При оценке взаимосвязи факторных и результативных признаков наиболее существенным является анализ взаимодействия не двух, а гораздо чаще встречающегося в объективной реальности взаимодействия нескольких факторов. Существует несколько способов решения этой проблемы. В лабораторных условиях, в условиях «чистого» опыта она решается путем последовательного анализа, выделяемых «в чистом виде», отдельных факторов или их специально подобранных комбинаций. При исследованиях, проводимых в реальной ситуации (группы больных, коллективы рабочих, контингенты населения), этот способ малопригоден. Главная причина: практическая невозможность подобрать в натурных условиях лиц с одинаковыми исходными характеристиками (возраст, пол, стаж и т.п.) и подвергающихся воздействию «в чистом виде» только одного или максимум двух факторов. Единственный выход - это комбинационная группировка собранного материала, которая, однако, требует очень большого числа наблюдений или использования специальных статистических методов. С помощью этих методов производится последовательная элиминация влияния одних факторов и выделение результатов влияния других факторов. К таким методам относится метод частной корреляции.

В простейшем случае, в ходе вычисления коэффициентов частной корреляции для трех признаков последовательно элиминируется влияние одного из признаков. Сначала Х3, затем Х2, и, наконец, X;. Иначе, последовательно выявляется взаимосвязь «в чистом виде» сперва Х1 и Х2, потом X, и Хэ, Х3 и Х2. Реализуются эти расчеты следующим образом: