Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Организация и методика статистического исследования.doc
Скачиваний:
110
Добавлен:
29.05.2014
Размер:
2.06 Mб
Скачать

VI. Методы измерения связи между явлениями

Корреляционный анализ.

Одной из важных задач исследовательской работы является выяв­ление и измерение связи между признаками, характеризующими изу­чаемые явления или процессы. Различают функциональную и корре­ляционную связи.

При наличии функциональной связи изменение величины одного признака неизбежно вызывает совершенно определенные изменения величины другого признака. Примером такой связи может служить зависимость площади круга от его радиуса. Функциональная связь между явлениями присуща неживой природе. В биологических науках чаще приходится иметь дело с иной связью между явлениями, когда одной и той же величине одного признака соответствует ряд варьи­рующих значений другого признака, что обусловлено чрезвычайным многообразием взаимодействия различных явлений живой природы. Такого рода связь носит название корреляционной (correlation - соот­ветствие, соотносительность). В то время как функциональная связь имеет место в каждом отдельном наблюдении, корреляционная связь проявляется только при многочисленном сопоставлении признаков.

Рассмотрим, например, связь между возрастом детей-дошкольников и их ростом. Из приведенных данных видно, что с воз­растом рост детей увеличивается, и поэтому можно предположить на­личие связи между указанными признаками.

Табл и ца

Возраст

3 года

4 года

5 лет

6 лет

7 лет

Рост в см

100,3

102,9

108,1

113,7

118,3

92,6

100,1

106,8

113,8

119,2

93,8

101,6

107,8

113,3

119,4

93,7

98,4

104,6

111,8

116,1

"94,2

99,4

107,4

112,1

Вместе с тем, следует отметить, что одному и тому же возрасту со­ответствует различный рост детей. Это происходит потому, что рост детей определяется не только возрастом, на него влияют многие дру­гие факторы, в том числе условия жизни, питание, занятия физкульту­рой и др. Таким образом, можно прийти к выводу, что связь между возрастом и ростом детей является корреляционной.

Исследователю следует помнить, что обнаружение корреляции между сопоставляемыми явлениями не говорит еще о существовании причинной связи между ними. Для установления последней необходим всесторонний логический и специальный анализ существа изучаемых процессов. Статистический же метод позволяет обосновать получен-

40

ные в результате научного исследования выводы о наличии тех или иных связей между явлениями, выделить самые главные из них.

Сила связи между явлениями, ее теснота и направленность опреде­ляются величиной коэффициента корреляции, который колеблется в пределах от 0 до ±1. При г == О связь отсутствует, при г = ±1 - связь полная, функциональная.

, 1^л

rs\'~~^г^.

По направленности связь между явлениями может быть прямой (положительной), когда с увеличением (уменьшением) значений одно­го признака увеличиваются (уменьшаются) значения другого (то есть когда признаки меняются в одном направлении), и обратной (отрицательной), когда с увеличением значений одного признака зна­чения другого уменьшаются и наоборот (то есть изменения признаков - разнонаправленны).

Т абли ца 12 Схема оценки тесноты корреляционной связи по коэффициенту корреляции

Теснота связи

Величина коэффициента корреляции при наличии

прямой связи (+)

обратной связи (-)

Связь отсутствует

0

0

Связь слабая

от 0 до +0,3

от 0 до -0,3

Связь умеренная

от+0,3 до+0,7

от-0,3 до-0,7

Связь сильная

от +0,7 до + 1,0

от--0,7 до-1,0

Связь полная (функциональная

+1,0

-1,0

Приведем пример вычисления коэффициента корреляции по при­веденной формуле (таблица 13).

Ход вычислений здесь чрезвычайно прост. Суммируя ряды х и у, получаем zjc = 119 и 1.у = 105.2. Деля суммы на число членов ряда (п), получаем средние арифметические этих рядов: М, = 779; 72 = 9.9 и My = 705 ; 72 = 8.8. Ряды d„ и dy, то есть отклонение чисел рядов х и у представляют собой разность между соответствующими значениями х и у и средними арифметическими этих рядов. Так, для рядов х, d^ рав­но для января: х - М = 5 - 9.9 = -4.9; для февраля: х-М=2-9.9=-7.9 и т.д. Возводя поочередно числа рядов d^ и dy в квадрат, получаем ряды d^2 и dy2, а перемножая попарно числа рядов d^. и dy между собой, получаем ряд ^ • dy. Подставляем значения сумм этих рядов в форму­лу:

, ., ^>

"""л^-к

41

Таблица 13

Корреляция между среднемесячной температурой воздуха и числом умерших детей до 1 года от кишечных заболеваний

Месяц

х

У

года

средняя тем­пература воз­духа (в °С)

среднедневные числа умерших от острых ки­шечных ин­фекций

d

X

dy

dx2

dy2

dxdy

январь

5

5,0

-4

9

-3,8

24,01

14,44

18,62

февраль

2

5,5

-7

9

-3,3

62,41

10,89

26,07

март

4

6,2

-5

9

-2,6

34,81

6,76

15,34

апрель

8

5,4

-1

9

-3,4

3,61

11,56

6,46

май

15

6,5

5,

-2,3

26,01

5,29

-11,73

июнь

17

9,6

7,

0,8

50,41

0,64

5,68

июль

18

11.2

8,

2,4

65,61

5,76

19,44

август

17

15,3

7,

6,5

50,41

42,25

46,15

сентябрь

15

14,9

5,

6,1

26,01

37,21

31,11

октябрь

9

13,0

-0,

9

4,2

0,81

17,64

-3,78

ноябрь

6

7,0

-3,

9

-1,8

15,21

3,24

7,02

декабрь

3

6,2

-6,

9

-2,6

47,61

6,76

17,94

п= 12

Sx=119

^-^.о

£y= 105.2

105.2 Л/„=-^"8.8

^= 406.92

Zdy^ 162.44

Sd^dy = 178.32

•• , получим: у ^ 178-32 =0.686 «0.7 ; w V406.92.162.44

и То есть между среднемесячной температурой воздуха и числом умерших от острых кишечных инфекций существует прямая корреля­ционная связь.

Это чрезвычайно простое для понимания вычисление требует до­вольно кропотливой, хотя и несложной математической работы. Вы­числительная работа особенно затрудняется тогда, когда члены кор-релирумых рядов имеют большие числовые значения, особенно если варианты коррелируемых рядов приведены в виде сгруппированных интервалов и, следовательно, приходится вычислять не простую, а взвешенную среднюю.

Средняя ошибка коэффициента корреляции. Поскольку коэффици­ент корреляции в клинических исследованиях рассчитывается обычно для ограниченного числа наблюдений, нередко возникает вопрос о надежности полученного коэффициента. С этой целью определяют среднюю ошибку коэффициента корреляции. При достаточно боль­шом числе наблюдений (больше 100) средняя ошибка коэффициента корреляции (mr) вычисляется по формуле:

1-^ т, = —J— . где

n - число парных наблюдений.

В том случае, если число наблюдений меньше 100, но больше 3( точнее определять среднюю ошибку коэффициента корреляции, поль зуясь формулой:

i-^. "^TirT

С достаточной для медицинских исследований надежностью о на личии той или иной степени связи можно утверждать только тогда когда величина коэффициента корреляции превышает или равняется

величине трех своих ошибок (г > Зт,.). Обычно это отношение ко

эффициента корреляции (гху) к его средней ошибке (mr) обозначай^ буквой / и называют критерием достоверности:

^

т,

Если ^ > 3, то коэффициент корреляции достоверен. Допустим, что число наблюдений 142, а коэффициент корреляции

068 Тпгпя- ^ ~г^ 1 - (0.68)2 ^.- „ г 0.68 ,. тп рпч. и.об. 1 огда. yyi = —/=— = ——/====— = 0.045 » а / = — — —— —15^° естъ

г VT42 ' w, 0.045 коэффициент корреляции вполне достоверен.

В случае малой выборки (число наблюдений меньше 30) для оцен­ки достоверности коэффициента корреляции, то есть для определения соответствия коэффициента корреляции, вычисленного по выбороч­ным данным, действительным размерам связи в генеральной совокуп­ности, средняя ошибка коэффициента корреляции (mr), определяется

ю формуле: ^ = v "^ , где значения критерия / = J— оцениваются r V/i-2 г т,

ю таблице t Стьюдента при числе степеней свободы v = п - 2. Если »еличина tr больше табличного значения to5, то коэффициент призна-'тся надежным с доверительной вероятностью больше 95%. Напри­мер, имеется коэффициент, равный +0.72 при числе наблюдений 28.

-^2=-19 ^-

Полученное tr = 35.9 значительно больше табличного toi=2.779, ледовательно, полученному коэффициенту корреляции можно дове­ять с высокой степенью вероятности (> 99%).,

Для того, чтобы установить, на сколько может измениться одно явление при изменении другого на единицу, вычисляется коэффициент регрессии (R):

^.^ А.-.?-

При вычислении R^y мы узнаем, на сколько изменится явление у при изменении на 1 единицу измерения х.

При вычислении R мы узнаем, на сколько изменится явление х при изменении на 1 единицу измерения у.

Например, при изменении роста (х) и массы тела {у) у семилетних мальчиков были получены следующие данные:

гху = 0.69

<Тх = 5.8 см ' cry = 2.6 кг

Вычислим коэффициенты регрессии:

R„.=0.69•5-s=\.5кг^ R^ = 0.69^= 0.3 \см. 2.6 э.о

Вывод: при увеличении роста мальчиков в среднем на 1 см масса тела увеличивается в среднем на 1.5 кг; при увеличении массы тела в среднем на 1 кг рост увеличивается в среднем на 0.31 см.

Ошибки коэффициентов регрессии вычисляются по формулам:

^ =a^-. | '"rv1' ; ^ _ flr' | ч' , а достоверность коэффициента R\y а, V п . й" о-, V п

регрессии - по формуле: / = —. т

При п > 30 результат считается достоверным, когда t>.3, при п < 30 критерий / оценивается по таблице Стьюдента.

Для оценки степени связи качественных признаков рассчитывается коэффициент сопряженности (при числе групп не менее 5):

г^"

С) "

=J, ,7

\\+ф~ Методика расчета приведена в таблице 14. Алгоритм расчета.

1. Вносим в таблицу данные о количестве случаев различных по гистологической структуре и типу опухолей (Vi-Vu), которые называ­ются частотами.

2. Возводим частоты в квадрат (V2).

3. Полученные числа делим на общее число больных с разными типами опухолей (п): уз/п.

Таблица 14

Гистоло­гическая структура опухоли

Типы роста опухоли

частости

ЕГ2

——:ЪУ

ЭКЗО-

фит-

НЫЙ

язвенно-инфиль-тратив-ный

диффуз-но-инфи-льтра-тивный

пере­ход­ный

всего,

£V

п

1

2

3

4

5

6

7

8

аденокар-цинома

V, V,2 Vi^n

11

121 6,05

6 36 1,09

2 4 0.29

2 4 0,67

21 8,10

8,10/2,1 =0,39

Cr simplex

V2

V22

V22/»!

3 9 0,45

10 100 3,03

1 0,07

1 1

0,17

15

3,72

3,72/15=0,25

солидный рак

Уз Уз2 Уз^п

3 9 0,45

5 25 0,76

3 9 0,64

1 1

0,17

12

2,02

2,02/ 12=0,17

слизистый рак

V4 V42 V42/n

0,05

7 49 1,40

3 9 0,64

11 2,17

2,17/ 11 =0,20

фиброзный рак

V5 V52 V52/n

-

1 1 0,03

5 25 1,78

-

6 1,81

1,81/6=0,30

смешанный рак

V6 V„2 Ve'/n

2 4 0/20

4 16 0,48

~

2 4 0,67

8 1,35

1,35/8=0,17

n=£(Vi-V6)

20

33

14

6

73

£:= 1,48 Коэффициент сопричастия

4. Находим суммы частот и суммы полученных в р. 3 частных, вносим их в колонку 7.

'LV1

5. Находим частости (колонка 8) следующим образом: ——:S)/

п (для каждой структуры опухолей).

6. Суммируя частости, получаем коэффициент сопричастия.

7. Рассчитываема: у~=- коэф.сопричастия - 1 ^=1.48-1=0.48

8. Рассчитываем коэффициент сопряженности:

^ДИг^324-0-57

9. Оценка коэффициента сопряженности производится аналогично коэффициенту корреляции.

В данном случае связь между гистологической структурой опухо­ли и типом роста носит прямой характер и умеренно выражена.

45