
- •I. Организация и методика статистического исследования
- •III. Стандартизованные коэффициенты
- •Динамика рождаемости в Санкт-Петербурге (на 1000 жителей):
- •Динамика среднегодовой численности населения Санкт-Петербурга (в тыс.):
- •V. Средние величины
- •VI. Методы измерения связи между явлениями
- •VII. Дисперсионный анализ
- •VIII. Непараметрические критерии
- •1. Критерий Лорда (u).
- •2. Критерий Вилконсона-Манни-Уитни (и).
- •3. Критерий Мостеллера.
- •4. Критерий Розенбаума (q).
- •5. Критерий Уайта (к).
- •1. Критерий т (парный критерий Вилкоксона).
- •2. Критерий знаков (z).
- •Критерий зс2 (по Руниони).
- •3. Оценка разности нескольких зависимых выборок с качественными признаками
VI. Методы измерения связи между явлениями
Корреляционный анализ.
Одной из важных задач исследовательской работы является выявление и измерение связи между признаками, характеризующими изучаемые явления или процессы. Различают функциональную и корреляционную связи.
При наличии функциональной связи изменение величины одного признака неизбежно вызывает совершенно определенные изменения величины другого признака. Примером такой связи может служить зависимость площади круга от его радиуса. Функциональная связь между явлениями присуща неживой природе. В биологических науках чаще приходится иметь дело с иной связью между явлениями, когда одной и той же величине одного признака соответствует ряд варьирующих значений другого признака, что обусловлено чрезвычайным многообразием взаимодействия различных явлений живой природы. Такого рода связь носит название корреляционной (correlation - соответствие, соотносительность). В то время как функциональная связь имеет место в каждом отдельном наблюдении, корреляционная связь проявляется только при многочисленном сопоставлении признаков.
Рассмотрим, например, связь между возрастом детей-дошкольников и их ростом. Из приведенных данных видно, что с возрастом рост детей увеличивается, и поэтому можно предположить наличие связи между указанными признаками.
Табл и ца
Возраст |
3 года |
4 года |
5 лет |
6 лет |
7 лет |
Рост в см |
100,3 |
102,9 |
108,1 |
113,7 |
118,3 |
92,6 |
100,1 |
106,8 |
113,8 |
119,2 | |
93,8 |
101,6 |
107,8 |
113,3 |
119,4 | |
93,7 |
98,4 |
104,6 |
111,8 |
116,1 | |
"94,2 |
99,4 |
107,4 |
112,1 |
|
Вместе с тем, следует отметить, что одному и тому же возрасту соответствует различный рост детей. Это происходит потому, что рост детей определяется не только возрастом, на него влияют многие другие факторы, в том числе условия жизни, питание, занятия физкультурой и др. Таким образом, можно прийти к выводу, что связь между возрастом и ростом детей является корреляционной.
Исследователю следует помнить, что обнаружение корреляции между сопоставляемыми явлениями не говорит еще о существовании причинной связи между ними. Для установления последней необходим всесторонний логический и специальный анализ существа изучаемых процессов. Статистический же метод позволяет обосновать получен-
40
ные в результате научного исследования выводы о наличии тех или иных связей между явлениями, выделить самые главные из них.
Сила связи между явлениями, ее теснота и направленность определяются величиной коэффициента корреляции, который колеблется в пределах от 0 до ±1. При г == О связь отсутствует, при г = ±1 - связь полная, функциональная.
, 1^л
rs\'~~^г^.
По направленности связь между явлениями может быть прямой (положительной), когда с увеличением (уменьшением) значений одного признака увеличиваются (уменьшаются) значения другого (то есть когда признаки меняются в одном направлении), и обратной (отрицательной), когда с увеличением значений одного признака значения другого уменьшаются и наоборот (то есть изменения признаков - разнонаправленны).
Т абли ца 12 Схема оценки тесноты корреляционной связи по коэффициенту корреляции
Теснота связи |
Величина коэффициента корреляции при наличии | |
прямой связи (+) |
обратной связи (-) | |
Связь отсутствует |
0 |
0 |
Связь слабая |
от 0 до +0,3 |
от 0 до -0,3 |
Связь умеренная |
от+0,3 до+0,7 |
от-0,3 до-0,7 |
Связь сильная |
от +0,7 до + 1,0 |
от--0,7 до-1,0 |
Связь полная (функциональная |
+1,0 |
-1,0 |
Приведем пример вычисления коэффициента корреляции по приведенной формуле (таблица 13).
Ход вычислений здесь чрезвычайно прост. Суммируя ряды х и у, получаем zjc = 119 и 1.у = 105.2. Деля суммы на число членов ряда (п), получаем средние арифметические этих рядов: М, = 779; 72 = 9.9 и My = 705 ; 72 = 8.8. Ряды d„ и dy, то есть отклонение чисел рядов х и у представляют собой разность между соответствующими значениями х и у и средними арифметическими этих рядов. Так, для рядов х, d^ равно для января: х - М = 5 - 9.9 = -4.9; для февраля: х-М=2-9.9=-7.9 и т.д. Возводя поочередно числа рядов d^ и dy в квадрат, получаем ряды d^2 и dy2, а перемножая попарно числа рядов d^. и dy между собой, получаем ряд ^ • dy. Подставляем значения сумм этих рядов в формулу:
, ., ^>
"""л^-к
41
Таблица 13
Корреляция между среднемесячной температурой воздуха и числом умерших детей до 1 года от кишечных заболеваний
Месяц |
х |
У |
|
|
|
|
|
|
года |
средняя температура воздуха (в °С) |
среднедневные числа умерших от острых кишечных инфекций |
d |
X |
dy |
dx2 |
dy2 |
dxdy |
январь |
5 |
5,0 |
-4 |
9 |
-3,8 |
24,01 |
14,44 |
18,62 |
февраль |
2 |
5,5 |
-7 |
9 |
-3,3 |
62,41 |
10,89 |
26,07 |
март |
4 |
6,2 |
-5 |
9 |
-2,6 |
34,81 |
6,76 |
15,34 |
апрель |
8 |
5,4 |
-1 |
9 |
-3,4 |
3,61 |
11,56 |
6,46 |
май |
15 |
6,5 |
5, |
|
-2,3 |
26,01 |
5,29 |
-11,73 |
июнь |
17 |
9,6 |
7, |
|
0,8 |
50,41 |
0,64 |
5,68 |
июль |
18 |
11.2 |
8, |
|
2,4 |
65,61 |
5,76 |
19,44 |
август |
17 |
15,3 |
7, |
|
6,5 |
50,41 |
42,25 |
46,15 |
сентябрь |
15 |
14,9 |
5, |
|
6,1 |
26,01 |
37,21 |
31,11 |
октябрь |
9 |
13,0 |
-0, |
9 |
4,2 |
0,81 |
17,64 |
-3,78 |
ноябрь |
6 |
7,0 |
-3, |
9 |
-1,8 |
15,21 |
3,24 |
7,02 |
декабрь |
3 |
6,2 |
-6, |
9 |
-2,6 |
47,61 |
6,76 |
17,94 |
п= 12 |
Sx=119 ^-^.о |
£y= 105.2 105.2 Л/„=-^"8.8 |
|
|
|
^= 406.92 |
Zdy^ 162.44 |
Sd^dy = 178.32 |
•• , получим: у ^ 178-32 =0.686 «0.7 ; w V406.92.162.44
и То есть между среднемесячной температурой воздуха и числом умерших от острых кишечных инфекций существует прямая корреляционная связь.
Это чрезвычайно простое для понимания вычисление требует довольно кропотливой, хотя и несложной математической работы. Вычислительная работа особенно затрудняется тогда, когда члены кор-релирумых рядов имеют большие числовые значения, особенно если варианты коррелируемых рядов приведены в виде сгруппированных интервалов и, следовательно, приходится вычислять не простую, а взвешенную среднюю.
Средняя ошибка коэффициента корреляции. Поскольку коэффициент корреляции в клинических исследованиях рассчитывается обычно для ограниченного числа наблюдений, нередко возникает вопрос о надежности полученного коэффициента. С этой целью определяют среднюю ошибку коэффициента корреляции. При достаточно большом числе наблюдений (больше 100) средняя ошибка коэффициента корреляции (mr) вычисляется по формуле:
1-^ т, = —J— . где
^П
n - число парных наблюдений.
В том случае, если число наблюдений меньше 100, но больше 3( точнее определять среднюю ошибку коэффициента корреляции, поль зуясь формулой:
i-^. "^TirT
С достаточной для медицинских исследований надежностью о на личии той или иной степени связи можно утверждать только тогда когда величина коэффициента корреляции превышает или равняется
величине трех своих ошибок (г > Зт,.). Обычно это отношение ко
эффициента корреляции (гху) к его средней ошибке (mr) обозначай^ буквой / и называют критерием достоверности:
^
т,
Если ^ > 3, то коэффициент корреляции достоверен. Допустим, что число наблюдений 142, а коэффициент корреляции
068 Тпгпя- ^ ~г^ 1 - (0.68)2 ^.- „ г 0.68 ,. тп рпч. и.об. 1 огда. yyi = —/=— = ——/====— = 0.045 » а / = — — —— —15^° естъ
г -Л VT42 ' w, 0.045 коэффициент корреляции вполне достоверен.
В случае малой выборки (число наблюдений меньше 30) для оценки достоверности коэффициента корреляции, то есть для определения соответствия коэффициента корреляции, вычисленного по выборочным данным, действительным размерам связи в генеральной совокупности, средняя ошибка коэффициента корреляции (mr), определяется
ю формуле: ^ = v "^ , где значения критерия / = J— оцениваются r V/i-2 г т,
ю таблице t Стьюдента при числе степеней свободы v = п - 2. Если »еличина tr больше табличного значения to5, то коэффициент призна-'тся надежным с доверительной вероятностью больше 95%. Например, имеется коэффициент, равный +0.72 при числе наблюдений 28.
-^2=-19 ^-
Полученное tr = 35.9 значительно больше табличного toi=2.779, ледовательно, полученному коэффициенту корреляции можно довеять с высокой степенью вероятности (> 99%).,
Для того, чтобы установить, на сколько может измениться одно явление при изменении другого на единицу, вычисляется коэффициент регрессии (R):
^.^ А.-.?-
При вычислении R^y мы узнаем, на сколько изменится явление у при изменении на 1 единицу измерения х.
При вычислении R мы узнаем, на сколько изменится явление х при изменении на 1 единицу измерения у.
Например, при изменении роста (х) и массы тела {у) у семилетних мальчиков были получены следующие данные:
гху = 0.69
<Тх = 5.8 см ' cry = 2.6 кг
Вычислим коэффициенты регрессии:
R„.=0.69•5-s=\.5кг^ R^ = 0.69^= 0.3 \см. 2.6 э.о
Вывод: при увеличении роста мальчиков в среднем на 1 см масса тела увеличивается в среднем на 1.5 кг; при увеличении массы тела в среднем на 1 кг рост увеличивается в среднем на 0.31 см.
Ошибки коэффициентов регрессии вычисляются по формулам:
^ =a^-. | '"rv1' ; ^ _ flr' | ч' , а достоверность коэффициента R\y а, V п . й" о-, V п
регрессии - по формуле: / = —. т
При п > 30 результат считается достоверным, когда t>.3, при п < 30 критерий / оценивается по таблице Стьюдента.
Для оценки степени связи качественных признаков рассчитывается коэффициент сопряженности (при числе групп не менее 5):
г^"
С) "
=J, ,7
\\+ф~ Методика расчета приведена в таблице 14. Алгоритм расчета.
1. Вносим в таблицу данные о количестве случаев различных по гистологической структуре и типу опухолей (Vi-Vu), которые называются частотами.
2. Возводим частоты в квадрат (V2).
3. Полученные числа делим на общее число больных с разными типами опухолей (п): уз/п.
Таблица 14
Гистологическая структура опухоли |
Типы роста опухоли |
частости ЕГ2 ——:ЪУ | |||||
|
ЭКЗО- фит- НЫЙ |
язвенно-инфиль-тратив-ный |
диффуз-но-инфи-льтра-тивный |
переходный |
всего, £V | ||
п | |||||||
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
аденокар-цинома |
V, V,2 Vi^n |
11 121 6,05 |
6 36 1,09 |
2 4 0.29 |
2 4 0,67 |
21 8,10 |
8,10/2,1 =0,39 |
Cr simplex |
V2 V22 V22/»! |
3 9 0,45 |
10 100 3,03 |
1 0,07 |
1 1 0,17 |
15 3,72 |
3,72/15=0,25 |
солидный рак |
Уз Уз2 Уз^п |
3 9 0,45 |
5 25 0,76 |
3 9 0,64 |
1 1 0,17 |
12 2,02 |
2,02/ 12=0,17 |
слизистый рак |
V4 V42 V42/n |
0,05 |
7 49 1,40 |
3 9 0,64 |
— |
11 2,17 |
2,17/ 11 =0,20 |
фиброзный рак |
V5 V52 V52/n |
- |
1 1 0,03 |
5 25 1,78 |
- |
6 1,81 |
1,81/6=0,30 |
смешанный рак |
V6 V„2 Ve'/n |
2 4 0/20 |
4 16 0,48 |
~ |
2 4 0,67 |
8 1,35 |
1,35/8=0,17 |
n=£(Vi-V6) |
|
20 |
33 |
14 |
6 |
73 |
£:= 1,48 Коэффициент сопричастия |
4. Находим суммы частот и суммы полученных в р. 3 частных, вносим их в колонку 7.
'LV1
5. Находим частости (колонка 8) следующим образом: ——:S)/
п (для каждой структуры опухолей).
6. Суммируя частости, получаем коэффициент сопричастия.
7. Рассчитываема: у~=- коэф.сопричастия - 1 ^=1.48-1=0.48
8. Рассчитываем коэффициент сопряженности:
^ДИг^324-0-57
9. Оценка коэффициента сопряженности производится аналогично коэффициенту корреляции.
В данном случае связь между гистологической структурой опухоли и типом роста носит прямой характер и умеренно выражена.
45