
- •I. Организация и методика статистического исследования
- •III. Стандартизованные коэффициенты
- •Динамика рождаемости в Санкт-Петербурге (на 1000 жителей):
- •Динамика среднегодовой численности населения Санкт-Петербурга (в тыс.):
- •V. Средние величины
- •VI. Методы измерения связи между явлениями
- •VII. Дисперсионный анализ
- •VIII. Непараметрические критерии
- •1. Критерий Лорда (u).
- •2. Критерий Вилконсона-Манни-Уитни (и).
- •3. Критерий Мостеллера.
- •4. Критерий Розенбаума (q).
- •5. Критерий Уайта (к).
- •1. Критерий т (парный критерий Вилкоксона).
- •2. Критерий знаков (z).
- •Критерий зс2 (по Руниони).
- •3. Оценка разности нескольких зависимых выборок с качественными признаками
V. Средние величины
В медицине в здравоохранении очень часто используются выражаемые числами признаки, которые могут принимать различные, числовые значения у разных единиц совокупности, нередко повторяющиеся у нескольких единиц. В каждой данной совокупности и в данных конкретных условиях этот признак характеризуется определенной величиной (уровнем), которая отличается от величины этого признака в другой совокупности, при наличии других условии. Пульс, АД, температура тела, длительность временной нетрудоспособности, длительность пребывания в стационаре отличаются (варьируют) у
больных даже с одним диагнозом.
Величины изучаемого признака могут принимать либо дискретные (прерывные), либо непрерывные числовые значения. Примеры дискретных величин, при которых значения выражены целыми числами: число детей в семье, число больных в палате, число койко-днеи, число каких-либо медицинских аппаратов в учреждении, пульс. Примеры непрерывно изменяющихся величин, когда значения выражены дробными величинами, могут постепенно переходить одно в другое:
рост, масса тела, температура, АД.
Полученные при исследовании величины сначала записывают хаотично то есть в том порядке, как их получает исследователь. Ряд, в котором упорядоченно сопоставлены (по степени возрастания или убывания) варианты и соответствующие им частоты, называется вариационным. Отдельные количественные выражения признака называются вариантами (V), а числа, показывающие, как часто эти варианты повторяются, - частотами (Р).
Для обобщенной числовой характеристики изучаемого признака у совокупности обследуемых рассчитываются средние величины, достоинство которых-заключается в том, что одна величина характеризует большую совокупность однородных явлении. - Различают несколько видов средних величин: средняя арифметическая, средняя геометрическая, средняя гармоническая, средняя прогрессивная, средняя хронологическая. Кроме указанных средних, иногда в качестве обобщающих величин вариационного ряда используют особые средние относительного характера - моду и медиану.
Мода (Мо) - наиболее часто повторяющаяся варианта. Медиана (Me) - значение варианты, делящей вариационный ряд пополам; по обе стороны от нее находится равное число вариант.
Наиболее часто используется средняя арифметическая. Средняя арифметическая, которая рассчитана в вариационном ряду, где каждая варианта встречается только один раз (или все варианты встреча-
28
ются с одинаковой частотой) называется средней арифметической простой. Она определяется по формуле:
.. ^v
М = —— • где И
М ~ средняя арифметическая;
V - значение вариационного признака;
п - общее число наблюдений.
Если в исследуемом ряду одна или несколько вариант повторяются, то вычисляют среднюю арифметическую взвешенную. При этом учитывается вес каждой варианты и чем большую частоту имеет данная варианта, тем больше будет ее влияние на среднюю арифметическую. Расчет такой средней производится по формуле:
м ^'р
М = ————— , где
П п - сумма частот
Пример составления вариационного ряда и расчета основных его характеристик представлен в таблице 8.
Таблица 8
Определение среднего срока пребывания больных в специализированном отделении больницы
Число |
Число |
Начетный ряд |
Произве |
Отклоне |
Квадрат |
Произведение |
дней, |
боль |
для определе |
дения ва |
ния вари |
отклоне |
квадратов от |
|
ных, |
ния места |
риант на |
ант от |
ний, |
клонений на |
|
|
|
их частоты |
средней, |
|
частоты, |
V |
Р |
Me |
v.p |
d=V-M |
d2 |
d2? |
16 |
1 |
1 |
16 |
-4 |
16 |
16 |
17 |
7 |
8 |
119 |
-3 |
9 |
63 |
18 |
8 |
16 |
144 |
-2 |
4 |
. 32 |
19 |
16 |
32 |
304 |
-1 |
1 |
16 |
20 |
29 |
61 |
580 |
0 |
0 |
0 |
21 |
20 |
81 |
420 |
1 |
1 |
20 |
22 |
7 |
88 |
154 |
2 |
4 |
28 |
23 |
5 |
93 |
115 |
3 |
9 |
45 |
24 |
2 |
95 |
48 |
4 |
16 |
32 |
п=95 £=1900 £=252
1900 hd^-P /252
М=——=10.0лн ^^————= ±j-q-= ±1.63 дн.
При большом количестве наблюдений число встречающихся размеров вариант может быть очень большим; тогда рекомендуется размеры вариант объединять в группы, причем каждая группа должна иметь равное число значений вариант (иметь равный интервал). Расчет средней арифметической в таком сгруппированном или интервальном ряду требует предварительного определения середины интервала. Середина интервала в непрерывных вариационных рядах опре-
29
деляется как полусумма первых значений соседних групп. Середина интервала в дискретных вариационных рядах определяется как полусумма крайних значений группы (табл. 9).
Т а бли ц а 9 Определение среднего роста 14-летних девочек
Рост девочек Центральная вариан-V Vi |
Р |
ViP |
133.0-136.9 133.0+137.0 |
3 |
135-3=405 |
^ -135 137.0-140.9 137.0+141.0 ,, |
15 |
......2085 |
2 - =139 1410-144.9 =143 |
17 |
7431 |
1450-1489 = 147 |
41 |
...... £-~vJ 1 ......6027 |
1490-1529 =151 |
52 |
7й^'7 ...... IQJL |
153.0-1569 =155 |
42 |
......6510 |
1570-160.9 =159 |
18 |
......2862 |
1610-164.9 .... =163 |
5 |
01 С ......61 J |
1650-168.9 165.0+169.0 , |
4 |
......668 |
2 =167 |
|
|
•S.V.P 29655
^———-liT-150-50"
Средняя арифметическая имеет ряд свойств, которые используются в некоторых случаях для упрощения расчета средней.
1. Алгебраическая сумма отклонений всех вариант от средней равна нулю. На этом свойстве основан расчет средней по способу моментов.
2. Если к каждой варианте вариационного ряда прибавить или отнять одно и то же число, то на столько же увеличится или уменьшится средняя арифметическая величина.
3. Если каждую варианту разделить или умножить на одно и то же число, то во столько же раз уменьшится или увеличится средняя арифметическая.
Эти свойства используют в тех случаях, когда варианты представлены очень малыми или, наоборот большими числами.
В здравоохранении в отдельных случаях может потребоваться расчет средней прогрессивной. Средняя прогрессивная рассчитывается из лучших вариант, вариант, положительно характеризующих явление. Они могут иметь значение больше полученной средней арифметической (процент совпадения диагнозов, число больных, состоящих под диспансерным наблюдением, охват профилактическими осмотрами и т.д.) и меньше (уровень летальности, младенческой смертности,
заболеваемости с временной нетрудоспособностью, частота послеоперационных осложнений и т.д.).
Вычисление средней прогрессивной длительности пребывания больных в терапевтических отделениях стационаров.
|
*. | |
Средняя длительность (в днях), V 12 13 14 15 |
Число стационаров,Р |
V.P |
2 3 5 |
12 26 42 75 | |
16 17 18 19 |
4 3 2 1 |
64 51 36 19 |
|
п= 1 |
325 |
м = .525/21 = 15.47 дней, но в 11 стационарах уровень, средней длительности пребывания больных в стационаре ниже, то есть более благоприятный, чем в среднем по всем больницам. Рассчитанная в этих 11 стационарах новая средняя и будет средней прогрессивкой: Мпр -'= 155/11 = 14.09 дней. Такая средняя, определенная среди оптимальных условий, будет служить ориентиром для других (10) стационаров.
Средняя среди показателей. При одинаковых числах наблюдений ее можно рассчитать, как среднюю простую: то есть достаточно суммировать размеры показателей и затем поделить на их число. Но при разных числах наблюдений среднюю величину среди показателей следует определять всегда как среднюю взвешенную. Например, в трех отделениях стационаров летальность составила:
- хирургическое отделение - 1%;
- терапевтическое отделение - 3%;
- неврологическое отделение - 5%.
Если суммировать показатели и разделить сумму на число отделений, то средний уровень летальности составит У/о. Однако в хирургическом отделении пролечилось 800 больных (умерло 8 человек), в терапевтическом 600 больных (умерло 18 больных), а в неврологическом пролечено 200 (умерло 10 больных). Таким образом, средняя летальность по больнице составляет 2,25 (36 х 100 : 1600). Разница оказалась заметной, чтобы определить средний показатель, надо узнать абсолютное число умерших в каждом отделении, получить сумму умерших, разделить ее на общую численность пролеченных больных и выразить полученную величину в соответствующих единицах (%, %о и т.д.).
Средняя величина абстрактна, она может быть рассчитана в принципе из любой совокупности, например, можно получать среднюю арифметическую в группе больных с повышенным и понижен-
31
ным АД. Но такая средняя будет огульной, она не будет правильно характеризовать совокупность, из которой рассчитана. Средние необходимо рассчитывать из однородных совокупностей.
Средняя арифметическая величина находится в большой зависимости от колеблемости вариационного ряда. чем меньше колеблемость ряда, то есть чем меньше амплитуда колебания ряда (разность между самой большой и самой малой вариантой, что называется степенью рассеяния ряда), тем более точно его будет характеризовать средняя арифметическая.
Если большинство вариант концентрируются около своей средней арифметической величины, то такой вариационный ряд - довольно компактный, однородный, можно говорить о малом варьировании. Если же варианты значительно удалены от своей средней арифметической - налицо большое варьирование, а возможно, и неоднородная совокупность,
Степень варьирования вариационного ряда определяется с помощью вычисления среднего квадратического отклонения (ст). Для вычисления сигмы необходимо (табл. 8) определить отклонения (d) каждой варианты от средней, возвести их в квадрат (d2), перемножить квадрат отклонения на частоту каждой варианты (d2?), получить сумму этих произведений (Sd2?), а затем вычислить сигму по формуле:
1 . \^P
Г" ^^л——
g..U. V п
Is При малом числе наблюдений (п < 30) расчет производят по следующей формуле: '
и ' 1^р " О- = ±л———-
t- V п-\ ^ Описанный способ расчета среднего квадратического отклонения требует значительной вычислительной работы. Можно использовать приближенный способ вычисления среднего квадратического отклонения по амплитуде (размаху) вариационного ряда. Вычисление ст по амплитуде производится по формуле:
V -V
0-=± тах , "'".где
А
• А - коэффициент для определения сг, соответствующий числу наблюдений (приложение 1).
fe" ^ ^Л 1 (,
J:^ В нашем примере о- = ±—:— = ±1.61 W. Ц .:'*?' ' 4.94
1 Для оценки варьирования признака наряду со средним квадрати-ческим отклонением может быть использован коэффициент вариации (С). Особенно необходимо использовать коэффициент "вариации при
сравнении колеблемости двух или более средних величин, выраженных в разных единицах измерения:
c=^f•m М
В нашем примере С=-———=8.15%. Значение коэффициента
вариации менее 10% сридетельствует о малой колеблемости, от 10 до 20% - о средней, от 20% и более - о сильной колеблемости вариант вокруг средней.
Значение среднего квадратического отклонения - ст.
1. ст характеризует однородность вариационного ряда. Если ст мала, значит ряд однородный, и рассчитанная М достаточно верно характеризует данный вариационный ряд. Если ст велика, то ряд неоднородный, наблюдается большая колеблемость вариационного ряда, и полученная М характеризует не весь ряд, а только какую-то его часть.
2. В медицине, здравоохранении интервал М ± 1ст обычно принимают за пределы нормы.
3. С помощью ст оценивается «выскакивающий» результат по
формуле: •<"•" ~ м . Если отношение разности между выделяющейся
<7
(«выскакивающей») вариантой и средней арифметической, рассчитанной без нее, к среднему квадратическому отклонению, рассчитанному также без выделяющейся варианты, будет равно 3 и более, то такую варианту лучше не включать в исследование.
4. Теоретическое распределение вариант в однородном вариационном ряду подчиняется правилу трех сигм, которое графически изображается кривой Гаусса* (см. рис. 1).
-36 -26 -16 'x +16 +26 +36
М ± 1ст = 68,3% М ± 2ст = 95,5% М ± Зет = 99,7%
Рис. 1. Теоретическая кривая нормального распределения.
В природе возможны и другие виды распределения, отличающиеся от нормального: альтернативное, асимметричное (правостороннее, левостороннее), бимодальное.
33
Если к средней арифметической величине прибавить и отнять от нее одну сигму (М ± 1ст), то при нормальном распределении в этих пределах будет находиться не менее 68,3% всех вариант (наблюдений), что считается нормой для изучаемого явления. Если к М ± 2ст, то в этих пределах будет находиться 95,5% всех наблюдений, а если к М ± За, то в этих пределах будет находиться 99,7% всех наблюдений. Таким образом, среднее квадратическое отклонение является стандартным отклонением, позволяющим предвидеть вероятность появления такого значения изучаемого признака, которое находится в пределах заданных границ.
Выборочный) метод. Оценка достоверности средних арифметических и относительных величин
При изучении сплошной (генеральной) совокупности для ее числовой характеристики достаточно рассчитать М и ст.
На практике, как правило, мы имеем дело не с генеральной, а с выборочной совокупностью.
Для выборочного метода очень важен способ отбора части от целого, так как отобранная часть, как уже упоминалось ранее, должна быть репрезентативной.
При выборке возможны ошибки смещения, то есть такие события, появление которых не может быть точно предсказуемым. Вместе с тем они являются закономерными, объективными, как и необходимые. При определении степени точности выборочного исследования оценивается величина ошибки, которая может произойти в процессе выборки. Такие ошибки носят название случайных ошибок репрезентативности (т) и являются фактической разностью между средними или относительными величинами, полученными при выборочном исследовании, и аналогичными величинами, которые были бы получены при изучении всей совокупности.
Средняя ошибка среднего арифметического числа определяется по формуле:
СГ
т= ±~г= Vn
Среднюю ошибку средней арифметической величины можно вычислить как и сигму, по амплитуде вариационного ряда:
V -V .
^^+_S22———а^-.где
В - коэффициент для определения ошибки, соответствующий числу наблюдений (приложение 1).
В приведенном примере средняя ошибка составила ±0.16 дней.
о- 1.63 1.63
^Тп^ж^-^
А при расчете по амплитуде вариационного ряда:
24-16 " г- - /• ^^^—_—^ +о\-/р,неи, что достаточно близко к средней ошибке,
46.9 рассчитанной по обычной формуле.
При оценке полученного результата по размеру средней ошибки, пользуются доверительным коэффициентом (t), который дает возможность определить вероятность правильного ответа, то есть он указывает на то, что полученная величина ошибки выборки будет не больше действительной ошибки, допущенной вследствие сплошного наблюдения. Так, если принять t = 2.6, то вероятность правильного ответа составит 99.0%, а это означает, что из 100 выборочных наблюдений только один раз выборочная средняя может оказаться вне пределов генеральной средней. При t = 1 вероятность правильного ответа составит лишь 68.3%, а 31.7% средних могут оказаться вне вычисленных пределов. Следовательно,^ увеличением доверительной вероятности увеличивается ширина доверительного интервала, что в свою очередь повышает достоверность суждения, спорность полученного результата (табл. 10).
Таблица 10 Оценка полученного результата по средней ошибке
Доверительный коэффициент (критерий точности) |
Опорность результата (достоверность) Pi |
Риск ошибки р |
ti = М ± 1т t2 = М ± 2т t2,6 = М ± 2,6т t3 = М ± Зт 1з,з = М ± 3,3т |
68,3% (Pi - 0,683) 95,5% (Pi - 0,955) 99,0% (Pi - 0,990) 99,7% (Pi - 0,997) 99,9% (Pi - 0,999) |
0,317 0,05 0.010 0,003 0,001 |
В медико-статистических исследованиях обычно используют доверительную вероятность (надежность), равную 95,5-99,0%, а- в наиболее ответственных случаях - 99,7%.
Таким образом, если ст является доверительной вероятностью появления необходимых данных в заданных границах, то m является доверительным интервалом, с помощью которого определяются границы возможного размера изучаемого явления.
Зная размер ошибки, можно, как отмечалось выше, правильно определить требуемое число наблюдений для выборочного исследования при помощи преобразования формулы предельной оши(жи выборки
/^(дельта) = t-m -=• —г=- » в которую входит величина п - число наблю-
\ V/2
дений.
Решая приведенное равенство относительно п, получим формулу для определения числа наблюдений:
t2-^ п=-^-
Для примера воспользуемся данными изучения средней длительности пребывания больных в специализированном отделении. Здесь М = 20 дн., о- = ±1,63 дн., т = ±0,16 дн. Сколько же нужно дополнительно исследовать больных, заведомо оперируя ошибкой выборки больше полученной (А = ±0,5 дн.), при доверительной вероятности t = З?
[Определяем требуемое число наблюдений:
З^.бЗ2 9-2.66 n="~0^~~~025~=95•1 Вывод: для того, чтобы оперировать в использованном нами примере с указанной точностью (99,7%), следует подвергнуть изучению 95-96 больных. Нами исследовано 95 больных, что соответствует искомой величине.
<;' Достоверность разности средних величин
На практике нередко приходится иметь дело не с одной, а с двумя средними: надо сравнить среднюю длительность пребывания больных в 2-х стационарах или за отчетный год и предыдущий, результаты, полученные при исследовании 2-х групп больных, лечившихся разными методами, исследуемую группу и контрольную и т.д. Целью сравнения двух средних является оценка существенности их различий, ус-гановление их достоверности.
Достоверность разности между двумя средними величинами определяется по формуле:
М, - М, , , t= ' -^-.где
^ггг^+т^
М, н М^ - две средних арифметических величины, полученные в двух самостоятельных независимых группах наблюдении;
т, и w, - их средние ошибки (выражение -Jm,2 + т^ называют средней ошибкой
)азности двух средних),
/ - доверительный коэффициент для разности средних.
При / >2 разность средних арифметических может быть признана существенной и неслучайной, то есть достоверной. Это значит, что и в •енеральной совокупности средние величины отличаются, и что при ювторении подобных наблюдений будут получены аналогичные раз-1ичия. При / = 2 надежность такого вывода будет не меньше 95%. С увеличением / степень надежности также увеличивается, а риск ошиб-'<;
ки уменьшается. При t < 2 достоверность разности средних величин считается недоказанной. Например, в больнице «А» средняя длительность пребывания больного на койке равна 16,2 дн., m = ±1,5 дн.; в больнице «В» - 14,8 и 1,0 соответственно. 16.2-14.8 1.4
"таг-иг0-8
Различие средних арифметических недостоверно, статистически незначительно. Но нельзя в таких случаях говорить о том, что «нет разницы»!. Различие есть, но оно может быть случайным, недостоверным.
В сопряженных совокупностях (зависимых рядах) оценка достоверности разности средних проводится про формуле:
рад»
/ = —————
pa'Jit
Алгоритм расчета.
1. Составляем два вариационных ряда (например, по уровню артериального давления у больных до и после введения гипотензивного препарата).
V, |
V: |
•paw |
d^V,-M, |
"I |
190 180 170 170 165 |
170 150 165 160 150 |
20 30 15 10 15 |
2 12 -3 -8 -3 |
4 144 9 64 9 |
Z^;"'^
2. Составляется вариационный ряд из разности вариант (Уразн = Vi
-V2).
3. Для нового ряда рассчитываются все его характеристики: Мразн,
Оразн, ГПразн.
1>,5 20+30+15+10+15 М = ——— = —————-————— = 18(лш)
П J
f^~4~л I—————
^т^г^Т^5'7^ "'^-у1^
1 О
4. Определяем / - -!°.^ 59-" " 2.6
5. Так как п < 30, полученное значение t сравниваем с табличным (приложение № 2).
Полученное нами t > 1табл о.99, следовательно полученная средняя разность в уровнях АД (18 мм рт. ст.) существенна и неслучайна, то есть достоверна.
Достоверность показателей и разности показателей
Достоверность показателя определяется с помощью его средней
ошибки по формуле: /^ = ± \^- •> г•ae Р ~ Рзэ^Р показателя, выраженный в
V п
долях единицы, в процентах, в промилле; q - равно 7 -р или 100 - р или 1000 -р (величина, дополняющая показатель до основания); п - число наблюдений.
Например; обследовано 1800 больных, из них выявлено 90 больных гипертонической болезнью I ст. Процент выявленных больных по
данным проведенного осмотра равен: ————=5 случаев на 100 ос-1800
мотренных. „, = + )5'95 ^ п 5 • Следовательно, с вероятностью 95.5%
~Vl800
показатель выявляемости больных с ГБ-1 в аналогичных условиях будет колебаться в пределах Р ±2т = 5 ±2 • 0.5 = 5 ± 1.0, то есть от 4 до 6 случаев на 100 обследованных.
Достоверность различий между сравниваемыми показателями вычисляется по формуле, аналогичной для средних величин:
t--^
^/W)2 + т}
Оценивается критерий различия показателей также, как и средних величин.
Для примера сопоставим уровни общей летальности в двух больницах'
|
Больница №1 |
Больница №2 |
Число лечившихся |
4350 |
6760 |
Из них умерло |
196 |
236 |
Летальность |
4.5% (Pi) |
3.5% (Р2) |
q = 100% или когда показатель равен 100% (Р = ]00%) или близок к 100%, а q = 0, следует узнать, а каким бы мог быть показатель изучаемого явления при других условиях отбора (другое число наблюдений, другой состав больных по полу, возрасту и т.д.)? Для этого пользуются специальной формулой, по которой можно вычислить «ожидаемый»
д+1 уровень показателя: р, = ——. 100%, где
' п+2
а - результативный показатель (Р).
Допустим, что в больнице лечилось экспериментальным методом 60 больных (п), среди которых летальных исходов не было (Р = 0%). Вычисляем «ожидаемый» показатель летальности:
/',=^. юо«/. =1.6%.
Ошибка такого показателя определяется по формуле:
[~pq~ /1.6-98.4 /158.2 , w- - 4^3 = 4^3- = 4~W = L58%-При t = 2 возможны колебания ожидаемого показателя в пределах от 0% до 4.76% (1.6 ± 3.16).
Малая выборка
В клинических и экспериментальных работах довольно часто приходится пользоваться малой выборкой, когда число наблюдений меньше 30. При малой выборке средние величины и показатели вычисляются по тем же формулам, что и при большой. При вычислении среднего квад-ратического отклонения и средней ошибки показателя число наблюдений уменьшается на единицу:
„.,Ж; „,=J^
V п-\ \п-\
Достоверность результатов (t) оценивается по таблице Стьюдента. Обращаться с таблицей Стьюдента следует по графе 1-й, в которой указано число степеней свободы (п'), равное п - I, то есть числу проведенных наблюдений уменьшенному на единицу. Данные 2, 3 и 4-й граф исчислены для вероятности правильного заключения, равной: 95% - графа 2, при риске ошибки 5% (Роз); 99% - графа 3, при риске ошибки 1% (Poi) и 99.9% - графа 4, при риске ошибки 0.01% (Pool).