
- •Задачи биостатистики
- •Основные понятия и определения биостатистики
- •Классификация признаков
- •Анализ медико-биологических данных на основе их графического представления
- •Анализ медико-биологических данных на основе числовых статистических характеристик
- •Свойства нормального распределения
- •Теория проверки статистических гипотез
- •I алгоритм
- •II алгоритм
- •Проверка гипотезы о нормальности распределения случайной величины
- •Параметрические критерии проверки статистических гипотез
- •Анализ относительных величин
- •Доверительный интервал
- •Доверительный интервал для разности генеральных средних двух независимых групп
- •Доверительный интервал для разности генеральных средних двух зависимых групп
- •Доверительный интервал относительных показателей
- •Непараметрические критерии проверки статистических гипотез
- •Анализ качественных признаков. Таблицы сопряженности.
- •Оценка факторов риска
- •Оценка чувствительности и специфичности диагностических тестов
- •Оценка прогностического значения диагностических тестов
- •Однофакторный дисперсионный анализ
- •Линейная корреляция
- •Коэффициент корреляции рангов к. Спирмена
- •Линейная регрессия
- •Анализ выживаемости
- •Методы прогнозирования
- •Методы простой экстраполяции
- •Метод среднего абсолютного прироста
- •Метод среднего темпа роста
- •Прогнозирование на основе математических моделей
- •Оценка факторов риска и прогнозирование на основе логистической регрессии
- •Байесовский подход к диагностике и прогнозированию. Последовательный анализ Вальда
- •Определение размера выборки
- •Расчет объема выборки при эпидемиологических исследованиях
- •При неизвестной численности генеральной совокупности для количественных признаков
- •Объем генеральной совокупности известен
- •При неизвестной численности генеральной совокупности для количественных признаков
- •Представление статистических данных в научных публикациях
- •Приложение 1. Критические значения коэффициента асимметрии As
- •Приложение 2. Критические точки двустороннего t-критерия Стьюдента
- •Приложение 3. Критические значения u-критерия Манна-Уитни
- •Приложение 4. Критические значения парного т-критерия Уилкоксона
- •Приложение 5. Критические значения χ2
- •Приложение 6. Критические значения коэффициента корреляции рангов Спирмена
- •Приложение 7. Критические значения f-критерия Фишера
Анализ качественных признаков. Таблицы сопряженности.
Проблема. В ходе наблюдения за беременными, страдающими преэклапсией (эклампсия — это наиболее тяжелая форма токсикоза беременных) было отмечено, что на ранних сроках беременности выраженное ожирение у них регистрировалось чаще, чем в целом в популяции. Возможно, это только впечатление отдельного врача, но поскольку это осложнение беременности слишком грозно, чтобы пренебрегать любыми возможностями предсказать и предотвратить его, все-таки необходимо проверить, является ли выраженное ожирение фактором риска возникновения преэклампсии, и если да, то насколько серьезно (клинически значимо) оно увеличивает этот риск в отношении отдельно взятой пациентки. Для этого необходимо проанализировать частоту встречаемости ожирения, возможно среди женщин с преэклампсией эта патология регистрируется чаще, чем среди тех, кто не имеет этого грозного осложнения беременности. |
Существует множество признаков, различных явлений и вещей, измерение которых затруднено или вовсе невозможно. Например, как измерить признак «вид патологии» или «профессия», а как сравнить эти признаки для получения статистического представления о профессиональной заболеваемости?
В этих случаях изучается распространенность признаков, частота встречаемости признаков (доля объектов с интересующим нас признаком) в различных выборках, оценивается взаимосвязь частоты встречаемости одного признака с частотой встречаемости другого признака.
Для этого используются таблицы сопряженности. Столбцы этой таблицы обозначают градации одного признака, строки – градации другого признака. В каждой ячейке записывается число случаев с сопряженными признаками.
Наиболее простой случай таблица 2х2 (исследуется частота совместного распространения двух признака, каждый из которых имеет две градации). Еще их называют четырехпольными таблицами.
В общем случае Н(0) формулируется следующим образом:
в генеральных совокупностях доля объектов с интересующими нас признаками одинакова
или частота встречаемости одного признака не зависит от частоты встречаемости другого признака
или какой-либо фактор не влияет на частоту встречаемости признака (признаков)
СЛУЧАЙ 1. Выборки независимые
Предположим, что у нас есть два качественных признака, характеризующие обследованных лиц. Занесем эти данные в таблицу сопряженности
|
Первый признак (первая градация) |
Первый признак (вторая градация) |
Всего |
Второй признак (первая градация) |
Частота встречаемости a |
Частота встречаемости b |
a +b |
Второй признак (вторая градация) |
Частота встречаемости c |
Частота встречаемости d |
с+d |
|
n1=a+c |
n2=b+d |
n =a+b+c+d |
Критерий хи-квадрат Пирсона вычисляется по формуле
Но для таблицы 2х2 более точные результаты дает критерий с поправкой Йетса
Его критическое значение находится для заданного уровня значимости α и числа степеней свободы f=(n-1)(m-1), где n и m число строк и число столбцов в таблице сопряженности (Приложение 5).
Если
то Н(0)
принимается,
В
случае
принимается
Н(1)
Когда число наблюдений невелико и в клетках таблицы встречается частота меньше 5, критерий хи-квадрат неприменим и для проверки гипотез используется точный критерий Фишера. Процедура вычисления этого критерия достаточно трудоемка и в этом случае лучше воспользоваться компьютерными программами статанализа.
По таблице сопряженности можно вычислить меру связи между двумя качественными признаками – ею является коэффициент ассоциации Юла Q (аналог коэффициента корреляции)
Q лежит в пределах от 0 до 1. Близкий к единице коэффициент свидетельствует о сильной связи между признаками. При равенстве его нулю – связь отсутствует.
Аналогично используется коэффициент фи-квадрат (φ2)
В примере с беременными, страдающими преэклампсией, была получена следующая таблица сопряженности
Н(0): наличие у беременной выраженного ожирения не влияет на риск возникновения преэклампсии Н(1): наличие у беременной выраженного ожирения увеличивает риск возникновения преэклампсии Выберем уровень значимости: α=0,05
Т.к.
Вывод: наличие у беременной выраженного ожирения статистически значимо (с вероятностью не менее 95%) увеличивает риск возникновения преэклампсии. А теперь рассмотрим клиническую значимость влияния фактора ожирения на протекание беременности. Из таблицы сопряженности можно посчитать, что доля лиц с ожирением среди тех, у кого нет преэклампсии, составляет 140/1660*100%=8,4%. Среди лиц с преэклампсией эта доля 26,5%, разница составляет 18,1%. Это выборочная разница и для нее необходимо определить 95% доверительный интервал. Как это сделать мы уже рассматривали. После расчетов получаем, что генеральная разница лежит в пределах от 13,8% до 22,4%. Даже нижний предел ДИ свидетельствует о клинической значимости этих различий. Коэффициент ассоциации Юла Q=0,6 указывает на среднюю по силе связь между фактором риска и предродовым осложнением.
Эти же данные, обработанные в программе STATISTICA (модуль «непараметрическая статистика, таблицы 2×2»)
|
Таблицы сопряженности могут иметь и более сложный вид, когда каждый признак имеет более двух градаций. Нулевая гипотеза заключается в отсутствии связи между этими признаками. Ниже приведен пример подобного случая – нужно выяснить есть ли взаимосвязь между профессией и обращаемостью к врачу.
|
профессия |
всего |
|||
обращаемость к врачу |
строители |
шахтеры |
учителя |
госслужащие |
|
до 3 в год |
21 |
26 |
19 |
17 |
83 |
от 4 до 6 в год |
9 |
15 |
12 |
6 |
42 |
более 6 в год |
7 |
8 |
6 |
4 |
25 |
всего |
37 |
49 |
37 |
27 |
150 |
Анализ таких таблиц также предпочтительно проводить с использованием компьютерных программ.
СЛУЧАЙ 2. Выборки зависимые
Проблема. Острые респираторные вирусные инфекции (ОРВИ) являются серьезной проблемой здравоохранения во многих регионах мира в связи с их широкой распространенностью и наносимым ими значительным социально – экономическим ущербом. Исследования показали, что у 92-94 % детей, страдающих частыми респираторно-вирусными заболеваниями, имел место дисбактериоз кишечника. Наличие дисбаланса нормофлоры, снижая антиинфекционную резистентность организма ребенка, не только сопровождает, но и влияет на частоту и характер течения острой респираторной инфекции у детей, способствуя развитию осложнений, что и позволяет считать терапевтическое и профилактическое применение биологических препаратов целесообразным и патогенетически обоснованным. Стояла задача изучить эффективность пробиотика метаболитного типа в комплексной терапии у детей при осложненной смешанной респираторной вирусной инфекции и его влияние на микробиоценоз кишечника. В исследовании приняли участие 32 больных в возрасте от 1 мес. до 13 лет со среднетяжелыми и тяжелыми осложненными формами ОРВИ. Были получены следующие данные.
Частота нарушений микрофлоры после лечения снизилась на 43,8-15,6=28,2%. Подтверждают ли результаты выборочного исследования эффективность пробиотика? |
Над одними и теми же объектами проводятся два наблюдения: «до» и после. (прием лекарства, обучение, внушение и т.д.)
Подсчитывается сколько раз данное свойство встречается:
и «до» и «после», (+,+)
только «до» (+,-)
только «после» (-,+)
ни «до» ни «после» (-,-)
|
Признак «после» |
|
Признак «до» |
Вторая градация «после» (-) |
Первая градация «после» (+) |
Первая градация «до» (+) |
a Число изменений от (+) к (-) |
b Число сохранивших (+) |
Вторая градация «до» (-) |
c Число сохранивших (-) |
d Число изменений от (–) к (+) |
Н(0) –частота встречаемости градаций признака после воздействия фактора не изменилось
Критерием для проверки нулевой гипотезы является хи-квадрат Макнемара
Если то Н(0) принимается,
Если то принимаем Н(1)
В задаче с эффективностью пробиотика составим следующую таблицу сопряженности для зависимых выборок. В ячейку a запишем число лиц, у которых был обнаружен дисбактериоз до лечения, но не обнаружен после (28,2% или 9 человек из 32). В ячейку b – число лиц, которым лечение не помогло (15,6% или 5 человек), в ячейку с – долю лиц, у которых как не было дисбактериоза, так и нет (56,2% или 18 человек), и в ячейку d – долю лиц, у которых после лечения вдруг он обнаружился (в нашем случае таких не было).
Н(0): частота нарушений микрофлоры кишечника не зависит от лечения пробиотиком Н(1): частота нарушений микрофлоры кишечника зависит от лечения пробиотиком Выберем уровень значимости: α=0,05, вычислим χ2=7,11 Критическое значение = 3,841 (по таблице для f=1, Приложение 5). Полученное значение χ2=7,11 больше, чем критическое, следовательно, мы отвергаем нулевую гипотезу и принимаем альтернативную. Вывод: с вероятностью не менее 95% частота нарушений микрофлоры кишечника зависит от лечения пробиотиком. Определим 95%ДИ для разности долей, он составляет от 12,5до 43,7%. Доверительный интервал достаточно широкий, т.е. доля лиц с положительны эффектом от лечения определена неточно, что может быть связано с недостаточным объемом выборки. Однако, даже нижний предел ДИ свидетельствует о клиническом эффекте от применения препарата. |