
- •Что мы изучаем?
- •Зачем нужна математическая статистика?
- •Что такое среднеквадратичное отклонение?
- •Медиана и процентали
- •Доверительный интервал
- •Поговорим о случайности средних
- •Стандартная ошибка среднего
- •Доверительный интервал среднего
- •Дихотомные параметры
- •Вернемся к нашей куче камней
- •Как определить эффективность метода лечения без сравнения с другими методами
- •Как определить, что нулевая гипотеза отклонена правильно для дихотомных параметров, имеющих биноминальное распределение средней величины ?
- •Поговорим о случайности разности средних
- •Относительный риск и соотношение шансов
- •Относительный риск rr
- •Соотношение шансов or
- •Доверительные интервалы для or и rr
- •Стратификация
- •Какие бывают исследования
- •Если ничего не получилось
- •Чувствительность и специфичность
- •Проблема множественного исследования
- •Регрессионный анализ
- •Коэффициент корреляции
- •Непараметрические методы. Ранги
Коэффициент корреляции
Есть два коэффициента корреляция, Пирсона и Спирмена.
Пирсона используется для распределений близких к нормальному и имеющих линейную зависимость, а Спирмена для всех. Возникает вопрос, почему бы не использовать всегда Спирмена? Оказывается, что для нормальных и линейных зависимостей коэффициент Пирсона дает большую точность.
Коэффициенты корреляции обладают общими свойствами. Они могут быть в диапазоне от минус 1 до плюс 1. Плюс 1 означает, что с увеличением одного параметра в некоторое число раз второй параметр увеличивается также в такое же число раз. Это означает, что связь жесткая положительная. Минус 1 означает, что при увеличении одного параметра в некоторое число раз второй в тоже число раз уменьшается. Связь жесткая отрицательная. Если коэффициент корреляции равен 0, то никакой связи нет.
Для того, чтобы оценивать промежуточные состояния общим согласием принято следующее. Если абсолютное значение коэффициента корреляции меньше 0,3, то связь слабая, если больше 0,7, то сильная. В промежутке умеренная.
Мы уже хорошо понимаем, что коэффициент корреляции мы рассчитываем на основании выборки, и полученная величина случайная. Поэтому нужно с помощью критерия Стьюдента оценить его значимость и доверительный интервал. И если внутри доверительного интервала оказывается значение 0, то приходится считать, что он не достоверный. Так как коэффициент корреляции очень близок по сути с коэффициентом b в формуле регрессии, то если он не признан достоверным, то можно на этом основании и формулу регрессии считать недостоверной.
Коэффициент Пирсона вычисляется по такой формуле
Непараметрические методы. Ранги
В самом начале я уже как-то уже намекал о том, что существуют и способы позволяющие работать и с выборками имеющими ненормальные распределения.
Один из них это коэффициент Спирмена. Кроме него, можно рассчитывать также критерии достоверности различия групп по критерию Манна-Уитни и подобно парному критерию Стьюдента – критерий Уилкоксона . Эти расчеты используют ранги. И они хороши тем, что подходят к любым распределениям независимо от того нормальны они или нет. Единственно, что для нормальных распределений параметрические методы дают большую точность.
Кажется, я напустил достаточно тумана, пора его разгребать.
Что такой ранг? Если взять кучу народа, выстроить их в шеренгу и каждому на грудь повесить номер его места, то это и будет ранг. В данном случае мы вообще не измеряем фактический рост, но в принципиально знаем одно - У каждого последующего рост будет выше.
В некоторых случаях мы можем проранжировать еще более неудобные для измерения параметры. Например, оценка симптома.
“Симптом отсутствует” – ранг 1.
“Симптом слабо выражен” – ранг 2.
“Симптом выражен” – ранг 3.
“Симптом сильно выражен” – ранг 4.
Насколько выражен симптом никто дать точную величину не может. Но, что в одном случае одно больше другого сказать легко.
Как можно использовать ранги для изучения групп. Например, есть две группы больных гипертоников одинаковой численности. Одной давали лекарство для понижения давления другой нет. Взяли всех больных, смешали в кучу, и заставили построится в порядке измеренного давления. Каждому присвоили порядковый номер.
Затем заставили тех, кто принимал таблетки отойти в одну сторону, иных в другую. И посчитали сумму чисел на номерках. Если чуть-чуть напрячь мозги, то понятно, что если лекарство никак не действует, то сумма номерков в двух группах должна быть близка. А если действует, то должна значительно различаться.
Если мысль понятна, то дальше наше дело требовать от математиков формулы для определения P.
Для расчета коэффициента корреляции Спирмена нужно в формулу для расчета коэффициента Пирсона вставить вместо значения параметра X и Y их ранговые номера. Можно считать и по более простой формуле, но за вас все считает компьютер, поэтому не все ли равно.
Для критерия Манна-Уинтни, который в принципе заменяет критерий Стьюдента для сравнения двух групп процедура похожая. Нужно проранжировать параметры, рассчитать сумму их и по специальным таблицам определить, какова вероятность получения такой суммы случайным образом. Для количества в группах более 8 рассчитывается критерий Z и сравнивается с критическими значениями из таблицы Стьюдента. Если эта вероятность мала, меньше 5%, то мы можем сделать заключение, что нулевая гипотеза отвергнута, и разница между группами достоверна.
Критерий Уилкоксона применяемый когда нужно доказать достоверность изменения параметра рассчитывается по следующему алгоритму. Все параметры ранжируют в порядке возрастания абсолютного значения, при этом исключая из расчета нулевые. Затем присваивают рангам знак его параметра и складывают. И подобно критерию Манна_Уинтни либо по таблицам, если численность группы меньше 20, либо рассчитывая критерий Z определяют вероятность ошибки.
Корреляции для дихотомных признаков
Корреляцию можно в принципе считать и для дихотомных признаков, но в последнее время для этого используются относительные риски и соотношения шансов, что более информативно, хотя в принципе несет ту же идею, что и коэффициенты корреляции.
Резюме
Я полагаю, что таких знаний достаточно, чтобы не ударить лицом в грязь. Но если желаете разобраться по глубже, рекомендую читать: Стентон Гланц, Медико-биологическая статистика.