Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Для диссертантов_статанализ.doc
Скачиваний:
5
Добавлен:
16.08.2019
Размер:
249.34 Кб
Скачать

Если ничего не получилось

Вы провели свои исследования. Вы очень надеялись, что сможете всему миру доказать, что ваш метод лечения более эффективен и, увы, P оказалось больше 0,05, т.е. разница между исследуемой и контрольной группой не достоверна. Нулевую гипотезу отвергнуть не удалось.

Что делать? Можно отчаявшись погрузиться в депрессию, а можно задаться вопросом может быть этот вывод все-таки ошибочен. И основание для этого могут быть весомые. Может оказаться, что вероятность неправильного вывода будет очень высока, например более 50%. Т.е. вам просто грубо не повезло. Монетка упала решкой, а не орлом. Это же оскорбительно быть заложником монетки. С этим что-то надо делать.

Для этого мы попробуем разобраться что такое чувствительность и специфичность метода.

Чувствительность и специфичность

Возьмем простой пример. Представим, что идет эпидемия гриппа. Но, кроме гриппозных, есть и просто люди больные ОРЗ. Как их различать? Не будем погружаться в диагностические тонкости. Просто решим, если температура выше 40С, то это грипп, если меньше 40С, значит ОРЗ. Ну скажите вы, это слишком высокая планка. Наверняка, многие гриппозные не будут обнаружены. Но зато, скажу я, среди тех, кто будет отнесен в группу гриппозных будет мало с ОРЗ. Можно сказать, что такой метод обладает высокой специфичностью по определению гриппозных, но малой чувствительностью. Давайте понизим планку. Установим порог не 40С, а 38С. Чувствительность метода сразу возросла. Гораздо больше людей болеющих гриппом будет правильно диагностировано, но уменьшилась специфичность. В группу гриппозных неправильно будут отнесены многие с ОРЗ.

В нашем случае таким порогом обладает требуемый уровень P. Вот если вы задавали требования P<0.01, то имеет смысл планку сместить до уровня P<0.05. Но, к сожалению, ниже ее опускать нельзя. Оппоненты не поймут.

Давайте представим другую, более романтичную ситуацию.

Ночь, море, шторм, гроза и тонущий корабль. Корабль был загружен ящиками со слитками золота и, скажем, слитками чугуна. В каждом ящике только один из типов слитков. Никаким образом, на ощупь, на вкус или на цвет определить что есть золото или что есть чугун невозможно. Известно только одно, слиток золота тяжелее чугуна на 100г.

У вас есть весы и один слиток чугуна. Вы его кладете на одну чашу весов, а на другую слиток вытащенный из ящика. Если весы показывают, что слиток тяжелее, то этот ящик загружают в шлюпку. Все просто. Однако есть проблема, шторм качает корабль и стрелка весов качается. При этом эту стрелку вы видите только во время вспышки молнии. Вам совсем не хочется загружать шлюпку чугуном, но и времени в обрез. Если вы установите критерий, что увиденное показание стрелки при вспышке молнии должно быть 100 грамм, то наверняка много золота останется на корабле, а если понизите критерий, то много чугуна погрузите в шлюпку. При этом если вы установите критерий 100 грамм, и если у вас все подряд ящики будут с золотом, то так как стрелка колеблется вокруг этого показателя, вы наверняка половину золота оставите на корабле.

Итак у вас есть два вариант ошибки.

1. Ошибка первого рода ( -ошибка). Неверно отвергнуть нулевую гипотезу. Был чугун, а вы решили золото.

2. Ошибка второго рода ( -ошибка). Неверно не отвергнуть нулевую гипотезу. Было золото, а вы решили чугун.

При этом ошибка второго рода может достигать весьма высокого значения, гораздо большую чем 5%.

Это означает, если вам не удалось доказать с P<0.05, что две группы достоверно различны, нельзя утверждать, что они одинаковы с вероятностью c P<0.05, это очень грубая ошибка.

В этом случае нужно рассчитывать ошибку второго рода.

Несмотря на такой романтизм, эта ситуация совершенно аналогична той, когда вы проводите исследования. И в принципе подобна предыдущей. Но здесь есть способ одновременно повысить и чувствительность и специфичность. Для этого нужно на весы положить много (несколько) слитков чугуна и из ящика класть такое же количество слитков золота. Стрелка теперь будет отклоняться в разных случая на большую величину и влияние шторма на нее значительно будет меньше. Допустим положим 5 слитков с той и с другой стороны. Разница веса будет уже 0,5кг. Поставим критерий 0,25 кг. Стрелка от шторма качается в тех же пределах, что и раньше и реже достигает показания 0,25 чем 0,1 при взвешивании чугунного слитка. Значит, возросла специфичность. В тоже время при взвешивании золота она качается вокруг 0,5кг, и редко падает до уровня 0,25, значит возросла чувствительность.

Хотя это не исключит возможность ошибки вообще.

Таким образом, мы приходим к выводу, что увеличение количества в выборке увеличивает одновременно и чувствительность и специфичность. При этом желательно стремиться к тому, чтобы размеры выборок были одинаковы. Именно при этом получается наибольшая чувствительность. Вернее чувствительность определяется по размеру меньшей выборки.

Но остается вопрос, а стоит ли мучиться с увеличением численности в группах. Все зависит от того, какая величина чувствительности. Если она равна 20%, т.е. вероятность точно определить золото, при условии, что оно действительно есть, равно 20%, то, наверное, стоит. А если 90%, то наверное нет. Скорее всего, если вы не нашли золота, то его и не было.

Чувствительность зависит от стандартной ошибки и величины группы и определяется по специальным таблицам. Ну, а выбор за тем, как дальше действовать, остается за исследователем.

Есть только одна проблема, о которой честный исследователь не должен забывать.