
5 курс / Госпитальная педиатрия / Принципы_клинической_практики,_основанной_на_доказанном,_Г_Гайятт
.pdf
,. Как уже отмечалось в предыдущей главе, истинный размер эффекта лечения можно оценить только в ходе эксперимента (см. главу 1 Лечение и риск: причины недостоверности результатов — систематические и случайные ошибки). Для более точной оценки истинного эффекта лечения исследователи применяют различные статистические методы. В некоторых исследованиях последние используются главным образом для проверки той или иной гипотезы, начиная с нулевой гипотезы, которую нужно рассмотреть и, возможно, опровергнуть. Как правило, нулевая гипотеза предполагает отсутствие различий между сравниваемыми методами лечения. В рандомизированных контролируемых испытаниях (РКИ), в которых сравнивается эффективность изучаемого метода лечения и плацебо, нулевая гипотеза будет звучать так: истинное различие по частоте наступления определенного клинического исхода в основной и контрольной группах отсутствует (т.е. равно 0). Например, в одном исследовании (804 мужчины с сердечной недостаточностью) эффективности вазодилататоров сравнивали уровень выживаемости среди больных, получавших эналаприл или гидралазин в сочетании с нитратами [1]. В начале исследования было выдвинуто предположение, что эффективность описанных схем лечения одинакова. Исследователи придерживались данной гипотезы до тех пор, пока ее не опровергли полученные результаты. В данном случае нулевая гипотеза подразумевает отсутствие истинных различий по выживаемости среди больных, принимавших эналаприл или получавших комбинированную терапию.
При проверке гипотезы статистический анализ призван ответить на вопрос, соответствуют ли полученные данные нулевой гипотезе. Логика подобного подхода такова: даже если изучаемое лечение в действительности не оказываетни положительного ни отрицательного влияния на клинические исходы (т.е. его эффективность равна 0), результаты, полученные в основной и контрольной группах, редко совпадают полностью. Чем больше различаются полученные данные, тем менее достоверна нулевая гипотеза. В случае получения значительных различий между группами лечения и контроля исследователи вправе от нее отказаться. В дальнейшем описанная логическая цепочка будет дополнена информацией о роли, которую играют в клинических исследованиях случайные факторы.
РолЬ СЛУЧАЙНЫХ ФАКТОРОВ
В главе 1 Лечение и риск: причины недостоверностирезультатов — сис-
емагпические и случайные ошибки рассматривается случай, когда вероть выпадения орла или решки при каждом подбрасывании идеаль-

но сбалансированной монеты составляет 0,5. Было отмечено, что если подбросить такую монету 10 раз, орел и решка не обязательно выпадут одинаково часто. Иногда это соотношение может составлять 8:2 или даже 9:1. Более того, в редких случаях все 10 раз может выпасть только орел или только решка.
Подобный разброс результатов обусловлен влиянием случайных факторов. Каким образом они действуют, можно продемонстрировать на примере некоторых игр. Иногда при подбрасывании двух костей с идеально ровными гранями (т.е. костей, в которых вероятность выпадения любой цифры от 1 до 6 одинакова) могут выпасть две двойки или две шестерки. Аналогичным образом банкомет может сдать игроку в покер 5 карт одной масти (к великой радости игрока). Еще реже эти 5 карт могут оказаться не только одинаковой масти, но и последовательного достоинства.
Влияние случайных факторов проявляется не только в вышеописанных игровых ситуациях. При включении в исследование участников из общей популяции необычная распространенность какого-либо хронического заболевания также может оказаться случайной. Кроме того, при сравнении одинаково эффективных препаратовчастота наступлениятого или иного клинического исхода в 2 группах может также оказаться различной под влиянием случайных факторов. По большей части статистическая обработка данных направлена на определение степени, в которой подобные различия можно объяснить влиянием случайных факторов, а в каких случаях необходимо искать другие причины (например, большая или меньшая эффективность того или иного метода лечения). Как будет показано, результаты статистического анализа в большой мере зависят от размера выборки.
ВЕЛИЧИНА Р
Исследователь может ошибочно предположить, что между группами лечения и контроля существуют различия, хотя на самом деле они отсутствуют. Согласно статистической терминологии, подобные ошибки называют ошибкой Iрода (а-ошибкой), а их вероятность соответствует уровню а. Вообразите ситуацию, когда мы не имеем информации о сбалансированности монеты. Предположив, что чаще будет выпадать либо орел, либо решка, мы можем выдвинуть нулевую гипотезу, согласно которой монета сбалансирована и частота выпадения ее сторон будет одинаковой (т.е. вероятность выпадения орла и решки составит 50%). Мы можем проверить данную гипотезу экспериментальным путем, подбросив монету несколько раз. Статистический анализ полученных резуль-

татов должен будет ответить на вопрос, в какой степени они оказались следствием влияния случайных факторов.
Проведем гипотетический эксперимент. Допустим, мы подбросили монету 10 раз и все 10 раз выпал орел. Насколько вероятен подобный исход в том случае, если монета действительно идеально сбалансирована? Большинство людей придут к выводу, что вероятность получения подобного результата под действием случайных факторов очень мала. Мы готовы отвергнуть гипотезу об идеальной сбалансированности монеты (нулевую гипотезу) и сделать вывод о том, что у нее смещен центр тяжести. С помощью статистических методов мы можем более точно оценить вероятность того, что полученные результаты обусловлены влиянием случайных факторов в том случае, если нулевая гипотеза все же верна. Правило перемножения вероятностей независимых событий (когда одно из них никак не влияет на другое) гласит, что вероятность последовательного выпадения орла 10 раз рассчитывается путем перемножения вероятностей его однократного выпадения, т.е. SSS и т.д. Тогда вероятность данного исхода меньше '/|000. В научных статьях эту вероятность отражает величина р (т.е. р<0,001). Каково точное значение величины />? Если при условии сбалансированности монеты (правильности нулевой гипотезы) повторить эксперимент с ее 10-кратным подбрасыванием много раз, орел случайно выпадет 10 раз подряд менее чем в 0,1% серий бросков. Вероятность случайного выпадения или орла или решки 10 раз подряд составит 0,002 (2 из 1000 раз).
При проверке гипотез эксперимент не может быть завершен до гех пор, пока не будет принято окончательное решение об отказе от нулевой гипотезы, после чего исследователь делает окончательный вывод, в нашем примере — вывод о несбалансированности монеты. Выбор этапа, на котором будет прекращен эксперимент, зависит от того, насколько мы уверены в сбалансированности монеты в том случае, когда на самом деле у нее смещен центр тяжести (другими словами, насколько мы Уверены в том, что не совершим ошибку I рода). Таким образом, мы выбираем определенное пороговое значение или границу, по одну сторону °т которой мы примем нулевую гипотезу, а по другую откажемся от нее. Возвращаясь к эксперименту с выпадением орла 10 раз подряд, следует отметить, что большинство людей отвергнут нулевую гипотезу при веРоятности подобного исхода ниже 0,001.
Повторим эксперимент. На этот раз решка выпала 9 раз, а орел — Данный результат также нельзя объяснить исключительно влияслучайных факторов. Величина р при этом составляет 0,02. Таким Разом, если монета сбалансирована, а нулевая гипотеза верна, по-

добный (9 орлов и 1 решка или 9 решек и 1 орел) или описанный ранее (10 орлов или 10 решек) исход может быть случайным лишь в 2 случаях из 100.
Должны ли мы отвергнуть нулевую гипотезу в данном случае? Выбор величины р произволен и может быть оспорен. Законы статистики диктуют положительный ответ, так как за точку разделения правдоподобных и неправдоподобных результатов исследования традиционно принимают величину р, равную 0,05. Однако в некоторых случаях это не исключает возможности выбора другого значения р. При р<0,05 полученные результаты расцениваются как статистически значимые. Это означает, что они, по всей видимости, обусловлены не только влиянием случайных факторов, а, следовательно, нулевая гипотеза неверна.
Повторим наш эксперимент еще дважды, использовав каждый раз другую монету. Первый раз орел выпал 8, а решка — 2 раза. Расчет величины р показывает, что при условии сбалансированности монеты подобное (2/8 или 8/2) или более неравномерное распределение в результате действия случайных факторов встречается в 11 случаях из 100 (р=0,11). Таким образом, мы оказываемся по другую сторону от традиционно выбранной точки разделения правдоподобных и неправдоподобных результатов исследования. Если придерживаться общепринятого мнения, нулевую гипотезу отвергать не следует, а полученные данные следуетсчитатьстатистическинезначимыми.
Проведем эксперимент в последний раз. Допустим, что решка выпала 7, а орел 3 раза. Опыт говорит нам, что такой исход (хотя и не очень часто) может наступить даже при использовании сбалансированной монеты. Величина р, равная 0,34, подтверждает наше предположение. Полученные результаты могут встречаться в 34 случаях из 100, т.е. нулевая гипотеза оказалась верной.
Несмотря на то что проблемы, затрагиваемые в клинических испытаниях, несколько отличаются от оценки сбалансированности монеты, приведенный пример помогает понять значения величины р, которые приводятся в научных статьях. При сравнении двух методов лечения исследователи задаются вопросом: «Какова вероятность того, что наблюдаемые различия обусловлены только влиянием случайных факторов?» Если мы согласны с точкой разделения р<0,05, следует отвергнуть нулевую гипотезу и сделать вывод о большей (или меньшей) эффективности изучаемого вмешательства, когда при повторении эксперимента такие же или более выраженные различия будут наблюдаться менее чем в 5% случаев.
Вернемся к РКИ, в котором сравнивали эффективность эналаприла или гидралазина в сочетании с нитратами у 804 мужчин с сердечной недостаточностью. В нем продемонстрирован метод оценки гипотезы с

применением дихотомического клинического исхода — смерти [1]. В течение периода наблюдения от 6 мес до 5,7 года в группе эналаприла умерли 132 из 403 (33%) больных, а в группе комбинированной терапии __ 153 из 401 (38%) больных. При сравнении полученных результатов (доли умерших больных) с помощью критерия %2 было показано, что если нулевая гипотеза верна (т.е. уровень смертности в обеих группах одинаков), то указанные или более выраженные различия между группами могут встретиться в 11 из 100 случаев (р=0,11). Таким образом, приняв за точку разделения величину р<0,05, мы не можем отвергнуть нулевую гипотезу и вынуждены считать, что наблюдаемые различия случайны.
ВЕРОЯТНОСТЬ ТОГО, ЧТО СУЩЕСТВУЮЩИЕ РАЗЛИЧИЯ ОСТАНУТСЯ НЕЗАМЕЧЕННЫМИ
Некоторые врачи могут прокомментировать сравнение эффективности эналаприла и гидралазина в сочетании с нитратами, следующим образом: «Нулевую гипотезу отвергнуть нельзя (так как р>0,05), однако нельзя утверждать, что эналаприл не более эффективен, чем комбинированная терапия. Полученные результаты все же неубедительны». Подобное заключение заставляет обсудить ошибку II рода, которую может совершить исследователь — не заметить существующих различий, т.е. отрицать бблыпую или меньшую эффективность изучаемого лечения.
Вероятность ошибочного заключения об одинаковой эффективности эналаприла и комбинированной терапии может показаться большой. Исследование показало, что прием эналаприла снижает уровень смертности на 5% по сравнению с применением вазодилататоров. Если бы различие по уровню смертности на самом деле составляло 5%, следовало бы сделать заключение, что эналаприл имеет важные преимущества. Несмотря на это, мы вынуждены придерживаться нулевой гипотезы.
Почему же исследователи, наблюдая столь значительные различия по Уровню смертности, не могут сделать вывод о том, что эналаприл эффек- тивнее гидралазина в сочетании с нитратами? Потому что число участников исследования было недостаточным для подтверждения истинности этих Рэзличий. Вероятность того, что клинически значимые различия останут-
незамеченными (вероятность возникновения ошибки II рода), умень- ается по мере увеличения размера выборки. Если эта вероятность доста- чНо высока, статистическая мощность исследования низка. Чем больше
'°рка, тем меньше риск совершения ошибки II рода и тем выше его ста-
^е с к а я мощность. В исследование были включены 804 больных, чего,

казалось бы, должно быть достаточно, однако при выборе дихотомического клинического исхода, такого как смерть, для выявления небольшого размера эффекта лечения требуются очень большие выборки. Так, в исследовании эффективности тромболитических препаратов при остром инфаркте миокарда авторы предполагали и наблюдали различие по уровню смертности между группами лечения и контроля, не достигшее 5%. Поэтому в исследование пришлось включить несколько тысяч больных, после этого оно обрело достаточную статистическую мощность.
Если нулевую гипотезу отвергнуть не удалось (т.е. р>0,05), истинная эффективность вмешательства могла быть оценена неверно. В этом случае следует решить, достаточна ли статистическая мощность исследования. При этом чем более выражены (статистически незначимые) различия между группами лечения и контроля, тем выше вероятность того, что истинный эффект терапии остался незамеченным [2]. В другой главе данной книги описывается, каким образом можно определить достаточность размеров выборки (см. главу 3 Лечение и понимание результатов исследования: доверительные интервалы).
Структура некоторых исследований предназначена не для того, чтобы доказать преимущества нового лечения, а для того, чтобы продемонстрировать сравнимую клиническую эффективность распространенного метода и более дешевых, простых или безопасных методов. Подобные работы частоназывают исследованиямиэквивалентности вмешательств [3]. Приих проведении или оценке полученных результатов особое внимание следует уделять достаточности выборки для выявления небольших, но клинически значимых различий. В противном случае можно сделать ошибочный вывод о сходной эффективности двух методов лечения, в то время как традиционная терапия на самом деле будет иметь преимущества перед более дешевыми, простыми или безопасными вмешательствами.
ПРИМЕР ОЦЕНКИ НЕПРЕРЫВНЫХ ПЕРЕМЕННЫХ ПРИ ОЦЕНКЕ КЛИНИЧЕСКИХ ИСХОДОВ
До этого момента во всех приводимых примерах использовались такие дихотомические критерии оценки или исходы, как положительный и отрицательный результат, орел или решка, смерть или выживание; причем во всех случаях можно бьшо рассчитать частоту наступления того или иного исхода. Однако при сравнении эффективности 2 методов лечения и более часто применяются непрерывные данные, имеющие потенциально бесконечное число возможных значений с небольшими разли-

чиями между ними (например, результаты спирометрии, величина сердечного выброса, клиренс креатинина или показатели качества жизни, оцениваемого с помощью специальной анкеты).
Пример применения таких показателей в качестве критерия оценки (в данном случае переносимость физической нагрузки) приводится в исследовании эффективности эналаприла и гидралазина в сочетании с нитратами при сердечной недостаточности. В отличие от влияния на уровень смертности, комбинированная терапия по сравнению с применением эналаприла повышала переносимость физических нагрузок. Период наблюдения составил 6 мес; для анализа полученных результатов использовали /-критерий. В группе комбинированной терапии переносимость физических нагрузок увеличилась в большей степени, причем полученные данные не зависели от влияния случайных факторов (р=0,02).
ВНЕСЕНИЕ ПОПРАВОК НА ИСХОДНЫЕ РАЗЛИЧИЯ
Проводя проверку гипотезы, исследователи часто учитывают исходные различия между группами сравнения, внося поправки в ходе соответствующегоанализа,т.е.рассчитываястандартизованныепоказатели. В процессе рандомизации больные распределяются случайным образом; при этом, как правило, формируются сопоставимые группы. Однако в некоторых случаях группы могут существенно различаться по наличию и распределению прогностических факторов, влияющих на изучаемый клинический исход. Например, известно, что в некоторых случаях прогноз хуже у пожилых больных. Однако при сравнении эффективности 2 методов лечения доля таких больных в одной из групп может оказаться больше. Учитывая, что риск развития побочных эффектов у пожилых больных выше, отсутствие поправки на возраст снижает достоверность полученных результатов. Таким образом, при расчете величины р также будет необходимо внести соответствующие поправки. Это позволяет провести анализ данных таким образом, как если бы возрастные различия между группами отсутствовали. Необходимые поправки можно вносить для нескольких переменных одновременно. В данном случае интерпретация величины р не будет ничем отличаться от обычной.
ОДНОВРЕМЕННАЯ ПРОВЕРКА МНОЖЕСТВА ГИПОТЕЗ
Долгое время студенты университетов были объектами для проведе- Ия Различных экспериментов. Следуя традиции, для нашего следующего гипотетического исследования мы выбрали студентов-медиков.

Представьте себе медицинский институт и двух преподавателей, читающих вводный курс медицинской статистики. Один из них пользуется большей популярностью среди учащихся. Декан факультета не может никем заменить менее популярного преподавателя. Тогда, стараясь действовать справедливо, он решает провести рандомизированное распределение 200 студентов 1 -го курса по группам; в этом случае у каждого студента будут равные шансы (50%) попасть к тому или иному преподавателю.
Преподаватели использовали это решение для того, чтобы наглядно объяснить студентам некоторые важные принципы медицинской статистики. Они задали вопрос: «Имеются ли различия в характеристиках студентов двух групп, которые нельзя объяснить влиянием случайных факторов?» Из оцениваемых характеристик были выбраны пол, цвет глаз, рост, средний балл, полученный в последний год обучения в колледже, социально-экономический статус и любимая музыка. Для каждого сравнения была сформулирована своя нулевая гипотеза. Например, для анализа групп по половой принадлежности она звучала так: студентов отбирали с одного курса, поэтому число девушек в двух сформированных группах должно быть одинаковым. Поскольку студентов отбирали из одной популяции и распределяли по группам рандомизированно, при всех сравнениях нулевая гипотеза истинна, а во всех случаях, когда она отвергнута, результат будет недостоверным.
Преподаватели определили необходимые характеристики у каждого из студентов. Было установлено, что группы не различаются по распределению 5 из этих характеристик (во всех случаях при оценке существующих различий р>0,10), однако в одной группе глаза были голубыми у 25 из 100, а в другой — у 38 из 100 студентов. Формальный статистический анализ показал, что в том случае, если нулевая гипотеза верна (а она верна), вероятность обнаружения аналогичных или более выраженных различий между группами по доле лиц с голубыми глазами чуть меньше 0,05. Используя традиционную точку разделения (р<0,05), преподаватели вынуждены были отказаться от нулевой гипотезы.
Насколько вероятен тот факт, что при проверке 6 независимых гипотез в 2 группах студентов хотя бы в 1 случае различия окажутся статистически значимыми в силу влияния случайных факторов? Под независимыми гипотезами мы подразумеваем, что данные, полученные при проверке одной из них, не влияли на результаты проверки других. Если вероятность получения статистически значимых результатов составляет 0,05, то вероятность получения статистически незначимых результатов равна 1 — 0,05 = 0,95. При одновременной проверке 2 гипотез вероятность получения статистически незначимых результатов равна 0,95 х 0,95

лли 0,952, а при проверке 6 гипотез — 0,956 (т.е. 74%). Таким образом, вероятность получения, по меньшей мере, одного статистически значимого результата при одновременной проверке 6 независимых гипотез составляет jOO _ 74 = 26%; иными словами, он будет получен в 1 случае из 4, а не из 20. Если мы хотим сохранить общую границу статистически значимых и незначимых данных, равную 0,05, для каждого из 6 сравнений пороговую величину р следует разделить на 6; таким образом, она составит 0,008.
Приведенный пример имеет двоякий смысл. Во-первых, редкие исходы иногда оказываются случайными. Даже при анализе одной гипотезы результат, соответствующий р=0,01, будет получен в 1% наблюдений. Во-вторых, не следует проверять одновременно несколько гипотез, так как полученные при этом результаты могут оказаться ошибочными. В научной литературе имеется множество примеров данного феномена. Так, анализируя результаты 45 испытаний, отчеты о которых были опубликованы в 3 ведущих медицинских журналах, S.J. Pocock et al. обнаружили, что в каждом исследовании применялись в среднем 6 критериев оценки, причем при проведении большинства сравнений оценивалась статистическая значимость различий [2].
В качестве примера, убедительно иллюстрирующего опасность одновременного проведения нескольких сравнений, можно привести РКИ, в котором оценивалось влияние реабилитационных мероприятий на качество жизни больных после инфаркта миокарда. Участников рандомизированно включали в группы стандартной терапии, лечебной физкультуры и медицинских консультаций. Все больные сообщали информацию о своей работе, досуге, сексуальной активности, удовлетворенности своим состоянием, соблюдении рекомендаций врача, качестве досуга и работы, психологическом состоянии, симптомах сердечно-со- судистых заболеваний и общем состоянии здоровья [4]. Три группы были сравнимы практически по всем показателям, однако после 18 мес наблюдения удовлетворенность своим состоянием у больных из группы лечебной физкультуры была выше; необходимость в помощи членов семьи, посвящаемое работе время и частота половых актов в группе проведения консультаций была ниже, чем в двух других группах. Означает ли это, что программы лечебной физкультуры и консультаций необходимо внедрять из-за того положительного (хотя и незначительного) влияния, которые они оказывают на самочувствие больных, или, напротив, от них следует отказаться, так как по большей части клинические исходы между группами не различались? Сами исследователи пришли к выводу, что предложенные ими программы реабилитации не повышают качества жизни больных. Однако их оппоненты могут возразить, что,

если они улучшают хотя бы некоторые клинические исходы, их применение имеет смысл. Очевидно, что использование многочисленных критериев оценки способствует возникновению подобных споров.
Существует ряд статистических методов, позволяющих одновременно проверять несколько гипотез. Один из них бьш продемонстрирован выше: величину р разделили на число тестов. Можно также выбрать до начала исследования один основной критерий оценки, который и будет определять окончательные выводы. Кроме того, существуют статистические методы (например, обобщение величины эффекта), позволяющие объединять различные клинические исходы в один комбинированный критерий оценки. Более детальное обсуждение статистических методов, которые применяются в исследованиях с множественными критериями оценки, в данной книге не приводится. Однако те, кто заинтересовался данной проблемой, смогут найти необходимую информацию в других источниках [5].
ПРОБЛЕМЫ, С КОТОРЫМИ ПРИХОДИТСЯ СТАЛКИВАТЬСЯ ПРИ ПРОВЕРКЕ ГИПОТЕЗ
Несомненно, что у некоторых врачей возник ряд вопросов, которые остались непонятыми. Почему, например, нужно использовать единственную точку разделения, когда ее выбор осуществляется произвольно? Почему на вопрос об эффективности лечения следует отвечать однозначно — да или нет, когда можно рассматривать этот критерий оценки как непрерывную переменную (от «эффективность маловероятна» до «эффективность практически не вызывает сомнения»)?
Врачи, у которых возникли подобные вопросы, стоят на правильном пути. В главе 3 Лечение и понимание результатов исследования: доверительные интервалы дается объяснение, почему альтернативные подходы к анализу данных имеют преимущества перед проверкой гипотезы.
Литература
1.Conn J.N, Johnson G., Ziesche S., et al. A comparison of enalapril with hydralazine-isosorbide dinitrate in
the treatment of chronic congestive heart failure. N Engl J Med 1991;325:303—310.
2.DetskyA.S., Sackett D.L. When was a "negative" trial big enough? How many patients you needed depends
on what you found. Arch Intern Med 1985; 145:709—715.
3.Kirshner B. Methodological standards for assessing therapeutic equivalence. J Clin Epidemiol 1991;44:839-849.
4.Mayou R., MacMahon D., Sleight P., Florencio M.J. Early rehabilitation after myocardial infarction. Lancet 1981 ;2:1399—1401.
5.Pocock S.J., Geller N.L., Thiatis A.A. The analysis of multiple endpoints in clinical trials. Biometrics 1987;43:487—498.