Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Ответы ГОСы.docx
Скачиваний:
57
Добавлен:
08.06.2020
Размер:
17.27 Mб
Скачать

Критерии сравнение средних 2 независимых выборок (t-критерий и критерий Манна-Уитни)

Критерий Стьюдента t относится к одному из наиболее давно разработанных и широко используемых методов статистики. Чаще всего он применяется для проверки нулевой гипотезы о равенстве средних значений двух совокупностей, хотя существует также и одновыборочная модификация этого метода. В данном сообщении я продемонстрирую, как статистические тесты, основанные на критерии Стьюдента, можно реализовать в R.

Начать, пожалуй, стоит с математических допущений, на которых основан критерий Стьюдента. Основных таких допущений, как известно, два:

  • Сравниваемые выборки должны происходить из нормально распределенных совокупностей;

  • Дисперсии сравниваемых генеральных совокупностей должны быть равны.

Кроме того, в своей исходной форме, t-критерий предполагает независимость сравниваемых выборок.

Проверка указанных требований к данным должна всегда предшествовать формальному статистическому анализу, в котором задействован критерий Стьюдента (к сожалению, многие исследователи забывают об этом). Способы проверки этих требований я рассмотрю в будущих сообщениях. Сейчас же пока отметим, что условие нормальности распределения данных становится не таким жестким при "больших" объемах выборок, а для выборок с разными дисперсиями существует особая модификация t-критерия (критерий Уэлча; см. также ниже).

Одновыборочный t-критерий

Этот вариант критерия Стьюдента служит для проверки нулевой гипотезы о равенстве среднего значения (mu1mu1) генеральной совокупности, из которой была взята выборка, некоторому известному значению (mu0mu0):

H0:μ1=μ0H0:μ1=μ0

В общем виде проверка (= тест) этой гипотезы выполняется при помощи t-критерия, который рассчитывается как отношение разницы между выборочным средним и известным значением к стандартной ошибке выборочного среднего:

t=¯x−μ0S¯xt=x¯−μ0Sx¯

Рассчитанное значение критерия мы можем далее интерпретировать следующим образом, исходя из свойств t-распределения: если это значение попадает в т.н. область отклонения нулевой гипотезы (см. рисунок ниже), то мы вправе отклонить проверяемую нулевую гипотезу. Область отклонения нулевой гипотезы для критерия Стьюдента определяется заранее принятым уровнем значимости (например, α=0.05α=0.05) и числом степеней свободы.

Эквивалентным подходом к интерпретации результатов теста будет следующий: допустив, что нулевая гипотеза верна, мы можем рассчитать, насколько велика вероятность получить t-критерий, равный или превышающий то реальное значение, которое мы рассчитали по имеющимся выборочным данным. Если эта вероятность оказывается меньше, чем заранее принятый уровень значимости (например, P<0.05P<0.05), мы вправе отклонить проверяемую нулевую гипотезу. Именно такой подход сегодня используется чаще всего: исследователи приводят в своих работах P-значение, которое легко рассчитывается при помощи статистических программ.

Сравнение двух независимых выборок

При сравнении двух выборок проверяемая нулевая гипотеза состоит в том, что обе эти выборки происходят из нормально распределенных генеральных совокупностей с одинаковыми средними значениями:

H0:μ1=μ1H0:μ1=μ1

Поскольку эти генеральные средние мы оцениваем при помощи выборочных средних значений, формула t-критерия приобретает вид

t=¯x1−¯x1S¯x1−¯x2t=x1¯−x1¯Sx1¯−x2¯

В знаменателе приведенной формулы находится стандартная ошибка разницы между выборочными средними, которая в общем виде рассчитывается как

S¯x1−¯x2=√s21n1+s22n2,Sx¯1−x¯2=s12n1+s22n2,

где s21s12 и s22s22 - выборочные оценки дисперсии. При соблюдении условия о равенстве групповых дисперсий приведенная формула приобретает более простой вид (подробнее см. здесь). Интерпретация t-критерия, рассчитанного для двух выборок, выполняется точно так же, как и в случае с одной выборкой (см. выше).

Сравнение двух зависимых (= парных) выборок

Зависимыми, или парными, являются две выборки, содержащие результаты измерений какого-либо количественного признака, выполненных на одних и тех же объектах. Во многих исследованиях какой-то определенный отклик измеряется у одних и тех же объектов до и после экспериментального воздействия. При такой схеме эксперимента исследователь более точно оценивает эффект воздействия именно потому, что прослеживает его у одних и тех же объектов.

Но как в таких случаях оценить наличие эффекта от воздействия статистически? В общем виде критерий Стьюдента можно представить как

t=оценка параметра−истинное значение параметраст. ошибка оценки параметраt=оценка параметра−истинное значение параметраст. ошибка оценки параметра

Нас интересует "истинное значение параметра" - среднее изменение какого-либо количественного признака как результат экспериментального воздействия - обозначим его δδ. Оценкой этого истинного параметра является наблюдаемое (выборочное) среднее изменение признака. Тогда t-критерий примет вид

t=¯d−δS¯dt=d¯−δSd¯

Если нулевая гипотеза заключается в равенстве истинного эффекта нулю, формула для парного критерия Стьюдента примет вид

t=¯dS¯dt=d¯Sd¯ 

U-критерий Манна-Уитни – это непараметрический статистический критерий, использующийся для сравнения выраженности показателей в двух несвязных выборках.

Что такое непараметрический? Не вдаваясь в статистические тонкости, нужно понимать следующее. Параметрические статистические критерии более точные, но они предъявляют более строгие требования к данным. То есть, перед расчетом нужно все данные в группах проверять, например, на нормальность распределение. Это значит, что на графике распределения такие данные должны располагаться в виде колокола – больше всего испытуемых со средними значениями, а меньшинство имеют низкие и высокие показатели. t-критерий Стъюдента является параметрическим критерием.

Непараметрические критерии менее точные, но зато у них нет жестких требований к данным. Эти данные могут быть почти любыми.

Что значит несвязные выборки? Это означает, что группы не пресекаются, то есть в них разные испытуемые. Расчет различий в связных выборках используется, например, при выявлении эффективности тренингов, когда производятся замеры «до» и «после», а потом сравниваются. У критерия Стъюдента есть вариант для связных выборок. Критерий Манна-Уитни используется только для несвязных.

 

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]