Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
МОНОГРАФИЯ_БИОСТАТ.docx
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
2.05 Mб
Скачать

Проверка гипотезы о нормальности распределения случайной величины

Гистограмма, построенная по выборочным данным, и ее огибающая дают нам лишь качественное (несколько искаженное) представление о законе распределения случайной величины. Для более точной оценки «нормальности» распределения можно использовать показатели, характеризующие форму кривой.

Коэффициент ассиметрии As – показатель отклонения кривой распределения от симметричности.

Как видно из рисунка 16 отрицательный коэффициент ассиметрии означает, что кривая распределения скошена влево от центра, положительный – вправо. При нормальном распределении As близок к нулю.

Рисунок 16

Коэффициент эксцесса Ex характеризует степень заостренности кривой распределения (положительный коэффициент свидетельствует о об более острой вершине, отрицательный – о более пологой).

Для нормального распределения эти коэффициенты должны быть близки к нулю. Но, поскольку они являются выборочными, то на практике точное равенство нулю почти не встречается. Поэтому для проверки нормальности распределения рекомендуется использовать соответствующие таблицы (Приложение 1), в которых указаны критические точки для этих коэффициентов при различных уровнях значимости и объемах выборки. Если рассчитанное значение для ассиметрии и эксцесса по модулю превосходят эти критические точки, то нулевая гипотеза о нормальности распределения отвергается, в противном случае - принимается.

Пример. Проверить на нормальность распределения систолического артериального давления по выборке из 25 значений.

108, 115, 133, 102, 110, 118, 118, 120, 120, 127, 127, 127, 110, 100, 105, 120, 120, 130, 135, 140, 135, 146, 145, 160, 155

Н(0): распределение систолического давления соответствует нормальному распределению

п =25

125,04

s=15,9

As=0,424

Ex=-0,655

α=0,05

As крит=0,711

Exкрит=0,869

Поскольку вычисленные значения коэффициентов меньше соответствующих табличных (Приложение 1), то принимается нулевая гипотеза.

Проверка гипотезы о нормальности распределения может быть осуществлена и на основе других критериев: хи-квадрат, Колмогорова-Смирнова, Шапиро-Уилкса. Эти процедуры заложены во многих пакетах статистического анализа. Ниже приведены результаты обработки данных в ППП STATISTICA

Рисунок 17

По критерию Колмогорова-Смирнова получен результат n=n.s. (отличие от нормального статистически незначимо), по критерию хи-квадрат р=0,63, что также указывает на статистическую незначимость отличий распределения давления от нормального.

Параметрические критерии проверки статистических гипотез

Наиболее распространенным параметрическим критерием является критерий t-Стъюдента. Его используют для проверки гипотезы о равенстве двух генеральных средних. Как видно из рисунка 18, две выборки могут быть извлечены из одной генеральной совокупности и в этом случае у выборочных средних одна общая генеральная средняя, или же эти выборки принадлежат разным совокупностям и, следовательно, генеральные средние отличаются.

Рисунок 18

Критерий Стъюдента можно использовать при условии, если

  • признаки количественные и имеют нормальное распределение

  • генеральные дисперсии сравниваемых совокупностей равны

Несоблюдение этих условий может привести к некорректным результатам.

СЛУЧАЙ 1. Выборки независимые.

В этом случае нулевая гипотеза Н(0) звучит так:

  • две генеральные средние равны

  • или - две выборки извлечены из одной генеральной совокупности

  • или - две совокупности имеют одинаковое распределение

В медицинских задачах гипотеза может быть сформулирована, например, таким образом: содержание гемоглобина у городских и сельских жителей одинаково (подразумевая, что одинаково его распределение).

Проверяемый t-критерий вычисляется по формуле

где – выборочные средние

m1, m2 - стандартные ошибки средних значений сравниваемых выборок.

Находим по таблице tкрит для заданного α и числа степеней свободы

f =n1 + n2 – 2

Если tвыч │< tкрит то принимается Н(0) (нет аргументов, чтобы ее отвергнуть)

Если tвыч│≥ tкрит то принимается Н(1) и делается заключение о наличии статистически значимых различий между генеральными средними значениями на соответствующем уровне значимости.

Условие равенства двух генеральных дисперсий проверяется по критерию Фишера, который равен отношению большей выборочной дисперсии к меньшей:

Fкрит находится по таблице (Приложение 7) для заданного α и числа степеней свободы

f1=n1-1 и f2=n2-1

Если Fвыч≥ Fкрит , то гипотеза о равенстве генеральных дисперсий отвергается

Если Fвыч< Fкрит , то принимается нулевая гипотеза о равенстве.

Пример. По данным из таблицы определить, отличается ли при себорее содержание связанного холестерина крови (мг%) от нормы, если известно, что концентрация холестерина имеет нормальное распределение, а дисперсии в двух совокупностях одинаковы.

норма

58,9

53,1

64,1

59,3

69

62

53,3

61,1

58,3

себорея

105,3

83,7

122,2

110,6

101,1

96,8

114,5

113

Решение:

Вычислим средние значения для двух выборок:

Несмотря на то, что две выборочные средние отличаются, не исключена возможность, что генеральные средние равны. Поэтому выдвинем гипотезы:

Н(0): среднее значение связанного холестерина в крови при себорее не отличается от нормы

Н(1): среднее значение связанного холестерина в крови при себорее отличается от нормы

Гипотезы будем проверять на уровне значимости α=0,05.

Результаты вычислений представлены в таблице

группа

n

(мг%)

s (мг%2)

m (мг%)

вычисленный

t-критерий

F-критерий

норма

9

59,9

5,0

1,67

-20,8

1,08

себорея

8

109,5

4,8

2,81

Определим Fкрит по таблице (Приложение 7) для f1=8 и f2=7

Fкрит=3,73

Т.к. Fвыч< Fкрит (1,08<3,73) принимаем гипотезу о равенстве генеральных дисперсий

Определим tкрит для α=0,05 и числа степеней свободы в двух группах

f=n1+n2-2=9+8-2=15

Из таблицы (Приложение 2) получаем двусторонний tкрит=2,13

т.к.│tвыч> tкрит (20,8>2,13) – то принимается альтернативная гипотеза.

Вывод: Содержание связанного холестерина в крови при себорреи статистически значимо отличается от нормы с вероятностью не менее 95%.

СЛУЧАЙ 2. Выборки зависимые

Для сравнения двух зависимых выборок или выборок с попарно связанными вариантами проверяют гипотезу о равенстве нулю среднего значения их попарных разностей. Такая задача возникает, когда имеются данные об изменении интересующего признака у каждого пациента. Например, если группа пациентов получала изучаемый метод лечения, и у каждого пациента измерялось значение признака до и после лечения. В данном случае предстоит проверить нулевую гипотезу о равенстве нулю изменений этого признака в результате получения терапии.

При подобных исследованиях все наблюдения можно представить в виде n-пар измерений (например, до и после)

Для каждой пары вычисляется разность di, где i=1, n

Для полученного ряда вычисляется среднее и среднеквадратичное отклонение

Д алее вычисляется значение критерия Стъюдента

Проверка гипотезы производится по таблицам распределения Стьюдента (Приложение 2) для выбранного уровня значимости и числа степеней свободы f= п-1.

Если tвыч │< tкрит то принимается Н(0)

Если tвыч│≥ tкрит то принимается Н(1) и делается заключение о наличии статистически значимых различий между генеральными средними значениями «до» и «после».

Пример. В группе из 6 человек изучалось влияние пробежки на ЧСС (уд/мин). В результате опыта получилось 2 ряда ЧСС: первый – до пробежки, второй – после пробежки:

До пробежки, уд/мин.

65

75

68

80

75

62

После пробежки, уд/мин.

77

82

65

90

85

75

Изменяется ли ЧСС после пробежки? Необходимо оценить статистическую значимость полученных результаты, если известно, что ЧСС имеет нормальное распределение.

Для наглядности представим данные в следующей таблице:

x1i (до пробежки)

х2i (после пробежки)

di (разница ЧСС)

65

77

12

75

82

7

68

65

3

80

90

10

75

85

10

62

75

13

Ср. знач.=70,8

Ср. знач.=79

Ср. знач.= 8,2

Несмотря на то, что средние значения ЧСС до и после пробежки отличаются, не исключена возможность, что в генеральной совокупности пробежка не повлияет на ЧСС.

Поэтому выдвигаем гипотезы:

Н(0): после пробежки ЧСС в среднем не меняется

Н(1): после пробежки ЧСС в среднем меняется

Гипотезы будем проверять на уровне значимости α=0,05.

Результаты вычислений представлены в таблице.

группа

n

(уд/мин)

(уд/мин)

sd (уд/мин2)

вычисленный

t-критерий

до пробежки

6

70,8

8,2

5,3

3,75

после пробежки

79

Определим по таблице Стьюдента (Приложение 2) для α=0,05 и числа степеней свободы f=n-1=5 двусторонний tкрит = 2,57.

tвыч > tкрит – следовательно принимается Н(1).

Вывод: изменение ЧСС после пробежки статистически значимо с вероятностью не менее 95%.