
- •Биометрическая обработка данных на основе компьютерной программы statistica
- •Предисловие
- •Раздел 1. Характеристика программы statistica
- •Организация системы statistica
- •1.2. Статистические методы программы statistica
- •Раздел 2. Параметрические критерии
- •2.1. Описательная статистика Методы описательной статистики (Descriptive statistics) и характеристика статистических совокупностей
- •2.2. Статистические оценки генеральных параметров Оценка ошибок репрезентативности
- •Оценка ошибок репрезентативности
- •Показатель точности оценок
- •Оценка доверительного интервала средней арифметической –
- •Оценка доверительного интервала дисперсии –
- •2.3. Проверка нормальности эмпирического распределения Функции нормального распределения и методы оценки нормальности эмпирического распределения
- •Проверка нормальности эмпирического распределения
- •2.4. Параметрические критерии сравнения средних
- •Раздел 3. Непараметрические критерии
- •3.1. Сравнение независимых выборок
- •Сравнение зависимых групп
- •3.3. Сравнение номинальных (категориальных) переменных
- •Раздел 4. Корреляционный анализ
- •4.1. Параметрические показатели связи
- •4.2. Непараметрические показатели связи
- •Методика расчета коэффициент ранговой корреляции Спирмена ( )
- •Методика расчета коэффициента корреляции Спирмена ( )
- •4.3. Оценка связи между номинальными величинами
- •Раздел 5. Дисперсионный анализ
- •5.1. Однофакторный дисперсионный анализ
- •5.2. Двухфакторный дисперсионный анализ
- •Раздел 6. Регрессионный анализ
- •Раздел 7. Кластерный анализ
- •Раздел 8. Дискриминатный анализ
- •Оглавление
- •625003, Г. Тюмень, Семакова,10
Раздел 3. Непараметрические критерии
Непараметрические методы не базируются на каком либо предположении о законе распределения данных; используют, как правило, только предположения о случайном характере исходных данных и непрерывности генеральной совокупности, из которой они извлечены; не используют оценку параметров (средней арифметической и стандартного отклонения) описывающих распределение переменной. Эти методы иногда называют свободно распределенными методами или методами свободными от параметров (не основывающимися на оценке параметров: средней арифметической или стандартного отклонения).
Критерии непараметрических методов разделяются на следующие группы:
– критерии различия между группами (независимые выборки): критерий Вальда-Вольфовитца, критерий Манна- Уитни, двухвыборочный критерий Колмогорова-Смирнова; при сравнении нескольких групп: критерий Краскела-Уоллиса и медианный тест;
– критерии различия между переменными (зависимые выборки): критерий знаков, критерий Вилкоксона; хи-квадрат Макнемара (для категориальных переменных); при сравнении нескольких групп: критерий Фридмана, критерий Кохрена;
– критерии зависимости между переменными: статистика Спирмена, Кендалла тау, коэффициент Гамма; хи-квадрат, фи коэффициент; при оценке зависимости между несколькими переменными коэффициент конкордации Кендалла.
Непараметрические критерии определяются при работе:
- с совокупностями, распределение которых не соответствует нормальному типу;
-с признаками, выражающимися не числами, а условными знаками (рангами);
-с выборками малого объема.
Для
запуска непараметрических методов в
меню Статистика нужно выбрать
Непараметрические данные (Nonparametrics).
Непараметрические
критерии
объединены
в
группы
(Рис.14):
2 х
2 tables;
observed
versus exrected; correlations (Spearman, Kendall tau, gamma);
comparing two independent samples (groups); comparing multiple
independent samples (groups); comparing two dependent samples
(variables); comparing multiple dependent samples (variables);
Cohran test.
3.1. Сравнение независимых выборок
При сравнении двух независимых выборок (comparing two independent samples, groups) определяются: критерий Вальда-Вольфовитца, критерий Манна Уитни, двухвыборочный критерий Колмогорова-Смирнова.
Критерий Вальда-Вольфовитца представляет собой непараметрическую альтернативу Т - критерия для независимых выборок. Данные должны содержать группирующую переменную, имеющую, по крайней мере, два различных кода. После выбора функции сравнения двух независимых групп в диалоговом окне нужно выбрать группирующую (кодовую) переменную и список анализируемых переменных. Критерий Вальда-Вольфовитца проверяет гипотезу о том, что две независимые выборки извлечены их двух совокупностей, которые различаются не только средними, но также формой распределения (нулевая гипотеза состоит в том, что обе выборки извлечены из одной и той, же генеральной совокупности). Наблюдения 1-й выборки (m) и наблюдения 2-й выборки (n) упорядочивают по возрастанию, исследуют распределение серий (серией называют цепочку значений соответствующих одной группе и примыкающих к другой в вариационном ряду) признака, относящихся к одной и той же группе.
Пример 1. В пятнадцати хозяйствах оценена урожайность зерновых культур разной селекции (Е; J).
Урож. 60 65 70 70 75 80 80 90 95 100 100 105 110 110 110
Cел. Е Е Е Е Е Е Е J J J J J J J J
Ранг 1 2 3,5 3,5 5 6,5 6,5 8 9 10,5 10,5 12 14 14 14
Число серий (цепочка значений соответствующих одной группе и примыкающих в вариационном ряду к другой группе) равно двум, N=2 (одна серия элементов Е и одна серия элементов J). В таблице критических значений сериального критерия Вальда-Волфовитца (табл. 13) минимальное число серий N1 =3; максимальное число серий N2 =14 (при m=7, m- число хозяйств выращивающих зерновые селекции E; и n=8, n- число хозяйств выращивающих зерновые селекции J).Число серий (N=2) меньше минимального число серий N1 =3.
Программа STATISTICA при сравнении распределений выборок рассчитывает Z статистику по формуле:
Z
=N
– (
)
.
Для
значения Z
= -3,48 (Z=
2 – (
)
=-3,48);
уровень значимости Р=0,000498<0,05 (Рис.25).
Альтернативная гипотеза о неравенстве
средних (
)
сравниваемых групп подтверждается.
Гипотезу о принадлежности сравниваемых независимых выборок к одной и той же генеральной совокупности можно проверить с помощью рангового критерия Манна-Уитни(Mann Whitney U Test). Для этого после ранжирования отдельно для каждой выборки находится сумма рангов (Пример 1): при выращивании зерновых селекции «Е» сумма рангов R1 =28; при выращивании зерновых селекции «J» сумма рангов R2=92. На основе рангов определяется U-критерий по формулам: U1=R1 –(n1•(n1+1)):2=28-7•(7+1):2=0 и U2=R2 –(n2•(n2+1)):2=92-8•(8+1):2=56.
Для меньшей величины U критерий программа STATISTICA рассчитывает Z статистику и устанавливает уровень значимости.
U критерий=0; Z статистика =-3,2; Р=0,001 меньше 0,05. Альтернативная гипотеза о неравенстве средних ( ) сравниваемых групп подтверждается.
Таблица 13
Критические значения N1 и N2
сериального критерия Вальда-Вольфовитца
M |
N |
P>0,95 |
m |
N |
Р>0,95 |
||
N1 |
N2 |
N1 |
N2 |
||||
2 |
2 |
1 |
5 |
3 |
17 |
2 |
8 |
2 |
3 |
1 |
6 |
3 |
18 |
2 |
8 |
2 |
4 |
1 |
6 |
3 |
19 |
2 |
8 |
2 |
5 |
1 |
6 |
3 |
20 |
2 |
8 |
2 |
6 |
1 |
6 |
4 |
4 |
1 |
9 |
2 |
7 |
1 |
6 |
4 |
5 |
1 |
9 |
2 |
8 |
1 |
6 |
4 |
6 |
2 |
10 |
2 |
9 |
1 |
6 |
4 |
7 |
2 |
10 |
2 |
10 |
1 |
6 |
4 |
8 |
2 |
10 |
2 |
11 |
1 |
6 |
4 |
9 |
2 |
10 |
2 |
12 |
1 |
6 |
4 |
10 |
2 |
10 |
2 |
13 |
1 |
6 |
4 |
11 |
2 |
10 |
2 |
14 |
1 |
6 |
4 |
12 |
3 |
10 |
2 |
15 |
1 |
6 |
4 |
13 |
3 |
10 |
2 |
17 |
1 |
6 |
4 |
14 |
3 |
10 |
2 |
18 |
1 |
6 |
4 |
15 |
3 |
10 |
2 |
19 |
2 |
6 |
4 |
16 |
3 |
10 |
3 |
3 |
1 |
7 |
4 |
17 |
3 |
10 |
3 |
6 |
1 |
8 |
4 |
20 |
3 |
10 |
3 |
7 |
1 |
8 |
5 |
5 |
2 |
10 |
3 |
8 |
1 |
8 |
5 |
6 |
2 |
11 |
3 |
9 |
2 |
8 |
5 |
7 |
2 |
11 |
3 |
10 |
2 |
8 |
5 |
8 |
3 |
12 |
3 |
11 |
2 |
8 |
5 |
9 |
3 |
12 |
3 |
12 |
2 |
8 |
5 |
10 |
3 |
12 |
3 |
13 |
2 |
8 |
5 |
11 |
3 |
12 |
3 |
14 |
2 |
8 |
5 |
12 |
3 |
12 |
3 |
15 |
2 |
8 |
5 |
13 |
3 |
12 |
3 |
16 |
2 |
8 |
7 |
8 |
3 |
14 |
Двухвыборочный критерий Колмогорова-Смирнова проверяет гипотезу о том, что исследуемые выборки извлечены из одной и той генеральной совокупности. Он основан на максимуме абсолютного значения разности (положительной и отрицательной) эмпирических функций первой и второй выборки и определении значимости Р.
При Р больше 0,05 нулевая гипотеза (отсутствие различий между выборками) может быть принята. При Р меньше 0,05 нулевая гипотеза (отсутствие различий между выборками) не может быть принята, следовательно между выборками разница достоверна.
Значимость двухвыборочного критерия Колмогорова-Смирнова меньше 0,05. Альтернативная гипотеза о неравенстве средних ( ) сравниваемых групп подтверждается.
При сравнении нескольких групп (multiple independent samples (groups) определяются: критерий Краскела-Уоллиса (KruskalWallis) и медианный тест(Median Test).
Пример 2. В пятнадцати хозяйствах оценена урожайность культур выращенных с использованием разных технологий: 1, 2, 3.
Урож. 60 65 70 70 75 80 80 90 95 100 100 105 110 110 110
Техн. 1 1 1 3 3 1 3 2 2 2 2 3 2 1 3
Ранг 1 2 3,5 3,5 5 6,5 6,5 8 9 10,5 10,5 12 14 14 14
Определить
достоверность разницы урожайности
культур при использовании разных
технологий. Для вычисления критерия
Краскела-Уоллиса(Н) определяется: для
каждого объекта ранг (Ri);
по каждой выборке: сумма рангов, средний
ранг (
).
Средний
ранг при использовании разных технологий:
.
Определение критерия Краскела-Уоллиса
проводится по формуле:
H=
=
.
Уровень значимости критерия Краскела-Уоллиса Р=0,2>0,05. Достоверные различия между средними показателями урожайности при применяемых технологиях выращивания не установлены.
Использование медианного теста основано на сравнении эмпирических и теоретических частот значений, превышающих и не превышающих медиану. На основе сравнения эмпирических и теоретических частот рассчитывается хи-квадрат ( observed versus exrected). =3,75; Р=0,1534>0,05. Верна гипотеза о равенстве показателей средней урожайности при применяемых технологиях выращивания.
Критерии группы observed versus exrected определяются при сравнении выборочного (эмпирического) распределения и предполагаемого теоретического. Исходные данные представляют собой гистограммы эмпирического и теоретического распределений. При Р больше 0,05 гипотеза о соответствии эмпирических данных предполагаемому теоретическому распределению принимается.
Пример 3. Переменная Var6 содержит эмпирические частоты, полученные в результате эксперимента, а переменная Var7 – частоты распределения, предполагаемые для этих данных:
Var 6: 7 11 13 19 16 7 7
Var 7: 19 16 7 11 13 7 7
Установить степень соответствия эмпирических данных теоретическому распределению.
Порядок выполнения.
Данные заносятся в электронную таблицу. В статистических методах в разделе непараметрические критерии выбирают observed versus exрected - хи-квадрат. Направляют для расчетов значения распределений. Поскольку второе распределение получено в результате расчетов в диалоговом окне выбирают теоретическое распределение. Результаты включают значение статистики хи- квадрат и уровень значимости Р.
При Р больше 0,05 нулевая гипотеза (отсутствие различий между выборочным и теоретическими распределениями) может быть принята. Эмпирическое распределение соответствует теоретическому.
При Р меньше 0,05 нулевая гипотеза (отсутствие различий между выборочным и теоретическими распределениями) не может быть принята. Между эмпирическим и теоретическим распределениями разница достоверна.
Результаты обработки.
Хи-квадрат=20,79,значимость=0,00199,степ.своб.=6.Принимается гипотеза о наличии разницы между двумя распределениями.
Заключение.
Фактическое значение хи-квадрат
=20,79
больше стандартного значения хи-квадрат
=12,59
(табл.14). Уровень значимости
составляет 0,00199 меньше 0,05. Установлена
достоверная разница между эмпирическим
и теоретическим распределениями.
Эмпирическое распределение не
соответствует теоретическому.
Таблица 14
Стандартные значения критерия соответствия 2
Число степеней свободы, () |
Значимость, Р |
Число степеней свободы, () |
Значимость, Р |
||
0,05 |
0,01 |
0,05 |
0,01 |
||
1 |
3,84 |
6,63 |
20 |
31,41 |
37,57 |
2 |
5,99 |
9,21 |
21 |
32,67 |
38,93 |
3 |
7,81 |
11,34 |
22 |
33,92 |
40,29 |
4 |
9,49 |
13,28 |
23 |
35,17 |
41,64 |
5 |
11,07 |
12,83 |
24 |
36,42 |
42,98 |
6 |
12,59 |
16,81 |
25 |
37,65 |
44,31 |
7 |
14,07 |
18,48 |
23 |
35,17 |
41,64 |
8 |
15,51 |
20,09 |
24 |
36,42 |
42,98 |
9 |
16,92 |
21,67 |
25 |
37,65 |
44,31 |
10 |
18,31 |
23,21 |
26 |
38,89 |
45,64 |
11 |
19,68 |
24,72 |
27 |
40,11 |
46,96 |
12 |
21,03 |
26,22 |
28 |
41,34 |
48,28 |
13 |
22,36 |
27,69 |
29 |
42,56 |
49,49 |
14 |
23,68 |
29,14 |
30 |
43,77 |
50,89 |
15 |
25,00 |
30,58 |
32 |
46,194 |
53,486 |
16 |
26,30 |
32,00 |
50 |
67,50 |
76,15 |
17 |
27,59 |
33,41 |
64 |
83,675 |
93,217 |
18 |
28,87 |
34,81 |
80 |
101,88 |
112,33 |
19 |
30,14 |
36,19 |
100 |
124,34 |
135,81 |
Задания для самостоятельной работы
Задание 1. Значения переменных WT1, WT2 являются показателями радиоактивности (импульс/секунду) для двух групп препаратов:
WT1: 340 343 322 349 332 320 313 304 329
WT2: 318 321 318 301 312
Необходимо оценить достоверность различий между этими препаратами.
Задание 2. Значения переменных СН3 (популяция1) и СН4 (теоретическое распределение) представляют данные о числе кроликов с показателями массы 0,9-1,0; 1,1-1,2; 1,3-1,4; 1,5-1,6; 1,7-1,8; 1,9-2,0 кг.
СН3: 37 148 224 240 196 49
СН4: 51 204 360 346 212 54
Проверьте гипотезу об отсутствии различий по массе между представленной популяций и стандартной.