Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Биометрическая обработка данных на основе компь...doc
Скачиваний:
54
Добавлен:
11.11.2019
Размер:
1.7 Mб
Скачать

Раздел 3. Непараметрические критерии

Непараметрические методы не базируются на каком либо предположении о законе распределения данных; используют, как правило, только предположения о случайном характере исходных данных и непрерывности генеральной совокупности, из которой они извлечены; не используют оценку параметров (средней арифметической и стандартного отклонения) описывающих распределение переменной. Эти методы иногда называют свободно распределенными методами или методами свободными от параметров (не основывающимися на оценке параметров: средней арифметической или стандартного отклонения).

Критерии непараметрических методов разделяются на следующие группы:

– критерии различия между группами (независимые выборки): критерий Вальда-Вольфовитца, критерий Манна- Уитни, двухвыборочный критерий Колмогорова-Смирнова; при сравнении нескольких групп: критерий Краскела-Уоллиса и медианный тест;

– критерии различия между переменными (зависимые выборки): критерий знаков, критерий Вилкоксона; хи-квадрат Макнемара (для категориальных переменных); при сравнении нескольких групп: критерий Фридмана, критерий Кохрена;

– критерии зависимости между переменными: статистика Спирмена, Кендалла тау, коэффициент Гамма; хи-квадрат, фи коэффициент; при оценке зависимости между несколькими переменными коэффициент конкордации Кендалла.

Непараметрические критерии определяются при работе:

- с совокупностями, распределение которых не соответствует нормальному типу;

-с признаками, выражающимися не числами, а условными знаками (рангами);

-с выборками малого объема.

Для запуска непараметрических методов в меню Статистика нужно выбрать Непараметрические данные (Nonparametrics). Непараметрические критерии объединены в группы (Рис.14): 2 х 2 tables; observed versus exrected; correlations (Spearman, Kendall tau, gamma); comparing two independent samples (groups); comparing multiple independent samples (groups); comparing two dependent samples (variables); comparing multiple dependent samples (variables); Cohran test.

3.1. Сравнение независимых выборок

При сравнении двух независимых выборок (comparing two independent samples, groups) определяются: критерий Вальда-Вольфовитца, критерий Манна Уитни, двухвыборочный критерий Колмогорова-Смирнова.

Критерий Вальда-Вольфовитца представляет собой непараметрическую альтернативу Т - критерия для независимых выборок. Данные должны содержать группирующую переменную, имеющую, по крайней мере, два различных кода. После выбора функции сравнения двух независимых групп в диалоговом окне нужно выбрать группирующую (кодовую) переменную и список анализируемых переменных. Критерий Вальда-Вольфовитца проверяет гипотезу о том, что две независимые выборки извлечены их двух совокупностей, которые различаются не только средними, но также формой распределения (нулевая гипотеза состоит в том, что обе выборки извлечены из одной и той, же генеральной совокупности). Наблюдения 1-й выборки (m) и наблюдения 2-й выборки (n) упорядочивают по возрастанию, исследуют распределение серий (серией называют цепочку значений соответствующих одной группе и примыкающих к другой в вариационном ряду) признака, относящихся к одной и той же группе.

Пример 1. В пятнадцати хозяйствах оценена урожайность зерновых культур разной селекции (Е; J).

Урож. 60 65 70 70 75 80 80 90 95 100 100 105 110 110 110

Cел. Е Е Е Е Е Е Е J J J J J J J J

Ранг 1 2 3,5 3,5 5 6,5 6,5 8 9 10,5 10,5 12 14 14 14

Число серий (цепочка значений соответствующих одной группе и примыкающих в вариационном ряду к другой группе) равно двум, N=2 (одна серия элементов Е и одна серия элементов J). В таблице критических значений сериального критерия Вальда-Волфовитца (табл. 13) минимальное число серий N1 =3; максимальное число серий N2 =14 (при m=7, m- число хозяйств выращивающих зерновые селекции E; и n=8, n- число хозяйств выращивающих зерновые селекции J).Число серий (N=2) меньше минимального число серий N1 =3.

Программа STATISTICA при сравнении распределений выборок рассчитывает Z статистику по формуле:

Z =N – ( ) .

Для значения Z = -3,48 (Z= 2 – ( ) =-3,48); уровень значимости Р=0,000498<0,05 (Рис.25). Альтернативная гипотеза о неравенстве средних ( ) сравниваемых групп подтверждается.

Гипотезу о принадлежности сравниваемых независимых выборок к одной и той же генеральной совокупности можно проверить с помощью рангового критерия Манна-Уитни(Mann Whitney U Test). Для этого после ранжирования отдельно для каждой выборки находится сумма рангов (Пример 1): при выращивании зерновых селекции «Е» сумма рангов R1 =28; при выращивании зерновых селекции «J» сумма рангов R2=92. На основе рангов определяется U-критерий по формулам: U1=R1 –(n1•(n1+1)):2=28-7•(7+1):2=0 и U2=R2 –(n2•(n2+1)):2=92-8•(8+1):2=56.

Для меньшей величины U критерий программа STATISTICA рассчитывает Z статистику и устанавливает уровень значимости.

U критерий=0; Z статистика =-3,2; Р=0,001 меньше 0,05. Альтернативная гипотеза о неравенстве средних ( ) сравниваемых групп подтверждается.

Таблица 13

Критические значения N1 и N2

сериального критерия Вальда-Вольфовитца

M

N

P>0,95

m

N

Р>0,95

N1

N2

N1

N2

2

2

1

5

3

17

2

8

2

3

1

6

3

18

2

8

2

4

1

6

3

19

2

8

2

5

1

6

3

20

2

8

2

6

1

6

4

4

1

9

2

7

1

6

4

5

1

9

2

8

1

6

4

6

2

10

2

9

1

6

4

7

2

10

2

10

1

6

4

8

2

10

2

11

1

6

4

9

2

10

2

12

1

6

4

10

2

10

2

13

1

6

4

11

2

10

2

14

1

6

4

12

3

10

2

15

1

6

4

13

3

10

2

17

1

6

4

14

3

10

2

18

1

6

4

15

3

10

2

19

2

6

4

16

3

10

3

3

1

7

4

17

3

10

3

6

1

8

4

20

3

10

3

7

1

8

5

5

2

10

3

8

1

8

5

6

2

11

3

9

2

8

5

7

2

11

3

10

2

8

5

8

3

12

3

11

2

8

5

9

3

12

3

12

2

8

5

10

3

12

3

13

2

8

5

11

3

12

3

14

2

8

5

12

3

12

3

15

2

8

5

13

3

12

3

16

2

8

7

8

3

14

Двухвыборочный критерий Колмогорова-Смирнова проверяет гипотезу о том, что исследуемые выборки извлечены из одной и той генеральной совокупности. Он основан на максимуме абсолютного значения разности (положительной и отрицательной) эмпирических функций первой и второй выборки и определении значимости Р.

При Р больше 0,05 нулевая гипотеза (отсутствие различий между выборками) может быть принята. При Р меньше 0,05 нулевая гипотеза (отсутствие различий между выборками) не может быть принята, следовательно между выборками разница достоверна.

Значимость двухвыборочного критерия Колмогорова-Смирнова меньше 0,05. Альтернативная гипотеза о неравенстве средних ( ) сравниваемых групп подтверждается.

При сравнении нескольких групп (multiple independent samples (groups) определяются: критерий Краскела-Уоллиса (KruskalWallis) и медианный тест(Median Test).

Пример 2. В пятнадцати хозяйствах оценена урожайность культур выращенных с использованием разных технологий: 1, 2, 3.

Урож. 60 65 70 70 75 80 80 90 95 100 100 105 110 110 110

Техн. 1 1 1 3 3 1 3 2 2 2 2 3 2 1 3

Ранг 1 2 3,5 3,5 5 6,5 6,5 8 9 10,5 10,5 12 14 14 14

Определить достоверность разницы урожайности культур при использовании разных технологий. Для вычисления критерия Краскела-Уоллиса(Н) определяется: для каждого объекта ранг (Ri); по каждой выборке: сумма рангов, средний ранг ( ).

Средний ранг при использовании разных технологий: . Определение критерия Краскела-Уоллиса проводится по формуле:

H= = .

Уровень значимости критерия Краскела-Уоллиса Р=0,2>0,05. Достоверные различия между средними показателями урожайности при применяемых технологиях выращивания не установлены.

Использование медианного теста основано на сравнении эмпирических и теоретических частот значений, превышающих и не превышающих медиану. На основе сравнения эмпирических и теоретических частот рассчитывается хи-квадрат ( observed versus exrected). =3,75; Р=0,1534>0,05. Верна гипотеза о равенстве показателей средней урожайности при применяемых технологиях выращивания.

Критерии группы observed versus exrected определяются при сравнении выборочного (эмпирического) распределения и предполагаемого теоретического. Исходные данные представляют собой гистограммы эмпирического и теоретического распределений. При Р больше 0,05 гипотеза о соответствии эмпирических данных предполагаемому теоретическому распределению принимается.

Пример 3. Переменная Var6 содержит эмпирические частоты, полученные в результате эксперимента, а переменная Var7 – частоты распределения, предполагаемые для этих данных:

Var 6: 7 11 13 19 16 7 7

Var 7: 19 16 7 11 13 7 7

Установить степень соответствия эмпирических данных теоретическому распределению.

Порядок выполнения.

Данные заносятся в электронную таблицу. В статистических методах в разделе непараметрические критерии выбирают observed versus exрected - хи-квадрат. Направляют для расчетов значения распределений. Поскольку второе распределение получено в результате расчетов в диалоговом окне выбирают теоретическое распределение. Результаты включают значение статистики хи- квадрат и уровень значимости Р.

При Р больше 0,05 нулевая гипотеза (отсутствие различий между выборочным и теоретическими распределениями) может быть принята. Эмпирическое распределение соответствует теоретическому.

При Р меньше 0,05 нулевая гипотеза (отсутствие различий между выборочным и теоретическими распределениями) не может быть принята. Между эмпирическим и теоретическим распределениями разница достоверна.

Результаты обработки.

Хи-квадрат=20,79,значимость=0,00199,степ.своб.=6.Принимается гипотеза о наличии разницы между двумя распределениями.

Заключение. Фактическое значение хи-квадрат =20,79 больше стандартного значения хи-квадрат =12,59 (табл.14). Уровень значимости составляет 0,00199 меньше 0,05. Установлена достоверная разница между эмпирическим и теоретическим распределениями. Эмпирическое распределение не соответствует теоретическому.

Таблица 14

Стандартные значения критерия соответствия 2

Число степеней свободы, ()

Значимость, Р

Число степеней свободы, ()

Значимость, Р

0,05

0,01

0,05

0,01

1

3,84

6,63

20

31,41

37,57

2

5,99

9,21

21

32,67

38,93

3

7,81

11,34

22

33,92

40,29

4

9,49

13,28

23

35,17

41,64

5

11,07

12,83

24

36,42

42,98

6

12,59

16,81

25

37,65

44,31

7

14,07

18,48

23

35,17

41,64

8

15,51

20,09

24

36,42

42,98

9

16,92

21,67

25

37,65

44,31

10

18,31

23,21

26

38,89

45,64

11

19,68

24,72

27

40,11

46,96

12

21,03

26,22

28

41,34

48,28

13

22,36

27,69

29

42,56

49,49

14

23,68

29,14

30

43,77

50,89

15

25,00

30,58

32

46,194

53,486

16

26,30

32,00

50

67,50

76,15

17

27,59

33,41

64

83,675

93,217

18

28,87

34,81

80

101,88

112,33

19

30,14

36,19

100

124,34

135,81

Задания для самостоятельной работы

Задание 1. Значения переменных WT1, WT2 являются показателями радиоактивности (импульс/секунду) для двух групп препаратов:

WT1: 340 343 322 349 332 320 313 304 329

WT2: 318 321 318 301 312

Необходимо оценить достоверность различий между этими препаратами.

Задание 2. Значения переменных СН3 (популяция1) и СН4 (теоретическое распределение) представляют данные о числе кроликов с показателями массы 0,9-1,0; 1,1-1,2; 1,3-1,4; 1,5-1,6; 1,7-1,8; 1,9-2,0 кг.

СН3: 37 148 224 240 196 49

СН4: 51 204 360 346 212 54

Проверьте гипотезу об отсутствии различий по массе между представленной популяций и стандартной.