- •Биометрическая обработка данных на основе компьютерной программы statistica
- •Предисловие
- •Раздел 1. Характеристика программы statistica
- •Организация системы statistica
- •1.2. Статистические методы программы statistica
- •Раздел 2. Параметрические критерии
- •2.1. Описательная статистика Методы описательной статистики (Descriptive statistics) и характеристика статистических совокупностей
- •2.2. Статистические оценки генеральных параметров Оценка ошибок репрезентативности
- •Оценка ошибок репрезентативности
- •Показатель точности оценок
- •Оценка доверительного интервала средней арифметической –
- •Оценка доверительного интервала дисперсии –
- •2.3. Проверка нормальности эмпирического распределения Функции нормального распределения и методы оценки нормальности эмпирического распределения
- •Проверка нормальности эмпирического распределения
- •2.4. Параметрические критерии сравнения средних
- •Раздел 3. Непараметрические критерии
- •3.1. Сравнение независимых выборок
- •Сравнение зависимых групп
- •3.3. Сравнение номинальных (категориальных) переменных
- •Раздел 4. Корреляционный анализ
- •4.1. Параметрические показатели связи
- •4.2. Непараметрические показатели связи
- •Методика расчета коэффициент ранговой корреляции Спирмена ( )
- •Методика расчета коэффициента корреляции Спирмена ( )
- •4.3. Оценка связи между номинальными величинами
- •Раздел 5. Дисперсионный анализ
- •5.1. Однофакторный дисперсионный анализ
- •5.2. Двухфакторный дисперсионный анализ
- •Раздел 6. Регрессионный анализ
- •Раздел 7. Кластерный анализ
- •Раздел 8. Дискриминатный анализ
- •Оглавление
- •625003, Г. Тюмень, Семакова,10
Проверка нормальности эмпирического распределения
Проводят проверку нормальности эмпирического распределения на основе нескольких методов:
1) на основе описательной статистики определяют
•коэффициент асимметрии: Аs= ;
•коэффициент эксцесса: Ex= .
При нормальном распределении As=0, Ex= 0.
В действительности такое равенство почти не наблюдается. Значения коэффициента асимметрии и эксцесса сравнивают с критическими (стандартными) значениями коэффициента асимметрии и эксцесса приведенными в таблицах 1-2. Если коэффициенты превосходят значения, приведенные в таблицах гипотеза о нормальности распределения (нулевая гипотеза) не принимается. Формулируется вывод о наличии у распределения значимой асимметрии и эксцесса.
2) на основе сравнения гистограммы выборочного распределения с кривой нормального распределения; интервалы (число классов) для построения гистограммы определяют по формуле:
int=1,5+3,3•log10 (N)
Интервалы (число классов) можно определить по таблице 8.
Таблица 8
Объем выборки и число классов
Объем выборки, n |
Число классов, k |
Объем выборки, n |
Число классов
|
12 – 22 |
5 |
94 – 187 |
8 |
23 – 46 |
6 |
188 – 377 |
9 |
47 – 93 |
7 |
>=388 |
10 – 12 |
Подчитываются фактические частоты f (число значений в каждом интервале); по 1-й функции нормального распределения определяются теоретические частоты .
3) по критериям нормальности:
•критерий Колмогорова-Смирнова d= max •( ) основан на максимуме разности между кумулятивным распределением выборки и теоретическим кумулятивным распределением; при определении значения вероятности на основе средней арифметической и стандартного отклонения известных априори, используются значения вероятности табулированные Massey; если средняя арифметическая и стандартное отклонение предполагаемого распределения не известны (они оцениваются из выборки данных) значения вероятности табулированные Massey не верны, в этом случае для определения значимости критерия Колмогорова Смирнова используются так называемые вероятности Liliefors (Лилиефорса);
•критерий Шапиро-Уилка основан на отношении линейной несмещенной оценки дисперсии к дисперсии определенной, методом максимального правдоподобия.
Критерий Шапиро-Уилка – один из наиболее эффективных критериев проверки нормальности распределения случайных величин; определяется по формуле: W= , где S²= ; .
Коэффициенты приведены в таблице 9. Критические значения статистики W(α) приведены в таблице 10.
Если W < W(α) , то нулевая гипотеза нормальности распределения отклоняется на уровне значимости α.
Пример 2. Проведено взвешивание крабов (Pachygrapsus crassipes) (г), n=32.
6,1 7,1 6,6 7,0 8,3 9,7 9,1 9,5
9,6 8,6 8,8 10,5 11,6 11,3 10,6 10,5
11,5 11,6 10,7 11,8 11,3 12,5 13,6 12,7
13,8 13,3 12,6 12,4 14,5 15,6 14,7 17,8
Необходимо провести оценку соответствия эмпирических частот теоретическим на основе коэффициента асимметрии (Аs), коэффициента эксцесса (Ех), сравнения гистограммы выборочного распределения с кривой нормального распределения, по критериям: Колмогорова-Смирнова (d), Шапиро-Уилка, вероятности Лилиефорса.
Для оценки соответствия эмпирического распределения нормальному типу предназначена вкладка Normality. При работе с непрерывными случайными величинами нужно установить флажок на Number intervals и указать число классов для построения гистограммы или таблицы частот (Frequency tables). При выборе опции ожидаемые частоты (Normal expected frequencies) на гистограмму накладывается кривая нормального распределения. Тип распределения оценивается на основе расчета критериев Колмогорова-Смирнова, Шапиро-Уилка и оценки их значимости.
При работе с дискретными переменными выбирается опция Integer intervals.Число интервалов определяется числом различных значений переменной.
Результаты обработки.
Средний показатель массы тела = 11,1±0,48; среднее квадратическое отклонение Sx =2,7; Аs± =0,2±0,41; Ex± =0,04±0,81, S²= =227,07;
W= =0,4188•(17,8-6,1)+0,2898•(15,6-6,6)+0,2463•(14,7-7,0)+0,2141•(14,5-7,1)+0,1878•(13,8-8,3)+0,1651•(13,6-8,6)+0,1449•(13,3-8,8)+0,1265•(12,7-9,1)+0,1093•(12,6-9,5)+0,0931•(12,5-9,6)+0,0777•(12,4-9,7)+0,0629•(11,8-10,5)+0,0485•(11,6-10,5)+0,0344•(11,6-10,6)+0,0206•(11,5-10,7)+0,0068•(11,3-11,3)=14,9837.
Коэффициенты: 0,4188; 0,2898; 0,2463; 0,2141; 0,1878; 0,1651; 0,1449; 0,1265; 0,1093; 0,0931; 0,0777; 0,0629; 0,0485; 0,0344; 0,0206; 0,0068 взяты из таблицы 8 а Коэффициенты (х ) Критерия Шапиро-Уилка (n=32). Значения найдены путем вычитания из наибольшего значения наименьшего (для этого значения должны быть расположены в порядке возрастания).
6,1 6,6 7,0 7,1 8,3 8,6 8,8 9,1 9,5 9,6 9,7 10,5 10,5 10,6 10,7 11,3 11,3 11,5 11,6 11,6 11,8 12,4 12,5 12,6 12,7 13,3 13,6 13,8 14,5 14,7 15,6 17,8
Критерий Колмогорова-Смирнова d=0,06808, Р>0,20; вероятность Лилиефорса Р>0,20;Критерий Шапиро-Уилка W=0,98692, Р=0,95751.
Принимается нулевая гипотеза. Распределение не отличается от нормального.
Критерий Шапиро-Уилка W= = 14,9837²=0,98.
Критические значение Шапиро-Уилка для Р=0,05 и n=32 равно 0,93 (табл. 10). Так как W=0,98>W 32 (0,05)=0,93, гипотеза нормальности распределения не отклоняется.
Таблица 9
Коэффициенты (х ) критерия Шапиро-Уилка
n |
I |
|||||||||||
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
|
3 |
7071 |
|
|
|
|
|
|
|
|
|
|
|
4 |
6872 |
1677 |
|
|
|
|
|
|
|
|
|
|
5 |
6646 |
2413 |
|
|
|
|
|
|
|
|
|
|
6 |
6431 |
2806 |
0875 |
|
|
|
|
|
|
|
|
|
7 |
6233 |
3031 |
1401 |
|
|
|
|
|
|
|
|
|
8 |
6052 |
3164 |
1743 |
0561 |
|
|
|
|
|
|
|
|
9 |
5888 |
3244 |
1976 |
0947 |
|
|
|
|
|
|
|
|
10 |
5739 |
3291 |
2141 |
1224 |
0399 |
|
|
|
|
|
|
|
11 |
5601 |
3315 |
2260 |
1429 |
0695 |
|
|
|
|
|
|
|
12 |
5475 |
3325 |
2347 |
1586 |
0922 |
0303 |
|
|
|
|
|
|
13 |
5359 |
3325 |
2412 |
1707 |
1099 |
0539 |
|
|
|
|
|
|
14 |
5251 |
3318 |
2460 |
1802 |
1240 |
0727 |
0240 |
|
|
|
|
|
15 |
5150 |
3306 |
2495 |
1878 |
1353 |
0880 |
0433 |
|
|
|
|
|
16 |
5056 |
3290 |
2521 |
1939 |
1447 |
1005 |
9593 |
0196 |
|
|
|
|
17 |
4968 |
3273 |
2540 |
1988 |
1524 |
1109 |
0725 |
0359 |
|
|
|
|
18 |
4886 |
3253 |
2553 |
2027 |
1587 |
1197 |
0837 |
0496 |
0173 |
|
|
|
19 |
4808 |
3232 |
2561 |
2059 |
1641 |
1271 |
0932 |
0612 |
0303 |
|
|
|
20 |
4734 |
3211 |
2565 |
2085 |
1686 |
1334 |
1013 |
0711 |
0422 |
0140 |
|
|
21 |
4634 |
3185 |
2578 |
2119 |
1736 |
1399 |
1092 |
0804 |
0530 |
0263 |
|
|
22 |
4590 |
3156 |
2571 |
2131 |
1764 |
1430 |
1150 |
0878 |
0618 |
0368 |
0122 |
|
23 |
4542 |
3126 |
2563 |
2139 |
1787 |
1480 |
1201 |
0941 |
0696 |
0459 |
0228 |
|
24 |
4493 |
3098 |
2554 |
2124 |
1807 |
1512 |
1245 |
0997 |
0764 |
0539 |
0321 |
0107 |
25 |
4450 |
3069 |
2543 |
2148 |
1822 |
1539 |
1283 |
1046 |
0823 |
0610 |
0403 |
0200 |
26 |
4407 |
3043 |
2533 |
2151 |
1836 |
1563 |
1316 |
1089 |
0876 |
0672 |
0476 |
0284 |
27 |
4366 |
3018 |
2522 |
2152 |
1848 |
1584 |
1346 |
1128 |
0923 |
0728 |
0540 |
0358 |
28 |
4328 |
2992 |
2510 |
2151 |
1857 |
1601 |
1372 |
1162 |
0965 |
0778 |
0598 |
0424 |
29 |
4291 |
2968 |
4299 |
2150 |
1864 |
1616 |
1395 |
1192 |
1002 |
0822 |
0690 |
0483 |
30 |
4254 |
2944 |
2487 |
2148 |
1870 |
1630 |
1415 |
1219 |
1036 |
0862 |
0697 |
0537 |
31 |
4220 |
2921 |
2475 |
2145 |
1874 |
1641 |
1433 |
1243 |
1066 |
0899 |
0739 |
0585 |
32 |
4188 |
2898 |
2463 |
2141 |
1878 |
1651 |
1449 |
1265 |
1093 |
0931 |
0777 |
0629 |
33 |
4156 |
2876 |
2451 |
2137 |
1880 |
1660 |
1463 |
1284 |
1118 |
0961 |
0812 |
0669 |
34 |
4127 |
2854 |
2439 |
2132 |
1882 |
1667 |
1475 |
1301 |
1140 |
0988 |
0844 |
0706 |
35 |
4096 |
2834 |
2427 |
2127 |
1883 |
1673 |
1487 |
1317 |
1160 |
1013 |
0873 |
0739 |
36 |
4068 |
2813 |
2415 |
2121 |
1883 |
1678 |
1496 |
1331 |
1179 |
1036 |
0900 |
0770 |
37 |
4040 |
2794 |
2403 |
2116 |
1883 |
1683 |
1505 |
1344 |
1196 |
1056 |
0924 |
0798 |
38 |
4015 |
2774 |
2391 |
2110 |
1881 |
1686 |
1513 |
1356 |
1211 |
1075 |
0947 |
0824 |
39 |
3989 |
2755 |
2380 |
2104 |
1880 |
1689 |
1520 |
1366 |
1225 |
1092 |
0967 |
0848 |
40 |
3964 |
2737 |
2368 |
2098 |
1878 |
1691 |
1526 |
1376 |
1237 |
1108 |
0986 |
0870 |
41 |
3940 |
2719 |
2357 |
2091 |
1876 |
1693 |
1531 |
1384 |
1249 |
1123 |
1004 |
0891 |
42 |
3917 |
2701 |
2345 |
2085 |
1874 |
1694 |
1535 |
1392 |
1259 |
1136 |
1020 |
0909 |
43 |
3894 |
2684 |
2334 |
2078 |
1871 |
1695 |
1539 |
1398 |
1269 |
1149 |
1035 |
0927 |
44 |
3872 |
2667 |
2323 |
2072 |
1868 |
1695 |
1542 |
1405 |
1278 |
1160 |
1049 |
0943 |
45 |
3850 |
2651 |
2313 |
2065 |
1865 |
1695 |
1545 |
1410 |
1286 |
1170 |
1062 |
0959 |
46 |
3830 |
2635 |
2302 |
2958 |
1862 |
1695 |
1548 |
1415 |
1293 |
1180 |
1073 |
0972 |
47 |
3808 |
2620 |
2291 |
2052 |
1859 |
1695 |
1550 |
1420 |
1300 |
1189 |
1085 |
0986 |
48 |
3789 |
2604 |
2281 |
2045 |
1855 |
1693 |
1551 |
1423 |
1306 |
1197 |
1095 |
0998 |
49 |
3770 |
2589 |
2271 |
2038 |
1851 |
1692 |
1553 |
1427 |
1312 |
1295 |
1105 |
1010 |
50 |
3751 |
2574 |
2260 |
2032 |
1847 |
1691 |
1554 |
1430 |
1317 |
1212 |
1113 |
1020 |
Продолжение таблицы 9
Коэффициенты (х ) критерия Шапиро Уилка
n |
I |
||||||||||||
13 |
14 |
15 |
16 |
17 |
18 |
19 |
20 |
21 |
22 |
23 |
24 |
25 |
|
26 |
0094 |
|
|
|
|
|
|
|
|
|
|
|
|
27 |
0178 |
|
|
|
|
|
|
|
|
|
|
|
|
28 |
0253 |
0084 |
|
|
|
|
|
|
|
|
|
|
|
29 |
0320 |
0159 |
|
|
|
|
|
|
|
|
|
|
|
30 |
0381 |
0227 |
0076 |
|
|
|
|
|
|
|
|
|
|
31 |
0435 |
0289 |
0144 |
|
|
|
|
|
|
|
|
|
|
32 |
0485 |
0344 |
0206 |
0068 |
|
|
|
|
|
|
|
|
|
33 |
0530 |
0395 |
0262 |
0131 |
|
|
|
|
|
|
|
|
|
34 |
0572 |
0441 |
0314 |
0187 |
0062 |
|
|
|
|
|
|
|
|
35 |
0610 |
0484 |
0361 |
0239 |
0119 |
|
|
|
|
|
|
|
|
36 |
0645 |
0523 |
0404 |
0287 |
0172 |
0057 |
|
|
|
|
|
|
|
37 |
0677 |
0559 |
0444 |
0331 |
0220 |
0110 |
|
|
|
|
|
|
|
38 |
0706 |
0592 |
0481 |
0372 |
0264 |
0158 |
0053 |
|
|
|
|
|
|
39 |
0733 |
0622 |
0515 |
0409 |
0305 |
0203 |
0101 |
|
|
|
|
|
|
40 |
0759 |
0651 |
0546 |
0444 |
0343 |
0244 |
0146 |
0049 |
|
|
|
|
|
41 |
0782 |
0677 |
0575 |
0476 |
0379 |
0283 |
0188 |
0094 |
|
|
|
|
|
42 |
0804 |
0701 |
0602 |
0506 |
0411 |
0318 |
0227 |
0136 |
0045 |
|
|
|
|
43 |
0824 |
0724 |
0628 |
0534 |
0442 |
0352 |
0263 |
0175 |
0087 |
|
|
|
|
44 |
0842 |
0745 |
0651 |
0560 |
0471 |
0383 |
0296 |
0211 |
0126 |
0042 |
|
|
|
45 |
0860 |
0765 |
0673 |
0584 |
0497 |
0412 |
0328 |
0245 |
0163 |
0081 |
|
|
|
46 |
0876 |
0783 |
0694 |
0607 |
0522 |
0439 |
0357 |
0277 |
0197 |
0118 |
0039 |
|
|
47 |
0892 |
0801 |
0713 |
0628 |
0546 |
0465 |
0385 |
0307 |
0229 |
0153 |
0076 |
|
|
48 |
0906 |
0817 |
0731 |
0648 |
0568 |
0489 |
0411 |
0335 |
0259 |
0185 |
0111 |
0037 |
|
49 |
0919 |
0832 |
0748 |
0667 |
0588 |
0511 |
0436 |
0361 |
0288 |
0215 |
0143 |
0071 |
|
50 |
0932 |
0846 |
0764 |
0685 |
0608 |
0532 |
0459 |
0386 |
0314 |
0244 |
0174 |
0104 |
0035 |
Заключение
Выборочная средняя арифметическая = 11,1±0,48; выборочное среднее квадратическое отклонение =2.7; коэффициент асимметрии =0,2±0,41 ( =0,621, n =35); коэффициент эксцесса =0,04±0,81 ( =0,85, n=36). Коэффициенты асимметрии и эксцесса меньше критических значений (таблицы 1-2).
Критерий Колмогорова-Смирнова d=0,06808, Р>0,2 (значимость больше 0,05); вероятность Лилиефорса Р>0,2 (значимость больше 0,5). Критерий Шапиро-Уилка W=0,98692>0,93; Р=0,95751 (значимость больше 0,05). Принимается нулевая гипотеза. Распределение не отличается от нормального.
Вывод. Коэффициент асимметрии и эксцесса больше критических значений. Уровень значимости критерия Колмогорова-Смирнова (d), Шапиро-Уилка больше 0,05. Распределение отвечает нормальному типу.
Таблица 10
Критические значения критерия Шапиро-Уилка W(α),
(α – уровень значимости)
-
N
Α
N
Α
0,05
0,01
0,05
0,01
3
0.767
0.737
27
0.923
0.894
4
0.748
0.687
28
0.924
0.896
5
0.762
0.686
29
0.926
0.898
6
0.788
0.713
30
0.927
0.900
7
0.803
0.730
31
0.929
0.902
8
0.818
0.749
32
0.930
0.904
9
0.829
0.764
33
0.931
0.906
10
0.842
0.781
34
0.933
0.908
11
0.850
0.792
35
0.934
0.910
12
0.859
0.805
36
0.935
0.912
13
0.866
0.814
37
0.936
0.914
14
0.974
0.825
38
0.938
0.916
15
0.881
0.835
39
0.939
0.917
16
0.887
0.844
40
0.940
0.919
17
0.892
0.851
41
0.941
0.920
18
0.897
0.858
42
0.942
0.922
19
0.901
0.863
43
0.943
0.923
20
0.905
0.868
44
0.944
0.924
21
0.908
0.873
45
0.945
0.926
22
0.911
0.878
46
0.945
0.927
23
0.914
0.881
47
0.946
0.928
24
0.916
0.884
48
0.947
0.929
25
0.918
0.888
49
0.947
0.929
26
0.920
0.891
50
0.947
0.930
Пример 3. Проведено взвешивание кроликов, n=30.
1,9 |
2,4 |
3,0 |
1,2 |
2,1 |
1,1 |
1,2 |
1,1 |
2,2 |
2,1 |
2,3 |
1,5 |
1,3 |
2,2 |
1,3 |
1,1 |
2,1 |
1,01 |
1,8 |
1,9 |
1,8 |
3,2 |
2,1 |
1,3 |
3,0 |
1,3 |
2,0 |
1,1 |
1,3 |
1,9 |
Проведите оценку соответствия эмпирических частот теоретическим на основе коэффициента асимметрии (Аs), коэффициента эксцесса (Ех), сравнения гистограммы выборочного распределения с кривой нормального распределения, по критериям: Колмогорова-Смирнова (d), Шапиро-Уилка, вероятности Лилиефорса.
Результаты обработки.
Средний показатель массы тела = 1,8±0,11; среднее квадратическое отклонение Sx =0,6; Аs± =0,67±0,42; Ex± =-0,14±0,83.
Критерий Колмогорова-Смирнова d=0,16489, р>0,2 (значимость больше 0,05); вероятность Лилиефорса р<0,05 (значимость меньше 0,05). Критерий Шапиро-Уилка W=0,91499, р=0,01993 (значимость меньше 0,05). Гипотеза 1. Распределение отличается от нормального.
Заключение
Выборочная средняя арифметическая = 1,8±0,11; выборочное среднее квадратическое отклонение =0,6; коэффициент асимметрии =0,67±0,42 ( =0,621, n =35); коэффициент эксцесса
=-0,14±0,83 ( =0,85, n=36). Коэффициент асимметрии больше критического значения (таблица 1). Коэффициент эксцесса меньше критического значения (таблица 2). Критерий Колмогорова-Смирнова d=0,16489, Р>0,2 (значимость больше 0,05); вероятность Лилиефорса Р<0,05 (значимость меньше 0,05). Критерий Шапиро-Уилка W=0,91499, р=0,01993 (значимость меньше 0,05). Нулевая гипотеза не принимается. Распределение отличается от нормального.
Вывод. Коэффициент асимметрии больше критического значения. Уровень значимости Шапиро-Уилка и вероятность Лилиефорса меньше 0,05. Распределение не отвечает нормальному типу.
При проверке нормальности распределения статистические программы определяют:
• критерий хи-квадрат -
где f – фактические частоты; f´ – теоретические частоты.
Вычисленное значение хи-квадрат (критерий соответствия) сравнивается со стандартным с учетом числа степеней свободы.
Символ 2 не является квадратом какого-либо числа, выражает лишь исходную величину отклонения фактического распределения от теоретического.
•критерий омега квадрат , оценивает различия между распределениями на всем интервале выборочных значений. Критерий омега квадрат ( ) менее исследован, нет таблиц критических значений. Оценивается уровень значимости Р=2,383 • , где W = n• .
Рассчитанный уровень значимости сравнивается с первым уровнем значимости Р=0,05. Если рассчитанный уровень Р˃ 0,05 распределение соответствует нормальному типу.
Задания для самостоятельной работы
Задание 1.
19,8 16,7 17,6 16,5 14,4 14,6 15,3 15,8 14,7 15,6 14,5 13,3 13,8 12,7 13,6 13,5 12,5 12,6 13,3 13,6 12,5 10,8 10,6 11,6 11,5 11,1 11,7 10,3 9,0 8,6 9,1 8,1
Оцените тип распределения в выборочной совокупности (масса тела крабов Pachygrapsus crassipes,г) по следующей схеме: выборочная средняя арифметическая ; выборочное среднее квадратическое отклонение ; коэффициент асимметрии =( =0,621, n =35 ), значимость = ( больше 0,05); коэффициент эксцесса , ( =0,858, n=36), значимость = (больше 0,05). Критерий Колмогорова-Смирнова d=(значимость больше 0,05); вероятность Лилиефорса (значимость больше 0,05). Критерий Шапиро-Уилка W= (значимость больше 0,05).
Задание 2.
7,8 16,7 17,6 16,5 14,4 14,6 15,3 7,8 14,7 15,6 14,5 13,3 13,8 12,7 7,6 7,5 12,5 7,6 13,3 13,6 12,5 7,8 7,6 6,6 7,5 11,1 11,7 10,3 9,0 7,6 7,1 8,1
Оцените тип распределения в выборочной совокупности (масса тела крабов Pachygrapsus crassipes, г) по следующей схеме: выборочная средняя арифметическая ; выборочное среднее квадратическое отклонение ; коэффициент асимметрии =( =0,621, n =35), значимость = (больше 0,05); коэффициент эксцесса , ( =0,858, n=36), значимость = (больше 0,05). Критерий Колмогорова-Смирнова d= (значимость больше 0,05); вероятность Лилиефорса (значимость больше 0,05). Критерий Шапиро-Уилка W= (значимость больше 0,05).