- •Г усак в.В., Господарьов д.В., Лущак в.І. Статистика в біології: обробка даних малих вибірок
- •Розділ 1. Сукупність, вибірка і типи даних
- •1.1. Генеральні та вибіркові сукупності
- •1.2. Уявлення про малу вибірку
- •1.3. Типи даних
- •1.4. Структура даних
- •1.5. Заокруглення даних
- •Розділ 2. Показники варіації
- •2.1. Середні величини та медіана
- •2.2. Стандартне відхилення, дисперсія та коефіцієнт варіації
- •2.3. Варіація і розподіл
- •Розділ 3. Похибки оцінювання параметрів вибірки
- •3.1. Помилка середньої арифметичної величини
- •3.2. Довірчий інтервал
- •3.3. Неузгодженості у записах при використанні стандартної похибки середнього
- •Розділ 4. Аналіз даних, які випадають в ході досліджень (промахи і систематичні похибки)
- •4.1. Критерій Шовене
- •4.3. Критерій Романовського
- •4.4. Критерій Ірвіна
- •4.5. Критерій Аббе
- •Розділ 5. Перевірка вибірки на нормальність розподілу даних
- •5.1. Загальні уявлення про критерії перевірки вибірки на нормальний розподіл даних
- •5.2. Складовий критерій d
- •5.3. Статистичний критерій w (критерій Шапіро-Уілка)
- •5.4. Коефіцієнт асиметрії та ексцесу
- •Асиметрії та ексцесу
- •1. Первинні дані та допоміжні величини оформлюємо у вигляді таблиці:
- •6.1. Вибір статистичного критерію
- •6.2. Порівняння двох груп між собою
- •6.2.1. Непарний та парний критерії Стьюдента
- •6.2.2. Тест Уелча як модифікація тесту Стьюдента та u-критерій Манна-Уітні як непараметричний аналог непарного критерію Стьюдента
- •6.3. Порівняння трьох і більше груп між собою: доцільність використання параметричних чи непараметричних критеріїв
- •6.3.1. Критерій Ньюмена-Коулса
- •6.3.2. Критерій Даннета: порівняння декількох груп з контрольною
- •6.3.3. Непараметричний критерій Данна для порівняння декількох груп між собою
- •Розділ 7. Взаємозв'язки між групами: кореляційно-регресійний аналіз
- •7.1. Кореляційний аналіз
- •7.2. Парний регресійний аналіз
- •1.1. Рівняння лінійної регресії
- •1.2. Лінійне рівняння з логарифмуванням факторної ознаки (напівлогарифмічне)
- •1.3. Рівняння гіперболічної регресії
- •1.4. Показникове рівняння кривої
- •Розділ 8. Програми для статистичної обробки даних
- •Узагальнення
- •Рекомендована література
- •Тлумачний словник термінів
5.4. Коефіцієнт асиметрії та ексцесу
В математичній статистиці під асиметрією розуміють показник, який характеризує ступінь несиметричності розподілу, а ексцес – ступінь загостреності (згладженості) кривої розподілу ймовірностей дійсної випадкової величини, яку будують за результатами вимірювань (спостережень) в порівнянні з функцією нормального розподілу даних.
Перевірку гіпотези про те, що дані мають нормальний розподіл, використовуючи коефіцієнти асиметрії та ексцесу, здійснюють в наступній послідовності:
1. Обчислюють коефіцієнт асиметрії за формулою:
(38)
Його величина може бути позитивною (для правосторонньої асиметрії) і негативною (для лівосторонньої асиметрії).
2. Обчислюють показник ексцесу за формулою:
(39)
Якщо показник ексцесу більший за нуль, то розподіл є гостровершинним із відхиленням від нормального розподілу, а якщо менший за нуль – то плосковершинним із відхиленням від нормального розподілу (розподіл Стьюдента) (рис. 5).
Рис 5. Ексцес розподілу даних
3. Обчислюють середні квадратичні відхилення коефіцієнту асиметрії та ексцесу:
(40)
(41)
4.
Розраховують показники
і
:
(42)
(43)
Якщо показники і дорівнюють або більші за 3, то говорять про статистично достовірну відмінність емпіричного розподілу від нормального при певному рівні статистичної значущості p.
В таблиці 12 представлені середні квадратичні відхилення коефіцієнту асиметрії та ексцесу для різних значень n, починаючи з 10.
Таблиця 12. Середні квадратичні відхилення коефіцієнту
Асиметрії та ексцесу
-
n
10
0,615
2,063
11
0,598
2,256
12
0,582
2,425
13
0,567
2,573
14
0,553
2,704
15
0,540
2,821
16
0,528
2,926
17
0,516
3,021
18
0,506
3,107
19
0,495
3,186
20
0,486
3,258
Проте слід врахувати і те, що коефіцієнти асиметрії та ексцесу слугують не стільки для перевірки нормальності, скільки для виявлення відхилень розподілу, який досліджується, від нормального.
Наведемо приклад перевірки даних вибірки на нормальний розподіл або перевіримо наскільки розподіл даних відрізняється від нормального.
Приклад 18. В результаті досліджень активності каталази в печінці карася сріблястого ми отримали наступні дані: 117, 115, 135, 121, 145, 123, 147, 127, 127, 144 Од/мг білка (наведені власні дані). Перевіримо дані за допомогою наведених вище критеріїв (складовий критерій d, критерій Шапіро-Уілка, коефіцієнти ексцесу та асиметрії) на нормальність їх розподілу.
В підрозділі 5.1 згадувалося, що перед перевіркою даних вибірки на нормальний розподіл інколи перевіряється рівність між медіаною та середньою арифметичною величиною. Для цього слід розташувати всі дані в порядку їх зростання:
115, 117, 121, 123, 127, 127, 135, 144, 145, 147
Знаходимо медіану (підрозділ 2.1):
Ме=127
Обчислюємо середнє арифметичне значення за формулою (2):
130
(Од/мг білка).
Різниця
між
і
становить 2%, а, отже, ці дані можуть мати
нормальний розподіл. Перевіряємо дані
за вищевказаними критеріями на нормальний
розподіл.
За допомогою складового критерію d:
Критерій І
1. Обчислюємо середнє арифметичне значення за формулою (2):
2. За формулою (32) обчислюємо зміщене середнє квадратичне відхилення s*:
11,3.
3. Знаходимо значення критерію І за формулою (31):
0,82
4.
За таблицею
7
при рівні статистичної
значущості
p<0,05
знаходимо
і
Гіпотеза
про нормальність за критерієм
І
підтверджується, якщо виконується
нерівність (33).
В
даному випадку ця нерівність виконується,
оскільки:
0,72<0,82<0,91
Гіпотеза про нормальний розподіл величин підтверджується.
Критерій ІІ
1. За формулою (10) обчислюємо середнє квадратичне відхилення s:
2.
З таблиць
8
та
9
для
P=0,95
знаходимо значення
.
3.
Обчислюємо значення
:
4.
Знаходимо різниці між даними та середньою
величиною
:
;
;
;
;
;
;
;
;
;
5.
Оскільки жодне значення із різниць
(пункт 4) не є більшим за
,
тому приймається гіпотеза про нормальний
розподіл величин за критерієм
ІІ.
Формулюємо загальний висновок: дані мають нормальний розподіл, оскільки критерій І і критерій ІІ приймають цю гіпотезу.
За допомогою критерію Шапіро-Уілка:
1. Розміщуємо дані у порядку зростання:
115, 117, 121, 123, 127, 127, 135, 144, 145, 147
2. Обчислюємо значення величини SS за формулою (34):
s2=1152+1172+1212+1232+1272+1272+1352+1442+1452+1472 – (115+117+121+123+127+127+135+144+145+147)2/10 = 1277
3. Обчислюємо значення величини b за формулою (35):
b = а10(y10-y1)+ а9(y9-y2)+ а8(y8-y3)+ а7(y7-y4)+ а6(y6-y5)
Коефіцієнти аі беремо із таблиці 10:
а10 =0,5769; а9 =0,3291; а8 =0,2141; а7 = 0,1224; а6=0,0399.
b = 0,5769(147-115)+ 0,3291(145-117) + 0,2141(144-121) + 0,1224(135-123) + 0,0399(127-127) = 34,1
4. За формулою (36) обчислюємо значення W-критерію:
W=1163/1277=0,911
5. Знаходимо критичне значення Wкр при n=10 та рівні статистичної значущості p<0,05 (таблиця 11):
Wкр=0,842
В даному випадку виконується нерівність (37), оскільки 0,911>0,842. Тому можна говорити про те, що отримані нами дані підпорядковуються нормальному розподілу.
За допомогою коефіцієнту асиметрії та ексцесу
