- •Г усак в.В., Господарьов д.В., Лущак в.І. Статистика в біології: обробка даних малих вибірок
- •Розділ 1. Сукупність, вибірка і типи даних
- •1.1. Генеральні та вибіркові сукупності
- •1.2. Уявлення про малу вибірку
- •1.3. Типи даних
- •1.4. Структура даних
- •1.5. Заокруглення даних
- •Розділ 2. Показники варіації
- •2.1. Середні величини та медіана
- •2.2. Стандартне відхилення, дисперсія та коефіцієнт варіації
- •2.3. Варіація і розподіл
- •Розділ 3. Похибки оцінювання параметрів вибірки
- •3.1. Помилка середньої арифметичної величини
- •3.2. Довірчий інтервал
- •3.3. Неузгодженості у записах при використанні стандартної похибки середнього
- •Розділ 4. Аналіз даних, які випадають в ході досліджень (промахи і систематичні похибки)
- •4.1. Критерій Шовене
- •4.3. Критерій Романовського
- •4.4. Критерій Ірвіна
- •4.5. Критерій Аббе
- •Розділ 5. Перевірка вибірки на нормальність розподілу даних
- •5.1. Загальні уявлення про критерії перевірки вибірки на нормальний розподіл даних
- •5.2. Складовий критерій d
- •5.3. Статистичний критерій w (критерій Шапіро-Уілка)
- •5.4. Коефіцієнт асиметрії та ексцесу
- •Асиметрії та ексцесу
- •1. Первинні дані та допоміжні величини оформлюємо у вигляді таблиці:
- •6.1. Вибір статистичного критерію
- •6.2. Порівняння двох груп між собою
- •6.2.1. Непарний та парний критерії Стьюдента
- •6.2.2. Тест Уелча як модифікація тесту Стьюдента та u-критерій Манна-Уітні як непараметричний аналог непарного критерію Стьюдента
- •6.3. Порівняння трьох і більше груп між собою: доцільність використання параметричних чи непараметричних критеріїв
- •6.3.1. Критерій Ньюмена-Коулса
- •6.3.2. Критерій Даннета: порівняння декількох груп з контрольною
- •6.3.3. Непараметричний критерій Данна для порівняння декількох груп між собою
- •Розділ 7. Взаємозв'язки між групами: кореляційно-регресійний аналіз
- •7.1. Кореляційний аналіз
- •7.2. Парний регресійний аналіз
- •1.1. Рівняння лінійної регресії
- •1.2. Лінійне рівняння з логарифмуванням факторної ознаки (напівлогарифмічне)
- •1.3. Рівняння гіперболічної регресії
- •1.4. Показникове рівняння кривої
- •Розділ 8. Програми для статистичної обробки даних
- •Узагальнення
- •Рекомендована література
- •Тлумачний словник термінів
Розділ 2. Показники варіації
2.1. Середні величини та медіана
Одним з найважливіших статистичних параметрів є значення середньої величини. Воно відображує найбільш типове значення для ознаки. Втім, середня величина – це абстрактний показник. Часто вона набуває значень, які можуть жодного разу не зустрітись серед вихідних спостережень. Наприклад, уявімо вибірку з чотирьох рослин, які мають довжину стебла: 2, 4, 6 та 8 см. Середнє арифметичне буде дорівнювати 5 см – значенню, яке було відсутнє у вибірці. Варіація ознаки завжди має певні межі. Не виключено, що всі рослини даного виду, у певному віці, за відсутності хвороб і впливу довкілля мають довжину стебла не менше 2 см і не більше 8 см. Середнє з цих двох крайніх значень буде так само становити 5 см. Отже, на основі середньої величини можна міркувати не тільки про властивості окремої вибірки, але і про генеральну сукупність. Розрізняють декілька типів середніх величин: середню арифметичну, середню геометричну, середню квадратичну, середню кубічну і середню гармонійну. Загальна формула для обчислень більшості середніх величин наступна:
(1),
де
– значення варіанти, n
– кількість варіант. Значення m
вказує на тип середньої: якщо m
=
+1,
то обчислюється середня арифметична
величина; –1 – середня гармонійна; +2
– середня квадратична; +3
– середня кубічна величина.
У більшості досліджень використовується середня арифметична величина, яка може бути простою або зваженою.
Просту
середню арифметичну величину
отримують шляхом додавання всіх отриманих
значень і поділу цієї суми на число
значень. Якщо набір з n
досліджень змінних «х»
зобразити як «х1,
х2,
х3,
..., хn»,
то формула для обчислення простої
середньої арифметичної величини «
»
(її також позначають як «Мх»)
буде мати наступний вигляд:
=
(2)
Можна знайти інші математичні записи цієї формули:
=
(3)
або
=
(4),
або
=
(5),
де n – число досліджень, Σ – сума значень варіант, і – порядковий номер значення, хі – певне значення у вибірці.
Приклад 4. Потрібно обчислити середнє арифметичне значення активності ферменту супероксиддисмутази в зябрах карася сріблястого, коли були отримані наступні дані: 54,3; 68,2; 55,6; 60,0; 51,4 (Од/мг білка).
Для цього використаємо формулу (2):
=
(Од/мг білка).
Зважену середню арифметичну величину використовують у тих випадках, коли варіаційний ряд є досить великим (n > 30) і окремі його значення повторюються, а також тоді, коли треба об’єднати середні арифметичні декількох груп. У першому випадку для обчислення зваженої середньої використовують наступну формулу:
=
(6),
де хі – значення варіанти, fі – частота варіант по окремих класах.
Приклад 5. Експериментально визначали плодючість дафній і отримали наступні значення: 8, 11, 23, 9, 8, 12, 17, 13, 13, 8, 11, 23, 11, 8, 16, 23, 20, 21, 21, 9, 11, 17 та 13 нащадків. За формулою (6) можна отримати зважену середню арифметичну величину плодючості дафній:
=
(особин).
Середня арифметична кількох однорідних груп обчислюється за подібною формулою:
=
(7),
де ni – кількість значень в кожній з груп, які об’єднуються.
Приклад 6. Вміст гемоглобіну в крові дорослих чоловіків (n1 = 30) дорівнював 69,8%. Цей показник для іншої групи чоловіків того ж віку (n2 = 20) склав 64,9%. Потрібно визначити середню арифметичну величину з цих двох середніх. Для вибірок однакового розміру (n1 = n2) = (69,8 + 64,9)/2 = 67,4 %. Якщо розмір однієї вибірки становить 30, а іншої – 20 осіб, то в такому випадку використовується формула (7):
=
%.
Формула зваженої середньої використовується не тільки для полегшення обрахунків при повторюваності варіант або об’єднання середніх, а також для обчислення середніх у тих випадках, коли кожний результат не є рівнозначним і залежить від якоїсь умови (ваги).
Приклад 7. Плодові мушки не вилуплюються з лялечок одночасно. Вилуплення займає декілька днів. Так, на дев’ятий день після відкладення яєць у пробірці вилупилось 2 особини, на десятий – 6, на 11-ий – 10, на 12-ий – 16, на 13-ий – 11, на 14-ий – 5, на 15-ий – 2. Порахуємо зважене середнє, використовуючи як хі – кількість особин, які вилупились за певний день, а як ni – день від початку відкладання яєць:
=
.
В даному випадку значення зваженої середньої буде вказувати на день, коли вилупилась найбільше особин.
Іншою важливою величиною, яка характеризує вибірку, є медіана (Ме). Медіаною називають значення xi, розміщене посередині ряду значень, що розставлені в порядку від найменшого до найбільшого. Такий ряд інакше називається варіаційним. Так, якщо всі отримані в ході експерименту значення в дослідній групі виписати в ряд у порядку їх збільшення, то медіаною буде вважатись те значення, яке стоїть в цьому ряді посередині. Порядковий номер, або ранг значення, яке є медіаною для ряду з непарною кількістю значень можна встановити за формулою:
,
(8)
де
–
і-тий
елемент варіаційного ряду.
Так, якщо ми маємо ряд з п’яти значень, розміщених в порядку зростання, то медіаною буде 3-тє за порядком значення. Якщо кількість чисел має парне значення, то медіаною буде середнє арифметичне між значеннями, які мають порядкові номери n/2 та (n + 2)/2. Тобто, половина значень у вибірці буде більша або рівна медіані, а інша – менша або рівна медіані. Медіану використовують замість середньої арифметичної величини в тих випадках, коли варіаційний ряд є асиметричним. Якщо побудувати криву розподілу для групи з таких даних, то її пік буде зміщеним, на відміну від кривої нормального розподілу. Медіану також використовують тоді, коли варіаційний ряд є перервним, а отже дані є дискретними, або тоді коли ми не маємо чіткої «верхньої межі» ряду даних. Наприклад, «плодова мушка виходила з теплової коми впродовж шести і більше хвилин». Зрозуміло, що не має сенсу чекати, доки «оживе» муха, яка, можливо, вже померла. Проте ми можемо просто порахувати кількість тих мух, які «оживали» більше шести хвилин. Середнє значення з таких даних ми порахувати не зможемо, але медіану – так. Нижче розглянемо два приклади обчислення медіан у вибірці:
Приклад 8.
І. Випадок з парним числом значень у вибірці
Припустимо, що ми маємо наступні значення дискретної ознаки:
15, 1, 4, 11, 3, 10, 7, 16, 13, 5, 16, 9, 6, 5.
Цей ряд складається з 14 чисел. Перша дія при обчисленні медіани – ранжування, тобто розміщення значень в порядку зростання:
Номер 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Значення 1, 3, 4, 5, 5, 6, 7, 9, 10, 11, 13, 15, 16, 16
Медіана буде знаходитись між сьомим та восьмим значеннями (виділені сірим кольором) і чисельно дорівнювати середньому значенню між ними:
Ме = (7 + 9) / 2 = 8
Графічно це буде виглядати наступним чином:
Значення медіани на даному рисунку позначене чорною точкою. Бачимо, що по обидва боки від медіани розміщена однакова кількість даних – по сім значень.
ІІ. Випадок з непарним числом значень у вибірці
Візьмемо іншу вибірку, яка містить наступні значення:
9, 15, 5, 1, 11, 4, 16, 13, 10, 5, 16, 6, 3.
На відміну, від попередньої вибірки, тут ми маємо непарне число значень. Знову розміщуємо значення в порядку зростання:
Номер 1 2 3 4 5 6 7 8 9 10 11 12 13
Значення 1, 3, 4, 5, 5, 6, 9, 10, 11, 13, 15, 16, 16
Медіана дорівнюватиме 9, оскільки саме це значення є центральним у наведеному вище ряді.
