- •Г усак в.В., Господарьов д.В., Лущак в.І. Статистика в біології: обробка даних малих вибірок
- •Розділ 1. Сукупність, вибірка і типи даних
- •1.1. Генеральні та вибіркові сукупності
- •1.2. Уявлення про малу вибірку
- •1.3. Типи даних
- •1.4. Структура даних
- •1.5. Заокруглення даних
- •Розділ 2. Показники варіації
- •2.1. Середні величини та медіана
- •2.2. Стандартне відхилення, дисперсія та коефіцієнт варіації
- •2.3. Варіація і розподіл
- •Розділ 3. Похибки оцінювання параметрів вибірки
- •3.1. Помилка середньої арифметичної величини
- •3.2. Довірчий інтервал
- •3.3. Неузгодженості у записах при використанні стандартної похибки середнього
- •Розділ 4. Аналіз даних, які випадають в ході досліджень (промахи і систематичні похибки)
- •4.1. Критерій Шовене
- •4.3. Критерій Романовського
- •4.4. Критерій Ірвіна
- •4.5. Критерій Аббе
- •Розділ 5. Перевірка вибірки на нормальність розподілу даних
- •5.1. Загальні уявлення про критерії перевірки вибірки на нормальний розподіл даних
- •5.2. Складовий критерій d
- •5.3. Статистичний критерій w (критерій Шапіро-Уілка)
- •5.4. Коефіцієнт асиметрії та ексцесу
- •Асиметрії та ексцесу
- •1. Первинні дані та допоміжні величини оформлюємо у вигляді таблиці:
- •6.1. Вибір статистичного критерію
- •6.2. Порівняння двох груп між собою
- •6.2.1. Непарний та парний критерії Стьюдента
- •6.2.2. Тест Уелча як модифікація тесту Стьюдента та u-критерій Манна-Уітні як непараметричний аналог непарного критерію Стьюдента
- •6.3. Порівняння трьох і більше груп між собою: доцільність використання параметричних чи непараметричних критеріїв
- •6.3.1. Критерій Ньюмена-Коулса
- •6.3.2. Критерій Даннета: порівняння декількох груп з контрольною
- •6.3.3. Непараметричний критерій Данна для порівняння декількох груп між собою
- •Розділ 7. Взаємозв'язки між групами: кореляційно-регресійний аналіз
- •7.1. Кореляційний аналіз
- •7.2. Парний регресійний аналіз
- •1.1. Рівняння лінійної регресії
- •1.2. Лінійне рівняння з логарифмуванням факторної ознаки (напівлогарифмічне)
- •1.3. Рівняння гіперболічної регресії
- •1.4. Показникове рівняння кривої
- •Розділ 8. Програми для статистичної обробки даних
- •Узагальнення
- •Рекомендована література
- •Тлумачний словник термінів
Розділ 1. Сукупність, вибірка і типи даних
1.1. Генеральні та вибіркові сукупності
В більшості випадків питання статистичної обробки даних виникає тоді, коли дослідникові необхідно чисельно охарактеризувати явище. Так, одноразове визначення активності алкогольдегідрогенази у культурі пекарських дріжджів мало про що не свідчить. Ця активність залежить від дуже багатьох чинників. Тому повторне визначення активності для цієї самої культури або культури дріжджів, вирощених у подібних умовах, буде відрізнятися. Іншими словами, активність алкогольдегідрогенази у дріжджів буде варіювати. Для оцінки цієї варіації потрібно провести бодай декілька незалежних визначень, або повторів. Середнє значення активності, обраховане на основі значень повторів, а також показники варіації вже є інформативнішими. Набір значень, який ми отримали в результаті незалежних вимірювань вважатиметься вибіркою, а окремі значення варіантами. Власне цей набір даних може бути підданий надалі статистичній обробці. Проте вибірка – це не тільки значення, отримані в кількох незалежних вимірюваннях. Частіше під вибіркою розуміють також набір значень, отриманих після вимірювань, зроблених для групи об’єктів, наприклад, для кількох культур дріжджів у нашому випадку. Такою групою можуть бути листки або насіння різних дерев, пацієнти з різними синдромами, риби одного виду і т.д.
Будь-яка група, незалежно від її розміру, в статистиці називається сукупністю. Об’єкти, які входять у сукупність, мають певні ознаки, які відрізняють їх від інших об’єктів. Розрізняють генеральні та вибіркові сукупності. Генеральною сукупністю є всі об’єкти, які відносяться до категорії, що цікавить дослідника. Наприклад, всі мухи виду Drosophila melanogaster, всі листки дуба, всі дафнії Івано-Франківської області і т.д. В окремих випадках є можливість вивчити всю генеральну сукупність (наприклад, коли вивчаємо зріст всіх студентів одного курсу, або вміст гемоглобіну для всіх в місті хворих на певну рідкісну хворобу). Проте, дослідник не може вивчити повністю великі генеральні сукупності. Уявлення про генеральну сукупність можна скласти за її частиною – вибірковою сукупністю. Вибіркова сукупність, або вибірка – це частина сукупності, відібрана за певними правилами для дослідження з генеральної сукупоності.
Для того, щоб за вибіркою скласти правильне уявлення про генеральну сукупність, вона має бути репрезентативною. Єдиний принцип, який береться в основу відбору об’єктів у вибірку – принцип випадковості. Для реалізації цього принципу, дослідник створює такі умови відбору, щоб у кожного представника генеральної сукупності була однакова ймовірність потрапити у вибірку.
Вибірки, задіяні в експерименті, можуть бути незалежними та залежними. В незалежних вибірках об’єкти ніяк не пов’язані один з одним. Якщо кожному об’єктові однієї вибірки відповідає об’єкт з іншої вибірки, то такі вибірки є залежними.
1.2. Уявлення про малу вибірку
Одне з основних питань математичної статистики: якою повинна бути мінімальна необхідна кількість інформації для отримання достатньої статистично коректної достовірності результату?
За Р. Фішером мінімальне число зразків не може бути менше 4. В іншому випадку, неминуче виникає систематична помилка (систематична помилка, або зсув (bias) – це систематичне (невипадкове, однонаправлене) відхилення результатів від дійсних значень). Розрізняють декілька основних типів цих помилок. Зсув, зумовлений відбором, виникає, коли порівнювані групи розрізняються не лише за ознакою, яка вивчається, але й за іншими чинниками, що впливають на результат. Зсув, зумовлений виміром, виникає тоді, коли в порівнюваних групах використовуються різні методи виміру. Зсув, зумовлений чинниками, які втручаються, виникає, коли один чинник пов'язаний з іншим і ефект одного спотворює ефект іншого.
Дослідники на практиці найчастіше мають справу з малою вибіркою, коли кількість варіант є меншою за 30 (4 ≤ n ≤ 30). Розробка теорії малої вибірки належить англійському статистикові У.С. Госсету, який у 1908 році опублікував свою працю «Біометрика» під псевдонімом «Стьюдент». Дослідження, які стосуються малих вибірок, пов'язані також з іменами А.М. Колмогорова, Дж. Ноймана і А. Вальда. Так, А.М. Колмогоров запропонував критерій достатності статистики при обмеженому числі спостережень. Дж. Нойман створив новий напрямок у математичній статистиці, основне положення якого говорить: "Завдання статистики – виявляти загальний характер поведінки об'єкту в умовах невизначеності". А. Вальд розробив розділ статистики, який називається послідовним аналізом. За ним, необхідний обсяг вибірки, визначається в процесі самих випробувань. Ідеї Колмогорова, Ноймана і Вальда в частині малих вибірок розвинені у багатьох роботах, бібліографію яких можна знайти у фундаментальних працях із математичної статистики.
