- •Г усак в.В., Господарьов д.В., Лущак в.І. Статистика в біології: обробка даних малих вибірок
- •Розділ 1. Сукупність, вибірка і типи даних
- •1.1. Генеральні та вибіркові сукупності
- •1.2. Уявлення про малу вибірку
- •1.3. Типи даних
- •1.4. Структура даних
- •1.5. Заокруглення даних
- •Розділ 2. Показники варіації
- •2.1. Середні величини та медіана
- •2.2. Стандартне відхилення, дисперсія та коефіцієнт варіації
- •2.3. Варіація і розподіл
- •Розділ 3. Похибки оцінювання параметрів вибірки
- •3.1. Помилка середньої арифметичної величини
- •3.2. Довірчий інтервал
- •3.3. Неузгодженості у записах при використанні стандартної похибки середнього
- •Розділ 4. Аналіз даних, які випадають в ході досліджень (промахи і систематичні похибки)
- •4.1. Критерій Шовене
- •4.3. Критерій Романовського
- •4.4. Критерій Ірвіна
- •4.5. Критерій Аббе
- •Розділ 5. Перевірка вибірки на нормальність розподілу даних
- •5.1. Загальні уявлення про критерії перевірки вибірки на нормальний розподіл даних
- •5.2. Складовий критерій d
- •5.3. Статистичний критерій w (критерій Шапіро-Уілка)
- •5.4. Коефіцієнт асиметрії та ексцесу
- •Асиметрії та ексцесу
- •1. Первинні дані та допоміжні величини оформлюємо у вигляді таблиці:
- •6.1. Вибір статистичного критерію
- •6.2. Порівняння двох груп між собою
- •6.2.1. Непарний та парний критерії Стьюдента
- •6.2.2. Тест Уелча як модифікація тесту Стьюдента та u-критерій Манна-Уітні як непараметричний аналог непарного критерію Стьюдента
- •6.3. Порівняння трьох і більше груп між собою: доцільність використання параметричних чи непараметричних критеріїв
- •6.3.1. Критерій Ньюмена-Коулса
- •6.3.2. Критерій Даннета: порівняння декількох груп з контрольною
- •6.3.3. Непараметричний критерій Данна для порівняння декількох груп між собою
- •Розділ 7. Взаємозв'язки між групами: кореляційно-регресійний аналіз
- •7.1. Кореляційний аналіз
- •7.2. Парний регресійний аналіз
- •1.1. Рівняння лінійної регресії
- •1.2. Лінійне рівняння з логарифмуванням факторної ознаки (напівлогарифмічне)
- •1.3. Рівняння гіперболічної регресії
- •1.4. Показникове рівняння кривої
- •Розділ 8. Програми для статистичної обробки даних
- •Узагальнення
- •Рекомендована література
- •Тлумачний словник термінів
7.2. Парний регресійний аналіз
Коефіцієнт кореляції вказує лишень на ступінь зв’язку у варіації двох змінних величин. Проте він не дає змогу судити про те, як кількісно змінюється одна величина при зміні іншої. Для цього існує інший метод – це метод регресії.
Цей аналіз можна використовувати для виявлення взаємозв’язку між фактором, що впливає на об’єкт (Х), і параметром, що змінюється (У).
Розрізняють лінійні і нелінійні регресії.
Рівняння лінійної парної регресії наступне:
(74),
де у – значення параметру Y;
а – вільний член;
b – коефіцієнт регресії;
х – незалежна змінна;
– помилка
апроксимації.
При центрованості помилок вільний член а можна визначити за формулою:
(75),
де і – середні значення фактору Х і параметру Y у вибірках з n спостережень.
Коефіцієнт регресії b обчислюють за формулами (76) або (77):
(76)
(77).
Нелінійний взаємозв’язок між даними може описуватись різними функціями:
Гіперболічною:
(78);
Показниковою:
(79);
Напівлогарифмічною:
(80);
Логарифмічною:
(81);
Степеневою:
(82);
Експоненційною:
(83);
Зворотньою:
(84);
Параболічною (Поліноміальна модель другого порядку):
y = ax2 + bx + c (85);
Кубічною (Поліноміальна модель третього порядку):
y = ax3 + bx2 + cx + d (86)
і поліноміальними моделями вищих порядків.
Часто перед дослідниками постає ряд питань, а саме: яке рівняння регресії використати для опису своїх даних, яке з них найбільш адекватно описує дані з найменшими похибками і помилками та ін.? Тому в даній роботі ми зупинимось на обчисленні коефіцієнтів a і b для різних рівнянь, порівнянні рівнянь між собою, виборі оптимального виду рівняння регресії, обчисленні похибок та помилок цих рівнянь.
Вирішення завдання побудови якісного рівняння регресії, що відповідає емпіричним даним і меті дослідження, є достатньо складним і багатоступеневим процесом. Його можна розбити на три етапи:
1) вибір формули рівняння регресії;
2) визначення параметрів вибраного рівняння;
3) аналіз якості рівняння і перевірка його адекватності емпіричним даним.
Вибір формули, зазвичай, здійснюється за графіком реальних статистичних даних у вигляді точок в декартовій системі координат (діаграма розсіювання). Проте нерідко виникають ситуації, коли розміщення точок приблизно відповідає декільком функціям і необхідно вибрати з них найкращу. На практиці невідомо, яка модель вірна, і часто підбирають таку модель, яка найбільше відповідає реальним даним. Ознаками «доброї» моделі є:
Простота. Модель повинна бути максимально простою. Дана властивість визначається тим фактом, що модель не відображає дійсність ідеально, а є її спрощенням.
Максимальна відповідність. Рівняння тим краще, чим більшу частину діапазону залежної змінної воно може пояснити.
Прогнозні якості. Модель може бути визнана якісною, якщо отримані на її основі прогнози підтверджуються реальністю.
Для обчислення коефіцієнтів регресійних рівнянь рекомендується використовувати метод найменших квадратів (МНК), який був запропонований на початку ХІХ ст. Лежандром і Гауссом. Вимога МНК заключається в тому, що теоретичні дані лінії регресії у повинні бути отримані таким чином, щоб сума квадратів відхилень від цих даних емпіричних величин даних була мінімальною, тобто:
Σ(Yi – Yx)2 → min (87)
Основні етапи обчислень:
1. Знаходимо коефіцієнти рівнянь регресії
1.1. Рівняння лінійної регресії
Для обчислення коефіцієнтів a і b рівняння лінійної регресії (74) необхідно розв’язати нормальні рівняння методу найменших квадратів:
(88)
Із цієї системи можна знайти коефіцієнти а і b:
a = (Σ yi Σ( xi)2 – Σ yi xi Σ xi )/( n Σ( xi)2 – (Σ xi)2) (89),
b = (n Σ yi xi – Σ xi Σ yi) / (n Σ( xi)2 – ( Σ xi)2) (90).
1.2. Лінійне рівняння з логарифмуванням факторної ознаки (напівлогарифмічне)
Для обчислення коефіцієнтів a і b рівняння прямої з логарифмуванням факторної ознаки (80) необхідно розв’язати наступну систему рівнянь:
(91).
Із цієї системи можна знайти коефіцієнти а і b:
a = (Σ yi Σ( ln xi)2 – Σ yi ln xi Σ ln xi )/( n Σ( ln xi)2 – (Σ ln xi)2 ) (92),
b = (n Σ yi ln xi – Σ ln xi Σ yi) / (n Σ( ln xi)2 – ( Σ ln xi)2 (93).
1.3. Лінійне рівняння з логарифмуванням ознак (логарифмічне)
Для обчислення коефіцієнтів a і b рівняння прямої з логарифмуванням факторної ознаки (81) необхідно розв’язати наступну систему рівнянь:
(94).
Із цієї системи можна знайти коефіцієнти а і b:
a = (Σ lnyi Σ( ln xi)2 – Σ lnyi ln xi Σ ln xi )/( n Σ( ln xi)2 – (Σ ln xi)2 ) (95),
b = (n Σln yi ln xi – Σ ln xi Σln yi) / (n Σ( ln xi)2 – ( Σ ln xi)2 (96).
1.4. Рівняння гіперболічної регресії
Нормальні рівняння методу найменших квадратів для гіперболи (78) такі:
(97)
Результатом обчислення системи нормальних рівнянь є наступні рівняння:
a = (Σ yi Σ(1/xi ) 2 – Σ(yi / xi ) Σ(1/xi )) / n Σ(1/xi ) 2- (Σ(1/xi ) )2 (98),
b = n Σ(yi / xi ) - Σ(1/xi ) Σ yi / n Σ(1/xi ) 2- (Σ(1/xi ) )2 (99).
1.5. Рівняння показникової кривої
Для обчислення коефіцієнтів a і b рівняння (79) необхідно розв’язати наступну систему рівнянь:
(100)
Із цієї системи можна знайти коефіцієнти а і b:
ln a = (Σ ln yi Σ xi2 – Σ xi ln yi Σ xi) / (n Σ xi2 – (Σ xi)2) (101),
ln b = (n Σ xi ln yi–Σ xi Σ ln yi) / (n Σ xi2 – (Σ xi)2) (102).
1.6. Рівняння параболічної регресії
Для обчислення коефіцієнтів a, b і с рівняння (85) необхідно розв’язати наступну систему рівнянь:
(103)
2. Перевірку
значущості
параметрів
рівняння
регресії
в цілому
проводимо
на основі
обчислень
величини
середньої
помилки
апроксимації
:
(104)
де yi – емпіричне значення результативної ознаки (результативною називається ознака, яка змінюється під впливом факторної ознаки);
yx – теоретичне значення результативної ознаки.
Значення середньої помилки апроксимації не має перевищувати 10-15%.
3. Перевірку адекватності регресійної моделі можна провести за допомогою кореляційного аналізу. Тісноту кореляційного зв’язку між x і y визначається за допомогою теоретичного кореляційного відношення (індекс кореляції) з рівнянь (105) або (106):
(105)
(106)
Підкореневий вираз – коефіцієнт детермінації (відповідно до формули (73) його значення під час обчислень потрібно помножити на 100%) – показує долю варіації результативної ознаки (у) під впливом варіації ознаки-фактору (х).
Теоретичне кореляційне відношення може знаходитися в межах від 0 до 1. Чим ближче кореляційне відношення до 1, тим тісніший зв’язок між ознаками.
4. Коли декілька рівнянь адекватно прогнозують значення, то в такому випадку найбільш підходящим рівнянням регресії є те, яке характеризується найбільшим фактичним значенням F-критерію Фішера, який обчислюють за формулою:
F ф = S y2 / S 2зал (107),
де
S y2 = ( Σyi2 – (( Σyi)2 / n )) / n – 1 (108),
S 2зал = Σ(yi – yx)2/ (n – 2) (109).
5. Обчислюємо похибки і помилки, оскільки, чим менші величини похибок і помилок, тим надійніше рівняння описує досліджуваний взаємозв'язок.
Абсолютну похибку рівнянь (δ) обчислюємо за формулою:
(110).
Відносну похибку рівнянь (Δ) знаходимо за формулою:
(111).
Також обчислюємо систематичну (op) і випадкову помилки (oδ):
op = (1/n)Σ((yi – yx)/yx) × 100 (112),
(113).
6. На основі фактичних значень F-критерію Фішера, похибок та помилок робимо загальний висновок про адекватність того чи іншого рівняння регресії.
Приклад 27. За наведеними даними (приклад 26) потрібно встановити: форму зв’язку між активністю лактатдегідрогенази (Xi) та вмістом лактату (Уі) в плазмі крові карася сріблястого, параметри рівняння регресії та тісноту взаємозв’язку.
1. За методом найменших квадратів знаходимо коефіцієнти а і b вірогідних типів рівнянь регресії, будуємо графіки рівнянь регресії та здійснюємо перевірку значущості рівняння регресії.
