- •Змістовий модуль 1 первинна математико-статистична обробка експериметальних даних
- •Вимірювання величин. Точність вимірювання
- •1.2. Випадкові величини та їх статистична характеристика
- •1.3. Експериментальні дослідження, їх статистична характеристика
- •1.4. Вибірковий метод дослідження
- •2.1. Основні етапи первинної обробки експериментальних даних
- •2. 2. Обчислення основних числових статистичних характеристик вибірки та їх суттєва інтерпретація
- •2.3. Перевірка статистичних гіпотез
- •2.3.1. Відсів грубих похибок
- •Перевірка однорідності декількох вибірок початкових даних
- •2.3.3. Перевірка гіпотези про значущість різниць двох середніх
- •2.3.4. Перевірка гіпотези нормальності розподілу експериментальних даних
- •Змістовий модуль 2 математико-статистичні методи аналізу парних залежностей дослідних даних
- •3.1. Види залежностей величин
- •3.2. Загальні поняття про статистичні методи аналізу парних залежностей
- •4.1 Загальні поняття
- •4.2. Статистична оцінка кореляційного зв'язку між показниками, які контролюються
- •5.1. Загальні поняття
- •5.2. Загальна схема регресійного аналізу
- •5.3. Вибір загального вигляду функції регресії
- •5.4. Метод найменших квадратів
- •5.5. Обчислення оцінок невідомих параметрів лінійної функції регресії
- •5.6. Обчислення оцінок невідомих параметрів квадратичної функції регресії
- •5.7. Обчислення оцінок невідомих параметрів кубічної функції регресії
- •5.8. Статистична оцінка адекватності рівняння регресії
- •Змістовий модуль 3 багаточинникові експерименти
- •7.1. Загальні поняття
- •7.2. Планування порівняльних експериментів
- •7.3. Планування екстремальних експериментів
- •7.4. Статистична обробка та інтерпретація результатів екстремального експерименту
- •7.4.1. Обчислення дисперсії експерименту
- •7.4.2. Обчислення значень коефіцієнтів функції відгуку параметра оптимізації
- •7.4.3. Перевірка адекватності функції відгуку параметра оптимізації
- •7.4.4. Перевірка значущості коефіцієнтів множинної функції регресії
- •7.4.5. Інтерпретація результатів експерименту
- •Література
2.3.1. Відсів грубих похибок
Часто побіжний попередній перегляд (візуальний або автоматизований) початкових даних може викликати у дослідника сумніви в істинності (чи правомірності) окремих спостережень, які занадто різко виділяються на загальному фоні. У таких випадках виникає питання: чи маємо ми право пояснити різкі відхили в початкових даних (аномальні викиди) лише звичайними випадковими коливаннями вибірки, які зумовлені природою генеральної сукупності, що аналізується, чи тут справа в суттєвих викривленнях стандартних умов збору статистичних даних, а можливо, і в прямих помилках реєстрації (запису)? В останніх двох випадках "підозрілі" спостереження, очевидно, слід виключити з подальшого розгляду.
В загальному випадку, коли ми хочемо порівняти результати будь-яких вимірів (виміряється одна й та ж величина), ми можемо утворити їх різницю і порівняти її з очікуваною відповіддю, що ця різниця дорівнює нулю.
Для цього визначається кількість стандартних відхилень у цій різниці
.
(2.1)
Потім за таблицями інтеграла нормальних помилок можна знайти ймовірність одержання результату, який відрізняється від хі на τ чи більше стандартних відхилень.
Ця ймовірність α (зовні τ×σ) = 1-α (у межах τ×σ).
Якщо
ця ймовірність велика, то різниця
цілком
розумна і результат
цілком
прийнятний; якщо ж ймовірність "недопустимо
мала", то різницю слід розглядати як
значну (тобто неприйнятну) і хі
повинно
бути відкинуте, а
(
)
повинно бути перераховане.
Відкидання даних - суперечне питання, щодо якого у спеціалістів немає єдиної думки. Рішення відкинути якісь дані в кінцевому рахунку завжди суб'єктивне, і вченого, який прийняв таке рішення, його колеги можуть осудити за таку "підгонку" даних. Однак ситуація ускладнюється, якщо врахувати ймовірність того, що аномальний результат може відбивати деякі важливі ефекти. Так, багато важливих наукових відкриттів спочатку мали вигляд аномальних результатів вимірів, які походили скоріше на помилки. Єдина чесна реакція на неймовірні (аномальні) дані - повторити виміри багато разів. Однак у більшості випадків непрактично повторювати виміри багато разів, якщо тільки результат буде здаватись підозрілим.
Якщо у розпорядженні експериментатора є вибірка невеликого обсягу п ≤ 25, то можна скористатись методом обліку максимального відхилення [15].
Якщо
,
то
спостереження відкидають як грубу
похибку. Тут хі
-
найбільший або найменший елемент
вибірки, по якій підраховувались
та
;
- табличне значення статистики, яка
розрахована за певної ймовірності Р
= 1-α.
Якщо розрахована величина менша ніж для цієї ж кількості п за заданої надійності Р, то цей вимір, що різко виділяється, є наслідком статистичного розкиду і немає підстав вважати його промахом.
Використовуючи результати обробки експериментальних даних, що приведені у прикладі 2.1, перевіримо результати вимірів на наявність грубих похибок.
=
1,5 відповідає
даним за номером 6.
.
Табличне значення квантилю розподілу максимального відхилення τ1-α за певної ймовірності 0,95 (рівень значущості 0,05) при п=15 дорівнює 2,49 (додаток 3).
Оскільки τр < τ1-α , груба похибка відсутня.
Відсів грубих похибок можна провести і для великих вибірок. Для практичних цілей краще за все використовувати таблиці розподілу Стьюдента. Цей метод виключення аномальних значень для вибірок великого обсягу відрізняється простотою, а таблиці розподілу Стьюдента є практично в будь-якій книжці з математичної статистики. Розподіл Стьюдента належить до категорії розподілів, пов'язаних з нормальним розподілом.
Процедура відсіву грубих похибок вимірів полягає в наступному:
1)
з таблиці обробки експериментальних
даних вибирають спостереження, яке має
найбільше відхилення (наприклад,
найбільше значення виміряної величини
хнайб.
= 189,00; обчислені статистичні ознаки при
п
=
56 :
= 175,66;
= 5,55);
2) по формулі (2.1) обчислюють τ :
τ = (189,00-175,66) / 5,55 = 13,34 / 5,55 = 2,40 ;
3) по таблиці процентних співвідношень розподілу Стьюдента (додаток 2) знаходять процентні точки t - розподілу Стьюдента t(α, п-2) , для ймовірності Р = 0,95 і Р = 0,90, а саме: t(5%, п-2) і t(0,1%, п-2);
t(5%, 54) =1,6736 і t(0,1%, 54) = 3,2572 ;
по формулі
(2.2)
обчислюють відповідне значення квантилю розподілу максимального відхилення
τ(5%,
56)
=
1,6736×
∕
=12,412
∕ 7,537 = 1,647
;
τ(0,1%,
56)
=
3,2572×
∕
=
24,156 ∕ 8,038 = 3,005 ;
5) порівнюють результати обчислень по п. 2 та п. 4 і приймають кінцеве рішення про відсів грубих похибок.
Як видно, значення τ = 2,40 знаходиться між двома критичними значеннями τ(5%) та τ(0,1%) :
1,647 < 2,40 < 3,005.
У цьому випадку відсів потрібно проводити з великою обережністю, а краще всього – від нього відмовитись.
Максимальні відносні відхилення в процесі обчислення можуть бути поділені на три групи: 1) τ ≤ τ(5%, п) ; 2) τ(5%, п) < τ < τ(0,1%, п) ; 3) τ ≥ τ(0,1%, п) .
Спостереження, які потрапили до першої групи, неможна відсіювати ні в якому випадку.
Спостереження, які потрапили до другої групи, можна відсіяти, якщо на користь цієї процедури є ще й інші міркування експериментатора (наприклад, висновки, що зроблені на основі вивчення фізичних, хімічних та інших властивостей явища, яке досліджується). Так, якщо вивчаються властивості кулінарної продукції, пов'язані з її хімічним складом, коливання якого доходять до 12% [4], то спостереження, для яких τ > τ(5%, п) , можна відкинути.
Спостереження, що потрапили до третьої групи, відсіюються завжди. Для фізико-хімічних показників харчових продуктів, у тому числі кулінарної продукції, при значенні τ > 3 спостереження відкидається як груба помилка.
Після
виключення того чи іншого спостереження
або декількох спостережень характеристики
емпіричного (вибіркового) розподілу
(
,
)
повинні
бути
перераховані за даними скороченої
вибірки (п-1).
Процедуру відсіву можна повторити і для наступного по абсолютній величині максимального відносного відхилення τ .
Можна використати критерій Шовене для виключення з вибірки підозрілого результату [26]. Критерій Шовене в його звичайному розумінні стверджує, що, якщо очікувана кількість вимірів, настільки ж поганих, як і підозрілий результат, менша, ніж 1/2, то підозрілий результат слід виключити.
Приклад 2.2. Нехай зроблено п вимірів однієї й тієї ж величини:
0,36; 0,83; 0,89; 0,84; 0,37; 0,82; 0,95; 0,83; 0,88; 0,85 (п1 = 10);
0,852;
0,039.7; 3; 9; 3; 6; 9; 8; 7; 12; 5; 9; 9; 3 (п2 = 14);
7,0;
2,72.
Якщо один з результатів вимірів відрізняється від настільки, що уявляється підозрілим (хпід.), то обчислюємо кількість стандартних відхилень, на яку хпід. відрізняється від .
=
(0,95-0,86)/0,04 = 2,3;
=
(12 – 7) / 2,72 = 1,84.
Потім
знаходимо ймовірність α
(зовні
)
того, що нормальний вимір буде відрізнятися
від
х
на
t
чи
більше стандартних відхилень (додаток
5).
α (зовні ) = 1 – α (у межах ).
При tα =2,3 Р = 0,9786; при tα = 1,84 Р = 0,9342.
α1 = 1-Р = 1-0,9786 = 0,0214; α2= 1-0,9342 = 0,0658.
Одержане значення помножується на повну кількість вимірів п, щоб одержати N – кількість очікуваних вимірів, яка дає настільки ж погані результати, як хпід. .
N =п×α (зовні ) :
N1 = 10×0,0214 = 0,214; N2 =14×0,0658 = 0,92.
Якщо N менше 1/2, то хпід. не задовольняє критерію Шовене і підозрілі значення відкидаються, в противному разі - залишаються у виборці.
N1 = 0,214 < 0,5 ; N2 = 0,92 > 0,5 .
Отже, у першій виборці підозріле значення 0,95 виключається з вибірки, а значення 12 в другій виборці не виключається з неї.
Після того, як результат, який не задовольняє критерію Шовене, відкинуто, потрібно перерахувати та за даними, що залишились. У цьому випадку виходить значення , яке буде менше ніж первісне, і може, статись так, що з новим значенням деякі інші результати вимірів не будуть задовольняти критерію Шовене. Однак більшість авторитетних фахівців вважає, що критерій Шовене не повинен застосовуватись другий раз із використанням перерахованих та .
Багато вчених вважають, що відкидання даних не може бути виправдане, поки не знайдеться зовнішнє свідотство того, що підозрілі дані невірні. Може бути, більш помірна позиція полягає в тому, що критерій Шовене слід використовувати для знайдення даних, які могли б при наймі розглядатись як кандидати для відкидання.
