Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Topolnik_V.G._MATEMATIKO-STATISTICHNI_METODI_DO...doc
Скачиваний:
3
Добавлен:
01.07.2025
Размер:
3.49 Mб
Скачать

2.3.1. Відсів грубих похибок

Часто побіжний попередній перегляд (візуальний або автоматизований) початкових даних може викликати у дослідника сумніви в істинності (чи правомірності) окремих спостережень, які занад­то різко виділяються на загальному фоні. У таких випадках вини­кає питання: чи маємо ми право пояснити різкі відхили в початко­вих даних (аномальні викиди) лише звичайними випадковими коли­ваннями вибірки, які зумовлені природою генеральної сукупності, що аналізується, чи тут справа в суттєвих викривленнях стандарт­них умов збору статистичних даних, а можливо, і в прямих помил­ках реєстрації (запису)? В останніх двох випадках "підозрілі" спостереження, очевидно, слід виключити з подальшого розгляду.

В загальному випадку, коли ми хочемо порівняти результати будь-яких вимірів (виміряється одна й та ж величина), ми можемо утворити їх різницю і порівняти її з очікуваною відповіддю, що ця різниця дорівнює нулю.

Для цього визначається кількість стан­дартних відхилень у цій різниці

. (2.1)

Потім за таблицями інтеграла нормальних помилок можна знай­ти ймовірність одержання результату, який відрізняється від хі на τ чи більше стандартних відхилень.

Ця ймовірність α (зовні τ×σ) = 1-α (у межах τ×σ).

Якщо ця ймовірність велика, то різниця цілком розумна і результат цілком прийнятний; якщо ж ймовірність "недопустимо мала", то різницю слід розглядати як значну (тобто неприйнятну) і хі повинно бути відкинуте, а ( ) повин­но бути перераховане.

Відкидання даних - суперечне питання, щодо якого у спеціаліс­тів немає єдиної думки. Рішення відкинути якісь дані в кінцево­му рахунку завжди суб'єктивне, і вченого, який прийняв таке рі­шення, його колеги можуть осудити за таку "підгонку" даних. Од­нак ситуація ускладнюється, якщо врахувати ймовірність того, що аномальний результат може відбивати деякі важливі ефекти. Так, багато важливих наукових відкриттів спочатку мали вигляд ано­мальних результатів вимірів, які походили скоріше на помилки. Єдина чесна реакція на неймовірні (аномальні) дані - повторити виміри багато разів. Однак у більшості випадків непрактично пов­торювати виміри багато разів, якщо тільки результат буде здава­тись підозрілим.

Якщо у розпорядженні експериментатора є вибірка невеликого обсягу п ≤ 25, то можна скористатись методом обліку максималь­ного відхилення [15].

Якщо , то спостереження відкидають як грубу похибку. Тут хі - найбільший або найменший елемент вибірки, по якій підраховувались та ; - табличне значення ста­тистики, яка розрахована за певної ймовірності Р = 1-α.

Якщо розрахована величина менша ніж для цієї ж кількості п за заданої надійності Р, то цей вимір, що різко виділяється, є наслідком статистичного розкиду і немає підстав вважати його промахом.

Використовуючи результати обробки експериментальних даних, що приведені у прикладі 2.1, перевіримо результати вимірів на наявність грубих похибок.

= 1,5 відповідає даним за номером 6.

.

Табличне значення квантилю розподілу максимального відхилення τ1-α за певної ймовірності 0,95 (рівень значущості 0,05) при п=15 дорівнює 2,49 (додаток 3).

Оскільки τр < τ1-α , груба похиб­ка відсутня.

Відсів грубих похибок можна провести і для великих вибірок. Для практичних цілей краще за все використовувати таблиці розподілу Стьюдента. Цей метод виключення аномальних значень для вибірок великого обсягу відрізняється простотою, а таблиці розподілу Стьюдента є практично в будь-якій книжці з математичної статистики. Розподіл Стьюдента належить до категорії розподілів, пов'язаних з нормальним розподілом.

Процедура відсіву грубих похибок вимірів полягає в наступному:

1) з таблиці обробки експериментальних даних вибирають спостереження, яке має найбільше відхилення (наприклад, найбільше значення виміряної величини хнайб. = 189,00; обчислені статистичні ознаки при п = 56 : = 175,66; = 5,55);

2) по формулі (2.1) обчислюють τ :

τ = (189,00-175,66) / 5,55 = 13,34 / 5,55 = 2,40 ;

3) по таблиці процентних співвідношень розподілу Стьюдента (додаток 2) знаходять процентні точки t - розподілу Стьюдента t(α, п-2) , для ймовірності Р = 0,95 і Р = 0,90, а саме: t(5%, п-2) і t(0,1%, п-2);

t(5%, 54) =1,6736 і t(0,1%, 54) = 3,2572 ;

  1. по формулі

(2.2)

обчислюють відповідне значення квантилю розподілу максимального відхилення

τ(5%, 56) = 1,6736× =12,412 ∕ 7,537 = 1,647 ;

τ(0,1%, 56) = 3,2572× ∕ = 24,156 ∕ 8,038 = 3,005 ;

5) порівнюють результати обчислень по п. 2 та п. 4 і приймають кінцеве рішення про відсів грубих похибок.

Як видно, значення τ = 2,40 знаходиться між двома критичними значеннями τ(5%) та τ(0,1%) :

1,647 < 2,40 < 3,005.

У цьому випадку відсів потрібно проводити з великою обереж­ністю, а краще всього – від нього відмовитись.

Максимальні відносні відхилення в процесі обчислення можуть бути поділені на три групи: 1) τ ≤ τ(5%, п) ; 2) τ(5%, п) < τ < τ(0,1%, п) ; 3) τ ≥ τ(0,1%, п) .

Спостереження, які потрапили до першої групи, неможна відсі­ювати ні в якому випадку.

Спостереження, які потрапили до другої групи, можна відсіяти, якщо на користь цієї процедури є ще й інші міркування експериментатора (наприклад, висновки, що зроб­лені на основі вивчення фізичних, хімічних та інших властивостей явища, яке досліджується). Так, якщо вивчаються властивості ку­лінарної продукції, пов'язані з її хімічним складом, коливання якого доходять до 12% [4], то спостереження, для яких τ > τ(5%, п) , можна відкинути.

Спостереження, що потрапили до третьої групи, відсіюються завжди. Для фізико-хімічних показників харчових про­дуктів, у тому числі кулінарної продукції, при значенні τ > 3 спостереження відкидається як груба помилка.

Після виключення того чи іншого спостереження або декількох спостережень характеристики емпіричного (вибіркового) розподілу ( , ) повинні бути перераховані за даними скороченої вибірки (п-1).

Процедуру відсіву можна повторити і для наступного по абсолютній величині максимального відносного відхилення τ .

Можна використати критерій Шовене для виключення з вибірки підозрілого результату [26]. Критерій Шовене в його звичайному розумінні стверджує, що, якщо очікувана кількість вимірів, на­стільки ж поганих, як і підозрілий результат, менша, ніж 1/2, то підозрілий результат слід виключити.

Приклад 2.2. Нехай зроблено п вимірів однієї й тієї ж величини:

  1. 0,36; 0,83; 0,89; 0,84; 0,37; 0,82; 0,95; 0,83; 0,88; 0,85 (п1 = 10); 0,852; 0,039.

  2. 7; 3; 9; 3; 6; 9; 8; 7; 12; 5; 9; 9; 3 (п2 = 14);

7,0; 2,72.

Якщо один з результатів вимірів відрізняється від на­стільки, що уявляється підозрілим (хпід.), то обчислюємо кількість стандартних відхилень, на яку хпід. відрізняється від .

= (0,95-0,86)/0,04 = 2,3;

= (12 – 7) / 2,72 = 1,84.

Потім знаходимо ймовірність α (зовні ) того, що нормальний вимір буде відрізнятися від х на t чи більше стандартних відхилень (додаток 5).

α (зовні ) = 1 – α (у межах ).

При tα =2,3 Р = 0,9786; при tα = 1,84 Р = 0,9342.

α1 = 1-Р = 1-0,9786 = 0,0214; α2= 1-0,9342 = 0,0658.

Одержане значення помножується на повну кількість вимірів п, щоб одержати N – кількість очікуваних вимірів, яка дає настільки ж погані результати, як хпід. .

N =п×α (зовні ) :

N1 = 10×0,0214 = 0,214; N2 =14×0,0658 = 0,92.

Якщо N менше 1/2, то хпід. не задовольняє критерію Шовене і підозрілі значення відкидаються, в противному разі - залишаються у виборці.

N1 = 0,214 < 0,5 ; N2 = 0,92 > 0,5 .

Отже, у першій виборці підозріле значення 0,95 виключається з вибірки, а значення 12 в другій виборці не виключається з неї.

Після того, як результат, який не задовольняє критерію Шовене, відкинуто, потрібно перерахувати та за даними, що залишились. У цьому випадку виходить значення , яке буде менше ніж первісне, і може, статись так, що з новим значен­ням деякі інші результати вимірів не будуть задовольняти крите­рію Шовене. Однак більшість авторитетних фахівців вважає, що критерій Шовене не повинен застосовуватись другий раз із викорис­танням перерахованих та .

Багато вчених вважають, що відкидання даних не може бути ви­правдане, поки не знайдеться зовнішнє свідотство того, що підозрі­лі дані невірні. Може бути, більш помірна позиція полягає в тому, що критерій Шовене слід використовувати для знайдення даних, які могли б при наймі розглядатись як кандидати для відкидання.