Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Tema_6.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
967.17 Кб
Скачать

Перевірка гіпотез про рівність дисперсій двох нормально розподілених сукупностей.

Нехай задано дві нормально розподілені сукупності. На підставі вибірок обсягом п1 і п2 із цих сукупностей потрібно перевірити гіпотезу Но: за альтернативної гіпотези Н1: . Статистичною характеристикою перевірки гіпотези Н0 буде вибіркова функція . При побудові відношення чисельника має бути не меншим від знаменника. Якщо гіпотеза Но правильна, то вибіркова функція має розподіл Фішера з п1-1 і п2-1 ступенями свободи. Критична область правостороння. Критичні значення знаходять за таблицею 8 розподілу Фішера.

Приклади розв’язування задач.

Задача 1.

Під час перевірки діаметрів 17 установочних кілець було здобуто такі числові характеристики: мм і мм2. Вважаючи, що розмір, який контролюється, має нормальний закон розподілу, перевірити гіпотезу Но: мм при Н1: мм, якщо .

Розв’язання. Стохастичною характеристикою гіпотези є вибіркова функція , яка розподілена за законом Стьюдента з п-1=17-1=16 ступенями свободи. Згідно з виглядом альтернативної гіпотези, критична область двостороння. Межа критичної області відшукали за таблицею 6 функції розподілу Стьюдента .

Обчислюємо реалізацію вибіркової функції

= .

-2,21 1,177 2,21

tкр tепп tкр

Реалізація вибіркової функції не належить до критичної області, і гіпотеза Но приймається.

Задача 2:

Із нормально розподіленої сукупності зроблено вибірку обсягом 15. За рівня значимості 0,02 перевірити гіпотезу Н0: при альтернативній гіпотезі , якщо .

Розв’язання. Оскільки 10<12 критична область лівостороння. =5,4 при 14 ступенях свободи (таблиця 8).

5,4 13,75

Uкр. Uемп.

Значення функції не належить критичній області. Отже, нульова гіпотеза приймається.

Задача 3:

На підприємстві розроблено два методи виготовлення виробів. Для перевірки цих методів на матеріалоємність зібрані дані про витрати сировини на одиницю продукції у процесі роботи обома методами. Витати сировини за застосування першого методу становили: 2,0; 2,7; 2,5; 2,9; 2,3; 2,6; а другого – 2,5; 3,2; 3,5; 3,8; 3,5. Вважаючи, що розподіл у сукупностях нормальний і дисперсії у сукупностях однакові, перевірити гіпотезу Но: , при Н1: , .

Розв’язання: Обчислимо числові характеристики двох вибірок: ; ; ; .

.

Знаходимо за таблицею 6 розподілу Стьюдента з =9 ступенями свободи, враховуючи, що критична область двостороння ≈2,26.

-3,258 -2,26 2,26

Zемп. Zкр. Zкр.

Отже, значення характеристики належить критичній області, і гіпотеза Но відхиляється.

Задача 4:

На двох токарних станках обробляли деталь. Відібрано дві проби: деталі, зроблені першим станком, п1=15 шт., і на другому п2=18 шт. За даними цих вибірок обчислено вибіркові дисперсії для кожного станка: і . Припускаючи, що розміри деталей мають нормальний закон розподілу, на рівні значимості вияснити чи можна рахувати, що станки мають різну точність.

Розв’язання:

Но: ( дисперсії розмірів деталей, що виробляються двома станками рівні)

Н1: (дисперсія більша для першого станка).

=

знаходимо за таблицею 7 розподілу Фішера з 14 і 17 ступенями свободи, врахувавши, що критична область правостороння: = .

1,37 2,31

Fемп. Fкр.

Так як не належить критичній області, то гіпотеза Но приймається, тобто дані не дозволяють вважати, що станки мають різну точність.

4. Перевірка правильності непараметричних статистичних гіпотез.

    1. Перевірка статистичних гіпотез відносно розподілів частот.

    2. Порівняння двох експериментальних розподілів.

    3. Критерій Пірсона

Критерій хі-квадрат ( ) один з найбільш часто використовуваних у дослідженнях, оскільки він дозволяє розв’язувати велику кількість різних задач, а також вихідні дані для нього можуть бути представлені у вигляді будь –якої шкали.

Критерій використовують у двох варіантах:

  1. розрахунок узгодження теоретичного розподілу і припущеного емпіричного; у цьому випадку перевіряється гіпотеза Но про відсутність відмінностей між теоретичним і емпіричним розподілом;

  2. розрахунок однорідності двох незалежних експериментальних вибірок; у цьому випадку перевіряється гіпотеза Но про відсутність відмінностей між двома емпіричними (експериментальними) розподілами.

Критерій побудований таким чином, що при повному співпаданні експериментального і теоретичного ( або двох експериментальних) розподілів величина =0, і чим більше відхилення між розподілами, тим більша величина емпіричного значення критерію. Основна розрахункова формула емпіричного значення критерію: , де fе – емпірична частота, fm – теоретична частота, k- кількість розрядів ознаки ( для варіаційного ряду – кількість елементів).

Для обчислення критичного значення критерію користуються таблицею значень критерію за числом ступенів свободи .

Якщо емпіричне значення обчислене за даними вибірки дорівнює критичному або менше за нього (при відповідній кількості ступенів свободи і рівні значимості), то це означає, що розбіжності між фактичними і теоретичними частотами випадкові. Якщо емпіричне значення більше за критичне, то це означає, що розбіжності між емпіричними і теоретичними частотами зумовлені не випадковими, а істотними причинами.

Для застосування критерію необхідно дотримуватись таких вимог:

  1. Вимірювання проводиться у довільній шкалі.

  2. Вибірки повинні бути випадковими і незалежними.

  3. Бажано, щоб обсяг вибірки був не меншим 20. Із збільшенням обсягу вибірки точність критерію підвищується.

  4. Теоретична частота для вибіркового інтервалу не повинна бути меншою за 5.

  5. Сума спостережень по всім інтервалам повинна дорівнювати загальній кількості спостережень.

  6. Таблиця критичних значень критерію розрахована для числа ступенів свободи, які кожен раз розраховуються за певними правилами.

Порівняння двох експериментальних розподілів.

На практиці частіше зустрічаються задачі, де потрібно порівняти два і більше розподіли між собою. Розглянемо типові варіанти задач, які передбачають порівняння експериментальні розподіли між собою. У таких задачах за допомогою критерію проводиться оцінка однорідності двох і більше незалежних вибірок і таким чином перевіряється гіпотеза про відсутність відмінностей між двома і більше експериментальними розподілами. Вихідні дані двох емпіричних розподілів для порівняння між собою можуть бути представлені різними способами. Найбільш простим є: у першій вибірці є два значення (числа) і у другій вибірці також два значення (числа) Критерій дозволяє порівнювати між собою три, чотири і більше число емпіричних значень. Для розрахунку у всіх цих випадках використовують різні модифікації формули емпіричного значення критерію, що дозволяє суттєва полегшити процес обчислення.

Задача: Проаналізувати чи однаковий рівень якості виробництва виробів на двох виробничих лініях, якщо на першій виробничій лінії з 100 виробів вищого ґатунку - 82, а на другій з 87 – 44.

Умову задачі можна представити у вигляді таблиці:

емпіричні частоти

теоретичні частоти

1 лінія

2 лінія

1 лінія

2 лінія

вищого ґатунку

А 82

В 44

А 67

В 58,29

нижчого ґатунку

C 18

D 43

C 33

D 28,71

Сума

100

87

100

87

Підраховуємо показник, який показує, яка частину виробництва нижчого ґатунку, за даними вибірки:

Обчислюємо теоретичні частоти і заносимо дані у таблицю.

Обчислюємо емпіричне значення критерію:

= =20,9

У даному випадку число степенів свободи , де підрахунок ведеться таким чином: добуток числа стовпців мінус 1 і числа рядків мінус 1.

для рівня значимості . Оскільки , то існують відмінності рівня якості виробництва виробів на двох виробничих лініях.

На основі емпіричних даних ми можемо зробити висновок, що рівень рівень якості виробництва виробів на першій лінії вищий.

Задача. (порівнюються дві вибірки, які мають по два значення)

У двох районах вивчали попит на товар А. У першому районі було опитано 20 осіб, у другому 15. Цікавило питання: у якому із попит на товар А вищий? Респонденти давали відповіді за номінативною шкалою – має попит (так), немає (ні).

Результати опитування представлені у вигляді таблиці:

1 школа

2 школа

сума

Число відповідей (так)

А 15

В 7

22

Число відповідей (ні)

С 5

D 8

13

Сума

20

15

, де

=

У даному випадку число степенів свободи =1.

. Оскільки , то можна стверджувати, про відсутність відмінностей між двома емпіричними розподілами. Таким чином попит на товар А в обох районах виявився однаковим.

Задача. (порівнюються дві вибірки, які мають по чотири значення кожна)

На двох підприємствах вивчається рівень якості виробництва. Для цього в обох підприємствах було випадковим способом відібрано 50 виробів і з ними проведено експертизу. Перевірялись припущення про те, що суттєвої різниці у якості виробництва товару не існує.

Результати контрольної роботи проведених у школах представлені у таблиці:

Підприємство

гатунок

Сума

вищий

перший

другий

брак

підприємство 1

Q11=3

Q12=19

Q13=18

Q14=10

50

підприємтсво 2

Q21=9

Q22=24

Q23=12

Q24=5

50

Сума

12

43

30

15

100

Емпіричне значення критерію обчислюється за формулою:

Число степенів свободи , , за таблицею 8 критичних значень критерію . Оскільки , то можна зробити висновок про відсутність відмінностей у рівні якості виробництва у двох підприємствах.

Зауваження.

У випадку коли число варіант у вибірках є достатньо великим, то у цьому випадку доцільно використовувати спеціальний прийом групування значень по інтервалам. Число інтервалів зручно отримати, користуючись таблицею:

Число варіант від-до

25-40

40-60

60-100

100-200

більше 200

Число інтервалів

5-6

6-8

7-10

8-12

10-15

Критерій Пірсона

Здійснює перевірку правильності непараметричних статистичних гіпотез.

Для того, щоб при заданому рівні значимості перевірити гіпотезу про нормальний закон розподілу генеральної сукупності потрібно:

  1. Обчислити вибіркове середнє і середнє квадратичне відхилення.

  2. Обчислити теоретичні частоти , де п – обсяг вибірки, h - крок (різниця між двома сусідніми варіантами), , .

  3. Порівняти емпіричні і теоретичні частоти за допомогою критерію Пірсона. Для цього обчислюють .

  4. За таблицею критичних точок розподілу , за заданим рівнем значимості і числом ступенів вільності ( де s – число груп вибірки) знаходять критичну точку правосторонньої критичної області.

  5. Якщо - немає підстав відхиляти гіпотезу про нормальний закон розподілу. Іншими словами теоретичні та емпіричні частоти відрізняються незначно. Якщо ж гіпотезу відхиляють.

Якщо ж розподілення задано у вигляді інтервалів однакової довжини і відповідних частот, то:

  1. Обчислюємо числові характеристики вибіркову середню та середнє квадратичне відхилення причому в якості варіанти

  2. Переходимо до випадкової величини і обчислюємо кінці інтервалів: та причому найменше значення z беруть за , а найбільше .

  3. Обчислюють теоретичні частоти , де п – обсяг вибірки, а - ймовірності попадання Х в інтервал (хі;хі+1), а Ф(х) – інтегральна функція Лапласа.

  4. Порівнюємо емпіричні і теоретичні частоти за допомогою критерію Пірсона.

Зауваження.

Малочисельні частоти ( ) слід об’єднати. У цьому випадку і відповідні їм теоретичні частоти також додають. Якщо відбувалось об’єднання частот, то для визначення числа степенів свободи за формулою слід за обрати число груп вибірки, які залишились після об’єднання частот.

Приклади розв’язування задач.

Задача1.

Використовуючи критерій Пірсона, для рівня значимості 0,05 перевірити гіпотезу про нормальний розподіл генеральної сукупності, для заданої вибірки обсягом 200.

Розв’язання:

Складемо розрахункову таблицю.

і

хі

пі

ui

φ(ui)

1

5

15

-1,62

0,1074

9,1

3,8

2

7

26

-1,20

0,1942

16,5

5,5

3

9

25

-0,77

0,2966

25,3

0,0

4

11

30

-0,35

0,3752

32,0

0,1

5

13

26

0,08

0,3977

33,9

1,8

6

15

21

0,51

0,3503

29,8

2,6

7

17

24

0,93

0,2589

22,0

0,2

8

19

20

1,36

0,1582

13,5

3,1

9

21

13

1,78

0,0818

7,0

5,2

22,2

  1. Обчислимо числові характеристики вибірки: середнє значення та середнє квадратичне відхилення: , .

  2. Обчислюємо теоретичні частоти, врахувавши, п=200, h=2, , за формулою .

  3. Обчислюємо .

За таблицею критичних точок розподілу для рівня значимості числа ступенів свободи знаходимо критичне значення .

  1. Оскільки , то гіпотезу про нормальний закон розподілу генеральної сукупності відхиляємо.

5. Елементи дисперсійного, кореляційного та регресійного аналізу.

    1. Однофакторний дисперсійний аналіз.

    2. Кореляційна залежність.

    3. Побудова лінійного рівняння регресії.

    4. Розрахунок вибіркового коефіцієнта кореляції.

Для статистичної оцінки взаємозв’язків між явищами та їх істотності при великій кількості спостережень застосовують дисперсійний аналіз.

Дисперсійний аналіз – це метод впливу одного чи кількох факторів, що одночасно діють на певну результативну ознаку. Його застосовують під час статистичної обробки даних, одержаних в результаті експерименту або спостереження, для виявлення впливу окремих факторів та їх взаємодії на результати експерименту. Цей метод базується на припущенні про те, що якщо на об’єкт (групу досліджуваних) впливає декілька незалежних факторів і їх вплив сумується, то загальну дисперсію значень ознаки, що характеризує об’єкт (групу досліджуваних), можна розкласти на суму дисперсій, що виникають в результаті впливу кожного окремого фактору, а також обумовлена випадковим впливом (загальна дисперсія). Порівняння дисперсій, що обумовлені впливом різних факторів, з випадковою (загальною) дисперсією дозволяє оцінити значимість внеску кожного фактора, тобто оцінити достовірність цих впливів.

В основі дисперсійного аналізу лежить припущення, що одні змінні розглядаються як причини, а інші як наслідки. У статистичних дослідженнях змінні, які розглядають як причини вважають факторами (незалежними змінними), інші змінні розглядають як наслідки – результативні ознаки (залежні змінні). Незалежні змінні іноді називають керованими факторами саме тому, що у експерименті є можливість варіювати ними і аналізувати отриманий результат.

Однофакторний дисперсійний аналіз для незалежних вибірок.

Но – середні величини досліджуваного результативного фактора однакові для всіх його градацій.

Н1 - середні величини досліджуваного результативного фактора різні для всіх його градацій.

Результати спостереження та обчислення статистичних оцінок зручно подати в упорядкованому вигляді такої таблиці.

Рівень фактора (групи)

Спостережуване значення та обчислення ознаки Х

Групові середні

Загальна середня

1

,

де

2

...

....

.....

р

Вид варіацій ознаки

Сума квадратів відхилень

Число ступенів свободи

Статистичні оцінки дисперсії

внутрішньогрупова

N-p

міжгрупова

р-1

загальна

N-1

Дисперсія - характеризує рівень розсіювання всередині групи (випадкова варіація ознаки). Дисперсія - характеризує розсіювання групових середніх (систематична варіація). Емпіричне значення критерію обчислюємо за формулою . Оцінку рівня значимості статистичної гіпотези здійснюємо за допомогою F критерію Фішера. Якщо , то нульову гіпотезу про відсутність впливу фактора на експериментальні дані приймаємо. Якщо , то приймаємо альтернативну гіпотезу про наявність впливу фактора на експериментальні дані.

Для застосування однофакторного дисперсійного аналізу слід дотримуватися таких вимог:

  1. Однофакторний дисперсійний аналіз вимагає не менше трьох рівнів фактора й менше двох спостережень на кожному рівнів.

  2. Результуюча ознака має бути нормально розподіленою в досліджуваній вибірці.

На практиці для проведення розрахунків зручно використовувати спрощені формули обчислення:

номер випробування

Рівень фактора

F1

F2

Fp

j

(1,2,..p)

, де + +....+ ; ;

+...+

, де + +...+ .

Зв’язок між ознаками може бути функціональним (повним) і кореляційним (статистичним). Функціональним називають такий зв’язок між ознаками, при якому кожному значенню однієї змінної (аргументу) відповідає строго визначене значення іншої змінної (функції).

У соціально-економічних явищах функціональні зв’язки між ознаками зустрічаються рідко. Тут частіше мають місце такі зв’язки між змінними величинами, при яких числовому значенню одних із них відповідають декілька значень інших. Такий зв’язок між ознаками одержав назву кореляційного (статистичного) зв’язку. Кореляційний зв’язок є неповним, він проявляється при великій кількості спостережень, при порівнянні середніх значень результативної і факторної ознак.

Розрізняють такі кореляційні зв’язки: прямолінійний і криволінійний, прямий і обернений, простий (визначення взаємозв’язків між двома ознаками) і множинний (визначення взаємозв’язків між трьома і більшою кількістю ознак) . Такий зв’язок виражається через відповідні математичні рівняння.

За допомогою методів кореляційного аналізу вирішуються дві основні задачі:

  1. визначення форм і параметрів рівняння зв’язку;

  2. визначення тісноти зв’язку.

Перша задача розв’язується знаходженням рівняння зв’язку і визначення його параметрів. Друга – за допомогою розрахунку різних показників тісноти зв’язку (коефіцієнта кореляції, індексу кореляції та інших).

Схематично кореляційний аналіз можна поділити на п’ять етапів:

  1. постановка задачі, встановлення наявності зв’язку між досліджуваними ознаками;

  2. відбір найбільш суттєвих факторів для аналізу;

  3. визначення характеру зв’язку, його напрямку і форми, підбір математичного рівняння для вираження існуючих зв’язків;

  4. розрахунок числових характеристик кореляційного зв’язку (визначення параметрів рівняння і показників тісноти зв’язку);

  5. статистична оцінка вибіркових показників зв’язку.

Кореляційний зв’язок - це узгоджені зміни двох ознак або більшої кількості ознак (множинний кореляційний зв’язок). Кореляційний зв’язок відображає той факт, що зміни однієї ознаки знаходяться у деякій відповідності зі змінами другої ознаки.

Кореляційна залежність – це зміни, які вносять значення однієї ознаки на ймовірність появи різних значень іншої ознаки.

Види кореляційного зв’язку: лінійна і нелінійна, додатна і від’ємна.

Ступінь (сила, тіснота) кореляційного зв’язку визначається за величиною коефіцієнта кореляції:

  1. сильний або тісний – більше 0,70;

  2. середній – від 0,50 до 0,69;

  3. помірний – від0,30 до 0,49;

  4. слабкий – від 0,20 до 0,29;

  5. дуже слабкий – менше 0,19;

  6. коефіцієнт кореляції дорівнює нулю, то зв’язок відсутній.

При парній лінійній залежності тіснота зв’язку визначається за допомогою лінійного коефіцієнта кореляції: , де , , , , .

Форма зв’язку

Рівняння регресії

Визначення параметрів рівняння

прямолінійний

, де

- вирівняні значення результативної ознаки (залежна змінна);

а – початок відліку або значення при х=0;

b – коефіцієнт регресії, який показує середню змінну результативної ознаки при зміні факторної ознаки на одиницю (одне значення). Якщо , то зв’язок прямий, якщо , то зв’язок зворотний, якщо , зв’язок відсутній.

криволінійний

Приклади розв’язування задач.

Задача1.

Отримано чотири партії сировини для текстильної промисловості. З кожної партії відібрано по п’ять зразків і проведено випробування на визначення величини навантаження для розриву сировини. Результати випробування наведено у таблиці.

Номер партії

Навантаження для розриву (кг/см3)

1

200

140

170

145

165

2

190

150

210

150

150

3

230

190

200

190

200

4

150

170

150

170

180

Необхідно дослідити, чи впливає відмінність різних партій сировини на величину навантаження для розриву.

Розв’язання: Для проведення розрахунків заповнимо розрахункову таблицю:

номер випроб

Номер партії

1

2

3

4

1

200

40000

190

36100

230

52900

150

22500

2

140

19600

150

22500

190

36100

170

28900

3

170

28900

210

44100

200

40000

150

22500

4

145

21025

150

22500

190

36100

170

28900

5

165

27225

150

22500

200

40000

180

32400

820

136750

850

147700

1010

205100

820

135200

середній показник

164

27350

170

29540

202

41020

164

27040

Обчислимо + +....+ ; 820+850+1010+820=3500;

=5+5+5+5=20;

+...+ =8202+8502+10102+8202=

=3087400/5=617480;

Тоді =617480-35002/20=4980.

+ +...+ =136750+147700+20100+135200=6247.

;

для рівня значимості 0,05. нульову гіпотезу відхиляємо. Отже, відмінності між партіями сировини мають вплив на величину навантаження для розриву.

Задача 2.

По 10 господарствах є дані щодо врожайності зернових культур і якості ґрунту. Потрібно провести кореляційно-регресійний аналіз зв’язку між двома ознаками – врожайністю і якістю ґрунту.

Для характеристики зв’язку необхідно визначити:

    1. форму зв’язку і математичне рівняння зв’язку, для чого побудувати графік кореляційної залежності (кореляційне поле) між врожайністю (у – результативна ознака і якість ґрунту (х – факторна ознака);

    2. параметри рівняння регресії;

    3. тісноту зв’язку (коефіцієнт кореляції).

Розв’язання:

Для визначення форми зв’язку між врожайністю (у) і якістю ґрунту (х) побудуємо графік – кореляційне поле. На осі абсцис нанесемо значення факторної ознаки (незалежної змінної – якості ґрунту) а на осі ординат – результативної ознаки (залежної змінної – врожайності).

Графік показує, що у цьому випадку зв’язок наближається до прямолінійного і його можна виразити рівняння прямої лінії: . Розв’язок цього рівняння регресії покаже зміну врожайності під впливом якості ґрунту при виключенні випадкових коливань ознаки.

Параметри рівняння прямої знайдемо з системи рівнянь

Всі необхідні для розв’язку системи рівнянь дані розрахуємо в таблиці 1.

Одержані дані підставимо в систему рівнянь:

Розв’язавши систему рівнянь отримаємо: , .

Рівняння регресії має вигляд: .

Коефіцієнт регресії показує, що при підвищенні якості ґрунту на 1 бал врожайність зернових культур в середньому по даній сукупності господарств збільшується на 0,9286 ц/га.

Таблиця 1.

№ п/п

Врожайність ц/га, у

Якість грунту, балів , х

Розрахункові величини

ху

у2

х2

Очікуване (розрахункове) значення врожайності, ц/га

1

28,0

79

2212,0

784,00

6241

27,84

2

21,0

70

1470,0

441,00

4900

19,48

3

27,6

80

2208,0

761,76

6400

28,77

4

16,2

71

1150,2

262,44

5041

20,40

5

29,7

77

2286,9

882,09

5929

25,98

6

26,8

77

2063,6

718,24

5929

25,98

7

30,3

84

2545,2

918,09

7156

32,48

8

15,7

66

1036,2

246,49

4356

15,77

9

25,5

74

1887,0

650,25

5476

23,20

10

15,8

67

1058,6

249,64

4489

16,70

Разом

236,6

745

17917,7

5914,00

55817

236,60

середній показник

23,66

74,5

1791,77

591,4

5581,7

23,66

За допомогою рівняння регресії можна розрахувати очікувані (розрахункові або теоретичні) значення врожайності при різних значеннях якості ґрунту (х). Для цього замість х підставимо його конкретні значення:

;

і т. д.

Визначимо тісноту зв’язку між досліджуваними ознаками (врожайністю і якістю ґрунту). Розрахуємо лінійний коефіцієнт кореляції. , де , , ,

, .

.

Коефіцієнт кореляції показує, що між врожайністю і якістю ґрунту існує тісний (сильний) зв’язок.

81

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]