Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Tema_6.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
967.17 Кб
Скачать

1. Статистичні розподіли вибірок та їх числові характеристики.

    1. Завдання математичної статистики.

    2. Дискретний статистичний розподіл вибірки.

    3. Інтервальний статистичний розподіл вибірки.

    4. Числові характеристики вибірки.

Математична статистика – наука, яка розв’язує такі завдання:

  1. вказує способи збору і групування статистичних відомостей, отриманих в результаті спеціально поставлених експертів;

  2. розробляє методи аналізу статистичних даних залежно від мети дослідження.

До таких методів належать:

а) оцінка невідомої ймовірності події;

б) оцінка невідомої функції розподілу;

в) оцінка параметрів розподілу, вид якого відомий;

г) оцінка залежності випадкової величини від однієї або кількох випадкових величин;

д) перевірка статистичних гіпотез про вид невідомого розподілу або про значення параметрів розподілу, вид якого відомий.

Завдання математичної статистики полягає в створенні методів збору і обробки статистичних даних для отримання наукових і практичних висновків.

Нехай потрібно вивчити сукупність однорідних об’єктів відносно деякої якісної або кількісної ознаки, яка характеризує ці об’єкти. Кількісні ознаки елементів генеральної сукупності можуть бути одновимірними і багатовимірними, дискретними і неперервними.

Вибірковою сукупністю (вибіркою) називають сукупність випадково відібраних об’єктів. Генеральною сукупністю називають сукупність об’єктів, з яких проводиться вибірка. Обсягом сукупності (випадкової або генеральної) називають число об’єктів цієї вибірки.

Коли реалізується вибірка, кількісна ознака (Х) набуває конкретних числових значень, які називаються варіантами. (Х= хі). Зростаючий числовий ряд варіант називають варіаційним. Кожна варіанта вибірки може бути спостереженою пі раз (пі≥1) число пі називають частотою варіанти хі. При цьому , де к – кількість варіант, що різняться числовим значенням, п – обсяг вибірки.

Відносна частота: , .

Дискретний статистичний розподіл.

Перелік варіант варіаційного ряду і відповідних їм частот або відносних частот, називають дискретним статистичним розподілом вибірки.

Способи задання.

Табличний

Х=хі

х1

х2

...

хк

пі

п1

п2

...

пк

ωі

ω1

ω2

...

ωк

Аналітичний: задати емпіричну функцію .

Функція аргументу х, що визначає відносну частоту події , тобто , називається емпіричною, або комулятою (функцією нагромадження відносних частот).

п- обсяг вибірки, пх – кількість варіант статистичного розподілу вибірки, значення яких менше за фіксовану варіанту х..

Властивості емпіричної функції :

1) ;

2) , де хmin – найменша варіанта варіаційного ряду;

3) , де хmах – найбільша варіанта варіаційного ряду;

4) неспадна функція.

Графічний: полігон частот і відносних частот.

Дискретний статистичний розподіл вибірки можна зобразити графічно у вигляді ламаної лінії, відрізки якої сполучають координати точок (хі;пі) ( полігон частот), або (хіі) (полігон відносних частот).

Числові характеристики вибірки:

  1. вибіркова середня: ;

  2. відхилення варіант: ;

  3. модою ( ) дискретного статистичного розподілу називають варіанту, що має найбільшу частоту появи;

  4. медіаною ( ) дискретного статистичного розподілу вибірки називають варіанту, яка поділяє варіаційний ряд на дві частини, рівні за кількістю варіант;

  5. дисперсія: або

  6. середнє квадратичне відхилення: ;

  7. розмах R=хmах -хmin;

  8. коефіцієнт варіації використовують для порівняння оцінок варіацій статистичних рядів із різними значеннями , які не дорівнюють нулеві.

Інтервальний статистичний розподіл:

Якщо досліджується ознака генеральної сукупності Х, яка є неперервною, то варіант буде багато. У цьому випадку варіаційний рід – це певна кількість рівних або нерівних частинних інтервалів чи груп варіант зі своїми частотами. Такі частинні інтервали варіант, які розміщені у зростаючій послідовності, утворюють інтервальний варіаційний ряд. На практиці для зручності розглядають інтервальні варіаційні ряди, у котрих інтервали є рівними між собою.

Перелік часткових інтервалів і відповідних їм частот або відносних частот, називають інтервальним статистичним розподілом вибірки.

Способи задання.

  • У табличній формі цей розподіл має такий вигляд:

h

х12

х23

...

хк-1к

пі

п1

п2

...

пк

ωі

ω1

ω2

...

ωк

hii-1 є довжиною і-го інтервалу. Цей інтервал береться однаковим.

  • Графічно у вигляді гістограми частот або відносних частот.

Гістограма частот або відносних частот є фігура, яка складається з прямокутників, кожний з яких має основу h і висоту (частот) або (відносних частот).

  • При побудові емпіричної функції (комуляти) для інтервального статистичного розподілу вибірки за основу береться припущення, що ознака на кожному частинному інтервалі має рівномірну щільність ймовірностей. Тому комулята матиме вигляд ламаної лінії, яка зростає на кожному частковому інтервалі і наближається до одиниці.

(пх - сума частот варіант, що менші за хі)

Медіана.

Для визначення медіани інтервального статистичного розподілу вибірки необхідно визначити медіанний частковий інтервал. Якщо, наприклад, на і –му інтервалі хi-1i і , то беручи до уваги, що досліджувана ознака Х є неперервною і при цьому є неспадною функцією, то всередині інтервалу хi-1i неодмінно існує таке значення Х=Ме, де .

, де де хі-1 – початок медіанного інтервалу;

h – довжина, або крок, часткового інтервалу; та значення емпіричної функції на кінцях медіанного інтервалу.

Мода.

Для визначення моди інтервального статистичного розподілу необхідно знайти модальний інтервал, тобто такий частинний інтервал, що має найбільшу частоту появи.

Використовуючи лінійну інтерполяцію, моду обчислюють за формулою:

,

де хі-1 – початок модального інтервалу;

h – довжина, або крок, часткового інтервалу;

пМочастота модального інтервалу;

пМо-1 – частота домодального інтервалу;

пМо+1частота післямодального інтервалу.

Приклади розв’язування задач:

Задача 1.

За заданим інтервальним статистичним розподілом вибірки обчислити середнє значення, дисперсію та середнє квадратичне відхилення.

хіі+1

1-1,2

1,2-1,4

1,4-1,6

1,6-1,8

1,8-2

2-2,2

2,2-2,4

2,4-2,6

2,6-2,8

2,8-3

3-3,2

пі

5

12

18

22

36

24

19

15

11

9

2

Розв’язання:

Побудуємо дискретний статистичний розподіл за заданим інтервальним. Оскільки h=0,2, то дістанемо:

хі

1,1

1,3

1,5

1,7

1,9

2,1

2,3

2,5

2,7

2,9

3,1

пі

5

12

18

22

36

24

19

15

11

9

2

.

Задача 2.

За даним інтервальним статистичним розподілом вибірки визначити моду та медіану.

хіі+1

0-4

4-8

8-12

12-16

16-20

20-24

пі

6

14

20

25

30

5

Розв’язання:

Визначаємо модальний інтервал, який дорівнює 16-20.

Застосовуючи формулу , де h=4, пМо=30,

пМо-1=25, пМо+1 =5.

Медіанний інтервал дорівнює 12-16. беручи до уваги, що , , h=4 і застосовуючи формулу отримали:

2. Статистичні оцінки параметрів генеральної сукупності.

    1. Точкові статистичні оцінки параметрів генеральної сукупності.

    2. Інтервальні статистичні оцінки генеральної сукупності.

    3. Побудова довірчого інтервалу.

Статистична оцінка , яка визначається одним числом, точкою, називають точковою.

Основні властивості точкових статистичних оцінок:

  • Незміщеною називають статистичну оцінку, математичне сподівання якої дорівнює оцінюваному параметру прибудь-якому обсязі вибірки, тобто . Якщо , то статистична оцінка називається зміщеною.

  • Оцінка параметра називають спроможною, якщо вона підпорядковується закону великих чисел, тобто при наближається за ймовірністю до шуканого параметра: . Спроможність оцінки означає, що чим більший обсяг вибірки, тим більша ймовірність того, що помилка оцінки не перевищить скільки завгодно малого додатнього числа .

  • Ефективною називають таку незміщену оцінку , яка має найменшу дисперсію серед усіх можливих незміщених оцінок параметра , обчислених за вибірками такого самого обсягу.

  • Оцінка називається достатньою (вичерпною), якщо вона включає всю інформацію, яка міститься у вибірці відносно шуканого параметра .

- незміщена оцінка генеральної середньої, обґрунтована і ефективна оцінка.

- є точковою зміщеною статистичною оцінкою для , де - коефіцієнт зміщення, який зменшується зі збільшенням обсягу вибірки п.

Для генеральної дисперсії точковою незміщеною статистичною оцінкою є виправна дисперсія . Величину називають виправленим середнім квадратичним відхиленням, яке є зміщеною точковою оцінкою для генерального середнього квадратичного відхилення.

Статистична оцінка, що визначається двома числами, кінцями інтервалів, називають інтервальною. Різниця між статистичною оцінкою та її оцінюваним параметром , взята за абсолютним значенням, називають точністю оцінки, а саме: , де - точність оцінки.

Оскільки є випадковою величиною, то і буде випадковою, тому нерівність справджуватиметься з певною ймовірністю.

називають надійністю.

.

Інтервал що покриває оцінюваний параметр генеральної сукупності з заданою надійністю називають довірчим.

Побудова довірчого інтервалу для генеральної середньої при відомому значенні генерального середнього квадратичного відхилення із заданою надійністю .

, , ознака генеральної сукупності Х має нормальний закон розподілу.

- називають точністю оцінки, або похибкою вибірки.

Побудова довірчого інтервалу для середнього значення генеральної сукупності при невідомому значенні середнього квадратичного відхилення генеральної сукупності із заданою надійністю .

Для малих вибірок для оцінювання неможливо скористатись нормальним законом розподілу. Тому для побудови довірчого інтервалу застосовується випадкова величина , що має розподіл Стьюдента з ступенями свободи.

Довірчий інтервал: , де - визначають за таблицею 5 розподілу Стьюдента .

Приклади розв’язування задач:

Задача 1.

Вимірявши 40 випадково відібраних після виготовлення деталей, знайшли вибіркову середню, що дорівнює 15 см. Із надійністю =0,99 побудувати довірчий інтервал для середньої величини всієї партії деталей, якщо генеральна дисперсія дорівнює 0,09 см2.

Розв’язання: Для побудови довірчого інтервалу необхідно знати: , , п, t.

=15 см, = = см, п=40. Оскільки =0,99, то t=2,58 (за таблицею 2 значень інтегральної функції Лапласа)

см. см.

. Отже, з надійністю 0,99 (99%) оцінюваний параметр перебуває усередині інтервалу

Задача 2:

Якого значення має набувати надійність оцінки , щоб за обсягу вибірки п=100 похибка її не перевищувала 0,01 при .

Розв’язання:За умовою задачі =δ, Отже .

Оскільки , то .

Задача 3.

Визначити обсяг вибірки п, за якого похибка вибірки має значення і гарантується з ймовірністю 0,999, якщо .

Розв’язання: За умовою задачі , , =0,01.

Отже , = .

Задача 4.

Випадково відібрана партія з двадцяти приладів була випробувана щодо терміну безвідмовної роботи кожного з них. Результати випробувань наведено у вигляді дискретного статистичного розподілу.

хі

100

170

240

310

380

пі

2

5

10

2

1

З надійністю =0,99 побудувати довірчий інтервал для середнього часу безвідмовної роботи приладу.

Розв’язання: Для знаходження довірчого інтервалу необхідно знайти та s.

= . D= -(222,5)2=4348,75.

Виправлене середнє квадратичне відхилення = .

За таблицею 5 значень розподілу Стьюдента за заданою надійністю і числом ступенів свободи знаходимо значення . За отриманими даними обчислюємо:

год.

год.

Отже, з надійністю можна стверджувати, що середнє значення генеральної сукупності буде міститися в інтервалі .

3. Перевірка статистичних гіпотез.

    1. Статистична гіпотеза.

    2. Нульова і альтернативна гіпотеза.

    3. Область прийняття гіпотези. Критична область.

    4. Перевірка гіпотези про математичне сподівання нормально розподіленої сукупності.

    5. Перевірка гіпотези про дисперсію нормально розподіленої сукупності.

    6. Перевірка гіпотези про істотність різниці математичних сподівань двох нормально розподілених сукупностей.

    7. Перевірка гіпотез про рівність дисперсій двох нормально розподілених сукупностей.

Під гіпотезою розуміють деяке наукове припущення про властивості досліджуваних явищ, яке потребує перевірки та доказів.

Статистичною гіпотезою називають припущення відносно параметрів або форми розподілу генеральної сукупності, яке перевіряється на основі даних вибіркового спостереження.

У ході перевірки статистичної гіпотези необхідно встановити, чи узгоджуються дані спостереження з висунутою гіпотезою, чи можливо відмінності між гіпотезою і результатами спостереження віднести до випадкових або ж ці відмінності викликані впливом яких-небудь систематично діючих причин. У разі перевірки гіпотеза або приймається або відхиляється.

Нульова гіпотеза (гіпотеза, що перевіряється) – це гіпотеза про відсутність відмінностей. Позначається Но. Нульова гіпотеза це те, що хочуть спростувати, якщо стоїть задача довести значимість відмінностей.

Альтернативна (конкуруюча) гіпотеза це гіпотеза про значимість відмінностей. Позначається Н1. Це те, що хочуть довести, тому її іноді називають експериментальною гіпотезою.

В результаті перевірки статистичної гіпотези, основаної на даних вибірки обмеженого обсягу, можна відхилити і прийняти нульову гіпотезу (відповідно вибіркові дані суперечать і узгоджуються з Но). Звідси видно, що перевірка статистичних гіпотез зв’язана з ризиком прийняття помилкових рішень.

Можливі результати перевірки нульової гіпотези.

Результати перевірки Но

Можливий стан гіпотези, що перевіряється

правильна гіпотеза Но

правильна гіпотеза Н1

Но відхиляється

Помилка першого роду

Правильне рішення

Но - приймається

Правильне рішення

Помилка другого роду

Ймовірність зробити помилку першого роду (невиправдане відхилення Но) отримала назву рівня значущості і позначається . Ймовірність зробити помилку другого роду ( прийняття неправильної гіпотези ) позначається .

Найбільш часто встановлюють рівень значимості 0,05 і 0,01. Рівень значимості означає, що в середньому в 5 випадках із 100 є ризик допустити помилку першого роду, тобто відхилити правильну гіпотезу Но.

Для перевірки нульової гіпотези і прийняття висновку про сумісність вибіркових даних з висунутою гіпотезою використовують спеціальні статистичні критерії, які являють собою зведення правил, за якими гіпотеза, що перевіряється, або приймається, або відхиляється. Для кожного виду гіпотез, що перевіряються, розроблені спеціальні критерії.

У більшості можливих значень вибраного критерію можна виділити дві підмножини, які не перетинаються, одна з яких містить значення критерію, а друга ні. Перша підмножина називається критичною областю, а друга областю допустимих значень (область прийняття рішень).

Критичною областю називають ті значення критерію, при яких нульова гіпотеза відхиляється. Областю допустимих значень (областю прийняття рішень Но) називають сукупність значень критерію, що виконуються, при яких нульова гіпотеза приймається.

Точки, які відділяють критичну область від області допустимих значень, називають критичними точками (Ккр).

Емпіричним критерієм (спостережуваним) називають те значення критерію, яке обчислюється за вибіркою (Кемп.).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]