
- •Елементи теорії ймовірностей та математичної статистики
- •Основні теореми теорії ймовірностей
- •Закони розподілу дискретної випадкової величини X
- •Закони розподілу неперервної випадкової величини X
- •Властивості m (X) для двв і для нвв:
- •Числові характеристики деяких законів розподілу
- •Вибірковий метод
- •Точкові статистичні оцінки (тсо) параметрів розподілу (міри центральної тенденції)
- •Інтервальні статистичні оцінки (ісо) параметрів розподілу
- •Елементи теорії кореляційного та регресійного аналізу.
- •Статистична перевірка статистичних гіпотез
- •Порівняння двох дисперсій нормальних гс
- •Порівняння двох середніх генеральних сукупностей, дисперсії яких відомі (великі незалежні вибірки).
- •Порівняння двох середніх нормальних генеральних сукупностей, дисперсії яких невідомі й однакові (малі незалежні вибірки).
- •Порівняння вибіркової середньої з гіпотетичною генеральною середньою нормальної сукупності за умови того, що дисперсія гс відома.
- •Порівняння вибіркової середньої з гіпотетичною генеральною середньою нормальної сукупності за умови того, що дисперсія гс невідома (мала вибірка).
- •Список літератури
Вибірковий метод
Вибірковий метод – проблематика, пов’язана з відбором одиниць вибірки, обчисленням характеристик вибірки та отримання статистичних висновків про сукупність об’єктів, з якої ця вибірка взята. Вказана сукупність об’єктів є генеральною сукупністю (ГС). Основна мета вибірки – здійснити статистичні висновки про характеристики ГС. Вид вибірки залежить від характеру послідовності процедур (алгоритму) відбору одиниць вибірки (елементів ГС). Розрізняють випадкову, систематичну, районовану, ступеневу, множинну та ін. вибірки [11]. Отже, вибірка (вибіркова сукупність) – сукупність випадково відібраних із ГС елементів (об’єктів) для дослідження її якісної чи кількісної ознаки. Обсяг вибірки n – це кількість елементів (об’єктів). Очевидно, що в загальному випадку n nг, де nг – обсяг ГС. Основна вимога до вибірки – вона повинна бути репрезентативною, тобто правильно відображати ті властивості ГС, що вивчаються.
З метою вивчення кількісної дискретної
ознаки X із ГС була відібрана
(добута) вибірка xi,
i
обсягу n. Спостерігаючі
(вимірювані) значення xi
ознаки X називаються
варіантами, а послідовність
варіант, записаних в зростаючому порядку,
– варіаційним рядом. Математична
модель об’єкту реальності, яка задана
у вигляді переліку варіант xi
(x1, x2,…,xk)
варіаційного ряду та відповідних їм
частот ni
(n1, n2,…,nk)
або відносних частот i
= ni
/ n називається
статистичним (емпіричним) розподілом
вибірки (СРВ). Очевидно, що частота
– кількість варіант,
=
n,
.
СРВ можна задати також у вигляді послідовності інтервалів і відповідних їм частот (частота інтервалу – сума частот варіант, які попали в цей інтервал). У даному випадку середини інтервалів приймаються як варіанти. Статистичні розподіли в залежності від даних, що отримані за певною шкалою, поділяються на [12]: варіаційні (шкала відношень або інтервалів), ранжирувані (порядкові чи рангові шкали), атрибутивні (номінальна шкала).
Емпіричною функцією розподілу дискретного варіаційного ряду (функцією розподілу вибірки, статистичної інтегральної функції розподілу) називають функцію F*(x), що визначає для кожного значення x відносну частоту події X x, тобто
F*(x) = nx / n,
де nx – число варіант, менших x; n – обсяг вибірки.
Функція F*(x) за властивостями аналогічна інтегральній (теоретичній) функції розподілу випадкової величини F(x) = P (X x), а саме: 0 F*(x) 1; F*(x) є функція неспадна; F*(x) = 0, якщо x менше за найменшу варіанту; F*(x) = 1, якщо x більше за найбільшу варіанту.
Побудова графіка F*(x) служить для оцінки теоретичної функції розподілу F(x) (функції розподілу генеральної сукупності). Для дискретного розподілу ознаки X будують полігон частот – ломану криву, відрізки якої з’єднують точки (xi, ni), i , а для неперервного розподілу ознаки X будують гістограму – фігура у вигляді сходинки, яка складається з прямокутників, основами яких служать часткові інтервали довжини h, а висоти рівні відношенню ni / h (густина частоти).
Точкові статистичні оцінки (тсо) параметрів розподілу (міри центральної тенденції)
ТСО – статистичні оцінки (показники), які визначаються одним числом. Зазначимо, що статистичні числові характеристики (параметри), які описують ГС це m, 2, V та ін. ТСО є характеристиками, які базуються на емпіричних моделях: вибіркова середня, вибіркова дисперсія тощо. Вказані емпіричні моделі є певним наближенням до теоретичних моделей, які описують закономірності ГС (математичне сподівання m, дисперсія 2 тощо).
Наявність чималої статистичної інформації
дає можливість отримати стійку статистичну
оцінку або статистику
(x1, x2,…,
xk) та
вірогідні репрезентативні висновки.
Закон розподілу статистики
в загальному випадку залежить від класу
закону розподілу випадкової величини
X, параметрів цього
закону, а також від повноти наших знань
про гіпотетичний закон розподілу.
Статистику
можна розглядати як випадкову величину,
яка характеризується числовими
характеристиками – початковими
та центральними емпіричними моментами
(вибіркове середнє, дисперсія, асиметрія,
ексцес та ін.). Ці характеристики є
статистичними точковими оцінками
невідомих параметрів
теоретичного
розподілу Ψ = Ψ (X,
Θ1, Θ2, …,Θp),
де X – дискретна
або неперервна випадкова величина. Якщо
вказані статистичні оцінки мають
властивості обґрунтованості (слушності),
незміщеності й ефективності, то вони
приймаються як приблизні оцінки основних
параметрів теоретичного розподілу
[10].
ТСО поділяють на дві групи: 1) незміщені (незсунені) – точкові оцінки, математичне сподівання яких дорівнює оцінюваному параметру при будь-якому обсягу вибірки; 2) зміщені (зсунені) – точкові оцінки, математичне сподівання яких не дорівнює оцінюваному параметру [7].
Незміщеною оцінкою математичного сподівання (генеральної середньої) m служить вибіркова середня (статистична середня):
,
де xi
– варіанта вибірки; ni
– частота варіанти xi
, n =
–
обсяг вибірки. Якщо ni
=1, то вибіркова середня
співпадає з середнім арифметичним
.
Зміщеною оцінкою генеральної дисперсії Dг служить вибіркова дисперсія
Dв =
.
Зміщення визначається співвідношенням: M[Dв] = (n – 1) / n Dг . Незміщена оцінка s2 генеральної дисперсії Dг – виправлена вибіркова дисперсія з поправкою Бесселя-Шеппарда n/(n – 1), тобто:
s2 = n / (n – 1) Dв ,
де = n –1 – число ступенів вільності.
Стандартне відхилення вибірки
(вибірковий
стандарт) визначається
як s
=
.
На практиці часто для швидкого оцінювання характеристики розсіювання випадкової величини X використовують наслідок “правилу трьох сигм”:
P (m –3 < X < m +3) = 2 (3) = 0,9973, а саме : s (xmax – xmin) / 6 .
Обчислення на практиці вибіркових середніх і дисперсії за вищенаведеними формулами раціонально також для рівновіддалених варіантів, наприклад для розподілу xi : 12, 14, 16, 18…; ni: 5, 15, 50, 16…. Проте існують розподіли вибірки з не рівновіддаленими варіантами, наприклад розподіл xi : 2, 3, 7, 9…; ni: 3, 5, 10, 6…. Тоді інтервал, в якому містяться всі варіанти вибірки, поділяють на декілька рівних, довжини h, часткових інтервалів, кожний з яких повинен містити не менше 8-10 варіант. Потім знаходять середини часткових інтервалів, які й утворюють послідовність рівновіддалених варіантів. Як частота кожної середини інтервалу приймають суму частот варіант, які попали у відповідний частковий інтервал. Далі обчислюють , Dв , s2 . Для зменшення помилки, що викликана групуванням (особливо при малому числі інтервалів), виконують поправку Шеппарда, за якою дисперсія обчислюється за формулою:
=
Dв – h2/12.
Рекомендуємо студентам самостійно опрацювати методи добутків і сум обчислення , Dв , s2 [7].
Варіаційний розмах – це різниця між максимальним і мінімальним значеннями варіант вибіркової сукупності
R = xmax – xmin .
Коефіцієнт варіації V використовується у разі порівняльної оцінки різноякісних вибіркових середніх і визначається як відношення стандартного відхилення до вибіркового середнього:
V = s / 100% .
Мода Мo – це найбільш представницьке значення вибірки, яке найчастіше трапляється серед емпіричних даних або значення з найбільшою частотою (nм = max). На графіку розподілу мода – це варіанта з максимальною частотою.
Медіана Мd – це значення, яке приходиться на середину упорядкованої послідовності емпіричних даних, причому для непарної кількості даних медіана визначається середнім елементом Мd = x(k+1)/2 , а для парної – визначається середнім значенням центральних сусідніх елементів:
Мd = (xk/2 + xk+1/2) / 2; P (X < Мd) = P (X > Мd) = 0,5.
Нормальний теоретичний розподіл N(m, 2) є “ідеальний”, тобто симетричний відносно середнього значення, а також є не загострений і не згладжений. Емпіричні функції розподілу, які репрезентують ГС, є несиметричні відносно його середнього (асиметрія Аx) і мають відносну опуклість або згладженість розподілу вибірки порівняно з нормальним розподілом (ексцес Еx):
Аx = (1/ ns3)
;
Еx = (1/ ns4)
.
На практиці розрахунок значень Аx і Еx, а також побудова відповідних графіків здійснюється за допомогою спеціальних комп’ютерних прикладних програм ( MS Excel, STATISTICA тощо) [2; 3].