- •Основні поняття математичної статистики
- •Побудова полігонів, гістограм за вибіркою з генеральної сукупності.
- •Побудова кумулятативної кривої. Знаходження числових характеристик вибірки
- •Статистична функція розподілу частот. Кумулятативна крива.
- •2.Числові характеристики вибірки (для дискретної ознаки).
- •Хід роботи
- •Хід роботи
- •Знаходження точкових та інтервальних оцінок параметрів генеральної сукупності за вибіркою (неперервна ознака). Побудова статистичної кривої розподілу.
- •Числові характеристики вибірки (для неперервної ознаки) .
- •Статистичне оцінювання параметрів розподілу (оцінка параметрів генеральної сукупності за вибіркою)
- •Статистичні методи вивчення залежностей між випадковими величинами.
- •Знаходження параметрів вибіркового рівняння прямої лінії регресії.
- •Знаходження статистичного (вибіркового) коефіцієнта кореляції.
- •Статистична перевірка гіпотез
- •1. Статистичні гіпотези та їх різновиди.
- •Приклади статистичних гіпотез
- •2. Похибки перевірки гіпотез.
- •3. Критерії узгодження для перевірки гіпотез.
- •Якщо критичні точки симетричні відносно нуля, то маємо
- •4. Перевірка гіпотези про нормальний закон розподілу. Критерій Пірсона.
- •Хід виконання завдання
- •Звіт до лабораторної роботи (зразок оформлення)
Дрогобицький державний педагогічний університет
імені Івана Франка
Кафедра інформатики та обчислювальної математики
МЕТОДИЧНІ РЕКОМЕНДАЦІЇ
до виконання самостійної розрахункової роботи
«Методи математичної статистики»
Дрогобич
Методи математичної статистики. - Методичні рекомендації до виконання самостійної розрахункової роботи.
Пазюк Р.І.- Дрогобич, 2016.
У посібнику описані теоретичні відомості та дані вказівки до виконання самостійної розрахункової роботи з методів математичної статистики.
Завдання розрахункової роботи можна виконувати також в середовищі Microsoft Excel. Таку можливість дають статистичні функції з категорій функцій та пакет аналізу з надбудов, які під’єднуються до електронних таблиць. Зрештою, MS Excel з пакету MS Office – один з найпоширеніших прикладних пакетів і студенти знайомі з ним із курсу інформатики.
© Пазюк Р.І., 2016.
Основні поняття математичної статистики
а) Генеральна сукупність і вибірка
Існує багато означень поняття "математична статистика", але всі вони по суті зводяться до одного:
“Математична статистика” — наука, яка займається розробкою методів одержання, опису і аналізу статистичних даних з метою вивчення закономірностей масових явищ.
Статистичні дані – це результат обстеження певної кількості об'єктів або явищ. Тому математична статистика має справу з масовими явищами.
Методи аналізу масових явищ — предмет багатьох наук, але, коли для аналізу застосовують формальні (абстрактні) математичні моделі, ці методи стають статистичними.
Сучасна математична статистика поділяється на дві широкі галузі: описову і аналітичну.
Виявлення закономірностей досліджуваного явища можливе тільки при порівнянні результатів експериментів, здійснених над різними об'єктами у різних умовах. Таке порівняння можливе лише у тому випадку, якщо результати дослідів за допомогою математичної статистики представлені у компактній формі, зручній для зберігання, передачі і подальшого аналізу. Цими завданнями займається описова статистика.
Аналітичну статистику інколи називають теорією статистичних висновків, її завдання полягає в обробці даних, отриманих внаслідок експерименту, у формулюванні висновків, які мають прикладне значення.
Основна мета, яку прагне досягнути кожна наука, полягає у пізнанні деяких загальних закономірностей, що дають можливість передбачати появу явищ і зорієнтувати у типових ситуаціях.
В основі наукових знань лежить спостереження. Одиничне спостереження може нести багато особливостей, властивих тільки тому одиничному об'єкту, що досліджується, і не може відобразити загальної природи явища.
Так, наприклад, в основі фізичних процесів лежить рух елементарних частинок, атомів, молекул, їх кількість нескінченна. Тому аналіз руху однієї молекули або атома не дає загальної картини. Масовість характерна і для суспільного життя. Ріст населення земної кулі веде до збільшення у декілька разів супутніх соціально-економічних і інших процесів. Для дослідження таких процесів створено метод пізнання, який базується на масовості явищ, що вивчаються, і він називається статистичним.
Усі статистичні дослідження можна умовно поділити на такі етапи:
формулювання завдання дослідження та визначення обсягу елементів експерименту;
збирання необхідних даних та їх систематизація. (До методів збирання належать: спостереження, порівняння, усне та письмове анкетування, тощо. До методів систематизації належать: зведення та групування результатів спостереження);
обробка статистичного матеріалу та його вивчення. Формулювання висновків. (Аналіз зведення і перетворення даних).
Статистичне дослідження, при якому обстежується кожний об’єкт сукупності за певною ознакою, називається суцільним. Але на практиці суцільне обстеження проводять, як правило, рідко. Іноді це неможливо зробити фізично (сукупність має велику кількість об’єктів), іноді обстеження об’єктів пов’язані з їхнім знищенням (наприклад, перевірка електронного устаткування на тривалість роботи) або вимагає великих матеріальних затрат. У таких випадках з усієї сукупності випадково відбирають обмежену кількість об’єктів, які підлягають обстеженню. Таке обстеження називають несуцільним.
Уся статистична сукупність, з якої відбирається частина для дослідження, утворює генеральну сукупність. Об’єкти, довільно відібрані із генеральної сукупності, утворюють вибірку. Обсягом сукупності (вибіркової чи генеральної) називають кількість об’єктів цієї сукупності.
Основною вимогою, яка ставиться до вибірки, є її репрезентативність, тобто, об’єкти вибірки повинні правильно відображати властивості об’єктів генеральної сукупності. Це досягається у тих випадках, коли вибірка є випадковою. Побудова такої вибірки потребує виконання певних умов:
кожний об’єкт генеральної сукупності повинен мати однакові шанси потрапити у вибірку;
всі n вимірів, які утворюють вибірку, повинні бути незалежні, тобто результати кожного вимірювання не повинні залежати від попередніх.
Існують два основних методи відбору об’єктів із генеральної сукупності у вибірку: повторний і безповторний.
При повторному відборі кожний об’єкт після вимірювання значень ознаки повертається у генеральну сукупність. При цьому стан генеральної сукупності перед кожним новим вимірюванням відновлюється і умова незалежності завжди виконується.
При безповторному відборі після вимірювання об’єкт не повертається у генеральну сукупність. У цьому випадку співвідношення значень ознаки у цій частині генеральної сукупності, що залишилась, змінюється, і тому вимірювання не є незалежними, тобто безповторний відбір не є випадковим.
Але дуже часто обсяг генеральної настільки великий, що при зменшенні його на невеликий обсяг вибірки, стан її практично не змінюється. При нескінченій генеральній сукупності різниця між повторним і безповторним відбором зникає.
На практиці застосовують різні способи отримання випадкових вибірок.
1. Простий випадковий відбір.
2. Спосіб жеребкування. Для відбору m об'єктів із генеральної сукупності обсягу п виписують номери від 1 до n на окремих картках.
Картки ретельно перемішують і довільно виймають одну з них, наприклад, із номером 9. Тоді дев'ятий об'єкт генеральної сукупності беруть для обстеження і т.д. m разів. Коли картку кожного разу повертають у пачку і знову їх перемішують, то такий відбір буде повторний. Якщо картку не повертають у пачку, то такий відбір — безповторний.
3. Використання таблиці випадкових чисел. Для генеральних сукупностей великого обсягу користуються готовими таблицями „випадкових чисел”, у яких числа розміщені у випадковому порядку. Такі таблиці можна знайти у статистичних довідниках.
Наприклад, щоб вибрати із сукупності обсягом n = 1000 вибірку обсягом m = 30, кожному об'єкту генеральної сукупності присвоюють порядковий номер від 1 до 1000. Потім відкривають таблицю на довільній сторінці і виписують підряд 30 чисел. У вибірку попадають ті об'єкти генеральної сукупності, номери яких збігаються з цими числами. Якщо серед виписаних чисел є таке, що перевищує числове значення обсягу вибірки, то його просто пропускають. Так само поступають і у випадку безповторної вибірки, коли випадає число, що вже використовувалось.
4. Механічний відбір. Генеральну сукупність ділять на групи, кількістю рівною обсягу вибірки, а потім із групи випадково вибирається один об'єкт. Наприклад, вибирається кожний 10-й; кожний 100-й.
5. Типовий відбір. Коли об'єкти відбираються не з усієї генеральної сукупності, а з певної її типової частини. Типовими ознаками можуть бути: місце проживання, професія, вік, тощо.
6. Серійний відбір. З генеральної сукупності об'єкти відбираються не по одному, а серіями. Наприклад, для оцінки успішності учнів випускних класів міста, перевіряють не окремих учнів, а випадково вибрані класи різних шкіл.
7. Комбінований спосіб відбору. Поєднують певним чином розглянуті вище способи відбору. Наприклад, іноді доцільно генеральну сукупність розбити на серії однакового обсягу, потім простим випадковим відбором вибрати кілька серій і, нарешті, з кожної серії простим випадковим відбором вибрати окремі об’єкти.
б) Статистичні ряди розподілу частот та їх графічні представлення
Початковим матеріалом будь-якого статистичного аналізу є сукупність результатів спостережень. На практиці статистичне дослідження проводять за певними характеристиками або ознаками. Так, у дослідженні соціологів зустрічаються такі ознаки, як професія, вік, стан матеріального забезпечення тощо. Ознаки поділяються на якісні і кількісні.
Якісні ознаки досліджуваний об'єкт може мати, а може не мати. Вони не піддаються безпосередньому вимірюванню (наприклад, спеціальність, кваліфікація, національність, колір і ін.).
Кількісні ознаки є результатом вимірювання або підрахунку. Відповідно вони поділяються на дискретні і неперервні.
Кількісні дискретні ознаки можуть набувати окремих значень із деякої послідовності чисел (наприклад: кількість балів, кількість учнів, розмір взуття і т.п.).
Кількісні неперервні ознаки можуть набувати будь-яких значень у певному інтервалі (наприклад: зріст учнів, швидкість pyxу і т.п.).
Нехай вивчається деяка випадкова величина Х, закон розподілу якої невідомий. З цією метою над Х проводиться ряд незалежних дослідів (вимірювань), результат яких записують в таблицю (див. табл.1 до звіту лаб. роботи), де і – номер досліду, хі – результат досліду, n – обсяг вибірки.
Статистичним рядом називають таблицю, в якій містяться номери і результати дослідів. Результати записані в порядку їх реєстрації, важко споглядати і досліджувати. Тому задачею статистичного опису вибірки є одержання такого її представлення, який дозволить виявити характерні особливості вихідних даних.
Нехай експериментальний матеріал описує реалізацію випадкової величини Х.
Спостережувані значення хі ознаки Х називаються варіантами, а послідовність варіант, які записані в зростаючому порядку, називається варіаційним рядом.
Число появ значення хі називають абсолютною частотою mі, а число mі/n=wі – відносною частотою.
Статистичним дискретним рядом розподілом або статистичним розподілом частот для даної вибірки називають сукупність варіант і відповідних їм частот (абсолютних чи відносних), що представляють таблицею частот (див. табл.3 і 4).
Полігоном (многокутником) абсолютних чи відносних частот називається ламана, відрізки якої з’єднують точки (хі,mі),...,(хк,mк) чи (хі,wі),...,(хк,wк)
Див. крок 4 пункти а) та б).
Якщо
випадкова величина Х – неперервна, то
весь діапазон спостережуваних даних
поділять на інтервали і підраховують
кількість значень mі,
що попадають на даний інтервал, тобто
визначають абсолютні частоти
спостережуваних даних, що попадають в
певний інтервал. Відповідно визначають
відносні частоти mі/n=wі,
причому
,
а
.
Одержані інтервали і відповідні їм частоти (абсолютні чи відносні) записують у вигляді таблиці, яка називається інтервальним статистичним рядом розподілу.
Інтервальні статистичні ряди розподілу будуються і для дискретних випадкових величин, коли кількість варіант велика.
Зауваження. При побудові такого ряду розглядають інтервали однакової довжини h. Кількість інтервалів можна визначити за одним із співвідношень:
n,
або k=[1+3,322
n],
де n
– об’єм вибірки.
Кількість інтервалів можна задати і самому.
Довжина
інтервалу обчислюється за формулою
,
де
та
– відповідно
найбільше і найменше значення варіанти,
к
– кількість інтервалів.
Інтервальний статистичний ряд розподілу, представлений графічно, називається гістограмою.
Іншими словами, гістограма – стовпчаста фігура (діаграма), яка складається з прямокутників, основами яких є частинні інтервали довжиною h, а висоти дорівнюють hi=mi/h (щільність абсолютної частоти), hi=wi/h (щільність відносної частоти).
Приклади гістограм див. в пунктах а) та б) кроку 5.
Очевидно,
площа гістограми абсолютних частот
дорівнює об’єму вибірки, бо
, а площа гістограми відносних частот
дорівнює 1, бо
.
Гістограму і полігон частот вибіркового (статистичного) розподілу можна використовувати для підбору моделі розподілу випадкової величини Х. Розподіл вибірки, що задається дискретним статистичним рядом відносних частот, називається емпіричним розподілом випадкової величини Х.
ЗАВДАННЯ. Здійснити дві вибірки обсягами n=30 для вивчення загальних характеристик двох кількісних ознак – це розмір взуття (дискретна) та зріст учня (неперервна) згідно деякої закономірності, зафарбувавши вибрані комірки таблиці даних генеральної сукупності.
