- •Львівський державний університет безпеки життєдіяльності
- •Статистичний аналіз
- •1. Основні поняття математичної статистики
- •Оцінки невідомих параметрів розподілу
- •Точкові оцінки.
- •Точкові оцінки математичного сподівання, дисперсії та середнього квадратичного відхилення.
- •Інтервальні оцінки параметрів розподілу
- •2.4. Розподіл - «хі-квадрат»
- •Розподіл Стьюдента
- •Розподіл Фішера-Снедекора
- •Інтервальні оцінки математичного сподівання і середнього квадратичного відхилення випадкової величини, яка розподілена за нормальним законом.
- •2.7.1 Інтервальні оцінки математичного сподівання
- •2.7.2. Інтервальні оцінки середнього квадратичного
- •3. Статистична перевірка гіпотез
- •3.1. Статистичні гіпотези та їх різновиди
- •3.2. Похибки перевірки гіпотез
- •3.3.Статистичний критерій перевірки основної гіпотези
- •3.4. Критична область
- •3.5. Знаходження критичних областей
- •3.6. Порядок дій при перевірці статистичних гіпотез
- •3.7. Критерій узгодження Пірсона
- •Перевірка гіпотез про параметри нормального розподілу
- •Гіпотези про математичні сподівання
- •Перевірка гіпотези про значення математичного сподівання за відомої дисперсії
- •Перевірка гіпотези про рівність дисперсій двох незалежних випадкових величин
- •Однофакторний дисперсійний аналіз
- •5. Основні поняття кореляційного та регресійного аналізу
- •Статистичний опис системи двох випадкових величин
- •Вибірковий коефіцієнт кореляції
- •Основні поняття і методи регресійного аналізу
- •Додатки Додаток 1 Значення функції
- •Значення функції Лапласа .
- •Визначається рівністю , .
- •Додаток 6
Основні поняття і методи регресійного аналізу
Якщо кореляційний аналіз досліджує наявність і характер зв’язку між випадковими величинами і , то регресійний аналіз встановлює аналітичну форму цієї залежності.
Нехай — незалежна змінна (факторна ознака), а — залежна змінна (результативна ознака) і припустимо, що:
розподіл результативної ознаки генеральної сукупності — нормальний ;
дисперсія результативної ознаки не залежить від факторної ознаки
між результативною та факторною ознаками існує лінійний зв’язок.
Ці обмеження приводять до дослідження найпростішої регресійної моделі — лінійної регресії, коли вибіркове рівняння регресії має вигляд:
(5.14)
В цьому випадку
точкові оцінки параметрів
і
справджують основні вимоги до точкових
оцінок, які описані в підрозділі 2.2, а
тому для них можна побудувати довірчі
інтервали та оцінити їх значущість.
Основним методом отримання точкових оцінок для параметрів і рівняння регресії (5.14) є метод найменших квадратів.
Нехай задана
вибірка
обсягу
з діаграмою розсіяння, як
на рис.5.1. Ідея методу найменших квадратів
полягає в тому, що за точкові оцінки
і
параметрів
і
вибирають такі числа, для яких пряма
є «найближчою» до точок
.
За міру відхилення шуканої прямої від
точок
виберемо величину:
(5.15)
За точкові оцінки
і
параметрів
і
рівнянні регресії (5.14) виберемо такі
числа, для яких функція
з (5.15) набуває мінімального значення.
Метод знаходження таких оцінок параметрів
і
,
які мінімізують функцію
,
називають методом найменших квадратів.
Для знаходження точкових оцінок і невідомих параметрів і запишемо систему рівнянь:
(5.16)
яку елементарними перетвореннями зведемо до вигляду:
(5.17)
Оскільки визначник лінійної відносно невідомих і системи рівнянь (5.17)
то система (5.17) має єдиний розв’язок:
(5.18)
де
Підставивши значення і з (5.18) в рівняння (5.14), отримаємо шукане рівняння лінійної регресії :
Коефіцієнт
називається коефіцієнтом регресії.
Зауважимо, що лінійне рівняння регресії можна подати також через точкову оцінку коефіцієнта кореляції, а саме:
(5.19)
Зауваження. У разі, коли припущення про лінійність зв’язку між ознаками та не справджується, то будують нелінійні регресійні моделі .Ці моделі виражаються, наприклад, рівняннями:
Точкові оцінки параметрів у цих нелінійних моделях також можна знайти методом найменших квадратів.
Приклад 5.3. Залежність між обсягом (тис.грн.) товару, який перевозиться через митний пост за кордон, і відсотком (%) не задекларованої частини цього обсягу характеризується вибіркою:
|
0 |
5 |
10 |
15 |
20 |
25 |
45 |
4 |
2 |
2 |
1 |
5 |
|
55 |
3 |
5 |
5 |
4 |
7 |
4 |
65 |
2 |
5 |
4 |
5 |
8 |
2 |
75 |
7 |
3 |
3 |
4 |
1 |
3 |
85 |
5 |
2 |
3 |
2 |
2 |
3 |
95 |
1 |
6 |
2 |
1 |
5 |
4 |
Визначити:
а) емпіричний закон розподілу системи випадкових величин та ;
б) точкові оцінки чисельних характеристик випадкових величин та ;
в) вибірковий коефіцієнт кореляції;
г) при рівні значущості перевірити гіпотезу про статистичну значимість коефіцієнта кореляції
Розв’язання.
а) Знайдемо емпіричний закон розподілу системи випадкових величин у вигляді таблиці:
|
0 |
5 |
10 |
15 |
20 |
25 |
|
45 |
4 |
2 |
2 |
1 |
5 |
|
14 |
55 |
3 |
5 |
5 |
4 |
7 |
4 |
28 |
65 |
2 |
5 |
4 |
5 |
8 |
2 |
26 |
75 |
7 |
3 |
3 |
4 |
1 |
3 |
21 |
85 |
5 |
2 |
3 |
2 |
2 |
3 |
17 |
95 |
1 |
6 |
2 |
1 |
5 |
4 |
19 |
|
22 |
23 |
19 |
17 |
28 |
16 |
125 |
б) за формулами (5.3)-(5.6) знайдемо точкові оцінки чисельних характеристик випадкових величин та . Маємо:
в) вибірковий коефіцієнт кореляції обчислимо за формулою (5.9):
г) перевіряємо
гіпотезу про статистичну значимість
коефіцієнта кореляції. За формулою
(5.12) обчислюємо
.
Для заданого рівня
значущості
і числа ступенів вільності
за таблицею додатка 4 знаходимо, що
.
Оскільки
,
то нульова гіпотеза
про некорельованість випадкових величин
відхиляється.
