- •Львівський державний університет безпеки життєдіяльності
- •Статистичний аналіз
- •1. Основні поняття математичної статистики
- •Оцінки невідомих параметрів розподілу
- •Точкові оцінки.
- •Точкові оцінки математичного сподівання, дисперсії та середнього квадратичного відхилення.
- •Інтервальні оцінки параметрів розподілу
- •2.4. Розподіл - «хі-квадрат»
- •Розподіл Стьюдента
- •Розподіл Фішера-Снедекора
- •Інтервальні оцінки математичного сподівання і середнього квадратичного відхилення випадкової величини, яка розподілена за нормальним законом.
- •2.7.1 Інтервальні оцінки математичного сподівання
- •2.7.2. Інтервальні оцінки середнього квадратичного
- •3. Статистична перевірка гіпотез
- •3.1. Статистичні гіпотези та їх різновиди
- •3.2. Похибки перевірки гіпотез
- •3.3.Статистичний критерій перевірки основної гіпотези
- •3.4. Критична область
- •3.5. Знаходження критичних областей
- •3.6. Порядок дій при перевірці статистичних гіпотез
- •3.7. Критерій узгодження Пірсона
- •Перевірка гіпотез про параметри нормального розподілу
- •Гіпотези про математичні сподівання
- •Перевірка гіпотези про значення математичного сподівання за відомої дисперсії
- •Перевірка гіпотези про рівність дисперсій двох незалежних випадкових величин
- •Однофакторний дисперсійний аналіз
- •5. Основні поняття кореляційного та регресійного аналізу
- •Статистичний опис системи двох випадкових величин
- •Вибірковий коефіцієнт кореляції
- •Основні поняття і методи регресійного аналізу
- •Додатки Додаток 1 Значення функції
- •Значення функції Лапласа .
- •Визначається рівністю , .
- •Додаток 6
5. Основні поняття кореляційного та регресійного аналізу
Статистичний опис системи двох випадкових величин
Підставою для
статистичного аналізу залежності між
випадковими величинами
і
є дані вибірки, які отримані із спостережень
над двовимірною випадковою величиною
.
Елементи вибірки зображаються з
допомогою впорядкованих пар чисел
,
де
— вибіркове значення
ознаки
,
а
— вибіркове значення
ознаки
,
що відповідають
му
спостереженню,
обсяг
вибірки.
Вихідний статистичний матеріал можна подати у формі таблиці:
Таблиця 5.1
|
|
|
… |
|
|
|
|
… |
|
Якщо обсяг вибірки — великий, то проводиться групування статистичних даних. Нехай серед вибіркових значень ознаки можна виділити різних значень або частинних інтервалів, а серед вибіркових значень ознаки можна вид різних значень або частинних інтервалів.
Ці згруповані дані двовимірної вибірки можна подати у вигляді таблиці:
Таблиця 5.2
|
|
|
... |
|
|
|
|
|
... |
|
|
|
|
|
... |
|
|
... |
... |
... |
... |
... |
... |
|
|
|
... |
|
|
|
|
|
... |
|
|
Наведену таблицю
називають кореляційною таблицею.
В ній через
позначають частоту появи події
а числа
,
,
пов’язані співвідношеннями:
(5.1)
(5.2)
Якщо в кореляційній
таблиці замість варіант візьмемо
частинні інтервали, то вважатимемо, що
в таблиці числа
та
означають середини відповідних
інтервалів.
Нагадаємо, що
розподіл ймовірностей випадкового
вектора
характеризується такими чисельними
характеристиками, як математичними
сподіваннями складових
і
,
дисперсіями складових
і
,
а також їх коваріацією та коефіцієнтом
кореляції
.
З допомогою двовимірного вибіркового
закону розподілу, який задається
таблицями можна обчислювати точкові
оцінки для згаданих параметрів.
Виявляється, що, як і в одновимірному
випадку, точковими оцінками чисельних
характеристик
,
,
,
випадкового вектора
є чисельні характеристики складових
і
двовимірної вибірки, що задаються
формулами:
у випадку незгрупованої вибірки:
(5.3)
(5.4)
у випадку згрупованої вибірки:
(5.5)
(5.6.)
Вибірковий коефіцієнт кореляції
Нехай для дослідження
залежності між випадковими величинами
та
(ознаками генеральної сукупності)
маємо вибірку
,
обсягу
.
На основі цієї вибірки потрібно визначити
напрям і ступінь лінійного кореляційного
зв’язку між випадковими величинами
та
.
У найпростіший
спосіб наявність кореляційного зв’язку
між випадковими величинами визначається
шляхом побудови і візуального аналізу
діаграми розсіювання, яку отримуємо
за допомогою зображення елементів
вибірки точками площини
При
цьому, якщо точки
площини
розсіяні вздовж прямої лінії, то можна
припустити, що між випадковими величинами
та
існує тісний кореляційний зв’язок.
а) б)
Рис.5.1. Лінійна кореляційна залежність між випадковими величинами
Наприклад, розміщення точок , яке зображене на рис.5.1 характеризує лінійну кореляційну залежність між випадковими величинами та , бо ці точки розміщені близько до прямих, які нарисовані суцільними лініями. При цьому, пряма на рис 5.1.а має додатний кутовий коефіцієнт і лінійну кореляційну залежність в цьому випадку називають додатною, а пряма на рис 5.1.б має від’ємний кутовий коефіцієнт і лінійну кореляційну залежність в цьому випадку називають від’ємною.
Буває й так, що між випадковими величинами та немає жодного зв’язку ( випадкова величина не реагує на випадкову величину ), або є нелінійний кореляційний зв’язок. Такі випадки зображені на рис. 5.2.
а) б)
Рис. 5.2. Нелінійна кореляційна залежність між випадковими величинами
.
З теорії ймовірностей
відомо, що ступінь зв’язку між випадковими
величинами
та
визначається такими чисельними
характеристиками їх сумісного розподілу,
як кореляційний момент
і коефіцієнт кореляції
,
які обчислюються за формулами:
(5.7)
(5.8)
Зауважимо, що коли
випадкові величини
і
— незалежні, то
і
.
Якщо ж
,
то випадкові величини
і
— залежні. Обернені твердження
справджуються не завжди, тобто, якщо
і
,
то це не означає, що випадкові величини
і
є незалежними. Якщо залежність між
випадковими величинами
та
— лінійна, тобто існують
числа
і
такі, що
,
то
Якщо
то випадкові величини
та
називаються
некорельованими, а якщо
,
то випадкові величини
та
називаються корельованими.
Отже основна задача
кореляційного аналізу, яка полягає у
виявленні залежності між випадковими
величинами
та
на основі двовимірної вибірки, може
бути розв’язана шляхом побудови точкових
та інтервальних оцінок коефіцієнта
кореляції. Точкова оцінка
коефіцієнта кореляції
обчислюється за формулою:
(5.9)
де
— вибіркове середнє
добутку випадкової величини
,
яке обчислюється за формулами:
(5.10)
у випадку не згрупованої вибірки
(5.11)
у випадку згрупованої вибірки.
Величини
— це вибіркові середні
та вибіркові середньоквадратичні
відхилення випадкових величин
та
,
які обчислюються за формулами (1.11) та
(1.14) відповідно.
Означення. Точкова оцінка коефіцієнта кореляції випадкових величин та , яка обчислюється за формулою (5.9), називається вибірковим коефіцієнтом кореляції.
Вибірковий коефіцієнт кореляції характеризує зв’язок між ознаками генеральної сукупності та , а саме:
Якщо
,
то зв’язок між випадковими величинами
та
— додатний;Якщо
,
то зв’язок між випадковими величинами
та
— від’ємний;Якщо , то випадкові величини та — некорельовані і це означає, що лише відсутність лінійного зв’язку між ними.
Слід зауважити,
що вибірковий коефіцієнт кореляції
справджує нерівність:
.
Приклад 5.1. Статистичні дослідження залежності між прибутком підприємства і середньою заробітною платнею працівників на однорідних підприємствах галузі характеризуються наступною вибіркою:
Прибуток
|
94 |
142 |
128 |
70 |
86 |
120 |
76 |
118 |
134 |
112 |
Зарплата Ч% в гр.. |
84 |
162 |
136 |
86 |
100 |
150 |
94 |
118 |
138 |
114 |
Визначити вибірковий коефіцієнт кореляції та оцінити ступінь лінійного зв’язку між прибутком підприємства і заробітною платою працівників.
Розв’язання. Для зручності обчислень складемо таблицю:
Таблиця 5.3
№ |
Прибуток (%) |
Зарплата (грн.) |
|
|
|
1 |
94 |
84 |
7896 |
8836 |
7056 |
2 |
142 |
162 |
23004 |
20164 |
26244 |
3 |
128 |
136 |
17408 |
16384 |
18496 |
4 |
70 |
86 |
6020 |
4900 |
7396 |
5 |
86 |
100 |
8600 |
7396 |
10000 |
6 |
120 |
150 |
18000 |
14400 |
22500 |
7 |
76 |
94 |
7144 |
5776 |
8836 |
8 |
118 |
118 |
13924 |
13924 |
13924 |
9 |
134 |
138 |
18492 |
17956 |
19044 |
10 |
112 |
114 |
12768 |
12544 |
12996 |
|
1080 |
1182 |
133256 |
122280 |
146492 |
За допомогою даних таблиці і формул (5.5), (5.6) та (5.11) матимемо:
Підставивши отримані результати в формулу (5.9), обчислимо вибірковий коефіцієнт кореляції:
Оскільки
— це число, яке близьке
до одиниці, то залежність між прибутком
підприємства і заробітною платою —
близька до лінійної.
Вибірковий
коефіцієнт кореляції
є точковою оцінкою коефіцієнта кореляції
генеральної сукупності. Тому дуже
важливо встановити, чи коефіцієнт
кореляції
є значущим (тобто, чи його значення
не дорівнює нулю). Оскільки вибірка є
випадковою, то з рівності нулю вибіркового
коефіцієнта кореляції
,
взагалі кажучи, не випливає, що й
коефіцієнт кореляції
генеральної сукупності дорівнює нулю.
У зв’язку з цим виникає потреба перевірити
гіпотезу про значущість вибіркового
коефіцієнта кореляції
.
Якщо двовимірна
генеральна сукупність
розподілена за нормальним законом, то
за критерій перевірки нульової гіпотези
про рівність нулю коефіцієнта кореляції
вибирають випадкову величину
де
n – осяг вибірки. Випадкова величина T
має розподіл Стьюдента з
ступенями вільності. Нульова гіпотеза
про рівність нулю вибіркового коефіцієнта
кореляції нормальної двовимірної
випадкової величини за конкуруючої
гіпотези
про те, що коефіцієнт кореляції
не дорівнює нулю, перевіряється за таким
правилом:
Обчислюємо емпіричне значення критерію
:
(5.12)
Для заданого рівня значущості і числа ступенів вільності за таблицею критичних точок розподілу Стьюдента (додаток 4) визначаємо критичну точку двосторонньої критичної області.
Якщо
то нульову гіпотезу
про рівність нулю коефіцієнта кореляції
генеральної сукупності приймають. Якщо
ж
то
нульову гіпотезу
відхиляють.
Якщо обсяг вибірки
— досить великий, а вибірка
є репрезентативною, то висновок про
характер лінійної залежності між
випадковими величинами
та
,
отриманий на основі вибірки, може бути
поширений і на генеральну сукупність.
За умови, що обсяг вибірки
,
для інтервальної оцінки коефіцієнта
кореляції можна використати формулу:
(5.13)
де
-
розв’язок рівняння
Приклад 5.2. Із
двовимірної нормальної генеральної
сукупності зроблено вибірку обсягом
і обчислено вибірковий коефіцієнт
кореляції
Для рівня значущості
перевірити нульову гіпотезу
за конкуруючої гіпотези
Розв’язання. Гіпотезу перевіримо за правилом, яке сформульоване вище. За формулою (5.12) обчислюємо:
Для заданого рівня
значущості
і числа ступенів вільності
за таблицею додатка 4 знаходимо, що
Оскільки
,
то нульову гіпотезу
відхиляємо. Отже вибірковий коефіцієнт
кореляції суттєво відмінний від нуля,
тому випадкові величини
і
— корельовано.
Знайдемо довірчий
інтервал для вибіркового коефіцієнта
кореляції. Для його знаходження
використаємо формулу (5.13) та таблицю
додатка 4, з якої визначимо розв’язок
рівняння
і отримаємо:
Підставивши
ці дані в формулу (5.13), матимемо:
або остаточно:
