
- •Кореляційний та регресійний аналіз
- •Кореляція і кореляційний аналіз.
- •Каваріація. Її властивості.
- •Коефіцієнт лінійної кореляції та його властивості. Кореляціне поле.
- •Кореляційний аналіз і його задачі.
- •Статистична оцінка коефіцієнтів лінійної кореляції.
- •Перевірка гіпотези про значущість коефіцієнта кореляції
- •Кореляційна матриця
- •Порівняння двох коефіцієнтів лінійної кореляції
- •Регресія, регресійний аналіз
- •Простата лінійна регресія
- •Перевірка гіпотез при простій лінійній регресії
- •Гіпотеза про рівність коефіцієнтів регресії визначеному значенню
- •Інтервальне оцінювання при простій лінійній регресії
Кореляційний аналіз і його задачі.
Кореляційний аналіз – це статистичне дослідження стохастичної залежності між двома випадковими величинами. У найпростішому випадку досліджується дві вибірки різних випадкових величин, в загальному – досліджується масив зі значень декількох випадкових величин. Але і в цьому випадку проводиться попарний аналіз. Мета кореляційного аналізу – виявити чи існує істотна залежність однієї перемінної (випадкової величини) від іншої.
Є декілька найбільш поширених завдань кореляційного аналізу:
Оцінка по вибірковим даним значення лінійного коефіцієнту кореляції;
Перевірка значущості вибіркових коефіцієнтів кореляції;
Оцінка близькості виявленого стохастичного зв’язку до лінійного;
Побудова довірчого інтервалу для коефіцієнтів кореляції.
Дальше будемо розглядати кожну з цих задач.
Статистична оцінка коефіцієнтів лінійної кореляції.
Для оцінки значення коефіцієнту лінійної кореляції використовується рівняння , при тому змішаний другий центральний момент (коваріацію) найкраще оцінювати за рівнянням . Але в ході проведення реальних досліджень оцінки моментів по генеральним сукупностям рідко є доступними. Тому розрахунок значень проводиться по вибіркам з генералних сукупностей. Відповідно, отримані оцінки є вибірковими і носять випадковий характер.
Нехай над випадковими величинами X таY були проведені попарні спостереження та отримані вибірки цих випадкових величин:
Як раніше уже було показано незміщеними та спроможними оцінками математичного очікування випадкових величин μX іμYє їх середні значення, що розраховуються за рівняннями:
Відповідно, оцінками
дисперсій випадкових величин D(X)
таD(Y) є
емпіричні значення дисперсійs\s\up
7(2 таs\s\up 7(2 , які можна
розрахувати по за рівняннями:
Емпіричне значення коваріації, оцінене по вибіркам, можна отримати за рівнянням:
Підставляючи та в отримуємо рівняння для емпіричної оцінки коефіцієнту лінійної регресії R:
Емпіричний коефіцієнт лінійної кореляції R, що отримується за рівнянням , є спроможною, але зміщеною, оцінкою теоретичного коефіцієнту лінійної кореляції ρ. Ця оцінка має зміщення, яке занижує значення на величину приблизно рівнуρ(1-ρ2)/(2n). Величина зміщена зменшується обернено пропорційно числуn випробовувань і приn>50 становить менше 1%.
Абсолютне значення емпіричного коефіцієнту кореляції R, як і теоретичного ρ, не перевищує одиниці.
Приклад №№
Було проведено 14 попарних спостережень за двома випадковими величинами X,Y, результати яких наведені в таблиці __.
№ |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
X |
23 |
24 |
24,5 |
24,5 |
25 |
25,5 |
26 |
26 |
26 |
26,5 |
26,5 |
27 |
27 |
28 |
Y |
0,48 |
0,5 |
0,49 |
0,5 |
0,51 |
0,52 |
0,49 |
0,51 |
0,53 |
0,5 |
0,52 |
0,54 |
0,52 |
0,53 |
Для оцінки значення емпіричного коефіцієнту кореляції за рівнянням розраховуємо наступні статистичні суми:
Використовуючи
отримані результати, за рівняннями
оцінюємо значення середніх по вибірках:
,
а за рівнянням емпіричне заначення
коефіцієнту лінійної кореляції:
Таким чином емпіричний коефіцієнт кореляції становить 0,745. Через зміщення оцінки , його значення може бути занижено на ρ(1-ρ2)/(2n)=0,745∙(1-0,742)/28=0,012, що становить 1,5% від значення оцінки.
Я
Рис.
___. Умовні діапазони значень коефіцієнту
кореляції
В першому приближенні
величина коефіцієнту лінійної кореляції
може використовуватись для оцінки
тісноти взаємозв’язку між випадковими
величинами. В залежності від значення
коефіцієнту кореляцію поділяють на
високу, середню, низьку. Зрозуміло, що
якщо коефіцієнт близький по значенню
до нуля, тоді кореляція відсутня. За
різними авторами границі такого поділу
є різними. Один з найбільш поширених
варіантів приведено на діаграмі рис.___.
Відома шкала оцінки сили стохастичного
зв’язку Чеддака. За цією шкалою: при– функціональна залежність,
--
дуже тісний зв’язок,
-- зв’язок тісний,
-- зв’язок помірний,
-- зв’язок помітний,
-- зв’язок слабий,
-- зв’язок відсутній. Всерйоз сприймати
такий поділ не можна, хоча б тому, що
інтерпретація величини коефіцієнту
кореляції сильно залежить від контексту
і мети дослідження та галузі науки. Так
в ході досліджень в фізиці та хімії,
особливо коли вони виконуються на
прецизійному обладнанні, коефіцієнт
кореляції 0,9-0,95 може вважатися дуже
низьким. В цих областях науки не рідко
про тісну взаємодію, яку випробовують
з бажанням виявити причинно-наслідкові
зв’язки, стверджують лише при значеннях
коефіцієнту лінійної кореляції 0,995 і
більше. В противагу до цього, в соціології,
медицині, гуманітарних науках коефіцієнт
кореляції 0,9 вважається дуже високим і
таким, що свідчить про високу кореляцію.