Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
TXR / OND / Тема 3_0_БТ_Ч3_V2.doc
Скачиваний:
77
Добавлен:
12.02.2016
Размер:
1.66 Mб
Скачать
      1. Кореляційний аналіз і його задачі.

Кореляційний аналіз – це статистичне дослідження стохастичної залежності між двома випадковими величинами. У найпростішому випадку досліджується дві вибірки різних випадкових величин, в загальному – досліджується масив зі значень декількох випадкових величин. Але і в цьому випадку проводиться попарний аналіз. Мета кореляційного аналізу – виявити чи існує істотна залежність однієї перемінної (випадкової величини) від іншої.

Є декілька найбільш поширених завдань кореляційного аналізу:

  • Оцінка по вибірковим даним значення лінійного коефіцієнту кореляції;

  • Перевірка значущості вибіркових коефіцієнтів кореляції;

  • Оцінка близькості виявленого стохастичного зв’язку до лінійного;

  • Побудова довірчого інтервалу для коефіцієнтів кореляції.

Дальше будемо розглядати кожну з цих задач.

        1. Статистична оцінка коефіцієнтів лінійної кореляції.

Для оцінки значення коефіцієнту лінійної кореляції використовується рівняння , при тому змішаний другий центральний момент (коваріацію) найкраще оцінювати за рівнянням . Але в ході проведення реальних досліджень оцінки моментів по генеральним сукупностям рідко є доступними. Тому розрахунок значень проводиться по вибіркам з генералних сукупностей. Відповідно, отримані оцінки є вибірковими і носять випадковий характер.

Нехай над випадковими величинами X таY були проведені попарні спостереження та отримані вибірки цих випадкових величин:

Як раніше уже було показано незміщеними та спроможними оцінками математичного очікування випадкових величин μX іμYє їх середні значення, що розраховуються за рівняннями:

Відповідно, оцінками дисперсій випадкових величин D(X) таD(Y) є емпіричні значення дисперсійs\s\up 7(2 таs\s\up 7(2 , які можна розрахувати по за рівняннями:

Емпіричне значення коваріації, оцінене по вибіркам, можна отримати за рівнянням:

Підставляючи та в отримуємо рівняння для емпіричної оцінки коефіцієнту лінійної регресії R:

Емпіричний коефіцієнт лінійної кореляції R, що отримується за рівнянням , є спроможною, але зміщеною, оцінкою теоретичного коефіцієнту лінійної кореляції ρ. Ця оцінка має зміщення, яке занижує значення на величину приблизно рівнуρ(1-ρ2)/(2n). Величина зміщена зменшується обернено пропорційно числуn випробовувань і приn>50 становить менше 1%.

Абсолютне значення емпіричного коефіцієнту кореляції R, як і теоретичного ρ, не перевищує одиниці.

Приклад №№

Було проведено 14 попарних спостережень за двома випадковими величинами X,Y, результати яких наведені в таблиці __.

1

2

3

4

5

6

7

8

9

10

11

12

13

14

X

23

24

24,5

24,5

25

25,5

26

26

26

26,5

26,5

27

27

28

Y

0,48

0,5

0,49

0,5

0,51

0,52

0,49

0,51

0,53

0,5

0,52

0,54

0,52

0,53

Для оцінки значення емпіричного коефіцієнту кореляції за рівнянням розраховуємо наступні статистичні суми:

Використовуючи отримані результати, за рівняннями оцінюємо значення середніх по вибірках: , а за рівнянням емпіричне заначення коефіцієнту лінійної кореляції:

Таким чином емпіричний коефіцієнт кореляції становить 0,745. Через зміщення оцінки , його значення може бути занижено на ρ(1-ρ2)/(2n)=0,745∙(1-0,742)/28=0,012, що становить 1,5% від значення оцінки.

Я

Рис. ___. Умовні діапазони значень коефіцієнту кореляції

к відмічалось раніше, емпіричне значення коефіцієнту лінійної кореляції оцінене на вибірці і є випадковим. При прийняті рішень слід перевіряти його на значимість. Особливо в тому випадку, коли випадку коли його значення є невисоким.

В першому приближенні величина коефіцієнту лінійної кореляції може використовуватись для оцінки тісноти взаємозв’язку між випадковими величинами. В залежності від значення коефіцієнту кореляцію поділяють на високу, середню, низьку. Зрозуміло, що якщо коефіцієнт близький по значенню до нуля, тоді кореляція відсутня. За різними авторами границі такого поділу є різними. Один з найбільш поширених варіантів приведено на діаграмі рис.___. Відома шкала оцінки сили стохастичного зв’язку Чеддака. За цією шкалою: при– функціональна залежність,-- дуже тісний зв’язок,-- зв’язок тісний,-- зв’язок помірний,-- зв’язок помітний,-- зв’язок слабий,-- зв’язок відсутній. Всерйоз сприймати такий поділ не можна, хоча б тому, що інтерпретація величини коефіцієнту кореляції сильно залежить від контексту і мети дослідження та галузі науки. Так в ході досліджень в фізиці та хімії, особливо коли вони виконуються на прецизійному обладнанні, коефіцієнт кореляції 0,9-0,95 може вважатися дуже низьким. В цих областях науки не рідко про тісну взаємодію, яку випробовують з бажанням виявити причинно-наслідкові зв’язки, стверджують лише при значеннях коефіцієнту лінійної кореляції 0,995 і більше. В противагу до цього, в соціології, медицині, гуманітарних науках коефіцієнт кореляції 0,9 вважається дуже високим і таким, що свідчить про високу кореляцію.

Соседние файлы в папке OND