Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
59
Добавлен:
02.02.2015
Размер:
774.66 Кб
Скачать

Друкувати лише у випадку крайньої необхідності. Щоб забезпечити річне споживання офісного паперу необхідно знищити 768 000 000 дерев віком від 50 до 200 років.

Тема 11. Парний лінійний кореляційно-регресійний аналіз

11.1 Парний коефіцієнт кореляції

Парний коефіцієнт кореляції – міра тіснотилінійного звязку двох випадкових величин та , представлених у вигляді двох вибірок однакового обєму:

, (11.1) . (11.2)

Парний коефіцієнт кореляції також часто називають вибірочним або коефіцієнтом кореляції К. Пірсона. У якості повної назви величини можна використовувати наступну: вибірочний лінійний парний коефіцієнт кореляції К. Пірсона, однак в літературі, як правило користуються більш короткими назвами[1-6].

Парний коефіцієнт кореляції може бути розрахований за формулою [1, 2]:

; (11.3)

де ,– середнє значення незалежної та залежної змінних відповідно;

–середнє значення добутку незалежної та залежної змінної;

–середнє значення квадратів незалежної та залежної змінних відповідно.

Відповідні середні визначаються за формулами:

; (11.4) ;(11.6)

; (11.5) .(11.7)

Коефіцієнт кореляції може приймати значення від –1 до 1. По знаку та абсолютному значенню коефіцієнта кореляції можна зробити наступні висновки:

  1. Чім ближче абсолютне значення коефіцієнта кореляції до 1, тим тісніший зв'язок існує між двома змінними та (рис. 11.1 а), а чим ближче до нуля тим зв'язок слабкіший(рис. 11.1 б). Якщо парний коефіцієнт кореляції дорівнює 1, то між двома змінними існує лінійна функціональна залежність. При цьому усі спостереження на кореляційному полі розташовуються вздовж прямої лінії. Якщо парний коефіцієнт кореляції дорівнює 0, то між двома змінними залежність відсутня.

Для перетворення кількісної характеристики тісноти лінійного звязку між двома випадковими у якісну харатеристику може бути викристана шкала англійського статистика Чеддока (таблиця 11.1).

Таблиця 11.1 – Шкала Чеддока

Величина абсолютного значення парного коефіцієнта кореляції

Характеристика лінійного звязку між двома випадковими величинами

до 0,3

Практично відсутній

0,31-0,5

Слабкий

0,51-0,7

Помітний

0,71-0,9

Сильний

0,91-0,99

Дуже сильний

Рисунок 11.1 – Кореляційні поля: а – для вибірки сильнокорельованих даних;

б – для вибірки слабокорельованих даних

  1. Якщо коефіцієнт кореляції позитивний , то зв'язок між змінними прямий, тобто при збільшенні незалежної змінноїзалежна зміннатеж збільшується(рис. 11.2 а). При зв'язок між змінними зворотний, тобто при збільшенні незалежної змінноїзалежна змінназменшується(рис. 11.2 б).

Рисунок 11.2 – Кореляційні поля: а – для вибірки даних з прямим зв’язком; б – для вибірки даних зі зворотнім зв’язком

Парний коефіцієнт кореляції є випадковою величиною, оскільки обчислюється для випадкових величин. Для нього необхідно висувати і перевіряти гіпотезу про те, чи статистично значуще він відрізняється від нуля (тобто чи є взаємозв'язки між величинами). Дана гіпотеза перевіряється за допомогою t-критерія (t-статистики) Ст’юдента, фактичне значення якого визначається за формулою:

. (11.8)

Фактичне значення критерію Ст’юдента порівнюється із критичним , отриманим за відповідною таблицею для ступенів свободи та вірогідності, яка в загальному випадку може обиратися довідно. В багатьох джерелах у якості критерію вибору пропонується рівень значущості. На сучасному етапі розвитку економетрії та інших наук повязаних із математичною статистикою критичне значення критерію Ст’юдента можна визначити за допомогою функції СТЬЮДРАСПОБРMicrosoft Excel 2003-2007 та функції СТЬЮДЕНТ.ОБР.2Х Microsoft Excel 2010. При використанні цих функцій в рядку «Вірогідність» діалогового вікна потрібно зазначати не вірогідність а рівень значущостіТака невідповідність, скоріше за все, повязана із неточністю переклада інтерфейсу статистичних функції із англійської мови на російську. ВMathCAD критичне значення t-критерія Ст’юдента можна отримати за допомогою оператора

Якщо , то коефіцієнт кореляції статистично значуще відрізняється від нуля та залежність є достовірною. В противному випадку коефіцієнт кореляції статистично не значущий та кореляційний зв'язок між змінними відсутній.

Очевидно, що різним рівням вірогідності будуть відповідати різні значення Тобто при меншій вірогідності коефіцієнт кореляції може бути статистично значущим, а при більшій – не значущим. Тому обов’язково необхідно вказувати при якій вірогідності було обрано t-критерій Ст’юдента. Це можна зробити відзначивши, що коефіцієнт кореляції статистично значущий (або не значущий) при вірогідності, наприклад, 0,9. Вкзати вірогідність (чи рівень значущості) та ступені свободи при якій обиралося табличне значенняt-критерію Ст’юдента можна в його індексі –

Зі збільшенням вірогідності критичне значенняt-критерію Ст’юдента буде зростати. Тому, якщо парний коефіцієнт кореляції виявився статистично не значущим для високої вірогідності (наприклад 0,95-0,99), доцільно перевірити його статистичну значущисть при меншому рівні вірогідності (наприклад 0,8-0,85).

При проведенні кореляційного аналізу потрібно памятати, що парний коефіцієнт кореляції є мірою тісноти лінійного звязку між двома випадковими величинами. Тому, мале абсолютне значення коефіцієнту кореляції і (або) його статистична незначущисть може свідчити лише про відсутність чи слабкістьлінійного звязку, в той час як між двома випадковими змінними може існувати тісний нелінійний зв'язок. Одним із способів виявити такий звязок є аналіз відповідних кореляційних полів.

Коефіцієнт кореляції лише констатує факт присутності чи відстутності лінійного звязку між двома величинами та , але він не вказує на причино-наслідкові звязки між ними. Таким чином визначити яка змінна є причиною, а яка наслідком можна виходячі із економічного сенсу задачі. Також в економіці зустрічаються випадки, коли тісний кореляційний зв'язок між двома величинамита пояснюється дією третього фактору, що одночасно діє і на, і на. Причому причино-наслідкові зв’язки безпосередньо міжта відсутні.

Формула (11.3) оцінки коефіцієнта кореляції рекомендується до застосування при великій кількості спостережень та якщо, не близьке до. Якщо величина коефіцієнта кореляції близька до 1, то розподіл його оцінок відрізняється від нормального або розподілу Стьюдента, оскільки величина коефіцієнта кореляції обмежена значеннями від – 1 до + 1. Щоб обійти це ускладнення для оцінки істотності коефіцієнта кореляції вводитися допоміжна величина[2].

Математичні вирази, що знаходяться в числельнику та знаменнику формули (11.3) мають самостійний статистичний сенс. Так величина

; (11.9)

називається вибірочним кореляційним моментом або вибірочною коваріацією. Ця величина є мірою тісноти лінійного звязку двох випадкових величин таоднак, на відміну від коефіцієнта кореляції вибірочна коваріація має розмірність, що ускладнює її практичне застосування[1, 3]. Знак вибірочної коваріації має такуж інтерпретацію, як і знак коефіцієнта кореляції.

В знаменнику формули (11.3) знаходиться корінь квадратний із добутку вибірочних дисперсій двох випадкових величин та:

, (11.10) .(11.11)

Вибірочна дисперсія (варіація) – оцінка дисперсії випадкової величини за вибіркою. Під дисперсією випадкової величини тут потрібно розуміти міру розсіювання випадкової величини, тобто її відхилення від математичного очікування. Вибірочна дисперсія позначається, яквідангл. variance, також можуть бути наступні позначення , . Дисперсія вимірюється в квадраті одиниці виміру випадкової величини , що є незручним. Квадратний корінь із дисперсії називається середньо-квадратичним відхиленням або стандартним відхиленням. Стандартне відхилення вимірюється у тих же величинах, що і сама випадкова величина.

Враховуючи формули (11.9)-(11.11) коефіцієнт кореляції (11.3) може бути розрахований так:

. (11.12)

На сучасному етапі розвитку наук повязаних із математичною статистикою, зокрема економетрії, немає необхідності здійснювати громіздкі розрахунки за формулами (11.3) чи (11.12). В Microsoft Excel існує функція «КОРРЕЛ» яка дозволяє розрахувати парний коефіцієнт кореляції на основі двох вибірок статистичних даних, а в MathCAD – функція corr(X,Y).

Соседние файлы в папке Лекции_ЭММ