Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ms_prac

.pdf
Скачиваний:
37
Добавлен:
10.12.2018
Размер:
2.33 Mб
Скачать

КОРЕЛЯЦІЙНИЙ АНАЛІЗ

Кореляційний аналіз представляє собою інструмент, який дозволяє кількісно оцінити зв’язки між великим числом взаємодіючих явищ – при цьому деякі з них можуть бути й невідомими. Застосування кореляційного аналізу дає можливість перевірити різні гіпотези про наявність і силу зв’язку між двома явищами або одним явищем та групою явищ, а також гіпотезу про форму зв’язку.

При виконанні кореляційних розрахунків необхідно розрізняти факторну та результативну ознаки. Факторною називається така ознака, від якої залежить інша ознака, а вона сама є незалежною.

На відміну від неї залежна ознака називається результативною. Факторна ознака позначається через X, а результативна – через Y, тобто умовно можна сказати, що факторна ознака виражає аргумент, а результативна – функцію. Факторна ознака або фактор – це технічні, технологічні, природні, кліматичні, економічні, організаційні, соціально-демографічні та інші показники, що проявляють вплив на окремий результативний показник: прибуток, собівартість, продуктивність праці та ін. Задача математичного моделювання полягає у виявленні кількісного зв’язку між факторами та результативним економічним показником. Кореляційний зв’язок класифікують за ознаками:

за типом – на прямий та зворотній;

за формою – на лінійний та нелінійний;

за тіснотою зв’язку – на слабий, помірний, помітний, сильний, дуже сильний;

за участю факторних ознак – на парний, множинний.

Кількісний вплив фактора X на результативний показник Y вивчається за допомогою регресійного аналізу, який дозволяє встановити вид аналітичної залежності між ознаками X та Y i оцінити параметри моделі.

Дві випадкові величини є кореляційно залежними, якщо математичне сподівання однієї з них залежить від значень іншої випадкової величини.

При виборі форми кореляційної залежності виходять перш за все із природи явищ, простоти функції та вимоги на обмеження числа параметрів. Форму кореляційного зв’язку можна визначити як графічним так і аналітичним методами. У випадку парної кореляції вхідними даними

єn пар точок , які в прямокутній декартовій системі координат утворюють кореляційне поле.

Уприроді, суспільстві, економіці багато явищ, процесів, об’єктів знаходяться між собою в причинно-наслідковій залежності. Зв’язок між двома величинами називається функціональним,

якщо довільному визначеному значенню величини x (із множини її можливих значень) відповідає одне і тільки одне визначене значення y , тобто y f x є функцією від x .

Зв’язок між двома величинами називається стохастичним, якщо після визначення величини x величина y залишається випадковою і може приймати різні значення з обумовленими

ймовірностями. При вивченні зв’язку між явищами функціональна залежність частково вказує на відповідну причинну залежність (наприклад, залежність продуктивності праці від стажу роботи за даною спеціальністю). Але при наявності стохастичного зв’язку між явищами може і не бути причинної залежності. Це виникає тому, що обидва явища окремо залежать від загальних факторів. Окремим випадком стохастичної форми зв’язку може бути кореляційний зв’язок.

Методи математичної статистики, що вивчають кореляційні зв’язки між явищами, називаються кореляційним аналізом.

Кореляційний аналіз – це статистичне дослідження стохастичної залежності між випадковими величинами (англ. correlation – взаємозв’язок). Кореляційний аналіз представляє собою інструмент, який дозволяє кількісно оцінити зв’язки між великим числом взаємодіючих явищ – при цьому деякі з них невідомі. Застосування кореляційного аналізу дає можливість

21

перевірити різні гіпотези про наявність і силу зв’язку між двома явищами або одним явищем та групою явищ, а також гіпотезу про форму зв’язку.У найпростішому випадку досліджують дві вибірки (набори даних), у загальному – багатовимірні комплекси (групи) різноманітних параметрів або об’єктів. Він опирається на сукупність основаних на математичній теорії кореляції методів виявлення кореляційної залежності між двома випадковими ознаками або чинниками. Кореляційний аналіз експериментальних даних містить в собі наступні основні практичні прийоми:

1)побудова кореляційного поля і складання кореляційної таблиці;

2)обчислення вибіркових коефіцієнтів кореляції або кореляційного відношення;

3)перевірка статистичної гіпотези значущості зв'язку.

Подальше дослідження полягає у встановленні конкретного вигляду залежності між величинами

Мета кореляційного аналізу полягає в тому, щоб забезпечити отримання деякої інформації про одну змінну за допомогою іншої змінної. В випадках, коли можливе досягнення мети, говорять, що змінні корелюють. В загальному вигляді сприйняття гіпотези про наявність кореляції означає, що зміна значення змінної А відбудеться одночасно з пропорційною зміною значення В. Мірою залежності між експериментальними наборами даних є числа – коефіцієнти зв’язку.

Головні завдання кореляційного аналізу:

оцінка за вибірковими даними коефіцієнтів кореляції;

перевірка значущості вибіркових коефіцієнтів кореляції або кореляційного відношення;

оцінка близькості виявленого зв’язку до лінійного;

побудова довірчого інтервалу для коефіцієнтів кореляції.

Визначення сили та напрямку взаємозв’язку між змінними є однією з важливих проблем аналізу даних. В загальному випадку для цього застосовують поняття кореляції.

В сенсі подання інформації про зв’язок між досліджуваними вибірками у вигляді числових значень показників основними задачами кореляційного аналізу вважають такі:

вимірювання рівня зв'язку двох чи більше явищ;

відбір чинників, що найбільш істотно впливають на результативну ознаку на підставі вимірювання ступеня зв'язку між явищами;

виявлення раніше невідомих причинних зв'язків.

Кореляційний аналіз безпосередньо не виявляє причинних зв'язків між явищами, але встановлює чисельне значення цих зв'язків і достовірність думок про їх наявність.

При проведенні кореляційного аналізу сукупність даних розглядається як множини різних змінних (чинників), кожен з яких містить n спостережень.

Парні коефіцієнти кореляції, а їх ще часто називають просто коефіцієнтами кореляції, безпосередньо чи опосередковано враховують вплив інших чинників. Для виключення цього впливу визначають часткові коефіцієнти кореляції.

Кореляційний аналіз, реалізований у вигляді інформаційної технології, полягає у створенні та застосуванні низки алгоритмів, кожен з яких забезпечує визначення деякого конкретного показника зв’язку. Крім того, важливе значення така технологія має і в тому, що результати не тільки подаються в чисельному вигляді, але і візуально, що значно підвищує роль і зміст кореляційного аналізу в задачах прийняття відповідальних рішень. Основними характеристиками вибірки з точки зору кореляційного аналізу є такі.

Побудова кореляційних моделей дає можливість вивчати залежність значень показників, що не зв’язані між собою функціонально. Кореляційний зв’язок на відміну від функціонального проявляється лише взагалі та в середньому і тільки в масі спостережень.

Фактично кореляційний аналіз вирішує два завдання:

по-перше, це визначення форми зв’язку, тобто встановлення математичної формули, яка описує даний зв’язок;

по-друге вимірювання щільності зв’язку.

22

Проведення кореляційного аналізу часових рядів є нескладною математичною задачею з точки зору обчислень того чи іншого показника, оскільки використовуються числові дані, подані парами у вигляді простої таблиці, складеної з двох стовпчиків чи рядків. Один з них (один стовпчик чи рядок) виконує функцію незалежних змінних, а інший – залежної змінної. В цьому випадку весь аналіз зводиться до визначення коефіцієнта кореляції.

Якщо ж вихідна таблиця має більше ніж два стовпчики ситуація різко змінюється, оскільки збільшується і кількість показників. До цих показників входять:

попарні коефіцієнти кореляції,

часткові коефіцієнти кореляції,

кореляційна матриця.

Основними кроками проведення кореляційного аналізу є такі.

1. Побудова кореляційного поля, найбільш повно характеризує надані для аналізу дані.

2.Визначення показників кореляційного зв’язку.

3.Побудова кореляційної матриці.

4.Інтерпретація отриманих результатів

5.Оскільки розробка даної інформаційної технології стосується

методології аналізу вона повинна опиратися на відповідні теоретичні засади.

Поняття і методи кореляційного аналізу

Коваріація. Якщо дві величини пов'язані між собою, то між ними є кореляція. Для з'ясування питання про наявність зв'язку між двома величинами X і Y необхідно визначити, чи існує відповідність між великими і малими значеннями X і відповідними значеннями Y або такого зв'язку не виявляється. Значення кожного елемента xi і yi визначається величиною і знаком

відхилення від середнього арифметичного:

xi x yi y .

Якщо великі значення xi відповідають великим значенням yi

то цей добуток буде великим

і позитивним, так як будуть мати місце

 

xi x і yi y .

 

Те ж саме буде спостерігатися і тоді, коли малі значення xi

будуть відповідати малим yi ,

оскільки добуток від’ємних чисел буде додатнім. Якщо ж великі значення xi відповідають малим значенням yi , то цей добуток буде великим і від’ємним, що свідчитиме про обернену залежність між цими величинами.

У тих випадках, коли немає систематичної відповідності великих значень xi великим чи малим yi , то знак добутку буде додатнім чи від’ємним для різних пар xi і yi . тоді сума

n

xi x yi y

i 1

буде близька до нуля. Таким чином, ця сума велика і додатна, коли X і Y сильно пов'язані прямою залежністю, близька до нуля у разі відсутності зв'язку та велика і від’ємна, коли X і Y сильно пов'язані оберненою залежністю.

Для того, щоб ця сума не залежала від кількості значень X і Y, її слід поділити на n 1. Отримана величина SXY називається коваріацією X і Y і є мірою їх зв'язку:

23

 

 

 

 

n

 

 

 

 

 

 

xi x yi y

 

 

S

XY

 

i 1

 

.

 

 

n 1

 

 

 

 

 

 

 

 

 

 

 

Очевидно, що величина цього показника буде значною мірою залежати від того, наскільки

часто в загальному ряду добуток

xi x

yi

y буде мати один знак – плюс або мінус.

Коефіцієнт кореляції. Недолік коефіцієнта коваріації полягає в тому, що цей коефіцієнт не враховує випадки, коли ознаки, які корелюють між собою є виражені різними одиницями вимірювання. Наприклад маса тіла може корелювати з його лінійними розмірами. Цей недолік усувають, поділивши вираз (2.1) на добуток середніх квадратичних відхилень цих величин. В результаті отримують показник, який називають емпіричним коефіцієнтом кореляції rxy , тобто

 

 

1

n

 

 

 

 

 

 

 

xi

x yi

y

 

 

 

n

 

r

 

 

i 1

 

 

.

 

 

 

 

 

 

xy

 

 

sx s y

 

 

 

 

 

 

 

 

Базою для визначення показників кореляції є показник коваріації. Фактично з цього показника шляхом нормування отримуємо показник – коефіцієнт кореляції.

Цей коефіцієнт ще називають парним коефіцієнтом кореляції між k-м і l-м чинниками. Він є показником тісноти лінійного статистичного зв'язку, але тільки у разі спільного нормального розподілу випадкових величин, вибірками яких є k-й і l -й чинники.

Коефіцієнт кореляції – показник, який використовують для вимірювання щільності зв'язку між результативними і факторними ознаками у кореляційно-регресійній моделі за лінійної залежності. Коефіцієнт кореляції на відміну від коефіцієнта коваріації є вже не абсолютною, а відносною мірою зв’язку між двома ознаками, тому він може набувати значення від -1 до +1. Чим ближче значення r до ±1, тим тісніший зв’язок. Знак «+» вказує на прямий, а знак «-» – на зворотний зв’язок. При r=0 зв’язок відсутній. Коефіцієнт кореляції має широке застосування на практиці, проте він не є універсальним показником кореляційних зв’язків, тому що здатен

характеризувати лише лінійні зв’язки. Якщо X, Y незалежні випадкові величини, то . Обернене в загальному випадку невірно.

Уперше коефіцієнт кореляції як показник щільності зв'язку використав К. Пірсон. Спочатку досліджувалася прямолінійна залежність, пов'язана із законом нормального розподілу (А. Браве, К. Пірсон, В. Шеппард та ін.), відтак виникла потреба в дослідженні й нелінійних залежностей. Для вимірювання щільності зв'язку нелінійних залежностей Пірсон запропонував кореляційне відношення із розробкою методів аналізу взаємозв'язку двох змінних було запропоновано теорію часткових і чистих коефіцієнтів кореляції, а також теорію множинної (багатофакторної) кореляції.

Властивості коефіцієнта кореляції. Основними властивостями коефіцієнта кореляції є

такі.

1. Коефіцієнт кореляції є в межах від -1 до +1.

Якщо (x, y) > 0, то кореляція пряма, а якщо (x, y) < 0 – зворотна. Пряма кореляція: більшим значенням випадкової змінної x відповідають більші значення y; зворотна кореляція: більшим значенням x відповідають менші y і навпаки, більшим y – менші x.

2. Симетрія

(x, y) = (y, x)

3. Якщо x та y пов’язані лінійним функціональним зв’язком y(x) = a + bx, a і b – сталі, то x, y 1, і навпаки .

4. Якщо випадкові змінні лінійно незалежні, то (x, y) = 0, і навпаки.

24

Останні дві властивості можна сформулювати як необхідну й достатню умови, причому критерієм залежності випадкових величин x і y є відмінність коефіцієнта кореляції від нуля: .

Парні коефіцієнти кореляції. Якщо чинників більше ніж два, то для коректності аналізу використовують термін парний коефіцієнт кореляції. Кожен такий показник вказує на коефіцієнти кореляції між k-м і l-м чинниками, які обчислюються за формулою:

Парний коефіцієнт кореляції є показником тісноти лінійного статистичного зв'язку, але тільки у разі спільного нормального розподілу випадкових величин, вибірками яких є k-й і l-й чинники.

За таких умов для перевірки гіпотези про рівність нулю парного коефіцієнта кореляції використовується t-статистика, розподілена згідно із законом Стьюдента з n-2 ступенями свободи. У програмі для парного коефіцієнта кореляції спочатку розраховується критичне значення t- статистики, а на його основі критичне значення коефіцієнта кореляції

Якщо розрахункове значення більше критичного, то гіпотеза про рівність нулю даного коефіцієнта кореляції заперечується на відповідному рівні імовірності. Аналогічні висновки мають місце при перевірці значущості часткових коефіцієнтів кореляції.

Частинні або окремі коефіцієнти кореляції.Якщо відомий попарний зв’язок між ознаками X , Y , Z , то можна визначити частинні або парціальні коефіцієнти кореляції, які вказують на кореляційну залежність між двома варіюючими ознаками за постійної величини третьої ознаки. Для визначення частинного коефіцієнта кореляції між ознаками X і Y при постійній величині ознаки Z застосовують формулу.

Частинний коефіцієнт кореляції першого порядку між k-м і L-м чинниками характеризує тісноту їх лінійного зв'язку при фіксованому значенні j-го чинника. Він розподілений аналогічно парному коефіцієнту за таких самих передумов, і для перевірки його значущості використовується t-статистика, в якій число ступенів свободи дорівнює n-3.

На величину коефіцієнта парної кореляції можуть впливати інші змінні. Інтенсивність зв'язку в «чистій» формі визначають за допомогою коефіцієнта частинної кореляції. В цьому випадку пов'язану варіацію між двома змінними оцінюють при фіксуванні (виключенні) впливу інших змінних. Розрахунок коефіцієнта частинної кореляції базується на оцінках коефіцієнтів парних кореляцій. Так, для трьох ознак вибірковий коефіцієнт частинної кореляції розраховують з такого відношення:

r12.3

 

r12 r13 r23

 

 

,

 

 

 

 

1 r132 1 r232

 

де r12.3 - кореляція між ознаками 1 і 2 при елімінації (виключенні) впливу на цей зв'язок ознаки 3 (якщо є підстави вважати, що зв'язок між ознаками 1 і 2 виникає за рахунок зв'язку з ознакою 3). Шляхом відповідних перестановок цифр в субіндексів можна записати формули для r13.2 і r23.1. Точки між цифрами відокремлюють ознаки, кореляції з якими виключаються (елімінуються).

Приклад. Нехай виміряно три ознаки: 1 - температура; 2 - тиск; 3 – обсяг палива. Звʼязок обсягу палива з температуро становить rˆ31 = ,025 , з тиском - rˆ23 = ,040, а температура з тиском повʼязана як rˆ21 = ,050 . температура і тиск залежать від обсягу палива. Тому, треба обчислити частинний, а точніше окремий коефіцієнт кореляції для тиску і температури при виключеному впливі обсягу палива:

25

r12.3

 

 

r12 r13 r23

 

 

 

 

0.5 0.25 0.4

 

0.45 .

 

 

 

 

 

 

 

 

1 r132

1 r232

 

1 0.252 1 0.42

 

 

 

 

 

 

 

 

Оскільки r122 .3 0.2 , то це означає, що між тиском і температурою має місце досить слабкий

звʼязок.

Сукупний же вплив факторів інколи виявляється достатньо сильним, щоб по їх змінах можна було робити висновки про величини показника досліджуваного явища. Наприклад, при обчисленні коефіцієнта парної кореляції між урожайністю та кількістю опадів, можна зробити неправильний висновок про зв'язок між цими ознаками, оскільки може спостерігатися помітна кореляція між кількістю опадів і температурою повітря, а остання сама по собі впливає на урожайність. Тому для правильного уявлення про вплив на урожайність саме бажаного чинника (кількості опадів) треба визначити кореляцію між урожайністю і кількістю опадів при однакових значеннях середньої температури повітря.

Обчислення часткових коефіцієнтів кореляції часто зумовлюється практичною необхідністю. Часто доводиться вивчати явища, які утворюються під впливом не одного, а багатьох різних чинників, кожний з яких окремо може не справляти вирішального впливу. Він розподілений аналогічно парному коефіцієнту за таких самих передумов, і для перевірки його значеннєвості використовується t-статистика, в якій число ступенів свободи дорівнює n-3.

Кореляційна матриця. В разі великого числа спостережень, коли коефіцієнти кореляції необхідно послідовно обчислювати для декількох вибірок, для зручності отримані коефіцієнти зводять в таблиці, які називають кореляційними матрицями.

Кореляційна матриця – це квадратна таблиця, в якій на перетині відповідних рядка і стовпця знаходиться коефіцієнт кореляції між відповідними вибірками. Оскільки коефіцієнт кореляції є парною величиною, тобто обсяги обох вибірок, між якими визначають зв’язок мають бути однаковими, тому у випадку багатьох вибірок їхні обсяги мають бути однакові.

Це симетрична квадратна матриця розміром n n , де n – число досліджуваних чинників, а її головна діагональ заповнена одиницями (або нулями для зручності подальшого аналізу). Недіагональні елементи представляють собою міру тісноти звʼязку між парою чинників, тобто є значеннями коефіцієнтів кореляції. Іншими словами, для заповнення кореляційної матриці необхідно знайти для кожної пари чинників коефіцієнти кореляції за принципом кожен з кожним.

У MS Excel для обчислення кореляційних матриць використовується процедура КОРЕЛЯЦІЯ з пакету Аналіз даних. Процедура дозволяє отримати кореляційну матрицю, що містить коефіцієнти кореляції між різними випадковими величинами. Для виконання лабораторної роботи реалізувати команду Сервіс Аналіз даних. Далі використовуємо функцію Генерація випадкових чисел, для якої вибираємо число змінних рівне 5 – 7, кількість випадкових чисел рівне

50, розподіл – рівномірний чи будь-який інший, параметри – від –10 до 10 або довільні,

випадкове розсіювання рівне числу змінних (скільки генеруємо вибірок), вихідний інтервал – $A$1.

В результаті виконання операції OK, отримуємо 5 – 7 вибірок випадкових чисел кожна обсягом 50 значень у вибраному діапазоні. Можна також генерувати вибірки різних розподілів (див. лабораторну роботу 4) з різними діапазонами.

Для побудови кореляційної матриці необхідно:

ще раз виконати команду Сервіс Аналіз даних;

в списку Інструменти аналізу вибрати рядок КОРЕЛЯЦІЯ і натиснути кнопку ОК;

в діалоговому вікні вказати Вхідний інтервал, тобто ввести посилання на клітинки, які містять аналізовані дані. Вхідний інтервал повинен містити не менше двох стовпців.

в розділі Групування перемикач встановити відповідно до введених даних, тобто за стовпцями чи за рядками;

вказати Вихідний інтервал, тобто ввести посилання на клітинку, з якої будуть виведені

26

результати аналізу. Розмір вихідного діапазону буде визначений автоматично, і на екран може бути виведене повідомлення у разі можливого накладення вихідного діапазону на вхідні чи інші дані. Натиснути кнопку ОК.

В результаті у вихідний діапазон буде виведена кореляційний матриця, в якій на перетині кожних рядка і стовпця знаходиться коефіцієнт кореляції між відповідними їм параметрами. Значення коефіцієнтів кореляції рівне 1 , розміщених вздовж діагоналі, вказує на те, що кожен стовпець у вхідному діапазоні повністю корелює сам з собою.

В процесі інтерпретації кожен коефіцієнт кореляції між відповідними параметрами розглядається окремо. Зазначимо, що хоча в результаті буде отримана трикутна матриця, кореляційна матриця є симетричною, оскільки в порожніх клітинках в правій верхній половині таблиці знаходяться ті ж самі коефіцієнти кореляції, що і в нижній лівій (симетрично розташовані відносно діагоналі.

Коефіцієнт автокореляції і його оцінка. Для вивчення природи динаміки рівнів, які відповідають різним часовим інтервалам часто використовується поняття автокореляції, яке характеризує не тільки взаємозалежність між рівнями одного і того ж ряду, що відносяться до різних моментів спостережень, але і ступінь стійкості розвитку процесу в часі.

Кореляція рівнів часових послідовностей із застосуванням парного коефіцієнта кореляції правильно показує тісноту зв'язку лише в тому випадку, якщо в кожній з них відсутня автокореляція. Існування залежності між попередніми і наступними рівнями часової послідовності в статистичній літературі називають автокореляцією.

Застосування методів класичної теорії кореляції в часових послідовностях пов'язано з тим, що для більшості часових послідовностей має місце залежність наступних рівнів від попередніх.

Так як методика кореляційного аналізу ґрунтується на принципі статистичної незалежності даних, наявність автокореляції може призвести до помилкового визначення суттєвості і довірчих меж коефіцієнтів регресії і до інших наслідків, що ставить під сумнів результати аналізу. Тому, якщо аналіз проводиться за даними за різні періоди, необхідно переконатися у відсутності автокореляції в досліджуваних рядах динаміки.

Тому перш, ніж корелювати такі послідовності за рівнями, необхідно перевірити кожну з них на наявність або відсутність в них автокореляції.

Автокореляція в часових рядах. Явище автокореляції має місце у тих випадках, коли кореляційний аналіз проводиться за даними за певні періоди. В цьому випадку, може виявитися явище автокореляції, тобто зв'язок між даними за попередні і подальші періоди.

За наявності тенденції і циклічних коливань значення кожного наступного рівня ряду залежать від попередніх значень. Кореляційну залежність між послідовними рівнями часового ряду називають автокореляцією рівнів ряду.

Кількісно її можна виміряти за допомогою лінійного коефіцієнта кореляції між рівнями вихідного часового ряду yt і рівнями цього ряду, зсунутими на кілька кроків у часі, тобто yt .

Ступінь тісноти статистичного зв'язку між рівнями часового ряду, зсунутими на одиниць часу визначається величиною коефіцієнта кореляції r , так як r вимірює тісноту зв'язку між рівнями одного і того ж часового ряду, тому його прийнято називати коефіцієнтом автокореляції. При цьому довжину часового зсуву називають зазвичай лагом ( ). Коефіцієнт автокореляції обчислюється за безпосередніми даними рядів динаміки, коли фактичні рівні одного ряду розглядають як значення факторної ознаки, а рівні цього ж ряду зсунуті на один період, приймають за результативну ознаку (цей зсув називається лагом).

Число періодів, за якими розраховується коефіцієнт автокореляції, називають лагом. Із збільшенням лага число пар значень, за якими розраховується коефіцієнт автокореляції,

зменшується. Максимальний лаг повинен бути не більше n / 4 .

Примітка: щоб уникнути плутанини, необхідно звернути увагу на те, як буде проводитися зрушення (зсування) рівнів, а саме, вниз або вгору. Відповідно і в формулах за різними джерелами,

27

ряд із зсувом відображають або так yt 1 або yt 1 .

Коефіцієнт автокореляції характеризує тісноту тільки лінійного зв'язку поточного і аналізованого рівнів ряду. Тому за коефіцієнтом автокореляції можна судити про наявність лінійної (або близькою до лінійної) тенденції. Для деяких часових рядів, які мають сильну нелінійну тенденцію (наприклад, параболу або експоненту), коефіцієнт автокореляції рівнів вихідного ряду може наближатися до нуля.

Послідовність коефіцієнтів автокореляції першого, другого і т.д. порядків називають автокореляційною функцією часової послідовності. Графік залежності значень коефіцієнтів автокореляції від величини лагу (порядку коефіцієнта автокореляції ) називають корелограмою.

За допомогою аналізу автокореляційної функції і корелограми можна виявити структуру послідовності рівнів часового ряду, тобто визначити присутність у ній тієї чи іншої компоненти.

Аналіз структури ряду можна проводити таким чином:

якщо найбільш високим виявився коефіцієнт автокореляції першого порядку, то досліджуваний ряд містить тільки тенденцію;

якщо найвищим виявився коефіцієнт автокореляції порядку τ, ряд містить циклічні коливання з періодичністю в τ моментів часу;

якщо жоден з коефіцієнтів автокореляції не є значущим, можна зробити одне з двох припущень щодо структури ряду:

ряд не містить тенденції і циклічних коливань, а включає тільки випадкову компоненту,

ряд містить сильну нелінійну тенденцію, для виявлення якої потрібно провести додатковий аналіз.

Для судження про наявність або відсутність автокореляції в досліджуваній послідовності значень, фактичне значення коефіцієнта автокореляції зіставляють з табличним для 5% або 1% рівня значимості (тобто за величиною ймовірності допустити помилку при прийнятті гіпотези про незалежність рівнів ряду). Якщо розрахункове значення менше за табличне, то гіпотеза про відсутність автокореляції приймається і, навпаки, в іншому випадку, відкидається.

Необхідно підкреслити, що лінійні коефіцієнти автокореляції характеризують тісноту тільки лінійного зв'язку поточного і попередніх рівнів ряду. Тому, за коефіцієнтами автокореляції можна судити тільки про наявність чи відсутність лінійної залежності (або близької до лінійної). Для деяких часових рядів, які мають сильну нелінійну тенденцію (наприклад, параболу другого порядку або експоненту), коефіцієнт автокореляції рівнів вихідного ряду може наближатися до нуля. За знаком коефіцієнта автокореляції не можна робити висновок про зростаючу або спадну тенденцію в рівнях ряду.

Розрахунок автокореляції. Загальною формулою для обчислення коефіцієнта автокореляції є така:

 

 

 

n

n

n

 

 

 

r( )

(n ) yt yt yt yt

 

 

 

t 1

t 1

t 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

n

 

n

n

 

 

 

[(n ) yt2 ( yt

)2 ][(n ) yt2 ( yt )2 ]

 

 

 

 

t 1

t 1

 

t 1

t 1

.

(1)

 

 

 

 

 

 

 

Порядок коефіцієнтів автокореляції визначає часовий лаг: першого порядку (при 1), другого порядку (при 2 ) і т. д.

Послідовність коефіцієнтів автокореляції рівнів першого, другого, третього і т.д. порядків називають автокореляційною функцією. Значення автокореляційної функції можуть коливатися

від -1 до +1, але, виходячи з стаціонарності ряду випливає, що r r . Графік

автокореляційної функції також називається корелограмою.

Вибірковий коефіцієнт автокореляції обчислюється за формулою:

28

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

( yt y) ( yt y)

 

 

 

 

 

 

 

 

 

r( )

 

n

 

 

 

 

 

 

 

 

 

 

t 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

n

.

 

(2)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

( yt y)2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n 1 t 1

 

 

 

 

 

 

Коефіцієнт автокореляції рівнів ряду першого порядку, що вимірює залежність між сусідніми

рівнями ряду yt

і yt 1 , тобто при лагу 1, розраховується за формулою:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

yt 1 y2

 

 

 

 

 

 

 

 

 

r1

 

 

 

 

yt

y1

 

 

 

 

 

 

 

 

 

 

 

 

 

t 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

n

 

,

 

 

 

 

 

 

 

 

 

 

 

yt y1 2

yt 1 y2

2

 

 

 

 

 

 

 

 

 

 

 

t 2

 

 

 

 

t 2

 

 

 

 

 

n

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yt

 

 

 

 

yt 1

 

 

 

 

 

 

 

 

 

де

y

t 2

;

y

 

 

t 2

 

 

 

 

.

Це середні значення для кожного з інтервалів відповідно.

 

2

 

 

 

 

 

1

n 1

 

 

 

n

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Аналогічно визначаються коефіцієнти автокореляції другого і вищих порядків. Так, коефіцієнт автокореляції другого порядку характеризує тісноту зв'язку між рівнями yt і yt-2 і визначається за формулою:

 

 

 

 

 

 

 

 

 

 

 

 

 

n

yt

 

yt 2 y4

 

 

 

 

 

 

 

 

r2

 

 

y3

 

 

 

 

 

 

 

 

 

t 3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

y3 2

n

,

 

 

 

 

 

 

 

 

 

 

 

 

yt

 

( yt 2 y4 )2

 

 

 

 

 

 

 

 

 

 

 

 

t 3

 

 

 

t 3

 

 

 

 

 

 

 

n

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yt

 

 

 

 

yt 2

 

 

 

 

 

 

 

де

y

 

 

t 3

;

y

 

 

t 3

 

 

 

.

 

 

 

 

 

 

 

3

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

n 2

 

 

 

n

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Для розрахунку коефіцієнта автокореляції за формулою (1) в Excel можна скористатися функцією КОРРЕЛ. Припустимо, що базова змінна включає діапазон А1 : А34 . Тоді коефіцієнт автокореляції дорівнює:

= КОРРЕЛ(А1:А33;А2:А34 ) .

На практиці, як правило, при обчисленні автокореляції використовується формула (2). Аналіз автокореляційної функції і корелограми дозволяє визначити лаг, за якого

автокореляція є найбільш високою, тобто за допомогою аналізу автокореляційної функції і корелограми можна виявити структуру ряду.

Тому коефіцієнт автокореляції рівнів і автокореляційну функцію доцільно використовувати для виявлення в часовому ряді наявності або відсутності трендової і сезонної компонент.

Приклад. Аналіз часового ряду валового внутрішнього продукту.

Валовий внутрішній продукт – є на стадії виробництва сумою доданих вартостей галузей економіки, а на стадії використання – вартістю товарів і послуг, призначених для кінцевого споживання, накопичення й експорту.

29

В якості вихідної інформації використовуються дані: номінальний обсяг валового внутрішнього продукту, млрд. грн. – квартальні дані з 1994:1кв. по 2003:1кв., подані табл. 1. Графік цього ряду наведено на рис. 6.

 

 

 

 

Поквартальні дані ВВП

 

 

Таблиця 1.

 

 

 

 

 

 

 

 

 

 

 

 

Дата

4кв.

1кв.

2кв.

 

3кв.

4кв.

1кв.

2кв.

3кв.

4кв.

1кв.

1994

1995

1995

 

1995

1995

1996

1996

1996

1996

1997

 

 

ВВП

225.00

235.00

325.00

 

421.00

448.00

425.00

469.00

549.00

565.00

513.00

1

2

3

 

4

5

6

7

8

9

10

 

 

 

 

 

 

 

 

 

 

 

 

Дата

2кв.

3кв.

4кв.

 

1кв.

2кв.

3кв.

4кв.

1кв.

2кв.

3кв.

1997

1997

1997

 

1998

1998

1998

1998

1999

1999

1999

 

 

ВВП

555.00

634.00

641.00

 

551.00

602.00

676.00

801.00

901.00

1102.00

1373.00

11

12

13

 

14

15

16

17

18

19

20

 

 

 

 

 

 

 

 

 

 

 

 

Дата

4кв.

1кв.

2кв.

 

3кв.

4кв.

1кв.

2кв.

3кв.

4кв.

1кв.

1999

2000

2000

 

2000

2000

2001

2001

2001

2001

2002

 

 

ВВП.

1447.00

1527.00

1697.00

2038.00

2044.00

1922.00

2120.00

2536.00

2461.00

2268.00

21

22

23

 

24

25

26

27

28

29

30

 

 

 

 

 

 

 

 

 

 

 

 

Дата

2кв.

3кв.

4кв.

 

1кв.

 

 

 

 

 

 

2002

2002

2002

 

2003

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ВВП

2523.00

3074.00

2998.00

2893.10

 

 

 

 

 

 

31

32

33

 

34

 

 

 

 

 

 

Графік цього ряду наведений на рис. 2.1.

3500

3000

2500

2000

1500

1000

500

0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33

Рис. 2.1. Поквартальні значення ВВП.

З нього видно, що дані мають зростаючий тренд. Таким чином, вже візуальний аналіз дозволяє зробити висновок про нестаціонарність вихідного часового ряду.

Для перевірки цього припущення, обчислюють коефіцієнти автокореляції зведені в табл. 2 і побудуємо графік автокореляційної функції часового ряду ВВП, тобто його корелограму, зображену на рис. 2.3.

30

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]