
- •Етапи аналізу даних.
- •Класифікація типів змінних.
- •Групування даних.
- •Етапи попередньої обробки даних .
- •2. Числові характеристики вибірки.
- •3. Перевірка основних гіпотез.
- •Видалення аномальних спостережень.
- •Перевірка випадковості (стохастичності) вибірки.
- •Графічне представлення даних.
- •1. Суть кореляційного аналізу
- •Коефіцієнт детермінації – це є квадрат коефіцієнта кореляції, долю варіації, спільну для двох змінних, іншими словами “степінь” залежності двох змінних.
- •3. Частинні коефіцієнти кореляції.
- •4. Нелінійна кореляція.
- •2.Індекс Фехнера.
- •3. Кореляційне відношення Пірсона
- •4.Коефіцієнт конкордації.
- •Тема: „Регресійний аналіз”.
- •Регресійний аналіз – сукупність статистичних методів, що орієнтовані на дослідження стохастичної залежності однієї змінної y від набору інших змінних .
- •Метод найменших квадратів
- •Дисперсійний аналіз
- •Модель ііi.
- •Коваріаційний аналіз.
- •Перевірка гіпотези в умовах ;
- •35.Дискримінант ний аналіз.
1. Суть кореляційного аналізу
Кореляція – це залежність між двома випадковоми величинами. Вона характеризується коефіцієнтами кореляції.
Кореляційний аналіз полягає у визначенні тісноти зв’язку між двома випадковими величинами.
Тіснота
лінійного зв’язку
в кореляційному аналізі характеризується
спеціальним відносним показником, який
називається коефіцієнтом
кореляції.
Значення коефіцієнта кореляції р
належить
відрізку [-1,1]. Якщо
,
то між випадковими величинами існує
лінійний функціональний зв’язок. Якщо
р=0,
то між величинами x
і
y
кореляції немає і їх називають
некорельованими.
Якщо р=1,
то зв’язок називається функціональним.
Для нормально розподіленої сукупності
x
і y
некорельованість означає, що величини
x
і y
незалежні. Додатний знак р
вказує
на прямий зв’язок
між x
і
y,
а від’ємний
– на обернений зв’язок.
Чим ближче коефіцієнт кореляції до
одиниці, тим зв’язок між x
і
y
тісніший.
вибірковим коефіцієнтом кореляції, його позначають r і обчислюють за формулою
(1)
Значення rxy=0 говорить про відсутність лінійного зв’язку, можливо існує тісний нелінійний зв’язок, навіть нелінійний функціональний.
Для
перевірки нульової гіпотези обчислюють
статистику
, де п-обсяг
вибірки. Статистика t
має
розподіл Стьюдента з
степенями вільності. Обчислене за
формулою (3) значення t-критерію
порівнюють порівнюють з критичним
значенням
,
знайденим за таблицею розподілу Стьюдента
при заданому рівні значущості
і числі ступенів вільності
.
Якщо
,
то кульову гіпотезу про те, що між
змінними x
і y
немає кореляційного зв’язку, відхиляють.
Змінні x
і
y
вважають
залежними. Якщо
,
то випадкові величини x
і y
не
корельовані.
Коефіцієнт детермінації – це є квадрат коефіцієнта кореляції, долю варіації, спільну для двох змінних, іншими словами “степінь” залежності двох змінних.
Коефіцієнт множинної кореляції характеризує тісноту зв’язку однієї змінної із сукупністю інших.
(7)
де rі – парні лінійні коефіцієнти. По аналогії з парною кореляцією:R2- коефіцієнт детермінації.
З допомогою коефіцієнта множинної кореляції не можна зробити висновок про характер взаємозв’язку, тобто про додатність чи від’ємність кореляції між змінними.
Формула коефіцієнта множинної кореляції для будь-якого числа змінних має вигляд:
,
де (9)
,
3. Частинні коефіцієнти кореляції.
Задача визначення тісноти зв’язку між двома змінними при виключенні впливу інших змінних розв’язується за допомогою коефіцієнтів частинної кореляції.
Розглянемо задачі дослідження частинної кореляції на прикладі взаємозв’язку трьох змінних
а) для трьох змінних:
Між у та х1 при виключенні впливу х2:
(10)
Між у та х2 при виключенні впливу х1:
(11)
Між х1 та х2 при виключенні впливу у:
(12)
4. Нелінійна кореляція.
Якщо між досліджувальними явищами існують нелінійні співвідношення, то так як і у випадку лінійного зв’язку, цікавляться тіснотою залежності і її сили. І коефіцієент кореляції, в прийнятій для лінійного зв’язку форми, не зможе відображати інтенсивність зв’язку. Тому виникає необхідність у розгляді показника інтенсивності зв’язку при нелінійних співвідношеннях. Таким показником зв’язку служить індекс кореляції.
а) для незгрупованих даних:
де
(14)
Індекс
кореляції приймає значення в інтервалі
.
Для згрупованих даних:
(16)
Множинна нелінійна кореляція.
При нелінійних співвідношеннях індекс кореляції для трьох змінних запишеться так:
(18)
тут
– це значення регресії, обчислене за
двома пояснювальними змінними. Показник
Ry,12
вимірює тісноту нелінійної залежності
змінної у
одночасно від двох змінних
х1
і
х2
і дозволяє оцінити відповідність
множинної нелінійної регресії емпіричним
даним.
Коефіцієнт рангової кореляції.
Поряд з розглядуваними лінійними і нелінійними коефіцієнтами кореляції існує ще ряд показників тісноти зв’язку, що широко застосовуються в економіці у тих випадках, коли ознакам деякого не можна однозначно приписати ті чи інші абсолютні значення. До них відноситься коефіцієнт рангової кореляції Спірмена
При застосуванні методів рангової кореляції виходять не із точних кількісних оцінок значень ознак-змінних, а із рангів. Для цього елементи сукупності упорядковують у визначеному порядку у відповідності з деякими ознаками, що притаманні їм у неоднаковій мірі. Отриманий ряд елементів називають впорядкованим, а сам процес впорядкування називають “ранжування”, а кожному члену ряду присвоюється ранг , чи рангове число (порядковий номер).
Якщо елемент володіє не однією, а двома ознаками х та у, то для дослідження їх впливу один на одного кожному елементу приписується два порядкових номери у відповідності з правилами рангування.
Оскільки вивчається зв’язок між двома змінними, то коефіцієнт рангової кореляції Спірмена, який використовується назиавється парним.
Коефіцієнт рангової кореляції Спірмена обчислюється за формулою:
` (1)
На практиці трапляються випадки, коли два чи більше елементи сукупності мають однакові значення однієї і тієї ж ознаки і не можна знайти суттєву відмінність між ними. Елементи, називаються зв’язними, а а утворена з них група називається ланкою. Метод, який застосовується для приписування порядкового номера зв’язаним елементам, називається метод середніх рангів.
При наявності об’єднаних рангів в коефіцієнт кореляції Спірмена вводиться поправка:
, (2)
Тут А і В – поправочні коефіцієнти для зв’язок відповідно в послідовностях рангів v і w:
,
j=1,2,…,z
,
k=1,2,….,p
Коефіцієнт
рангової кореляції може приймати
значення в межах інтервалу
.
Якщо vi=wi
,
то rs=1.
В цьому випадку є повна узгодженність
між елементами двох послідовностей,
кожний елемент займає одне і теж місце
в обох рядах, що означає повну додатню
кореляцію рангів.
Якщо rs=-1, то елементи двох послідовностей розміщені у зворотньому порядку і між ними повна неузгодженність. Це означає певну від’ємну кореляцію рангів. І коли rs=0, кореляція між рангами відсутня.
Коефіцієнт
рангової кореляції тим більше наближається
до коефіцієнта парної кореляції, чим
менше кореляційний зв’язок між змінними
відрізняються від лінійного і чим
сильніший цей зв’язок. Для нормально
розподіленої генеральної сукупностіі
при досить великому об’ємі вибірки
між двома коефіцієнтами існує наступне
асимптотичне співвідношення:
(3)
Метод рангової кореляції не потребує лінійної кореляції між змінними, Але необхідно, щоб функція регесії була монотонною.
Коефіцієнт рангової кореляції Кендела.
Інший
коефіцієнт рангової кореляції
,
не зв’язний з передумовою нормальності
генеральної сукупності, був запропонований
Кенделом. Він обчислюється за рангами
vi
і
wi
. При цьому елементи вибірки розміщують
так, щоб послідовність рангів однієї
із змінних являла собою натуральний
ряд 1,2,...,п.
Для кожного і-го
члена послідовності рангів другій
змінній встановлюємо числа рі
та qi
, що відображають прямий (1,2,...,10)
та
зворотній порядок розміщення наступних
рангів. Потім підраховуємо суми цих
чисел
,
,а
також різницю S=P-Q.
Коефіцієнт рангової кореляції
-це
відношення цієї різниці до найбільш
можливого значення P
і Q
,
тобто до найбільш можливої суми рі
чи qi
. Така величина може бути досягнута лише
тоді, коли порядок рангів в обох
послідовностях повністю співпадає.
Вона рівна:
(4)
Коефіцієнт рангової кореляції Кендела можна обчислити за однією із еквівалентних формул:
(5)
(6)
Із (6) видно, що для визначення досить знати або величину Р, або Q. Частіше всього в формулу підставляють ту величину яка має найменше значення.
Величина
лежить
в межах
. Тяжко дати рекомендації, який коефіцієнт
краще використовувати на практиці. Вони
(rs
і
побудовані по різному). При обчисленні
rs
і
по
одній і тій же послідовності чисел, як
правило, rs>
.
Але порівняння цих коефіцієнтів по
величині саме по собі не дає ніякої
додаткової інформації про інтенсивність
зв’язку.