
Холмская экзамен / Моделювання систем
.pdfково-бісеріальну кореляцію можна розглядати як окремий випадок коре ляційного відношення Пірсона.
Величину точково-бісеріального коефіцієнта кореляції вважають ві дмінною від нуля на рівні значущості а, якщо виконується нерівність:
(7.47)
де ta - критичне значення t-розподілу з (п - 2) ступенями вільності.
7.5. Множинна кореляція
Про множинну кореляцію говорять, коли певна ознака пов'язана не з однією, а із сукупністю декількох інших ознак.
У випадку, коли досліджувані ознаки задовольняють багатовимірний нормальний розподіл, частинний коефіцієнт кореляції між двома озна ками при фіксованих значеннях інших ознак розраховують за формулою:
і |
(7.48) |
де Rki - алгебраїчне доповнення для елемента ги у кореляційній матриці.
Для тривимірної ознаки звідси можна отримати:
Частинні коефіцієнти кореляції порядку к, тобто такі, що не врахо вують опосередкований вплив k інших змінних, можна розрахувати за ко ефіцієнтами порядку k —1, використовуючи рекурентну формулу:
Г0і(2,...,к) |
10к+і(2,...,к)Г1к+і(2,...,к) |
Г0і(2,3,...,к+1) |
(7.50) |
і
Частинні коефіцієнти кореляції мають всі властивості парних коефі цієнтів кореляції. Вони є показниками наявності лінійного зв'язку між двома незалежними ознаками, який не залежить від впливу інших ознак.
Тісноту зв'язку між декількома змінними у випадку множинної ре гресії можна оцінити за допомогою коефіцієнта множинної кореляції:
R = |
(7.51) |
де Y; - значення змінної, взяті з кореляційної таблиці, уі - відповідні зна чення, розраховані за рівнянням регресії.
Крім того застосовують множинний коефіцієнт кореляції, якій є мі рою ЛІНІЙНОЇ кореляції МІЖ ПЄВНОЮ ЗМІННОЮ у та сукупністю величин Хі,
Х2, ..., Хп і визначається як звичайний парний коефіцієнт кореляції між у та множинною лінійною регресією за Хь ..., Хп. При цьому припускають,
що досліджувана сукупність підпорядковується багатовимірному норма льному закону.
Множинний коефіцієнт кореляції можна розрахувати за форму
лою:
де R - визначник кореляційної матриці.
Його також можна визначити за частинними коефіцієнтами кореля
ції:
R y X “ 1 ( і |
% ) ( ! |
r0 2 ( l ) ) ( l Г03(12)) ' (^ Г0п(і,2,...,п-1))- |
( 7 - 5 3 ) |
Наприклад множинний коефіцієнт кореляції між певною ознакою z
та двома іншими ознаками (х, у) дорівнює:
Множинний коефіцієнт кореляції мажорує будь-який парний або ча стинний коефіцієнт кореляції, що характеризує статистичні зв’язки дослі джуваної ознаки. Як видно з формули (7.52), додавання нових ознак не може зменшувати коефіцієнт множинної кореляції.
Для багатовимірних нормальних сукупностей виконується рівність:
Kd(y,X) = Rs2x . |
(7.54) |
Подання математичних об'єктів називають канонічним, якщо кож ному об'єкту однієї множини відповідає один і тільки один об'єкт іншої множини й ця відповідність є взаємно однозначною. Канонічний коре
ляційний аналіз здійснюють між двома сукупностями (групами) вибірок.
Він призначений для визначення лінійної функції від перших р компонент і лінійної функції від q компонент, що залишилися, таких, щоб коефіцієнт кореляції між цими лінійними функціями набув найбільшого можливого значення. Чисельності груп (кількість вибірок у першій та другій групах, р
та q) можуть розрізнятися, але необхідною умовою є рівна кількість варі ант у всіх вибірках, що становлять обидві групи. Матриця взаємної коре ляції двох груп вибірок має вигляд:
|
R = |
|
Rn |
R 12 |
(7.55) |
|
|
|
|
||
|
|
V |
21 |
22 У |
|
де Rn - |
матриця взаємної кореляції р змінних першої групи розміром |
||||
р х |
р , R22 |
- |
матриця взаємної кореляції q змінних другої групи розміром |
||
q х |
q , R12 - |
матриця взаємної кореляції змінних першої та другої груп ро |
|||
зміром pxq. |
|
|
|||
|
Розв'язання зводиться до узагальненої проблеми власних значень: |
R 12R UR 12V = JlR22V> |
(7-56) |
де X - вектор власних значень розміром q.
Квадратні корені з власних значень називають канонічними коре
ляціями.
Для випадкової вибірки обсягу п з (р + 1)-вимірного нормального ро зподілу коефіцієнт множинної кореляції вважають відмінним від нуля на рівні значущості а, якщо виконується нерівність:
(7.57)
\ v + pF ’
де F - значення оберненої функції F-розподілу для довірчого рівня (і-ос)
та кількості ступенів вільності р та (п - р - 1).
Коефіцієнт конкордації призначений для дослідження зв'язків між порядковими ознаками, кількість яких є більшою, ніж два. Як міру узго дженості беруть суму квадратів відхилень сум рангів спостережень (об'єк тів) від їх спільного середнього рангу:
|
|
f/ n |
|
\\ 2 |
sw= X (s,-s) = |
z |
s , |
J . |
|
V i=l |
n |
|||
і—1 |
|
і—1 |
(7.58) |
|
is, |
t |
|
|
|
|
|
|
||
* n ;S |
- |
K - |
|
|
де Ry - ранг і-го спостереження за j -ою ознакою.
Коефіцієнт конкордації Кендалла обчислюють за формулою:
w= |
J 2! w v |
(7.59) |
k |
- n j |
|
Його значення може змінюватися в межах від нуля до одиниці, при цьому він дорівнює одиниці лише за умови, що всі досліджувані ранжиру-
вання збігаються. Коефіцієнт конкордації дорівнює нулю, якщо k > 3 і всі ранжирування є випадковими впорядкуваннями вихідної вибірки.
Середнє за всіма можливими парами ранжирувань значення коефіці єнта Спірмена за відсутності об’єднаних рангів пов’язано з коефіцієнтом конкордації співвідношенням:
- kW - І |
(7.60) |
|
P s = ^ ^ |
||
|
Величина ( k - l ) -------
v ' l - W
сті ( n - l ) та ( ( n - l ) ( k - l ) - 2 ) . Високі значення функції F-розподілу свід чать про високий рівень узгодженості між ранжируваннями.
При п > 7 величина k ( n - l ) W за відсутності зв'язку між ознаками
2
має розподіл, близький дох з (п -1 ) ступенем вільності. Якщо:
(7.61)
то гіпотезу про відсутність рангової кореляції можна відкинути при рівні значущості а.
Контрольні питання
1.Що називають кореляцією двох випадкових величин?
2.Які ознаки вважають статистично незалежними?
3.Які проблеми аналізу даних потребують попередньої перевірки наяв
ності статистичного зв'язку між досліджуваними ознаками?
4. Якою є загальна методика перевірки гіпотези про наявність статистич ного зв'язку?
5. З якою метою на початковому етапі кореляційного аналізу перевіря ють тип даних?
6. Що є універсальною характеристикою статистичного зв'язку між кіль кісними ознаками?
7. Якими є переваги й недоліки застосування коефіцієнта детермінації?
8. Для заданого набору даних визначити коефіцієнт детермінації і зроби ти висновок про наявність кореляційного зв'язку.
9. У чому полягає різниця між парними та частинними кореляційними характеристиками?
10.Що вимірює парний коефіцієнт кореляції Пірсона?
11.Для заданого набору даних розрахувати значення парного коефіцієн
та кореляції Пірсона і зробити висновок про наявність кореляційного зв'язку. 12. Що називають кореляційним відношенням двох випадкових вели
чин? Які властивості зв'язку характеризує цей показник?
13.Що вимірює коефіцієнт кореляції Фехнера?
14.Для заданого набору даних розрахувати значення коефіцієнта коре
ляції Фехнера і зробити висновок про наявність кореляційного зв'язку.
15.Що називають коваріацією випадкових величин? Як цей показник пов'язаний з парним коефіцієнтом кореляції Пірсона?
16.Яких значень можуть набувати показники корельованості кількісних ознак? Які висновки можна зробити на основі значень цих показників?
17.Що називають ранговою кореляцією?
18.На якій властивості корельованих ознак ґрунтується коефіцієнт ран
гової кореляції Спірмена?
19. На якій властивості корельованих ознак ґрунтується коефіцієнт ран
гової кореляції Кендалла?
20.Яких значень можуть набувати показники рангової кореляції і про що свідчать їх значення?
21.Для заданого набору даних розрахувати значення коефіцієнтів ранго
вої кореляції Спірмена й Кендалла і зробити висновок про наявність кореляцій
ного зв'язку.
22. Які показники використовують для перевірки корельованості номі нальних ознак? У чому полягають особливості застосування окремих показни ків?
23. Для заданого набору даних перевірити корельованість даних за до помогою критерію %, а також коефіцієнта Крамера й поліхоричного коефіцієн та спряженості Чупрова.
24. Які показники використовують для перевірки корельованості ознак,
що виміряні у шкалах різного типу? Якими є особливості їх застосування?
25. Які показники використовують для дослідження корельованості де кількох ознак? Якими є особливості їх застосування?
8. МЕТОДИ ПОБУДОВИ Й ДОСЛІДЖЕННЯ РЕГРЕСІЙНИХ МОДЕЛЕЙ
Завданням дослідження складних систем і процесів часто є перевірка ная вності й встановлення типу зв’язку між незалежними змінними X; (предиктора-
ми, факторами), значення яких можуть змінюватися дослідником і мають певну заздалегідь задану похибку, та залежною змінною (відгуком) z. Розв’язання та ких завдань є предметом регресійного аналізу. На практиці завдання регресій-
ного аналізу зазвичай ставиться так: необхідно підібрати достатньо просту фу нкцію, що у певному розумінні найкращим чином описує наявну сукупність емпіричних даних.
8.1. Загальна характеристика методів та задач регресійного аналізу
Класичний регресійний аналіз включає методи побудови математичних моделей досліджуваних систем, методи визначення параметрів цих моделей і перевірки їх адекватності. Він припускає, що регресія є лінійною комбінацією лінійно незалежних базисних функцій від факторів з невідомими коефіцієнтами
(параметрами). Фактори й параметри є детермінованими, а відгуки —рівноточ-
ними (тобто мають однакові дисперсії) некорельованими випадковими величи нами. Припускають також, що всі змінні вимірюють у неперервних числових шкалах.
Звичайна процедура класичного регресійного аналізу є такою. Спочатку обирають гіпотетичну модель, тобто формулюють гіпотези про фактори, які суттєво впливають на досліджувану характеристику системи, і тип залежності відгуку від факторів. Потім за наявними емпіричними даними про залежність відгуку від факторів оцінюють параметри обраної моделі. Далі за статистични ми критеріями перевіряють її адекватність.
При побудові регресійних моделей реальних систем і процесів вказані вище припущення виконуються не завжди. У більшості випадків їх невиконан ня веде до некоректності застосування процедур класичного регресійного ана лізу і потребує застосування більш складних методів аналізу емпіричних даних.
Постулат про рівноточність і некорельованість відгуків не є обов’язковим. У випадку його невиконання процедура побудови регресійної моделі певною мірою змінюється, але суттєво не ускладнюється.
Більш складною проблемою є обрання моделі та її незалежних змінних. У
класичному регресійному аналізі припускають, що набір факторів задається од нозначно, всі суттєві змінні наявні в моделі й немає ніяких альтернативних спо собів обрання факторів. На практиці це припущення не виконується. Тому ви никає необхідність розробки формальних та неформальних процедур перетво рення й порівняння моделей. Для пошуку оптимальних формальних перетво рень використовують методи факторного та дискримінантного аналізу. На сьо годні розроблено комп'ютеризовані технології послідовної побудови регресій-
них моделей.
Фактори в класичному регресійному аналізі вважають детермінованими,
тобто припускають, що дослідник має про них всю необхідну інформацію з аб солютною точністю. На практиці це припущення часто не виконується. Відмова від детермінованості незалежних змінних приводить до необхідності застосу вання моделей кореляційного аналізу. В окремих випадках можна використову вати компромісні методи конфлюентного аналізу, які припускають можливість нормально розподіленого та усіченого розкиду значень факторів. Якщо ця умо ва виконується, побудову моделі можна звести до багаторазового розв’язування регресійної задачі.
Відмова від припущення про детермінованість параметрів моделей у ре гресійному аналізі призводить до суттєвих ускладнень, оскільки порушує його статистичні основи. Але на практиці це припущення виконується не завжди. У
деяких випадках можна вважати параметри випадковими величинами із зада ними законами розподілу. Тоді як оцінки параметрів можна брати їх умовні ма тематичні сподівання для відгуків, що спостерігалися. Умовні розподіли та ма тематичні сподівання розраховують за узагальненою формулою Байєса. Тому відповідні методи називають байєсівським регресійним аналізом.