
- •Міністерство освіти України
- •Державний університет “Львівська політехніка”
- •Кореляційний аналіз
- •В моделюванні технологічних процесів
- •6.0910 “Радіоелектронні апарати”,
- •Теоретичні відомості
- •1. Моделювання технологічних процесів
- •2. Кореляційний аналіз у моделюванні тп
- •3. Проведення кореляційного аналізу
- •1. Експеримент: запис даних у вигляді таблиці і побудова діаграми розсіювання.
- •2. Оцінка кореляції “на око”, за виглядом діаграми розсіювання (кореляційного поля).
- •3. Обробка експериментальних даних і розрахунок коефіцієнту кореляції.
- •4. Комп'ютерна підтримка кореляційного аналізу
- •4.1. Комп'ютерна підтримка побудови кореляційного поля (діаграми розсіювання)
- •4.2. Комп'ютерна підтримка розрахунку коефіцієнту кореляції
- •5. Задачі для самостійного розв’язання
- •Література
- •Додаток 1 Словник ms Excel (математичні функції)
- •Словник ms Excel (cтатистичні функції)
- •Словник ms Excel (назви змінних (полів) у діалогових вікнах статистичних функцій)
- •Додаток 4 Словник ms Excel (назви змінних (полів) у діалогових вікнах математичних функцій)
- •Кореляційний аналіз при моделюванні технологічних процесів
- •6.0910 “Радіоелектронні апарати”,
- •Редактор
3. Проведення кореляційного аналізу
1. Експеримент: запис даних у вигляді таблиці і побудова діаграми розсіювання.
За умови дії на параметри процесу багатьох факторів доцільно досліджувати вплив всіх або більшості факторів не одночасно, а по черзі, збільшуючи кількість факторів. Починати слід з дослідження впливу фактору, який з фізичних міркувань видається найсуттєвішим, оцінювати наявність кореляції і силу зв'язку за допомогою коефіцієнту кореляції з подальшою побудовою рівняння парної регресії. Поступово в це рівняння вводять інші фактори, значущість впливу яких підтверджується величиною коефіцієнта кореляції. Відповідним чином проводиться і експеримент.
2. Оцінка кореляції “на око”, за виглядом діаграми розсіювання (кореляційного поля).
Встановлення характеру зв’язку здійснюють шляхом фізичного аналізу результатів вимірювань відповідних параметрів. Кількість параметрів, які досліджуються, задається. Інші параметри, які нам не відомі, відносять до таких, що не враховуються. Результати спостережень параметрів піддаються систематизації. Їх можна відобразити графічно у вигляді точок на площині (поле кореляції або діаграма розсіювання) з відповідними координатами (рис. 2).
а)
б)
в)
Рис. 2. Діаграми розсіювання (кореляційні поля): а) – додатна кореляція; б) - від'ємна кореляція; в) відсутня кореляція.
По розміщенню точок на площині (кореляційне поле) можна зробити припущення про форму і силу зв’язку. Наприклад, з збільшенням значень параметра X значення параметру Y теж зростають (або зменшуються). Таким чином, в першому випадку можна говорити про позитивну (прямо спрямовану) кореляцію, в другому - про негативну (обернено спрямовану) кореляцію.
3. Обробка експериментальних даних і розрахунок коефіцієнту кореляції.
Статистичне дослідження кореляції зводиться до встановлення характеру зв’язку між параметрами процесу: визначенню її форми, спрямованості та щільності.
Кореляцію вважають простою, якщо вона базується на зв’язку двох випадкових величин - параметрів технологічного процесу, і множинною, якщо має місце взаємозв’язок декількох параметрів.
При систематизації результатів спостережень в табличній формі вибіркові значення параметрів X та Y розбивають на інтервали. На поле кореляції накладають координатну сітку, яка відповідає прийнятій системі інтервалів, і підраховують кількість точок (частота влучення) в кожній клітині координатної сітки. Результати підрахунків, а також горизонтальні та вертикальні підсумки частот заносять в кореляційну таблицю. Кореляційна таблиця спрощує розрахунок коефіцієнту кореляції при ручній обробці результатів; у випадку наявності комп'ютерної підтримки кореляційного аналізу кореляційну таблицю можна не будувати.
В деяких випадках таблиця двовимірного розподілу дає додаткову можливість позбутися грубих промахів, які неможливо виявити в одновимірних вибірках. Для двовимірної таблиці грубим промахом вважається влучення в клітину, що відстоїть від основного масиву даних не менше, ніж на одну пусту клітину по горизонталі та по вертикалі, при відносно великому об’ємі спостережень. При незначному обсязі спостережень подібні висновки можуть бути неправомірними.
Після побудови таблиці підраховують середні значення для всіх рядків розподілу Y, що відповідають заданим значенням X, і відкладають їх на кореляційному полі; у випадку відсутності кореляційної таблиці на кореляційному полі відкладають всі емпірично отримані значення і поєднують відрізками прямих. Отримана ламана лінія - емпірична лінія регресії. Згідно з законом великих чисел можна стверджувати, що при збільшенні кількості спостережень і спрямуванні довжини інтервалу до нуля випадковий характер зигзагів буде згладжуватись і лінія регресії прийматиме більш закономірний характер. Граничне положення емпіричної лінії регресії, до якої вона наближається з збільшенням кількості спостережень і спрямуванні довжини інтервалу до нуля називається теоретичною лінією регресії. Побудова теоретичної лінії регресії, визначення довірчого інтервалу для коефіцієнтів регресії і оцінка достовірності зв'язку між досліджуваними параметрами за допомогою t-статистики становлять основні етапи процедури регресійного аналізу, який є тісно пов'язаний (практично “вкладений”) у кореляційний.
Для вивчення зв'язку між змінними перш за все потрібно побудувати діаграму розсіювання. Силу зв’язку у кількісному відношенні характеризують величини теоретичного та емпіричного кореляційних відношень, а при лінійній формі зв’язку - коефіцієнт кореляції. Процедура визначення коефіцієнту кореляції для n пар значень xi, yi, отриманих на n взірцях, має вигляд, наведений у табл. 1.
Довірчий інтервал для теоретичного коефіцієнту зв'язку і значимість коефіцієнту кореляції визначають на основі теореми про те, що для n пар значень xi, yi отриманих на n взірцях з нормальним двовимірним розподілом і вибірковим коефіцієнтом кореляції r, що дорівнює 0, величина t = r(n-2)1/2/(1-r2)1/2 посідає t-розподіл Стьюдента з (n-2) степенями свободи. Тоді перевірка коефіцієнта кореляції на значимість зводиться до перевірки гіпотези про те, що генеральний коефіцієнт кореляції дорівнює нулю (таблиця 2).
Таблиця 1
Визначення коефіцієнту кореляції за емпіричними даними
№ етапу |
Зміст етапу |
Розрахункова формула |
1. |
Розрахунок середніх значень Xcep для вибірки |
Xcep = xi/n; i = 1 ... n |
2. |
Розрахунок середніх значень Ycep для вибірки |
Ycep = yi/n; i = 1 ... n |
3. |
Розрахунок середніх квадратичних відхилень S(xx) по Х |
S(xx) = (xi-Xcep)2 = xi2 – (xi)2/n; i = 1 ... n |
4. |
Розрахунок середніх квадратичних відхилень S(yy) по Y |
S(yy) = (yi-Ycep)2 = yi2 – (yi)2/n; i = 1 ... n |
5. |
Розрахунок коваріації S(xy)1 |
S(xy) = (xi-Xcep)(yi-Ycep) = xiyi – (xi)(yi)/n; i = 1...n |
6. |
Розрахунок коефіцієнту кореляції r |
r = S(xy)/[S(xx)S(yy)]1/2 |
Таблиця 2
Перевірка коефіцієнту кореляції на значимість
№ етапу |
Зміст етапу |
Розрахункова формула |
1. |
Розрахунок емпіричного коефіцієнту кореляції r |
r = S(xy)/[S(xx)S(yy)]1/2 |
2. |
Перевірка гіпотези Н0: = r = 0 |
Рівень значущості: =0,05 Число степенів свободи: =n-2 |
3. |
Статистика: розрахунок tроз |
tроз = r(n-2)1/2/(1-r2)1/2 |
4. |
Визначення табличного tо |
tо(;) |
5. |
Оцінка співвідношення tроз та tо |
tроз; tо(;). Якщо tроз tо , гіпотеза Н0 приймається; в протилежному випадку відкидається. |
6. |
Висновок |
Якщо гіпотеза Н0 приймається, то констатують що на -рівні значущості кореляція між параметра-ми X i Y відсутня; якщо гіпотеза відкидається, то кореляція має місце і точкова оцінка коефіцієнту кореляції дорівнює r. |