
- •Частина 2 Вступ до дисперсійного, кореляційного та регресійного аналізу
- •1. Виділення аномальних об’єктів і однорідних груп серед сукупності Два типи задач
- •Однофакторний непараметричний дисперсійний аналіз Краскала–Волліса
- •Узагальнений критерій Стьюдента
- •Виділення груп об’єктів, однорідних за середнім значенням Критерій хі-квадрат, що ґрунтується на статистиці Велча
- •Критерій хі-квадрат, що ґрунтується на статистиці Вілкоксона
- •2. Дисперсійний аналіз Головні ідеї дисперсійного аналізу
- •Однофакторний дисперсійний аналіз
- •Двофакторний дисперсійний аналіз
- •Перевірка гіпотез
- •3. Кореляційний аналіз Задачі кореляційного аналізу
- •Парна кореляція
- •Властивості коефіцієнта кореляції
- •Вибірковий коефіцієнт кореляції
- •Кореляційне поле
- •Перевірка гіпотези про значущість коефіцієнта кореляції
- •Кореляційна матриця
- •4. Вступ до регресійного аналізУ Рівняння прямої регресії
- •Двовимірний нормальний закон розподілу та геометрична інтерпретація прямої регресії
- •Інтервал довіри для умовного середнього
- •Метод найменших квадратів для визначення параметрів рівняння регресії
- •Оцінка якості апроксимації
- •5. Непараметрична кореляція Кореляція дихотомічних (якісних) ознак
- •Перевірка гіпотези про значущість вибіркового коефіцієнта кореляції
- •Кореляція порядкових геологічних даних
- •Перевірка гіпотези про значущість коефіцієнта кореляції Спірмена
- •Оцінка коефіцієнта кореляції методом “дробового пострілу”
- •6. Нелінійна кореляція Кореляційне співвідношення як універсальна міра взаємозв’язку
- •Властивості кореляційного відношення
- •Перевірка гіпотези про значущість
- •Гіпотеза про правомірність застосування лінійної моделі
- •7. Тренд аналіз
- •Фон, аномалії та поверхня тренда
- •Білінійна просторова апроксимація
- •Експрес-методи оцінки наявності або відсутності тренда (одномірний випадок)
- •Метод зміни знака
- •Метод стрибків
- •Список Рекомендованої літератури
- •Список Довідкової Літератури
- •Геостатистика
3. Кореляційний аналіз Задачі кореляційного аналізу
Кореляційний аналіз – це статистичне дослідження (стохастичної) залежності між випадковими величинами (англ. co-relation – взаємозв’язок). У найпростішому випадку досліджують дві вибірки (набори даних), у загальному – багатовимірні комплекси (групи) геологічних параметрів або об’єктів.
Часто зв’язок між різними властивостями геологічних об’єктів узагалі не піддається поясненню з генетичного чи причинно-наслідкового поглядів, оскільки спостережувані взаємозалежності можуть бути пов’язані не з досліджуваними геологічними процесами, а, наприклад, з методикою вимірювання або іншими причинами. З іншого боку, вивчення взаємозв’язків між значеннями властивостей (параметрів вимірювання) геологічних об’єктів сприяє виявленню та глибшому розумінню суті явищ, з’ясуванню важливих факторів, що впливають на досліджуваний процес. Оскільки в переважній кількості випадків функціональні залежності між досліджуваними параметрами невідомі, дуже складні та недостатньо вивчені, то статистичні методи (кореляційний аналіз) є важливими для опису та моделювання (прогнозування) багатьох геологічних процесів.
Мірою залежності між експериментальними наборами даних є числа – коефіцієнти зв’язку.
Для кожного з різновидів геологічної інформації (якісної, порядкової чи кількісної) є свої особливості оцінки кореляції даних. Відповідно, є коефіцієнти кореляції якісних (дихотомних) даних або порядкових даних (наприклад, ранговий коефіцієнт кореляції Спірмена). Найбільш інформативною є кількісна інформація, отримана на інтервальній або відносній шкалі.
Найчастіше використовують парні коефіцієнти кореляції, що слугують для виявлення лінійного зв’язку між двома наборами даних. Є й інші міри зв’язку (коефіцієнти кореляції), які використовують у кореляційному аналізі. Вони описані в спеціальній літературі [4].
Головні завдання кореляційного аналізу:
1) оцінка за вибірковими даними коефіцієнтів кореляції;
2) перевірка значущості вибіркових коефіцієнтів кореляції або кореляційного відношення;
3) оцінка близькості виявленого зв’язку до лінійного;
4) побудова довірчого інтервалу для коефіцієнтів кореляції.
Парна кореляція
Найпростіша для дослідження парна кореляція, решту побудована на її основі. Парний коефіцієнт кореляції стосується лінійної моделі зв’язку між даними, у складніших випадках досліджують нелінійну кореляцію, а мірою нелінійного зв’язку є кореляційне відношення. Якщо існує лінійний зв’язок, то він буде виявлений і як нелінійна кореляція. Навпаки, існування зв’язку взагалі не є підставою стверджувати про наявність лінійного зв’язку. Отже, нелінійна кореляція – сильніша властивість, а лінійна кореляція є частковим випадком нелінійної кореляції (або кореляції в загальному випадку).
Нехай задано дві вибірки (обов’язково
з однаковою кількістю даних), що
відображають дві випадкові величини
:
;
.
Коефіцієнт парної кореляції визначають як коваріацію, нормовану за стандартними відхиленнями випадкових величин
. (3.1)
Інші еквівалентні формули використовують математичні сподівання та дисперсії
. (3.2)