
- •Частина 2 Вступ до дисперсійного, кореляційного та регресійного аналізу
- •1. Виділення аномальних об’єктів і однорідних груп серед сукупності Два типи задач
- •Однофакторний непараметричний дисперсійний аналіз Краскала–Волліса
- •Узагальнений критерій Стьюдента
- •Виділення груп об’єктів, однорідних за середнім значенням Критерій хі-квадрат, що ґрунтується на статистиці Велча
- •Критерій хі-квадрат, що ґрунтується на статистиці Вілкоксона
- •2. Дисперсійний аналіз Головні ідеї дисперсійного аналізу
- •Однофакторний дисперсійний аналіз
- •Двофакторний дисперсійний аналіз
- •Перевірка гіпотез
- •3. Кореляційний аналіз Задачі кореляційного аналізу
- •Парна кореляція
- •Властивості коефіцієнта кореляції
- •Вибірковий коефіцієнт кореляції
- •Кореляційне поле
- •Перевірка гіпотези про значущість коефіцієнта кореляції
- •Кореляційна матриця
- •4. Вступ до регресійного аналізУ Рівняння прямої регресії
- •Двовимірний нормальний закон розподілу та геометрична інтерпретація прямої регресії
- •Інтервал довіри для умовного середнього
- •Метод найменших квадратів для визначення параметрів рівняння регресії
- •Оцінка якості апроксимації
- •5. Непараметрична кореляція Кореляція дихотомічних (якісних) ознак
- •Перевірка гіпотези про значущість вибіркового коефіцієнта кореляції
- •Кореляція порядкових геологічних даних
- •Перевірка гіпотези про значущість коефіцієнта кореляції Спірмена
- •Оцінка коефіцієнта кореляції методом “дробового пострілу”
- •6. Нелінійна кореляція Кореляційне співвідношення як універсальна міра взаємозв’язку
- •Властивості кореляційного відношення
- •Перевірка гіпотези про значущість
- •Гіпотеза про правомірність застосування лінійної моделі
- •7. Тренд аналіз
- •Фон, аномалії та поверхня тренда
- •Білінійна просторова апроксимація
- •Експрес-методи оцінки наявності або відсутності тренда (одномірний випадок)
- •Метод зміни знака
- •Метод стрибків
- •Список Рекомендованої літератури
- •Список Довідкової Літератури
- •Геостатистика
Кореляційна матриця
Нехай маємо групу з
випадкових змінних
(досліджуваних параметрів), що
представлені вибірками обсягу
кожна. Для усіх можливих різних пар
індексів
можна обчислити парні коефіцієнти
кореляції
.
Для
,
тобто для двох ідентичних наборів, можна
прийняти
,
що відповідає лінійній функціональній
залежності
(тотожності) для всіх пар значень у
вибірках. Коефіцієнти кореляції запишемо
у вигляді підсумкової симетричної
матриці
:
. (3.14)
Після перевірки кожного з коефіцієнтів
на значущість (достатньо це зробити для
елементів матриці над головною діагоналлю)
і заміни коефіцієнтів, що менше
,
нулем, “очищена” кореляційна матриця
відображає “справжні” статистично
значимі зв’язки між змінними.
Аналіз структури кореляційної матриці
є дуже важливим методом для виявлення,
наприклад, парагенетичних асоціацій у
геохімічних дослідженнях [5], а також
основою інших методів аналізу (наприклад,
факторного). З огляду на це часто виникає
завдання порівняти різні коефіцієнти
кореляції. Оскільки істинні коефіцієнти
кореляції
та
невідомі, то рішення ухвалюють,
користуючись їхніми вибірковими оцінками
та
на підставі статистичного доведення.
1. Формулюємо нульову гіпотезу про рівність коефіцієнтів кореляції
:
(3.15)
та альтернативну їй
:
. (3.16)
2. Вибираємо рівень значущості .
3. Оскільки розподіл коефіцієнтів
кореляції за умови
має значну асиметрію, то використовуємо
перетворені величини
(3.17)
і будуємо статистику
,
. (3.18)
4. В умовах гіпотези
статистика
має асимптотично нормальний розподіл
з нульовим середнім та дисперсією, що
дорівнює 1.
5. Знаходимо критичні значення статистики,
тобто квантилі стандартного нормального
розподілу, наприклад, для
маємо
.
6. Якщо
, (3.19)
то гіпотеза про рівність коефіцієнтів не суперечить вибірковим даним (для заданого ).
4. Вступ до регресійного аналізУ Рівняння прямої регресії
Відображення зв’язку між двома
випадковими величинами
і
у вигляді залежності
називають регресією
на
,
і навпаки: у випадку
кажуть про регресію
на
.
Якщо лінії регресії є прямими, то регресію
називають лінійною, в іншому випадку –
нелінійною. Випадок прямої регресії є
найпростішим, а тому найуживанішим
в аналізі експериментальних даних.
У прямокутній системі координат рівняння лінійної регресії можна записати аналітично так:
; (4.1)
, (4.2)
де
і
– сталі величини – параметри рівняння
регресії.
Головною властивістю рівняння регресії є те, що вона мінімізує суму квадратів (дисперсію) відхилень точок на лінії від експериментальних даних
(4.3)
Аналогічно для другого рівняння регресії
(4.4)
Властивості (4.3), (4.4) є в основі методу найменших квадратів оцінки параметрів регресії і .
Коефіцієнти прямої регресії пов’язані з коефіцієнтом кореляції, а саме: регресія на
(4.5)
і, аналогічно, лінійна регресія на
. (4.6)
У разі порівняння, наприклад, (4.5) з (4.1), маємо
. (4.7)
Двовимірний нормальний закон розподілу та геометрична інтерпретація прямої регресії
Сприятливими умовами для побудованої лінійної регресійної моделі є узгодження пари випадкових величин та з двовимірним нормальним законом розподілу (рис. 4.1).
Рис. 4.1. Двовимірний нормальний розподіл [1].
Кожному фіксованому (можливому) значенню
відповідає набір можливих значень
,
що мають свої ймовірності появи цих
значень
і підпорядковані, вважатимемо,
нормальному закону розподілу з
математичним сподіванням
та дисперсією
.
Розподіл величини
для фіксованого
називають умовним розподілом з розподілом
.
Аналогічно для фіксованого
маємо нормальний закон розподілу
випадкової величини
з математичним сподіванням
,
дисперсією
,
густиною розподілу
.
Отже, кожна з можливих пар значень
має ймовірність появи (згідно з формулою
ймовірності для добутку подій)
,
що задає двовимірний нормальний закон розподілу:
,
(4.8)
де
– відповідно, загальні (не умовні!)
математичні сподівання, дисперсії
та парний коефіцієнт кореляції.
Геометричне місце точок, що відповідає
центрам умовних розподілів
,
називають лінією регресії
на
,
аналогічно, центри умовних розподілів
дають лінію регресії
на
.
Рис. 4.2. Лінії регресії та умовні нормальні розподіли [2].