- •Частина 2 Вступ до дисперсійного, кореляційного та регресійного аналізу
- •1. Виділення аномальних об’єктів і однорідних груп серед сукупності Два типи задач
- •Однофакторний непараметричний дисперсійний аналіз Краскала–Волліса
- •Узагальнений критерій Стьюдента
- •Виділення груп об’єктів, однорідних за середнім значенням Критерій хі-квадрат, що ґрунтується на статистиці Велча
- •Критерій хі-квадрат, що ґрунтується на статистиці Вілкоксона
- •2. Дисперсійний аналіз Головні ідеї дисперсійного аналізу
- •Однофакторний дисперсійний аналіз
- •Двофакторний дисперсійний аналіз
- •Перевірка гіпотез
- •3. Кореляційний аналіз Задачі кореляційного аналізу
- •Парна кореляція
- •Властивості коефіцієнта кореляції
- •Вибірковий коефіцієнт кореляції
- •Кореляційне поле
- •Перевірка гіпотези про значущість коефіцієнта кореляції
- •Кореляційна матриця
- •4. Вступ до регресійного аналізУ Рівняння прямої регресії
- •Двовимірний нормальний закон розподілу та геометрична інтерпретація прямої регресії
- •Інтервал довіри для умовного середнього
- •Метод найменших квадратів для визначення параметрів рівняння регресії
- •Оцінка якості апроксимації
- •5. Непараметрична кореляція Кореляція дихотомічних (якісних) ознак
- •Перевірка гіпотези про значущість вибіркового коефіцієнта кореляції
- •Кореляція порядкових геологічних даних
- •Перевірка гіпотези про значущість коефіцієнта кореляції Спірмена
- •Оцінка коефіцієнта кореляції методом “дробового пострілу”
- •6. Нелінійна кореляція Кореляційне співвідношення як універсальна міра взаємозв’язку
- •Властивості кореляційного відношення
- •Перевірка гіпотези про значущість
- •Гіпотеза про правомірність застосування лінійної моделі
- •7. Тренд аналіз
- •Фон, аномалії та поверхня тренда
- •Білінійна просторова апроксимація
- •Експрес-методи оцінки наявності або відсутності тренда (одномірний випадок)
- •Метод зміни знака
- •Метод стрибків
- •Список Рекомендованої літератури
- •Список Довідкової Літератури
- •Геостатистика
Оцінка якості апроксимації
Відхилення (неточність) між експериментальними даними і рівнянням регресії в регресійному аналізі називають залишками:
. (4.18)
Візуальний аналіз поля залишків (аналогічно до кореляційного поля) дає змогу передбачити деякі характерні особливості рівняння регресії та оцінити якість наближення (рис. 4.4).
Рис. 4.4. Залежність залишків рівняння регресії від якості регресійної моделі [4]: а – модель адекватна вхідним даним, залишки заповнюють симетричну горизонтальну смугу відносно осі абсцис; б – неадекватна модель, залишки заповнюють смугу, що розширюється зі зростанням аргументу (дисперсія нестала); в – залишки заповнюють похилу смугу, що свідчить про наявність у них лінійного тренда; г – залишки заповнюють смугу складної форми, що може бути спричинене пропущеним (лінійним відносно параметра) членом у рівнянні.
Для кількісної оцінки якості апроксимації за відомим рівнянням регресії складемо суми квадратів:
(4.19)
і скористаємося головною дисперсійною рівністю (2.10)
, (4.20)
звідки визначимо
. (4.21)
Величину
(4.22)
називають
коефіцієнтом множинної кореляції. Чим
ближче
до 1, тим ліпша модель, тобто точки
кореляційного поля в сукупності лежать
ближче до лінії регресії.
5. Непараметрична кореляція Кореляція дихотомічних (якісних) ознак
Якщо про деякі властивості можна сказати, що вони є, чи їх немає, то вони належать до якісних даних.
Нехай маємо два набори вибіркових даних, що відображають наявність (1) або відсутність (0) деякої ознаки в парах вимірювань:
,
або
; (5.1)
,
або
. (5.2)
Можливі тільки чотири різні результати
вимірювань, що відповідають добуткам
подій (наявності або відсутності ознаки):
.
Коефіцієнт кореляції визначимо за формулою
, (5.3)
де
– теоретична ймовірність події,
;
; (5.4)
;
. (5.5)
Так визначений коефіцієнт кореляції має всі ті ж самі властивості, що й парний коефіцієнт кореляції Пірсона (для кількісних даних), тобто його абсолютна величина відображає міру взаємозв’язку, а знак – напрям зв’язку (пряма або зворотна кореляція).
Для практичного обчислення ймовірностей використаємо частотне відношення (кількості сприятливих спроб (пар) до кількості усіх пар)
, (5.6)
а результати оформимо у вигляді табл. 5.1, де у чисельнику наведено теоретичні ймовірності, а в знаменнику – кількості пар даних для суміщення подій, які стоять на перетині відповідного рядка і стовпця, причому стовпець і рядок “Разом” містять суми цих кількостей:
(5.7)
Оцінку коефіцієнта кореляції знаходимо так:
. (5.8)
Таблиця 5.1
Результати обчислення коефіцієнта кореляції дихотомічних даних
-
Подія, наявність ознаки
Разом
Разом
