
- •Лекція №6
- •6.2. Інтерполяція.
- •6.3 Кореляційний аналіз даних
- •6.3.1 Матриця даних
- •6.3.2 Кореляційний аналіз
- •6.4 Регрессійний аналіз
- •6.4.1 Постановка задачі
- •6.4.2 Вибір виду рівняння регресії
- •1) Дослідник вносить гіпотезу про структуру скриньки
- •2) Визначення невідомих коефіцієнтів і моделі
- •3) Перевірка
6.4 Регрессійний аналіз
6.4.1 Постановка задачі
Однією з типових задач обробки багатовимірних ЕД є визначення кількісної залежності показників якості об'єкта від значень його параметрів і характеристик зовнішнього середовища. Прикладом такої постановки завдання є встановлення залежності між часом обробки запитів до бази даних і інтенсивністю вхідного потоку. Час обробки залежить від багатьох факторів, у тому числі від розміщення шуканої інформації на зовнішніх носіях, складності запиту. Отже, час обробки конкретного запиту можна вважати випадковою величиною. Але разом з тим, при збільшенні інтенсивності потоку запитів слід очікувати зростання його середнього значення, тобто вважати, що час обробки та інтенсивність потоку запитів пов'язані кореляційною залежністю.
Постановка задачі регресійного аналізу формулюється наступним чином.
Є сукупність
результатів спостережень виду (6.1). У
цій сукупності один стовпець відповідає
показнику, для якого необхідно встановити
функціональну залежність з параметрами
об'єкта і середовища, представленими
іншими стовпцями. Будемо позначати
показник через
і вважати, що йому відповідає перший
стовпець матриці спостережень. Решта
стовпців
відповідають параметрам (факторам)
.
Потрібно: встановити
кількісний взаємозв'язок між показником
і факторами. У такому випадку завдання
регресійного аналізу розуміється як
завдання виявлення такої функціональної
залежності
,
яка найкращим чином описує наявні
експериментальні дані.
Допущення:
кількість спостережень достатня для прояву статистичних закономірностей щодо факторів і їх взаємозв'язків;
оброблювані ЕД містять деякі помилки (перешкоди), обумовлені похибками вимірювань, впливом неврахованих випадкових чинників;
матриця результатів спостережень є єдиною інформацією про досліджуваний об'єкт, наявною в розпорядженні перед початком дослідження.
Функція
,
що описує залежність показника від
параметрів, називається рівнянням
(функцією) регресії. Термін "регресія"
(regression (лат.) - відступ, повернення до
чогось) пов'язаний зі специфікою однією
з конкретних задач, вирішених на стадії
становлення методу, і в даний час не
відбиває всієї сутності методу, але
продовжує застосовуватися.
Рішення задачі регресійного аналізу доцільно розбити на декілька етапів:
попередня обробка ЕД;
вибір виду рівнянь регресії;
обчислення коефіцієнтів рівняння регресії;
перевірка адекватності побудованої функції результатами спостережень.
Попередня обробка
включає стандартизацію матриці ЕД,
розрахунок коефіцієнтів кореляції,
перевірку їх значущості і виключення
з розгляду незначущих параметрів (ці
перетворення були розглянуті в рамках
кореляційного аналізу). В результаті
перетворень будуть отримані стандартизована
матриця спостережень
(черезy
будемо позначати стандартизовану
величину
)
і кореляційна матриця
.
Стандартизованій матриці U можна зіставити одну з наступних геометричних інтерпретацій:
в m-вимірному просторі осі відповідають окремим параметрам і показником. Кожен рядок матриці представляє вектор в цьому просторі, а вся матриця - сукупність п векторів в просторі параметрів;
в n-мірному
просторі осі відповідають результатам
окремих спостережень. Кожен стовпець
матриці - вектор в просторі спостережень.
Всі вектора в цьому просторі мають
однакову довжину, рівну
.
Тоді кут між двома векторами характеризує
взаємозв'язок відповідних величин. І
чим менше кут, тим тісніше зв'язок (тим
більше коефіцієнт кореляції).
У кореляційної
матриці особливу роль відіграють
елементи лівого стовпця - вони
характеризують наявність або відсутність
лінійної залежності між відповідним
параметром
і показником об'єкта y. Перевірка
значущості дозволяє виявити такі
параметри, які слід виключити з розгляду
при формуванні лінійної функціональної
залежності, і тим самим спростити
подальшу обробку.