Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лек№12 КМ ЗВТ.doc
Скачиваний:
10
Добавлен:
16.05.2015
Размер:
1.24 Mб
Скачать

6.4 Регрессійний аналіз

6.4.1 Постановка задачі

Однією з типових задач обробки багатовимірних ЕД є визначення кількісної залежності показників якості об'єкта від значень його параметрів і характеристик зовнішнього середовища. Прикладом такої постановки завдання є встановлення залежності між часом обробки запитів до бази даних і інтенсивністю вхідного потоку. Час обробки залежить від багатьох факторів, у тому числі від розміщення шуканої інформації на зовнішніх носіях, складності запиту. Отже, час обробки конкретного запиту можна вважати випадковою величиною. Але разом з тим, при збільшенні інтенсивності потоку запитів слід очікувати зростання його середнього значення, тобто вважати, що час обробки та інтенсивність потоку запитів пов'язані кореляційною залежністю.

Постановка задачі регресійного аналізу формулюється наступним чином.

Є сукупність результатів спостережень виду (6.1). У цій сукупності один стовпець відповідає показнику, для якого необхідно встановити функціональну залежність з параметрами об'єкта і середовища, представленими іншими стовпцями. Будемо позначати показник через і вважати, що йому відповідає перший стовпець матриці спостережень. Решта стовпців відповідають параметрам (факторам) .

Потрібно: встановити кількісний взаємозв'язок між показником і факторами. У такому випадку завдання регресійного аналізу розуміється як завдання виявлення такої функціональної залежності , яка найкращим чином описує наявні експериментальні дані.

Допущення:

кількість спостережень достатня для прояву статистичних закономірностей щодо факторів і їх взаємозв'язків;

оброблювані ЕД містять деякі помилки (перешкоди), обумовлені похибками вимірювань, впливом неврахованих випадкових чинників;

матриця результатів спостережень є єдиною інформацією про досліджуваний об'єкт, наявною в розпорядженні перед початком дослідження.

Функція , що описує залежність показника від параметрів, називається рівнянням (функцією) регресії. Термін "регресія" (regression (лат.) - відступ, повернення до чогось) пов'язаний зі специфікою однією з конкретних задач, вирішених на стадії становлення методу, і в даний час не відбиває всієї сутності методу, але продовжує застосовуватися.

Рішення задачі регресійного аналізу доцільно розбити на декілька етапів:

попередня обробка ЕД;

вибір виду рівнянь регресії;

обчислення коефіцієнтів рівняння регресії;

перевірка адекватності побудованої функції результатами спостережень.

Попередня обробка включає стандартизацію матриці ЕД, розрахунок коефіцієнтів кореляції, перевірку їх значущості і виключення з розгляду незначущих параметрів (ці перетворення були розглянуті в рамках кореляційного аналізу). В результаті перетворень будуть отримані стандартизована матриця спостережень (черезy будемо позначати стандартизовану величину ) і кореляційна матриця .

Стандартизованій матриці U можна зіставити одну з наступних геометричних інтерпретацій:

в m-вимірному просторі осі відповідають окремим параметрам і показником. Кожен рядок матриці представляє вектор в цьому просторі, а вся матриця - сукупність п векторів в просторі параметрів;

в n-мірному просторі осі відповідають результатам окремих спостережень. Кожен стовпець матриці - вектор в просторі спостережень. Всі вектора в цьому просторі мають однакову довжину, рівну . Тоді кут між двома векторами характеризує взаємозв'язок відповідних величин. І чим менше кут, тим тісніше зв'язок (тим більше коефіцієнт кореляції).

У кореляційної матриці особливу роль відіграють елементи лівого стовпця - вони характеризують наявність або відсутність лінійної залежності між відповідним параметром і показником об'єкта y. Перевірка значущості дозволяє виявити такі параметри, які слід виключити з розгляду при формуванні лінійної функціональної залежності, і тим самим спростити подальшу обробку.