
- •1 МЕТА РОБОТИ
- •2 КОРОТКІ ТЕОРЕТИЧНI ВIДОМОСТI
- •2.1 Основи регресійного аналізу
- •2.2 Побудова математичних моделей.
- •2.3 Статистичні критерії для перевірки гіпотез
- •2.3.1 Критерій Фішера.
- •2.3.2 Критерій Стьюдента.
- •2.4 Перевірка адекватності рівняння регресії
- •2.5 Перевірка значимості коефіцієнтів регресії
- •3 КОНТРОЛЬНІ ЗАПИТАННЯ
- •4 ЛАБОРАТОРНЕ ЗАВДАННЯ
- •6 СПИСОК ЛІТЕРАТУРИ

МIНIСТЕРСТВО ОСВIТИ І НАУКИ УКРАЇНИ Національний унiверситет "Львiвська полiтехнiка"
СТАТИСТИЧНІ МЕТОДИ В ПРОЕКТУВАННІ СОС. Побудова статистичних математичних моделей.
Регресійний аналіз.
МЕТОДИЧНІ ВКАЗІВКИ
до лабораторної роботи № 2 з курсу "Основи автоматизованого проектування
складних об’єктів і систем"
для студентiв базового напрямку 6.0804 "Комп'ютернi науки"
Затвердженона засiданнi кафедри ″Системи автоматизованого проектування"
Протокол N 1 вiд 27.08.2001р.
Львiв 2001
Статистичні методи в проектуванні СОС. Побудова статистичних математичних моделей. Регресійний аналіз.
Методичні вказівки до лабораторної роботи №2 з курсу “Основи автоматизованого проектування складних об`єктів і систем” для студентiв базового напрямку 6.0804 - "Комп'ютернi науки" / Укл. О.М.Матвійків - Львiв: НУ “ЛП”, 2001. - 17с.
Укладач: О.М.Матвійків, канд. техн. наук
Вiдповiдальний за випуск С.П.Ткаченко, канд.техн.наук, доц.
Рецензенти: Ю.В.Стех, канд.техн.наук, доц. I.I.Мотика, канд.техн.наук, доц.
2
1МЕТА РОБОТИ
•вивчити основні етапи побудови статистичних математичних моделей
•побудувати емпіричну залежність контрольованої характеристики
•перевірити адекватність моделі і значимість коефіцієнтів регресії
2КОРОТКІ ТЕОРЕТИЧНI ВIДОМОСТI
2.1Основи регресійного аналізу
Математична модель, представлена у вигляді рівняння регресії, відображає геометричне місце точок математичних сподівань умовних розподілів цільової функції. Простим прикладом такої моделі є рівняння парної кореляції, де на цільову функцію вплпває один фактор. На практиці в реальному виробництві на цільову функцію діє багато факторів і шукане рівняння регресії стає багатовимірним.
Існує багато методів пошуку необхідного рівняння регресії, які умовно можна розділити на два класи: методи активного і методи пасивного експерименту. Під активним експериментом будемо розуміти експеримент, попередній план якого складаний таким чином, щоб одержати максимальну інформацію про цільову функцію при мінімальній її дисперсії та проведення мінімальної кількості дослідов. Такий план (наприклад, повний факторний експеримент) потребує одночастної зміни всіх факторів в достатньо широких межах, що повністью можливе в лабораторних умовах, але неможливо при масовому виробництві. Під результатом пасивного експеримету будемо розуміти таблицю, кожна лінійна якої представляє собою числові значення цільової функції при деяких умовах (в визначений момент часу, або для конкретної партії виробів, або при проходжені вибраної технологічної операції і т.д.) і числові
3
значення досліджуваних факторів при тих же умовах. Оскільки ніякої штучної зміни факторів в широких межах небуло, то мають місце лише природні зміни, як правило, в межах допуска на фактор. В цьому випадку, для відділення функції від шумових флюктуацій, необхідно мати достатньо велику таблицю випробувань. Дослідним шляхом встановлено, що таблиця результатів пасивного експерименту є достатньою, якщо на кожний досліджуваний фактор припадає до 15 експериментов.
З точки зору математики і статики безпосереднім завданням експерименту є організація репрезентованої виборки. У результаті обробки даних отримується емпірична модель об'єкта, яка справедлива у тій області значень факторів, в якій вони змінюються у процесі експерименту. Генеральна сукупність - сукупність усіх мислимих значень спостережень, які могли б бути при даному комплексі умов. Результати обмеженого ряду спостережень розглядаються як виборка з даної генеральної сукупності. Якщо говорити про характеристики розподілів (ймовірності), то характеристки теоретичних розподілів можна розглядати як характеристики, існуючі в генеральной сукупності, а характеристики емпіричних розподілів як вибіркові характеристики або оцінки.
Для побудови регресійної моделі і забезпечення адекватності функціональної залежності між факторами і контрольованою величиною необхідно провести наступні розрахунки:
-обчислення емпіричних характеристик розподілів;
-попереднью обробку результатів спостережень;
-перевірку гіпотези на нормальність закону розподілу;
-побудову емпіричних залежностей;
-перевірку адекватності моделі і значимості коефіцієнтів
регресії.
Відомо, що класичний регресійний аналіз, який базується на “пасивному експерименті” має ряд недоліків, а саме : вузький
4
діапазон зміни факторів, в основному із-за дії неконтрольованих збурень; неможливість врахування та контролю всіх факторів в промислово діючому процесі; відсутня можливість довільної зміни значення факторів в широких межах. Однак, для для задач регулювання моделі, отримані таким шляхом, являються дуже ефективними.
2.2Побудова математичних моделей.
Отже оброблені вхідні дані можна записати у вигляді матриці експериментів {X } та вектора (а можливо і матриці) контрольованих вихідних характеристик:
x |
01 |
x |
... |
x |
m1 |
|
11 |
|
|
||
x02 |
x12 |
... |
xm2 |
||
X = |
|
|
|
|
|
... ... ... ... |
|||||
x |
0n |
x |
... |
x |
mn |
|
1n |
|
|
|
|
y1 |
|
|
|
|
|
|
|
y2 |
|
|
, |
Y = |
|
|
... |
|
|
|
|
|
|
|
|
ym |
Відомо, що опис досліджуваного об’єкта неможливо отримати у вигляді точної формули функції, яка справедлива на всьому діапозоні існування аргументів, а лише приблизно на невеликій ділянці в околі вибраної базової точки. Апроксимація шуканої математичної залежності представляє собою деякий поліном - відрізок ряду Тейлора, в який розкладається невідома залежність:
y = f(x1 , x2 ,...,xn )= b0 + ∑n bi xi + ∑n bijxi x j + ∑n bii xii
i=1 i≠j i=1
|
|
|
∂ |
|
|
|
|
|
∂2f |
|
|
|
|
|
|
|
∂2 |
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
b |
|
= |
f |
|
|
|
|
bij = |
|
|
|
|
|
b |
|
= |
f |
|
|
|||
i |
|
|
|
|
|
∂xi ∂x j |
|
|
|
|
ii |
|
|
|
|
|
|
|||||
∂xi |
|
|
|
|
|
|
x =0 ; |
∂xi2 |
|
|
|
|
||||||||||
|
|
x =0 |
|
|
|
x =0 . |
||||||||||||||||
де |
|
|
|
; |
|
|
|
|
|
+...
,(2.1)
(2.2)
Оскільки вигляд функції |
f |
в нашій |
залежності |
Y = f (X 1 , X 2 ,..., X K ) є невідомий,а |
по |
існуючих |
результатах |
експериментів – в принципі не може бути визначений однозначно, використовують метод найменших квадратів.
5

Для того, щоб знайти коефіцієнти рівняння регресії в n точках факторного простору, необхідно виконати наступні передумови:
1. Результати спостережень Y = {yi }, i = 1, n вихідної
величини в n точках факторного простору, повинні представляти собою незалежні, нормально розподілені випадкові величини.
2.Вибіркові дисперсії дослідів однорідні, тобто статично незалежні. Така вимога означає незалежність вибіркових дисперсій від місцеположення точки факторного простору, в якому проводиться конкретний дослід.
3.Незалежні зміні X = {xi }, i = 1, n вимірюються з
похибкою набагато меншою, ніж величина можливого відхилення вихідного параметра Y під впливом неврахованих неконтрольованих факторів.
При проведенні обчислень за класичним методом найменших квадратів до форми рівняння регресії висувається така вимога: це рівняння повинно бути лінійним за параметрами або допускати можливость лінеарізації. Так, наприклад, процедура проведення регресійного аналізу однакова для рівнянь y = b0 + b1x і y = b0 + b1z2, оскільки підстановка
x = z2 приводить друге рівняння до першого. Тоді задача пошуку коефіцієнтів рівняння регресії зводиться до вирішення системи нормальних рівнянь.
n |
|
2 |
n |
α |
|
2 |
|
u = ∑(yb - yd ) |
|
= ∑ yd - ∑bi xin |
= min |
(2.3) |
|||
i=1 |
|
|
n=1 |
i=0 |
|
, |
|
|
|
|
|
де yd - експериментальне значення вихідного параметра, одержане в n-му факторному просторі; yd - значення вихідного
параметра, знайдене з рівняння регресії в тих самих точках; α - кількість членів в рівнянні регресії.
6
Для розв’язання задачі необхідно в кожному конкретному випадку вираховувати значення коефіцієнтів b0 і
b1, які мінімізують суму відхилень u . Для цього слід знайти часткові похідни функції u по b0 і b1 і прирівняти їх до нуля. Наприклад для двох коефіцієнтів регресії одержимо:
|
∂U |
= ∑n [yi - (b0 + b1 xi )]= 0, |
|
|||
|
∂b0 |
|
||||
|
|
i=1 |
|
(2.4) |
||
|
∂U |
|
n |
|
|
|
|
= ∑[yi - (b0 + b1 xi )] |
* xi = 0. |
||||
|
∂b1 |
|||||
|
|
i=1 |
|
|
||
Звідси |
|
|
∑y∑x2 - ∑xy∑x |
|
||
|
b 0 |
= |
, |
|||
|
n∑x2 - (∑x) |
2 |
||||
|
|
|
|
|
||
|
|
|
|
∑y∑x2 - ∑x∑y |
|
|
|
b1 = |
n∑x2 - (∑x)2 . |
(2.5) |
|||
|
|
|
|
|
|
В матричній формі вирази (2.14)-(2.16) будуть мати вигляд: Y=X*B. Для розв’язання системи нормальних рівнянь у матричній формі помножемо її на обернену і зробивши нескладні перетворення одержимо:
B = ( X T X ) -1 * ( X T Y) . |
(2.6) |
Для того, щоб така система лінійних алгебраїчних рівнянь мала єдине рішення, необхідно, щоб матриця була невиродженою, тобто вектори-стовбці повинні бути лінійно незалежними. Для виконання цієї вимоги в першу чергу необхідно шляхом відкидання забезпечити лінійну незалежність вхідних факторів Х1, Х2, ..., Хм. Цей процес являється одним з найбільш складних, так як не має формального алгоритмічного пояснення і залежить від професійних знань про об’єкт, досвіду
7

та інтуїції дослідника. Формально дана задача може бути вирішена методами ідентифікації, які розглядаються в наступній роботі.
А в поточній поботі необхідно виключити з вхідних даних ті фактори (стовпчики матриці Х), які приводять до поганої обумовленості цієї матриці. В противному випадку, в якості рішення, ми отримаємо множину коефіцієнтів регресії, які не мають нічого спільного з реальними даними. Причина основних труднощів полягають в тому, що поліноми Тейлора записуються через степені х-ів та їх лінійну комбінацію. А ці функції є майже лінійно залежні і, тому, матриця коефіцієнтів нормальних рівнянь близька до виродження. Для мінімізації цих залежностей необхідно: по-перше, видалити лінійно залежні фактори, і по-друге, функції зі степенями х-ів використовувати тільки в тому випадку, коли модель першої степені – не адекватна.
З співвідношень математичної статистики відомо, що мірою лінійного звязку між двома випадковими величинами Хі та Хj може бути коефіцієнт парної кореляції:
|
|
|
|
|
|
∑(X i − |
|
|
)(X j − |
|
|
) |
|
|
||||
r{X |
|
, X |
|
}= |
|
X i |
X j |
|
||||||||||
i |
j |
|
∑(X i − |
|
|
|
)2 ∑(X j − |
|
|
)2 |
|
|||||||
|
|
|
|
X i |
X j |
(2.7) |
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Значимість коефіцієнта кореляції визначається F- |
||||||||||||||||||
відношенням: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
s 2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
F = |
k |
|
f k = k |
|
|
|
= N − (k +1) |
|
|
|
||||||
|
|
s 2 |
, |
, |
f |
R |
, |
|
(2.8) |
|||||||||
|
|
|
|
R |
|
|
|
|
|
|
|
|
|
де sk2 = Sk f k , а sR2 - залишкова дисперсія.
Для того, щоб перевірити чи не випадково коефіцієнт кореляції відрізняється від нуля, тобто що дійсно існує кореляційний звязок між двома вибірками, використовують t- критерій. Для цього розраховують:
8