Учебн. пособия-ОНИ / 1. Данько В.М._Алчевск-06
.pdfвыполнение тех, которые от исследователя не зависят.
Всего имеется 5 основных предпосылок:
1. Помеха эксперимента е является случайной величиной с μ(e) = 0 и
σ2 (e) = const . Постоянство дисперсии σ2 (e), называемой дисперсией воспроизводимости, означает, что интенсивность помехи не меняется при изменении значений факторов, т.е. величина σ2 (e) не зависит от конкретного значения уi в эксперименте. Выполнение этого требования нельзя обеспечить, поскольку оно определяется природой исследуемого объекта. Но выполнение его можно проверить статистическим анализом результатов эксперимента.
2. Помеха эксперимента подчиняется нормальному распределению с параметрами: μ(e) = 0; σ2 (e) = const (в соответствии с 1-й предпосыл-
кой). Проверяется эта предпосылка после проведения эксперимента по распределению откликов в опытах или по специально поставленному опыту с фиксированными факторами и многократным дублированием. 3. Значения помехи эксперимента е в различных опытах не коррелированны. В активных экспериментах, где факторы управляемы, это требование обеспечивается рандомизацией опытов. Для этого порядок проведения опытов выбирают случайным образом. Рандомизация теоретически не может гарантировать полную не коррелированность помехи е, но на практике считается, что этого достаточно. В пассивных экспериментах, где факторы изменяются произвольным образом, для обеспечения данного требования необходимо временной интервал съема данных делать намного, на несколько порядков большим длительности действия исследуемых факторов.
4. Ошибка измерения или установки факторов xi равна нулю. Это тре-
101
бование вытекает из самого определения регрессии как односторонней стохастической связи, но оно не может быть выполнено абсолютным образом. Его понимают так: вклад, вносимый случайными ошибками измерения или установки факторов в дисперсию воспроизводимости должен быть пренебрежимо мал по сравнению со вкладом других причин, образующих помеху е. Поэтому практически требуется, чтобы факторы измерялись с точностью, значительно превышающей корень квадратный из дисперсии эксперимента s2 (y).
5. Факторы xi должны быть взаимно не коррелированными. Выполнение этого требования необходимо для получения раздельных оценок коэффициентов регрессии с целью получения возможности изучения влияния каждого фактора на отклик отдельно. Невыполнение этого требования, кроме смешивания эффектов, приводит также к большим ошибкам вычислительного характера при оценивании коэффициентов регрессии.
В пассивных экспериментах выполнение этого требования проверяется расчетом парных коэффициентов корреляции между факто-
рами rij после проведения опытов. Если окажется, что имеются rij >
0,4-0,5, то смешивание эффектов есть и модель не пригодна для изучения влияния каждого фактора на отклик отдельно (но может быть использована для расчетов их совместного влияния, хотя и с точностью существенно меньшей, чем точность эксперимента, по которому полу-
чена эта модель). Если rij > 0,8, то один из факторов (хi или хj) из мо-
дели можно исключить, повторив РА без этого фактора, и получить модель без смешивания эффектов.
В активных экспериментах выполнение данного требования
102
можно обеспечить соответствующим выбором плана эксперимента. Если план обладает свойством ортогональности, то корреляция между факторами гарантированно отсутствует.
Особенно внимательно нужно относится к данному требованию при проведении модельных экспериментов. В этих случаях переменные всегда представляются в безразмерном виде, что даже при отсутствии корреляции между размерными параметрами процесса ведет к ее появлению между безразмерными. Например
æ Dh R B ö Fç ; ; ÷ è H H H ø
Изменение параметра Н автоматически приводит к изменению всех безразмерных симплексов. Поэтому в модельных экспериментах нужно варьировать всеми размерными параметрами, хотя критериальное представление переменных позволяет варьировать n-k факторами, что и создает соблазн воспользоваться этой возможностью.
103
Лекция № 15 15.1 Метод наименьших квадратов
Пусть проведен однофакторный эксперимент, в котором исследована зависимость у от х. Установлено, что основные предпосылки регрессионного анализа выполняются. Требуется найти функцию рег-
рессии y = f (x).
Рассмотрим вначале простейший случай, когда эмпирическая зависимость может быть хорошо аппроксимирована линейной функцией
y = a0 + a1x1
Задача линейного РА состоит в том, что, зная положение экспе-
риментальных точек (xi,yi ) на плоскости ХОУ, так провести линию регрессии, чтобы ее отклонение от всех точек было минимальным, как это показано на рисунке 15.1.
у
y
х
x
Рисунок 15.1 − Линейная регрессия
При выборе линии регрессии можно, казалось бы, добиваться выполнения условия
104
N |
) |
å |
(yi − y)= 0 , |
i=1 |
|
т.е. чтобы сумма отклонений всех расчетных точек от экспериментальных была равна нулю. Но соблюдение этого условия не позволяет однозначно определить линию регрессии, т.к. все прямые, проходящие через точку с координатами (x, y), удовлетворяют этому условию.
Для однозначного выбора функции регрессии используется ка- кая-нибудь естественная характеристика точности аппроксимации. Чаще всего используется дисперсия остатков
|
|
1 |
N |
) 2 |
|
Su2 |
= |
|
å |
(yi − y) |
(15.1) |
|
|||||
|
|
N − 1 i=1 |
|
|
|
Следовательно, мерой отклонения расчетных точек от экспериментальных в этом случае является сумма квадратов отклонений. Очевидно, что прямая наилучшим образом будет аппроксимировать экспе-
риментальные данные, если Su2 будет минимальной. Для этого нужно минимизировать функцию
u(a0 ,a1 )= åN [yi − (a0 + a1xi )2 ]→ min |
(15.2) |
i=1 |
|
Метод, основанный на минимизации суммы квадратов отклонений расчетных значений откликов от экспериментальных называется методом наименьших квадратов (МНК).
С его помощью отыскиваются такие значения а0 и аі, которые сводят к минимуму Su2 . Для этого вычисляются частные производные от (15.1) и приравниваются к нулю
105
∂u(a0 ,a1 ) = −2åN (yi − a0 − a1xi ) = 0 |
||
∂a0 |
i=1 |
|
∂u(a0 ,a1 ) = −2åN (yi − a0 − a1xi ) xi = 0 |
||
∂a1 |
i=1 |
|
Отсюда |
|
|
|
N |
N |
Na0 + a1 åxi = åyi |
||
|
i=1 |
i=1 |
N |
N |
N |
a0 åxi + a1 åxi2 |
= åxiyi |
|
i=1 |
i=1 |
i=1 |
Воспользовавшись правилом Крамера, получим
|
|
|
|
|
N |
N |
|
a |
|
|
= |
yåxi2 |
− xåxiyi |
||
0 |
|
i=1 |
i=1 |
||||
|
|
|
N |
N |
|||
|
|
|
|
|
åxi2 |
− xåxi |
|
|
|
|
|
|
i=1 |
i=1 |
|
|
|
|
|
|
N |
|
|
|
|
|
|
|
åxiyi − N x y |
||
a |
1 |
= |
i=1 |
|
|
||
N |
|
|
|||||
|
|
|
|
|
|
||
|
|
|
|
|
åxi2 − N (x)2 |
||
i=1
(15.3)
(15.4)
(15.5)
Свободный член можно определить и проще, воспользовавшись уравнением прямой линии в следующем виде
(y − y) = a1(x − x)
Отсюда
y= (y − a1x)+ a1x
15.2Нелинейный регрессионный анализ
Линейные по параметрам регрессионные модели можно использовать для аппроксимации нелинейных зависимостей путем их линеа-
106
ризации с помощью базисных функций fkj . Например, эмпирические
точки достаточно хорошо укладываются на кривую обратной гиперболы (рис. 15.2а). Очевидно, что преобразованием независимой перемен-
ной u = 1
x перейти к линейной зависимости y = u (рис.15.2б).
у |
1 |
у |
|
u = x |
|
х |
u |
Рисунок 15.2 – Линеаризация нелинейной зависимости
Следовательно, линеаризация состоит в подборе подходящей базисной функции, превращающей нелинейную зависимость в линейную. Практически следует нанести эмпирические точки на плоскость ХОУ и оценить, какая из известных функций может аппроксимировать данную кривую. Затем осуществить соответствующее преобразование х или у.
Например, если подходящей аппроксимацией является логариф-
мическая функция, то u = lg x или z = ey . Получим линейные зависи-
мости
y = a0 + a1u |
или |
|
z = a0 + a1x |
||
|
||
107 |
|
Далее проводится линейный регрессионный анализ и определяются а0 и а1. Затем осуществляется обратное преобразование: u → x
или z → y и получается искомая нелинейная зависимость.
15.3 Множественный регрессионный анализ
При исследовании многофакторных зависимостей возникает необходимость во множественном регрессионном анализе (МРА). Как и в случае однофакторных зависимостей, для определения функции регрессии используется МНК. Однако при этом решение системы уравнений, дающее значения а0 и аi существенно затруднено их большим количеством – число уравнений в системе равно числу опытов эксперимента, а оно не может быть меньшим, чем d+1. Поэтому МРА осуществляется при помощи компьютеров, которые решают системы нормальных линейных уравнений одним из численных методов (например, методом Гаусса-Жордана).
Для ввода массива данных в компьютер он записывается в виде матрицы:
№ |
х1 |
х2 |
х3 |
... |
хn |
опыта |
|
|
|
|
|
|
|
|
|
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
3 |
|
|
|
|
|
M
N
Расчет дает величины свободного члена и коэффициентов регрессии, а также величины их эмпирических дисперсий. Хорошие про-
граммы МРА дают сразу и значения t-критериев для каждого парамет-
108
ра. В результате получается регрессионная модель вида (если нет надобности в линеаризации)
y = a0 + a1x1 + a2x2 + ... + anxn
Коэффициенты аi называются частными коэффициентами рег-
рессии, т.к. характеризуют степень влияния каждого фактора xi на от-
клик у в отдельности (в идеале, когда нет корреляции между факторами).
Коэффициенты регрессии ai являются размерными величинами и их размерность связана с размерностью факторов. Поэтому их величина зависит не только от степени влияния данного фактора на отклик, но и от размерности фактора. Чтобы можно было сравнивать степень влияния каждого фактора, коэффициенты регрессии нормируют
a′ |
= |
Si |
a |
i |
(15.6) |
|
|||||
i |
|
Sy |
|
|
|
|
|
|
|
|
где Si – среднее квадратичное отклонение i-го коэффициента регрес-
сии;
Sy – среднее квадратичное отклонение отклика.
В результате нормирования уравнение регрессии принимает вид y = a′1 + a′2 + a′3 + ... + a′n
т.е. свободный член исчезает.
После проведения МРА обязательно необходимо выполнить отсеивание незначащих факторов по t-критериям каждого коэффициента регрессии, начиная с самого «слабого» фактора. После отсеивания каждого фактора МРА повторяется, т.к. оценки коэффициентов регрессии в результате отсеивания изменяются.
109
Лекция № 16 16.1 Статистическая обработка результатов эксперимента
Включает в себя определение дисперсии эксперимента, проверку постоянства дисперсии воспроизводимости и определение абсолютных и относительных погрешностей эксперимента.
Степень влияния „шума” на отклик в данном эксперименте, следовательно, его чистота, оцениваются по дисперсии эксперимента
S2 (y). При малых значениях S2 (y) доверительный интервал, в кото-
ром находится истинное значение отклика, будет узким, а при больших − широким, что свидетельствует о низкой точности эксперимента (наличие сильных помех или не учтенных существенных факторов).
В зависимости от характера дублирования используется не-
сколько способов оценивания дисперсии S2 (y) . Если все опыты осу-
ществляются по одному разу (дублирование отсутствует), а один опыт (обычно в центре области изменения факторов) – n раз, то тогда
S2 (y)= |
1 åk (y0j − y0 ) 2 , |
(16.1) |
|
n i=1 |
|
где y0j – j-е значение отклика в дублируемых опытах;
у0 – среднее значение отклика в дублируемых опытах;
k – количество дублей в центре области изменения факторов. В случае равномерного дублирования
|
åN åm (yij − yi ) 2 |
|
||
S2 (y)= |
i=1 j=1 |
|
(16.2) |
|
N |
(m − 1) |
|||
|
|
|||
где N – число опытов;
110
