Обработка данных / [SHashkov_V.B.]_Obrabotka_yeksperimentalnueh_dannu(BookFi.org)
.pdfОдин из таких подходов реализуется при так называемом полном факторном эксперименте. Рассмотрим его на конкретном практическом примере.
Имеем трехфакторный объект исследования, который должен быть отражен моделью
b0+b1x1+b2x2+b3x3+b12x1x2+b13x1x3+b23x2x3=y. (65)
Факторы x имеют так называемый "базовый" уровень значений – либо среднее, либо наиболее часто встречающееся значение. Пусть для факторов x1,x2 и x3 это будут уровни -100, -100 и 250. В эксперименте значение каждого фактора будет задано на двух уровнях по схеме
хниж=xбаз-∆x и хверх=xбаз+∆x,
где ∆x - шаг изменения значения фактора.
Эти характеристики приведены в таблице 6.
Таблица 6 – Диапазон значений факторов
|
Фак- |
|
|
хi |
|
x1 |
x2 |
х3 |
||||
|
торы |
|
|
|
|
|
|
|
|
|
|
|
|
Базовый |
|
хбаз |
|
-100 |
-100 |
250 |
|||||
|
уровень |
|
|
|
|
|
|
|
|
|
|
|
|
Шаг |
|
∆х |
|
150 |
150 |
150 |
|||||
|
Верхний |
|
х++ |
|
50 |
|
50 |
400 |
||||
|
уровень |
|
|
|
|
|
|
|
|
|
|
|
|
Нижний |
|
|
х-- |
|
-250 |
-250 |
100 |
||||
|
уровень |
|
|
|
|
|
|
|
|
|
|
|
Значение факторов задается в нормированном виде |
|
|||||||||||
|
xn |
|
= |
|
x++ −xbaz |
|
|
|
||||
|
|
|
|
|
|
|||||||
++ |
|
|
|
∆x |
|
|
||||||
для верхнего уровня и |
|
|
|
|
|
|
||||||
|
|
x−− −xbaz |
|
|
|
|
||||||
|
xn |
|
= |
|
|
|
||||||
|
|
|
|
|
||||||||
|
|
−− |
|
|
|
∆x |
|
|
||||
|
|
|
|
|
|
|
|
|
||||
для нижнего уровня. При этом все факторы приобретают только два значения: либо +1, либо –1. Полный факторный эксперимент содержит все возможные и неповторяющиеся комбинации уровней и факторов; если имеем n
71
факторов, количество комбинаций составит 2n, т.е. в данном случае эксперимент должен содержать восемь опытов, (восемь строк в таблице экспериментальных данных). Наблюдения на каждой строке таблицы дублируем по три раза. Это, во-первых, позволяет уменьшить ошибку экспериментального определения значения отклика (в таблицу данных вводится среднее его значение), во-вторых, дает информацию для получения оценки дисперсии воспроизводимости. Тогда в результате эксперимента будем иметь следующую таблицу экспериментальных данных.
Таблица 7 –Таблица экспериментальных данных
g |
xn1 |
xn2 |
Xn3 |
Yg1 |
Yg2 |
Yg3 |
|
|
|
|
|
|
|
1 |
-1 |
-1 |
-1 |
74 |
80 |
65 |
2 |
+1 |
-1 |
-1 |
-72 |
-62 |
-88 |
3 |
-1 |
+1 |
-1 |
173 |
185 |
187 |
4 |
+1 |
+1 |
-1 |
20 |
19 |
25 |
5 |
-1 |
-1 |
+1 |
142 |
158 |
132 |
6 |
+1 |
-1 |
+1 |
27 |
42 |
32 |
7 |
-1 |
+1 |
+1 |
284 |
260 |
283 |
8 |
+1 |
+1 |
+1 |
121 |
112 |
138 |
Как видим, столбцы факторов ортогональны. В данном случае количество наблюдений равно двадцати четырем. Первая строка содержит все факторы на нижнем уровне, последняя – на верхнем. Наблюдения в эксперименте варьируются случайным образом, т.е. проводится рандомизация процедуры, например, генерацией случайных чисел. При рандомизации получили следующую последовательность наблюдений (по три на каждой строке), приведенную в таблице 8, где "к" содержит номер наблюдения.
Таблица 8 – Порядок наблюдений
g |
K1 |
K2 |
K3 |
|
|
|
|
1 |
10 |
22 |
13 |
2 |
7 |
6 |
19 |
3 |
15 |
17 |
20 |
4 |
11 |
1 |
3 |
5 |
18 |
14 |
8 |
6 |
2 |
12 |
24 |
7 |
5 |
21 |
4 |
8 |
16 |
9 |
23 |
72
Это означает, что в первое наблюдение (в таблице 8 его номер выведен полужирным курсивом) ведется по режиму четвертой строки (тоже
выделено), а результат в таблице 7 записывается в колонке yg2, т.к. k2 находится во втором столбце таблицы 8. Такая технология нужна, чтобы исключить любые закономерности в формировании векторов базисных функций, которые должны лежать в разных базисных пространствах. Все эти векторы для данной задачи представлены в таблице 9. Таблица содержит средние значения отклика уg для данной строки и оценку дисперсии воспроизводимости.
Таблица 9 – Матрица базисных функций
g |
f0 |
f1 |
F2 |
F3 |
f12 |
f13 |
F2 |
|
yg |
|
Sg2 |
|
|
|
|
|
|
|
3 |
|
|
|
|
1 |
+1 |
-1 |
-1 |
-1 |
+1 |
+1 |
+1 |
|
73,0 |
57,0 |
|
2 |
+1 |
+1 |
-1 |
-1 |
-1 |
-1 |
+1 |
|
-74,0 |
172,0 |
|
3 |
+1 |
-1 |
+1 |
-1 |
-1 |
+1 |
-1 |
|
181,7 |
57,3 |
|
4 |
+1 |
+1 |
+1 |
-1 |
+1 |
-1 |
-1 |
|
21,3 |
10,3 |
|
5 |
+1 |
-1 |
-1 |
+1 |
+1 |
-1 |
-1 |
|
146,4 |
172,0 |
|
6 |
+1 |
+1 |
-1 |
+1 |
-1 |
+1 |
-1 |
|
33,7 |
58,3 |
|
7 |
+1 |
-1 |
+1 |
+1 |
-1 |
-1 |
+1 |
|
275,7 |
184,3 |
|
8 |
+1 |
+1 |
+1 |
+1 |
+1 |
+1 |
+1 |
|
123,7 |
174,3 |
|
Последнюю рассчитали по трем параллельным значениям отклика (см. таб-
лицу 7). Цифры в заголовке колонок у символа f – это индексы коэффициентов регрессии в уравнении (65), которые идентифицируют соответствующие базисные функции.
Оценку дисперсии воспроизводимости рассчитывали по уравнению
S |
2 |
= |
1 |
|
m |
(y |
|
− |
|
|
)2 |
|
|
|
|
∑ |
gq |
y |
g |
, |
(66) |
||||||||
m−1 |
||||||||||||||
|
g |
|
q=1 |
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
||
где m –количество параллельных наблюдений,
yg - среднее значение отклика на данной строке таблицы данных.
Наличие оценки дисперсии воспроизводимости Sg2 дает возможность
проверить соблюдение предпосылки применимости процедуры регрессионного анализа о равенстве дисперсий отклика при различных наблюдениях. Для этого нужно проверить гипотезу о равенстве нескольких дисперсий с помощью критерия Кокрена.
Критерий Кокрена имеет вид /2/
73
max S2
G = n g . ∑ Sg2 g=1
Проверка гипотезы показывает, что значение критерия 0,208. Граница критического интервала (при вероятности 0,95 и соответствующих степенях свободы системы) составляет 0,816 – т.е. значение критерия лежит внутри доверительного интервала и гипотеза о равенстве дисперсий воспроизводимости не отвергается.
Если эксперимент невоспроизводим, следует использовать видоизмененную процедуру регрессионного анализа – взвешенный метод наименьших квадратов /3/.
Следующим шагом процедуры является расчет коэффициентов регрессии. Диагональные элементы матрицы M для данного случая есть сумма квадратов вектор-столбцов f0, f1, f2 и т.д. и нормальные уравнения имеют
|
b |
|
n |
fj2 = |
n |
|
fj , |
вид |
j |
∑ |
∑ y |
g |
|||
|
|
g =1 |
|
g =1 |
|
||
|
|
|
|
|
|
где все суммы левой части уравнений равны восьми. Таким образом, для первого, например, коэффициента b0 имеем
b0 = 781,5/8 = 97,69.
В результате получаем следующее уравнение регрессии
y=97,69-71,20xn1+53,20xn2+52,20xn3-6,90xn1xn2+ +5,60xn1xn3+2,20xn2xn3.
Теперь нужно провести проверку статистической значимости вычисленных оценок коэффициентов регрессии. Ортогональность векторов базисных функций и обусловленная ею независимость коэффициентов регрессии друг от друга позволяют провести эту проверку для каждого коэффициента
отдельно с использованием статистики t распределения Стъюдента. Проверяется гипотеза о равенстве коэффициентов регрессии нулю, рабочее значение статистики имеет вид /1/
t j = bj −0 S{bj}
при числе степеней свободы ν=n(m-1) и двусторонней критической области t-распределения. Если tj попадает в критическую область, значение коэф-
фициента bj статистически значимо и он должен быть включен в уравнение. В противном случае он равен нулю и в модель не включается.
74
Поскольку гипотеза о равенстве оценок дисперсии воспроизводимости не отвергнута, находим их обобщенную оценку S 2 как сумму всех оценок
Sg2 , деленную на их количество, т.е. S 2 = 885,5:8=110,7. Дисперсии незави - симых коэффициентов регрессии связаны с обобщенной дисперсией соотно-
ошением /3/ |
S2{bj}= |
S 2 |
. |
|
m 2n |
||||
|
|
|
Тогда S 2{bj} будет равна 4,61, а статистики t для всех коэффициен-
тов регрессии будет соответственно равны
45,44 -33,12 24,74 24,28 3,21 2,60 1,02.
Согласно таблице t –распределения Стъюдента при данных статистических условиях граница двусторонней критической зоны равна 2,12. Таким образом
последний коэффициент b23 попадает в критический интервал, его значение статистически незначимо и он исключается из уравнения регрессии.
Последним шагом процедуры является проверка адекватности полученного уравнения функции истинного отклика, которая проводится по ста-
тистике /3/ |
F = |
Sost2 |
, |
|
S 2 |
||||
|
|
|
где S 2 -обобщенная оценка дисперсии воспроизводимости,
а знаменатель уравнения (44) остаточной дисперсии в данном случае равен разности числа опытов и количества статистически значимых коэффициентов регрессии, т.е. двум. Получено
F = |
Sost2 |
= |
158,44 |
=1,43 ; |
|
S 2 |
|||||
|
|||||
|
110,7 |
|
|||
тогда как соответствующая граница критического интервала распределения Фишера составляет 2,85. Таким образом, отношение дисперсий не выходит за границы доверительного интервала, они статистически неразличимы и гипотеза об адекватности математической модели не отвергается.
Недостатком данного способа решения задач регрессии является то, что при нем возможны только комбинации базисных функций вида xi или xi xj. Действительно, для комбинации xi в четной степени колонка в таблице 9 будет повторять первую колонку для коэффициента β0, а для комбинации
xi в нечетной степени – соответствующую колонку при βi. Матрица базисных функций F станет при этом вырожденной и матричные расчеты будут невозможны.
75
15 Лекция 15. Коэффициенты регрессии при неадекватной математической модели
Математическая модель в виде полинома регрессии, адекватная функции истинного отклика, исследователю неизвестна так же, как и сама эта функция. Выбор из ряда альтернативных полиномов при приемлемой точности принятого варианта также не позволяет найти именно адекватную модель. Поэтому обычно приходится довольствоваться каким-то приближением.
Пусть функция истинного отклика имеет вид
ϕ( |
|
)=β |
|
+ k∑1 b x |
+ |
k∑2 |
β |
|
x x |
|
+... + k∑3 |
β |
|
x2 |
+... (67) |
||
x |
0 |
ij |
j |
iii |
|||||||||||||
|
|
|
i=1 |
i |
i |
i=1, j>i |
|
i |
i=1 |
|
i |
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
а мы в силу сложившихся обстоятельств можем искать только модель вида
η( |
|
, |
|
)=β |
|
+ k∑1 β |
|
x . |
|
x |
β |
0 |
i |
(68) |
|||||
|
|
|
|
|
i=1 |
i |
|
||
|
|
|
|
|
|
|
|
|
Это и будет неадекватностью математической модели функции истинного отклика. В функции (67) к+1 коэффициентов, а мы в (68) находим к0+1 их
оценок. Размерность матрицы базисных функций F должна быть n(k+1), а
мы имеем матрицу F0 с размерностью n(k0+1). В матрице F0 будут отсутствовать столбцы xij и xii , которые образуют полную или “истинную” матрицу
F . Соответственно этой ситуации имеем векторы истинных коэффициентов
β0 ,β и их оценок в полиноме регрессии b0 ,b* . Тогда в соответствии с основным уравнением процедуры регрессионного анализа (31)
b0 =(F0T F0)−1(F0TY) ,
а также
M{b0}=(F0T F0)−1(F0T M{Y}) .
Поскольку расчетное значение отклика равно произведению строки матрицы базисных функций на вектор коэффициентов регрессии
y€(xg ,β) = y(xg ,b) = f −T (xg )b ,
постольку
M{Y}= F β = F0 β0 +F β .
Отсюда
76
M{b0}=(F0T F0)−1F0T (F0 β0 +F β ) =
=(F0T F0)−1(F0T F0)β0 +(F0T F0)−1(F0T F )β
Произведение (F0T F0)−1(F0T F0) есть единичная матрица, а произведение
(FT F )−1(FT F ) |
|
||||||
0 0 |
0 |
|
|||||
есть матрица, которую назовем матрицей смещения В, т.е. |
|
||||||
M{ |
|
0}= |
|
+B |
|
. |
|
b |
β0 |
β |
(69) |
||||
Рассмотрим пример. Имеем таблицу экспериментальных данных при нормированной форме факторов Х (см. таблицу 10).
Таблица 10 – План эксперимента
G |
X1 |
x2 |
x3 |
1 |
-1 |
-1 |
+1 |
2 |
+1 |
-1 |
-1 |
3 |
-1 |
+1 |
-1 |
4 |
+1 |
+1 |
+1 |
Пусть истинная зависимость есть
ϕ(x) =β0 +β1x1 +β2 x2 +β3x3 +β12 x12 +β13x13 +β23x23 +β123x123
амы отражаем табличную функцию уравнением
ϕ( |
|
) =β0 +β1x1 +β2 x2 +β3x3. |
|
|
|
|
|
||||||
x |
|
|
|
|
|
||||||||
Тогда |
+1−1−1+1 |
|
|
|
|
4000 |
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|||||
Матрица F0= |
|
+1+1−1−1 |
|
|
, а матрица (FT0F0)= |
|
0400 |
|
|
|
. |
||
|
+1−1+1−1 |
|
|
|
0040 |
|
|
|
|||||
|
|
|
|
+1+1+1+1 |
|
|
|
|
0004 |
|
|
|
|
Матрицы (FT0F0)-1, (FT0F ) и В и будут равны соответственно
77
|
1 |
|
000 |
|
|
|
0004 |
|
|
|||||
|
|
|
|
|
|
|||||||||
|
4 |
|
|
|
|
|
|
|||||||
|
1 |
|
|
|
|
|
|
|
|
|
|
|||
|
0 |
00 |
|
|
|
0040 |
|
|
||||||
|
4 |
|
, |
|
|
|
, |
|||||||
|
00 |
1 |
0 |
|
|
0400 |
|
|||||||
|
|
|
|
|
||||||||||
|
|
|
|
|
4 |
|
|
|
|
|
|
|
|
|
|
000 |
1 |
|
|
|
|
4000 |
|
|
|||||
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
4 |
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|||
В соответствии с уравнением (69)
|
|
|
|
M{ |
|
0}= |
|
|
|
+B |
|
||||
|
|
|
|
b |
β0 |
β |
|||||||||
Mb0 |
|
|
|
|
|
|
|
|
|
β0 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
Mb1 |
|
|
= |
|
|
|
|
|
|
β1 |
|
|
+ |
||
Mb2 |
|
|
|
|
|
|
|
|
β2 |
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
Mb3 |
|
|
|
|
|
|
|
|
|
β3 |
|
|
|
|
|
т.е.
Mb0 = β0 +β123;
Mb1 = β1 +β23;
Mb2 = β2 +β13;
Mb3 = β3 +β12.
0001
0010
.
0100
1000
β123
β23 , β13
β12
Таким образом, при неадекватной модели получаемые МНК-оценки коэффициентов регрессии содержат систематические ошибки, определяемые матрицей смещения и коэффициентами, не вошедшими в предполагаемую модель. Происходит смешивание теоретических коэффициентов в одной
оценке, например, коэфициентов β0 и β123 в оценке b0 .
На практике иногда приходится сознательно работать со смещенными моделями, например, при невозможности обеспечить достаточное количество наблюдений в эксперименте из-за их трудоемкости или высокой стоимости. В таких случаях и возникает смещение, которое нужно оценить хотя бы качественно.
78
16 Лекция 16. Предварительная обработка экспериментальных данных
16.1 Исключение грубо ошибочных данных из вариационного ряда
Предварительная обработка экспериментальных данных проводится в основном в двух целях:
-отсеивание грубых погрешностей измерения, подсчета или записи цифрового материала;
-оценка закона распределения случайной величины, которая является результатом наблюдений и, при необходимости, переход от этой величины к другой, имеющей нормальное распределение.
Грубые ошибки при фиксировании значения экспериментальных данных – это аномальные, сильно выделяющиеся значения в вариационном ряду однородных данных. Появление таких значений связано либо с субъективной ошибкой самого экспериментатора, либо с резким нарушением режима проводимых испытаний. Такие значения обычно носят единичный характер и проявляются в одном-двух испытаниях из всей серии. Несмотря на малочисленность, эти значения могут внести существенные искажения в итоговые результаты обработки данных. Поэтому такие аномальные значения должны быть безусловно удалены из массива экспериментальных данных, но...! – аномальные значения не всегда ошибочны и иногда ведут исследователя прямо к нобелевской премии. Ибо существует и такая причина аномального значения экспериментальных данных как скачкообразное изменение показателей состояния объекта испытания при изменении параметров состояния воздействующей на него среды. Так, например, при монотонном изменении химического состава или температуры металлических сплавов в определенном и достаточно узком диапазоне этих изменений, в сплаве образуются новые структурные составляющие (фазы), резко изменяющие макроскопические свойства сплава. Еще шаг в приращении факторов воздействия – и эти фазы растворяются в основе сплава, возвращая исходный уровень свойств. Это и есть аномальный “срыв” значений наблюдаемых экспериментальных данных, исключить которые – значит “прозевать” критическое состояние материала, способное в будущем стать, например, причиной разрушения какойто конструкции.
Наилучшим выходом из такой ситуации является повторение серии испытаний, которая содержит аномальные результаты. Это позволяет сделать однозначные выводы о том, случаен аномальный результат или нет. Но этот выход не всегда возможен. Чаще всего “аномальность” обнаруживается при итоговой обработке экспериментального материала. Так или иначе, признание результата наблюдения аномальным требует тщательной профессиональной экспертизы.
Кроме вопроса о причине аномальности результатов данного наблюде-
79
ния есть и другой вопрос – с какого “критического” значения считать данный показатель аномальным?
В литературе содержится много рекомендаций для отсева грубых погрешностей наблюдений /9/. Строго научный анализ массива наблюдений в этом отношении может быть проведен только статистическими методами. Каждая грубая ошибка вызывает нарушение закона распределения изучаемой величины, изменение его параметров – нарушается однородность наблюдений. Поэтому выявление грубых ошибок можно трактовать как проверку однородности испытаний или опытов.
Показателем ошибочности данного наблюдения может служить лишь величина его отклонения от других наблюдений. Сомнительными могут быть крайние отклонения от среднего – как в ту, так и в другую сторону. Если ориентироваться на закон нормального распределения, то такие отклонения симметричны и исследуются одинаково, т.е. можно говорить об общем “крайнем” значении данной выборки.
В случае нормального распределения для единичного значения данной случайной величины х при доверительной вероятности 1-р оценкой однородности будет соблюдение неравенства
х-М{х} <=U1-pσ , |
(70) |
где М{х} и σ - известные параметры распределения;
U1-p – квантиль стандартного нормального распределения.
Нарушение этого неравенства, т.е. условие х-М{х} >U1-pσ, и будет признаком грубой ошибочности данного значения.
Для выборки объемом n элементов соответствующая доверительная вероятность будет равна (1-p)n , т.е. вероятность однородности всех n событий уменьшается с ростом n и при n→∞ эта вероятность стремиться к нулю.
Если х есть крайний элемент выборки , то доверительной оценке (70) соответствует вероятность (1-p)n 1-n×p.
Тогда доверительной вероятности соответствует оценка /4/
х-М{х} <=U1-p/nσ , |
(71) |
т.е. элемент будет считаться грубо ошибочным, если на уровне значимости р
х-М{х} >U1-p/nσ .
Все вышеизложенное справедливо для случая, когда известны пара -
80
