- •Глава 3 активный эксперимент. Ортогональные планы первого порядка
- •Полный факторный эксперимент
- •Обработка результатов эксперимента
- •Дробный факторный эксперимент
- •Применение планов первого порядка в отсеивающих экспериментах
- •Глава 4 планирование эксперимента при отыскании экстремальной области
- •Классические методы определения экстремума
- •Факторные методы определения экстремума
- •Центральные композиционные планы второго порядка
- •Ортогональные центральные композиционные планы
- •Глава 5 дисперсионный анализ при экспериментальном исследовании
- •Однофакторный дисперсионный анализ
- •Двухфакторный эксперимент. Иерархическая и перекрестная классификации
- •Латинские и греко-латинские квадраты
Обработка результатов эксперимента
Основной целью регрессионного анализа является получение по результатам активного эксперимента модели, адекватно описывающей поведение исследуемого объекта. Проведение эксперимента должно строго соответствовать выбранному случайному порядку. Установка уровней факторов Xj должна происходить в соответствии с теоретическими предпосылками регрессионного анализа и быть возможно более точной. Регистрация результатов измерения выхода Y должна соответствовать реально обеспечиваемой в опыте точности измерения. Если нет уверенности, что условия проведения опытов остаются постоянными, то опыты в каждой точке факторного пространства дублируются (проводится серия опытов). Предположим, что в каждой точке факторного пространства, которой соответствует одна из строк матрицы планирования, проводится серия из т опытов. Для любой i-й точки вычисляется среднее значение выходной величины
и построчную дисперсию выходной величины (точнее ее оценку):
Найденные таким образом построчные дисперсии используются для проверки воспроизводимости опытов, заключающейся в проверке однородности построчных дисперсий — одной из основных предпосылок множественного регрессионного анализа.
В дальнейшем будем рассматривать этапы обработки результатов эксперимента на примере двухфакторного эксперимента, реализация которого дала следующие значения выходной величины (табл. 3.3).
Таблица 3.3
Определим
среднее значение выходной величины
в
каждой точке (для каждой строки т
= 3):
а также построчную дисперсию выходной величин
Полученные результаты внесены в табл. 3.3.
Среди
всей совокупности рассчитанных построчных
дисперсий выбирается максимальная
и берется отношение данной дисперсии
к сумме всех построчных дисперсий
,т.е.
определяют расчетное значение коэффициента
Кохрэна
который показывает, какую долю в общей сумме построчных дисперсий занимает максимальная из них — эта доля взята как мера различия между дисперсиями. В случае идеальной однородности построчных дисперсий коэффициент Gp стремился бы к значению 1/N. Расчетное значение коэффициента Кохрэна сравнивается с табличным (критическим) значением G-критерия, которое выбирается из таблиц для принятого уровня значимости α и для чисел степени свободы соответственно числителя f1 и знаменателя f2:
Для этого значение f1 находится в горизонтальном заголовке таблицы (выбирается столбец), а f2 выбирается слева в вертикальном заголовке таблицы (выбирается строка) и на пересечении получаем табличное значение GT коэффициента Кохрэна. Если выполняется условие
то с выбранным уровнем статистической значимости α (с достоверностью 1-α) все построчные дисперсии признаются однородными. В противном случае следует отвергнуть гипотезу об однородности построчных дисперсий, что является нарушением одной из главных предпосылок регрессионного анализа — дальнейшая статистическая обработка результатов эксперимента не имеет смысла. При создании такой ситуации необходимо увеличить число параллельных опытов или провести эксперимент заново, обратив особое внимание на правильность и точность установки уровней входных факторов, а также применить более точные приборы или методы измерения.
По данным табл. 3.3 максимальная построчная дисперсия была получена в первом опыте. Определим расчетное значение коэффициента
Gp = 43/(43 + 16 + 12 + 4) = 0,57.
В соответствии с таблицей, приведенной в приложении (П.1) для α = 0,05; f1 = 3-1 = 2 и f2= 4, находим GT = 0,77; GT>Gp, т.е. условие (3.5) выполняется.
Убедившись в однородности, переходят к определению оценок коэффициентов по формуле
где k — номер вектор-столбца.
Для этого воспользуемся табл. 3.3. Получим:
Найденные таким образом коэффициенты уравнения регрессии необходимо оценить на статистическую значимость. Оценка производится по t-критерию Стьюдента.
Для
каждого коэффициента
вычисляется
коэффициент
т.е.
проверяется отклонение от нуля найденной
оценки коэффициента
.
Здесь
-
оценка
среднего квадратического отклонения
погрешности определения коэффициента.
Оценка дисперсии коэффициентов, найденных по экспериментальным данным:
Примем
во внимание, что xik
во всех опытах в кодированном виде
принимают значения +1 или —1, поэтому
для случая независимых случайных величин
знак
под знаком суммы не влияет на результат.
Кроме того, известно, что дисперсия
среднего
в
т
раз меньше дисперсии одного измерения
(m
— кратность проведения опытов), т.е.
На основании вышеизложенного и с учетом однородности построчных дисперсий можно записать
Оценка
генеральной дисперсии воспроизводимости
,
характеризующей
точность (усредненную) одного измерения,
является средняя из всех построчных
дисперсий
или
Следовательно, оценку дисперсии коэффициента можно записать в виде
(3.6)
В некоторых случаях, когда есть уверенность, что дисперсии однородны, оценкой дисперсии воспроизводимости может служить одна из построчных дисперсий или же оценка дисперсии для любой точки факторного пространства (чаще всего это бывает центр плана).
Когда число параллельных опытов в каждой точке факторного пространства различно, при усреднении однородных дисперсий для определения оценки дисперсии воспроизводимости пользуются средневзвешенным значением дисперсий, взятых с учетом степеней свободы
где fi = mi - 1 — число степеней свободы в i-м опыте; mi — число параллельных опытов.
Сущность t-критерия Стьюдента проверки статистической значимости найденных оценок коэффициентов заключается в следующем. Изменение выходной величины зависит от влияния k-го члена аппроксимирующего полинома и неуправляемых и неконтролируемых факторов.
Влияние k-го фактора, отклонение оценки k-го коэффициента от нуля учитывается коэффициентом
влияние же неуправляемых или неконтролируемых факторов, а также погрешности измерения выходной величины может быть учтено при помощи дисперсии воспроизводимости , имеющей N (т — 1) степеней свободы (N степеней свободы «потеряно» на вычисление построчных средних). При выбранном уровне статистической значимости α по таблицам распределения Стьюдента при числе степеней свободы f = N (т — 1) находят табличное значение коэффициента tтабл. Найденное табличное значение сравнивается с расчетным значением коэффициента. Если выполняется неравенство
tтабл > tk (3.7)
то принимается нуль-гипотеза, т.е. с принятым уровнем статистической значимости α (статистической достоверностью 1 — α) и числе степеней свободы f считается, что найденный коэффициент является статистически незначительным и его следует исключить из уравнения регрессии.
Таким образом, при выполнении условия (3.7) нельзя определить (в 100 — α случаях), чем вызвано изменение выходной величины: влиянием k-го члена уравнения регрессии или влиянием неучтенных факторов и наличием случайной погрешности измерения выходной величины.
Для рассматриваемого примера оценка дисперсии воспроизводимости как оценка усредненных построчных дисперсий в соответствии с табл. 3.3 будет
Как уже отмечалось, ввиду свойства нормировки оценки коэффициентов будут найдены с одинаковой дисперсией, т.е.
Тогда
Определим расчетное значение коэффициента Стьюдента tk для найденных оценок коэффициентов :
Аналогично получим
Из
таблиц приложения П. 2 и при уровне
статистической значимости α = 5 % и
числе степеней свободы f
=
N
(т
— 1) = 4 (3 — 1) = 8 определим табличное
значение коэффициента. Оно равно tт
= 2,3. Сопоставим расчетные значения
tk
с
табличным tт.
Неравенство (3.7) выполняется для t12.
Следовательно, можно предположить, что
коэффициент
статистически
незначим и его можно исключить из
уравнения регрессии — в рассматриваемом
случае (для данного объекта) влияние
парного взаимодействия отсутствует
или оно незначительно.
Однако перед тем как принять гипотезу = 0 необходимо убедиться в правильности поставленного эксперимента. Может оказаться, что выбор диапазона варьирования независимой переменной (Хк max — Хк min) мал, а суммарная случайная помеха, наложенная на выходную величину объекта, велика. Это также может привести к статистической незначимости коэффициента. Убедившись, что с этой точки зрения эксперимент проведен правильно (взять более точное измерительное устройство, увеличить число параллельных опытов), можно коэффициент исключить из уравнения регрессии. Так как полный факторный эксперимент обладает свойством ортогональности, то исключение данного коэффициента из уравнения регрессии не повлияет на найденные оценки других коэффициентов.
Таким образом, уравнение регрессии исследуемого объекта, содержащее статистически значимые коэффициенты, будет (в кодированной системе)
Для
каждого коэффициента
можно
найти доверительный интервал, в
который должен попасть истинный
генеральный коэффициент
с
принятым уровнем значимости, для
чего применяют формулу
Таким образом, истинные значения коэффициентов модели будут находиться в пределах
Полученное
уравнение регрессии необходимо проверить
на адекватность исследуемому объекту,
т.е. установить, насколько хорошо оно
аппроксимирует полученные экспериментальные
данные. Для этой цели необходимо оценить,
насколько отличаются средние значения
выходной величины, полученной в точках
факторного пространства в результате
проведения опытов, и значения
полученного
из уравнения регрессии в тех же точках
факторного пространства.
Для этого вычисляют остаточную дисперсию, которую чаще всего называют дисперсией адекватности:
(3.8)
где т — число параллельных опытов в i-й точке факторного пространства; l — число определенных в результате проведения N опытов, значимых коэффициентов.
Если число параллельных опытов различно, то оценка дисперсии адекватности находится из выражения
Отличие
от нуля объясняется, в общем случае,
двумя причинами: действительно
неадекватностью уравнения регрессии
физическому объекту (неправильно выбран
аппроксимирующий полином) и наличием
случайной погрешности восприятия,
характеризуемой
.
Если модель адекватна, то оценка дисперсии адекватности, как и оценка дисперсии воспроизводимости, зависят только от погрешности восприятия выходной величины, обусловленной суммарной помехой, и в пределе будут одинаковыми. Поэтому адекватность порученной модели проверяют путем сравнения оценок двух дисперсий и и F-критерию Фишера
Найденное расчетным путем Fp сравнивают с табличным значением FT, которое определяется при уровне статистической значимости α и числе степеней свободы fад = N — I и fB = N(m — 1), выбранными в горизонтальном и вертикальном заголовках таблицы, соответственно. Если
(3.9)
то полученная математическая модель с принятым уровнем статистической значимости α адекватна экспериментальным данным и ее можно использовать для дальнейших исследований.
Возвратимся к рассматриваемому примеру. Было получено уточненное уравнение регрессии Определим для полученной модели оценку дисперсии адекватности. Вначале вычислим значение соответствующее строкам матрицы плана:
Рассчитаем в соответствии с (3.8) оценку дисперсии адекватности:
Полученное значение оценки дисперсии адекватности = 27 разделим на оценку дисперсии воспроизводимости = 18,75 и получим расчетное значение коэффициента Фишера Fp = 27/18,75 = 1,44.
Табличное
значение коэффициента Фишера (см. п. 3)
при уровне статистической значимости
α = 0,05 и числе степеней свободы fад
= (4 — 3) = 1 и fв
= N
(т
— 1) = 4 (3 — 1) = 8 будет FT
=
5,32. Следовательно, при выбранном уровне
статистической значимости α = 0,05
полученная в результате эксперимента
адекватна
исследуемому объекту. Следует заметить,
что данная модель представлена в
кодированной системе координат. Чтобы
получить ее в естественной системе,
необходимо использовать формулы перехода
(3.1).
На практике часто оказывается, что линейное уравнение регрессии, адекватно описывающее опытные данные, которые были поставлены в точках факторного пространства, соответствующих строкам матрицы плана, неудовлетворительно характеризуют внутреннюю часть изучаемой области факторного пространства. На рис. 3.2 показан случай парной зависимости, когда опытные и расчетные данные в точках, где проводился эксперимент (в кодированной системе х11 = —1 и х21 = 1), совпадают, однако внутри поля корреляции наблюдаются большие отклонения между регрессионной и реальной зависимостями.
Рис. 3.2. К проверке адекватности линейной модели при проведении
серии опытов в центре плана
Для
повышения надежности проверки адекватности
модели часто ставят дополнительную
серию параллельных опытов в базовой
точке xj
= 0,
Тогда число точек факторного пространства,
по которым оценивается адекватность
уравнения регрессии, увеличивается на
одну и оказывается равным N+1,
т.е. увеличивается на единицу и число
степеней свободы fад,
что
увеличивает статистическую надежность
принимаемого решения. Однако базовая
точка не учитывается в расчете
коэффициентов уравнения регрессии.
Значение выходной величины в центре
плана должно быть соизмеримо (в пределах
дисперсии воспроизводимости) со
свободным членом уравнения регрессии,
т.е.
где δ — наперед заданные значения, зависящие от .
В случае нарушения этого неравенства для математического описания рассматриваемой области факторного пространства потребуется уравнение более высокого порядка.
Рассмотрим еще один пример построения математической модели по результатам эксперимента. Предположим, что на объект воздействуют три фактора
связанные с выходной величиной следующей зависимостью:
Таблица 3.4
Среднее значение Xjcp = (Хj max + Xj min)/2 и интервал варьирования независимых переменных Δj = (Хj max — Xjcp)/2 будут:
Подставим значения Xjcp и Δj в формулу перехода (3.1) и получим уравнение модели в кодированной системе координат
Оценки коэффициентов этой модели будем находить по экспериментальным данным, полученным в результате проведения ПФЭ типа 2n, где п = 3. В соответствии с известным правилом построим матрицу полного трехфакторного эксперимента, обладающую свойствами ортогональности, симметричности и нормировки (табл. 3.4).
Предполагается,
что опыты однородны. Поэтому в каждой
точке факторного пространства можно
проводить только по одному опыту (серия
параллельных опытов не проводится).
Значения выходной величины
для
этого случая приведены в соответствующей
графе табл. 3.4.
Для определения оценок коэффициентов уравнения регрессии дополним матрицу плана (обведена более жирными линиями) вектор-столбцами фиктивной переменной и линейными взаимодействиями факторов.
По результатам эксперимента определим оценки коэффициентов (3.3):
Для определения оценки дисперсии воспроизводимости, а также более достоверной проверки адекватности полученной модели в центре плана была поставлена дополнительная серия из р = 3 опытов и получены следующие значения!
Среднее значение выходной величины в центре плана (х = 0)
а дисперсия в центре плана, принимаемая за оценку дисперсии воспроизводимости, определится так:
Поскольку выполняется условие нормировки, оценки коэффициентов данной модели будут найдены с одинаковой дисперсией, т.е.
кратность
опыта в каждой i-й
точке (
)
равна
единице, т.е. m
=
1, откуда
Проверим
статистическую значимость найденных
коэффициентов
,
найдем расчетные значения коэффициента
Табличное значение коэффициента Стьюдента при α = 0,05 и числе степеней свободы (р — 1) = (3 — 1) = 2 (оценка дисперсии воспроизводимости проводилась на основании серии из р = 3 опытов в одной точке — центре плана) будет (см. П. 2) tт = 4,3.
Сравнив
табличное tт
и расчетное tk
значения
коэффициентов, установим, что
незначимыми (так как tK
<
tт)
являются найденные оценки коэффициентов
,
,
и
.
Уравнение регрессии, содержащее статистически значимые коэффициенты
(3.10)
Полученную таким образом математическую модель необходимо проверить на адекватность. Для этого определим оценку дисперсии адекватности. Так как кратность опытов равна единице, т. е. т = 1, то
Предварительно
убедившись, что уравнение регрессии
(3.10) «подходит» для описания экспериментальных
данных, поскольку среднее значение
выходной величины в центре плана
=
8,6, а оценка свободного члена
=
8,5 и
определим значение выходной величины
на основании уравнения регрессии в
точках плана. Для первой точки
Аналогично получим значения и для других точек плана, которые сведем в табл. (3.5), исходя из которой найдем оценку дисперсии адекватности при условии, что N — I = 8 — 4 (l = 4), т.е. уточненное уравнение регрессии содержит четыре коэффициента
Зная значение , определим расчетное значение коэффициента Фишера
Число степеней свободы fад = (N —l) = 4, fв = р — 1=2. Задавшись уровнем статистической значимости (см. П. 3) α = 0,05 при fад = 4 и fв = 2, определим табличное значение FT = 19,3. Следовательно, с достоверностью (1 — α) = 95 % уравнение регрессии адекватно экспериментальным данным.
Таблица 3.5
№ n/n |
|
|
|
|
1 |
2 |
1 |
1 |
1 |
2 |
6 |
6 |
0 |
0 |
3 |
4 |
4 |
0 |
0 |
4 |
8 |
9 |
1 |
1 |
5 |
10 |
11 |
1 |
1 |
6 |
18 |
16 |
2 |
4 |
7 |
8 |
8 |
0 |
0 |
8 |
12 |
13 |
1 |
1 |
Полученное уравнение регрессии представлено в кодированной системе координат. Для перехода в естественную систему координат воспользуемся формулой перехода (3.1) и значениями Хjср и Δj.
Тогда
или
Окончательно получим уравнение регрессии
адекватно описывающее экспериментальные данные.
